O Apache Spark é um dos frameworks mais usados para processamento distribuído de grandes volumes de dados, muito aplicado em Big Data, Machine Learning e Data Analytics.
Apesar de ser nativo em ambientes Linux e macOS, também é possível instalar e rodar o Spark no Windows com alguns ajustes.
Neste guia, você vai aprender passo a passo como instalar e executar o Spark no seu PC.
🔧 Requisitos básicos
Antes de instalar, verifique se você já possui os seguintes componentes:
- Java JDK 8 ou superior
- Baixe o JDK e configure a variável de ambiente
JAVA_HOME.
- Baixe o JDK e configure a variável de ambiente
- Python 3.7 ou superior (opcional, se for usar PySpark)
- Baixe o Python e adicione ao PATH.
- Hadoop Winutils
- Necessário para simular o ambiente Hadoop no Windows.
📥 Passo 1 – Baixar o Apache Spark
- Acesse o site oficial: https://spark.apache.org/downloads.html
- Escolha a versão mais recente do Spark compatível com Hadoop pré-compilado.
- Extraia o conteúdo do arquivo
.tgzem uma pasta, por exemplo:C:\spark
⚙️ Passo 2 – Configurar as variáveis de ambiente
- Abra Painel de Controle > Sistema > Configurações avançadas > Variáveis de Ambiente.
- Adicione as seguintes variáveis:
SPARK_HOME→C:\sparkHADOOP_HOME→C:\hadoop(apontando para a pasta onde os winutils foram extraídos)
- Edite a variável
Pathe adicione:%SPARK_HOME%\bin %HADOOP_HOME%\bin
▶️ Passo 3 – Testar a instalação
- Abra o Prompt de Comando ou o PowerShell.
- Digite:
spark-shellSe a instalação estiver correta, será iniciado o shell interativo do Scala Spark.
🐍 Passo 4 – Usando o PySpark (opcional)
Se você tiver o Python instalado, pode rodar o PySpark:
pyspark
Isso abrirá um ambiente interativo em Python com suporte ao Spark.
🌐 Passo 5 – Interface Web do Spark
Ao rodar qualquer aplicação, você pode acessar o Spark Web UI no navegador:
http://localhost:4040
Essa interface mostra jobs, stages e métricas de desempenho.
✅ Conclusão
Agora você tem o Apache Spark rodando no Windows e pode começar a testar suas aplicações em Big Data e Machine Learning.
Apesar de o ambiente Linux ser mais natural para o Spark, no Windows é totalmente possível trabalhar com PySpark, Scala e até integração com Hadoop.
👉 Veja também ferramentas e notebooks para trabalhar com Spark:
