Como instalar e executar o Apache Spark no Windows

O Apache Spark é um dos frameworks mais usados para processamento distribuído de grandes volumes de dados, muito aplicado em Big Data, Machine Learning e Data Analytics.
Apesar de ser nativo em ambientes Linux e macOS, também é possível instalar e rodar o Spark no Windows com alguns ajustes.

Neste guia, você vai aprender passo a passo como instalar e executar o Spark no seu PC.

🔧 Requisitos básicos

Antes de instalar, verifique se você já possui os seguintes componentes:

Java JDK 8 ou superior
- Baixe o JDK e configure a variável de ambiente JAVA_HOME.
Python 3.7 ou superior (opcional, se for usar PySpark)
- Baixe o Python e adicione ao PATH.
Hadoop Winutils
- Necessário para simular o ambiente Hadoop no Windows.

📥 Passo 1 – Baixar o Apache Spark

Acesse o site oficial: https://spark.apache.org/downloads.html
Escolha a versão mais recente do Spark compatível com Hadoop pré-compilado.
Extraia o conteúdo do arquivo .tgz em uma pasta, por exemplo: C:\spark

⚙️ Passo 2 – Configurar as variáveis de ambiente

Abra Painel de Controle > Sistema > Configurações avançadas > Variáveis de Ambiente.
Adicione as seguintes variáveis:
- SPARK_HOME → C:\spark
- HADOOP_HOME → C:\hadoop (apontando para a pasta onde os winutils foram extraídos)
Edite a variável Path e adicione: %SPARK_HOME%\bin %HADOOP_HOME%\bin

▶️ Passo 3 – Testar a instalação

Abra o Prompt de Comando ou o PowerShell.
Digite: spark-shell Se a instalação estiver correta, será iniciado o shell interativo do Scala Spark.

🐍 Passo 4 – Usando o PySpark (opcional)

Se você tiver o Python instalado, pode rodar o PySpark:

pyspark

Isso abrirá um ambiente interativo em Python com suporte ao Spark.

🌐 Passo 5 – Interface Web do Spark

Ao rodar qualquer aplicação, você pode acessar o Spark Web UI no navegador:

http://localhost:4040

Essa interface mostra jobs, stages e métricas de desempenho.

✅ Conclusão

Agora você tem o Apache Spark rodando no Windows e pode começar a testar suas aplicações em Big Data e Machine Learning.
Apesar de o ambiente Linux ser mais natural para o Spark, no Windows é totalmente possível trabalhar com PySpark, Scala e até integração com Hadoop.

👉 Veja também ferramentas e notebooks para trabalhar com Spark:

Com as tags apache, apache spark, big data, data analystics, hadoop, hadoop winutils, java, Machine Learning, python, spark, windows

Deixe um comentário Cancelar resposta

Você precisa fazer o login para publicar um comentário.