O Apache Spark é um dos frameworks mais usados para processamento distribuído de grandes volumes de dados, muito aplicado em Big Data, Machine Learning e Data Analytics.
Apesar de ser nativo em ambientes Linux e macOS, também é possível instalar e rodar o Spark no Windows com alguns ajustes.

Neste guia, você vai aprender passo a passo como instalar e executar o Spark no seu PC.


🔧 Requisitos básicos

Antes de instalar, verifique se você já possui os seguintes componentes:


📥 Passo 1 – Baixar o Apache Spark

  1. Acesse o site oficial: https://spark.apache.org/downloads.html
  2. Escolha a versão mais recente do Spark compatível com Hadoop pré-compilado.
  3. Extraia o conteúdo do arquivo .tgz em uma pasta, por exemplo: C:\spark

⚙️ Passo 2 – Configurar as variáveis de ambiente

  1. Abra Painel de Controle > Sistema > Configurações avançadas > Variáveis de Ambiente.
  2. Adicione as seguintes variáveis:
    • SPARK_HOMEC:\spark
    • HADOOP_HOMEC:\hadoop (apontando para a pasta onde os winutils foram extraídos)
  3. Edite a variável Path e adicione: %SPARK_HOME%\bin %HADOOP_HOME%\bin

▶️ Passo 3 – Testar a instalação

  1. Abra o Prompt de Comando ou o PowerShell.
  2. Digite: spark-shell Se a instalação estiver correta, será iniciado o shell interativo do Scala Spark.

🐍 Passo 4 – Usando o PySpark (opcional)

Se você tiver o Python instalado, pode rodar o PySpark:

pyspark

Isso abrirá um ambiente interativo em Python com suporte ao Spark.


🌐 Passo 5 – Interface Web do Spark

Ao rodar qualquer aplicação, você pode acessar o Spark Web UI no navegador:

http://localhost:4040

Essa interface mostra jobs, stages e métricas de desempenho.


✅ Conclusão

Agora você tem o Apache Spark rodando no Windows e pode começar a testar suas aplicações em Big Data e Machine Learning.
Apesar de o ambiente Linux ser mais natural para o Spark, no Windows é totalmente possível trabalhar com PySpark, Scala e até integração com Hadoop.


👉 Veja também ferramentas e notebooks para trabalhar com Spark:


Deixe um comentário