## Confguração de ambiente

### 1. Instalação das Dependências:

Ao contrário de bibliotecas Python padrão, a utilização do PySpark no Google Colab exige a instalação prévia do Java Development Kit (JDK) e do próprio Apache Spark. O processo é simples e pode ser executado diretamente nas células do notebook.

In [1]:
# Instalar o OpenJDK 8
!apt-get install openjdk-8-jdk-headless -qq > /dev/null

# Baixar o Apache Spark (versão 3.5.0 com Hadoop 3)
!wget -q https://archive.apache.org/dist/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz

# Extrair o arquivo baixado
!tar xf spark-3.5.0-bin-hadoop3.tgz

# Instalar a biblioteca findspark
!pip install -q findspark

### 2. Configuração das Variáveis de Ambiente:
Após a instalação, precisamos definir as variáveis de ambiente JAVA_HOME e SPARK_HOME para que o sistema saiba onde encontrar as instalações do Java e do Spark, respectivamente.


In [2]:
import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.0-bin-hadoop3"

In [3]:
import findspark
findspark.init()

## Inicializando o PySpark


In [4]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master("local[*]") \
    .appName("Iniciando com PySpark no Colab") \
    .getOrCreate()

In [6]:
from pyspark.sql import Row
dados = [Row(nome="Ana", idade=28, cidade="São Paulo"),
         Row(nome="Bruno", idade=35, cidade="Rio de Janeiro"),
         Row(nome="Carla", idade=22, cidade="Belo Horizonte"),
         Row(nome="Daniel", idade=41, cidade="São Paulo")]

# Criar o DataFrame
df = spark.createDataFrame(dados)

df.show()

+------+-----+--------------+
|  nome|idade|        cidade|
+------+-----+--------------+
|   Ana|   28|     São Paulo|
| Bruno|   35|Rio de Janeiro|
| Carla|   22|Belo Horizonte|
|Daniel|   41|     São Paulo|
+------+-----+--------------+

