In [1]:
# ============================================
# Notebook: test_pyspark.ipynb
# Objetivo: Testar instala√ß√£o do PySpark
# Data: 15/10/2025
# ============================================

# C√âLULA 1: Configurar ambiente e importar bibliotecas
import os
import sys

# FIX: Garantir que Spark use o mesmo Python do Jupyter
python_path = sys.executable
os.environ['PYSPARK_PYTHON'] = python_path
os.environ['PYSPARK_DRIVER_PYTHON'] = python_path
os.environ['SPARK_LOCAL_HOSTNAME'] = 'localhost'

print("=== CONFIGURA√á√ÉO DO AMBIENTE ===")
print(f"‚úì Python: {sys.version}")
print(f"‚úì Execut√°vel: {python_path}")
print(f"‚úì PYSPARK_PYTHON: {os.environ.get('PYSPARK_PYTHON')}")
print(f"‚úì SPARK_LOCAL_HOSTNAME: {os.environ.get('SPARK_LOCAL_HOSTNAME')}")
print("="*60)

print("\n=== IMPORTANDO BIBLIOTECAS ===")
from pyspark.sql import SparkSession
import pandas as pd
print("‚úì Bibliotecas importadas com sucesso!")

# ============================================

# C√âLULA 2: Criar Spark Session
print("\n=== CRIANDO SPARK SESSION ===")

# Configura√ß√£o especial para Windows com hostname contendo underscore
import os
os.environ['SPARK_LOCAL_HOSTNAME'] = 'localhost'

spark = SparkSession.builder \
    .appName("TestePySpark") \
    .master("local[*]") \
    .config("spark.driver.memory", "2g") \
    .config("spark.driver.host", "localhost") \
    .config("spark.driver.bindAddress", "127.0.0.1") \
    .getOrCreate()

print(f"‚úì Spark Session criada!")
print(f"‚úì Vers√£o do Spark: {spark.version}")
print(f"‚úì App Name: {spark.sparkContext.appName}")

# ============================================

# C√âLULA 3: Criar DataFrame dummy em mem√≥ria
print("\n=== CRIANDO DATAFRAME DUMMY ===")

# Dados de exemplo
dados = [
    (1, "Jo√£o Silva", 28, "S√£o Paulo", 5500.00),
    (2, "Maria Santos", 34, "Rio de Janeiro", 6200.00),
    (3, "Pedro Oliveira", 25, "Belo Horizonte", 4800.00),
    (4, "Ana Costa", 41, "Curitiba", 7100.00),
    (5, "Carlos Souza", 29, "Porto Alegre", 5200.00),
    (6, "Julia Mendes", 37, "Bras√≠lia", 6800.00),
    (7, "Lucas Ferreira", 31, "Fortaleza", 5400.00),
    (8, "Fernanda Lima", 26, "Salvador", 4900.00),
]

# Definir schema (colunas)
colunas = ["id", "nome", "idade", "cidade", "salario"]

# Criar DataFrame Spark
df_spark = spark.createDataFrame(dados, colunas)

print("‚úì DataFrame criado com sucesso!")
print(f"‚úì Total de registros: {df_spark.count()}")
print(f"‚úì Colunas: {df_spark.columns}")

# ============================================

# C√âLULA 4: Visualizar dados
print("\n=== VISUALIZANDO DADOS ===")
df_spark.show()

# ============================================

# C√âLULA 5: Estat√≠sticas b√°sicas
print("\n=== ESTAT√çSTICAS DESCRITIVAS ===")
df_spark.describe().show()

# ============================================

# C√âLULA 6: Criar CSV para teste de leitura
print("\n=== CRIANDO ARQUIVO CSV PARA TESTE ===")

# Criar diret√≥rio data se n√£o existir
import os
os.makedirs("../data", exist_ok=True)

# Salvar DataFrame como CSV
csv_path = "../data/funcionarios_teste.csv"
df_spark.coalesce(1).write.mode("overwrite").csv(csv_path, header=True)

print(f"‚úì CSV salvo em: {csv_path}")

# ============================================

# C√âLULA 7: Testar spark.read.csv()
print("\n=== TESTANDO SPARK.READ.CSV() ===")

# Ler CSV com Spark
df_lido = spark.read.csv(
    csv_path,
    header=True,
    inferSchema=True
)

print("‚úì CSV lido com sucesso!")
print(f"‚úì Total de registros lidos: {df_lido.count()}")

# Mostrar dados lidos
print("\n=== DADOS LIDOS DO CSV ===")
df_lido.show()

# ============================================

# C√âLULA 8: Opera√ß√µes b√°sicas com Spark
print("\n=== OPERA√á√ïES B√ÅSICAS COM SPARK ===")

# 1. Filtrar por idade
print("\n1. Funcion√°rios com mais de 30 anos:")
df_lido.filter(df_lido.idade > 30).show()

# 2. Selecionar colunas espec√≠ficas
print("\n2. Apenas nome e sal√°rio:")
df_lido.select("nome", "salario").show()

# 3. Ordenar por sal√°rio
print("\n3. Ordenado por sal√°rio (decrescente):")
df_lido.orderBy(df_lido.salario.desc()).show()

# 4. Agrupar por cidade e calcular m√©dia salarial
print("\n4. Sal√°rio m√©dio por cidade:")
df_lido.groupBy("cidade").avg("salario").show()

# ============================================

# C√âLULA 9: Converter para Pandas (para an√°lise mais detalhada)
print("\n=== CONVERTENDO PARA PANDAS ===")

df_pandas = df_lido.toPandas()
print("‚úì Convertido para Pandas!")
print(f"‚úì Tipo: {type(df_pandas)}")
print("\nPrimeiras linhas:")
print(df_pandas.head())

# ============================================

# C√âLULA 10: Schema do DataFrame
print("\n=== SCHEMA DO DATAFRAME ===")
df_lido.printSchema()

# ============================================

# C√âLULA 11: Informa√ß√µes do Spark Context
print("\n=== INFORMA√á√ïES DO SPARK CONTEXT ===")
print(f"Master: {spark.sparkContext.master}")
print(f"Default Parallelism: {spark.sparkContext.defaultParallelism}")
print(f"Spark User: {spark.sparkContext.sparkUser()}")

# ============================================

# C√âLULA 12: SQL com Spark
print("\n=== TESTANDO SPARK SQL ===")

# Criar view tempor√°ria
df_lido.createOrReplaceTempView("funcionarios")

# Executar query SQL
resultado_sql = spark.sql("""
    SELECT 
        cidade,
        COUNT(*) as total_funcionarios,
        AVG(salario) as salario_medio,
        MAX(salario) as maior_salario
    FROM funcionarios
    GROUP BY cidade
    ORDER BY salario_medio DESC
""")

print("‚úì Query SQL executada!")
resultado_sql.show()

# ============================================

# C√âLULA 13: Finaliza√ß√£o
print("\n=== TESTE COMPLETO ===")
print("‚úì PySpark instalado e funcionando!")
print("‚úì Jupyter Notebook integrado com sucesso!")
print("‚úì spark.read.csv() funcionando perfeitamente!")
print("‚úì Opera√ß√µes b√°sicas testadas!")
print("\nüéâ TODOS OS OBJETIVOS CUMPRIDOS! üéâ")

# N√£o fechar a sess√£o ainda (para continuar usando o notebook)
# spark.stop()  # Descomente para encerrar

=== CONFIGURA√á√ÉO DO AMBIENTE ===
‚úì Python: 3.10.0 (tags/v3.10.0:b494f59, Oct  4 2021, 19:00:18) [MSC v.1929 64 bit (AMD64)]
‚úì Execut√°vel: C:\Program Files\Python310\python.exe
‚úì PYSPARK_PYTHON: C:\Program Files\Python310\python.exe
‚úì SPARK_LOCAL_HOSTNAME: localhost

=== IMPORTANDO BIBLIOTECAS ===
‚úì Bibliotecas importadas com sucesso!

=== CRIANDO SPARK SESSION ===
‚úì Spark Session criada!
‚úì Vers√£o do Spark: 4.0.1
‚úì App Name: TestePySpark

=== CRIANDO DATAFRAME DUMMY ===
‚úì DataFrame criado com sucesso!
‚úì Total de registros: 8
‚úì Colunas: ['id', 'nome', 'idade', 'cidade', 'salario']

=== VISUALIZANDO DADOS ===
+---+--------------+-----+--------------+-------+
| id|          nome|idade|        cidade|salario|
+---+--------------+-----+--------------+-------+
|  1|    Jo√£o Silva|   28|     S√£o Paulo| 5500.0|
|  2|  Maria Santos|   34|Rio de Janeiro| 6200.0|
|  3|Pedro Oliveira|   25|Belo Horizonte| 4800.0|
|  4|     Ana Costa|   41|      Curitiba| 7100.0|
|  5|  C