
# Teste de conexão PySpark
Este notebook irá criar uma sessão Spark e exibir informações básicas para validar o funcionamento do cluster.

In [2]:
from pyspark.sql import SparkSession

# Cria uma sessão Spark
spark = SparkSession.builder \
    .appName("Teste PySpark") \
    .getOrCreate()

# Exibe informações da sessão
print("Versão do Spark:", spark.version)
print("Aplicação:", spark.sparkContext.appName)
print("Master:", spark.sparkContext.master)

# Finaliza a sessão
spark.stop()

PySparkRuntimeError: [JAVA_GATEWAY_EXITED] Java gateway process exited before sending its port number.

# Análise de dados com PySpark
Vamos ler o arquivo `StudentsPerformance.csv`, exibir as primeiras linhas e realizar operações básicas de agregação.

In [None]:
from pyspark.sql import SparkSession

# Cria uma nova sessão Spark
spark = SparkSession.builder.appName("Analise StudentsPerformance").getOrCreate()

# Lê o arquivo CSV
file_path = "StudentsPerformance.csv"
df = spark.read.option("header", True).option("inferSchema", True).csv(file_path)

# Exibe as primeiras linhas
df.show(10)

# Exibe o esquema do DataFrame
df.printSchema()

## Estatísticas e agregações com PySpark
Vamos calcular médias das notas por gênero e por grupo étnico, além de contar o número de alunos por grupo.

In [None]:
from pyspark.sql import functions as F

# Média das notas por gênero
df.groupBy("gender").agg(
    F.avg("math score").alias("Média Matemática"),
    F.avg("reading score").alias("Média Leitura"),
    F.avg("writing score").alias("Média Escrita")
).show()

# Média das notas por grupo étnico
df.groupBy("race/ethnicity").agg(
    F.avg("math score").alias("Média Matemática"),
    F.avg("reading score").alias("Média Leitura"),
    F.avg("writing score").alias("Média Escrita")
).show()

# Contagem de alunos por grupo étnico
df.groupBy("race/ethnicity").count().show()

## Exportando resultados e visualizando gráficos
Vamos exportar os resultados das médias por grupo étnico para CSV e criar um gráfico de barras usando matplotlib.

In [None]:
# Exporta médias por grupo étnico para CSV
grupos = df.groupBy("race/ethnicity").agg(
    F.avg("math score").alias("Média Matemática"),
    F.avg("reading score").alias("Média Leitura"),
    F.avg("writing score").alias("Média Escrita")
)
grupos.coalesce(1).write.option("header", True).csv("medias_por_grupo.csv")

# Para visualizar o gráfico, converta para pandas
grupos_pd = grupos.toPandas()

import matplotlib.pyplot as plt
plt.figure(figsize=(8,5))
plt.bar(grupos_pd["race/ethnicity"], grupos_pd["Média Matemática"], color='skyblue')
plt.xlabel("Grupo Étnico")
plt.ylabel("Média Matemática")
plt.title("Média de Matemática por Grupo Étnico")
plt.show()