In [1]:
import pandas as pd
from pyspark.sql import SparkSession

# Criar sess√£o do Spark
spark = SparkSession.builder.appName("PySpark_Escola").getOrCreate()

# Criar dados para turmas
dados_turmas = pd.DataFrame({
    "id_turma": [1, 2, 3, 4],
    "nome_turma": ["Turma A", "Turma B", "Turma C", "Turma D"],
    "disciplina": ["Matem√°tica", "Hist√≥ria", "F√≠sica", "Qu√≠mica"],
    "ano": [2024, 2023, 2024, 2023],
    "num_alunos": [30, 25, 20, 28]
})

df_turmas = spark.createDataFrame(dados_turmas)
df_turmas.createOrReplaceTempView("turmas")

# Criar dados para alunos
dados_alunos = pd.DataFrame({
    "id_aluno": [1, 2, 3, 4, 5, 6],
    "nome": ["Jo√£o Silva", "Maria Santos", "Carlos Nunes", "Ana Costa", "Rui Pereira", "Sara Mendes"],
    "turma": [1, 2, 3, 1, 2, 4],
    "idade": [16, 17, 15, 16, 18, 17],
    "desempenho": ["Bom", "Excelente", "M√©dio", "Bom", "Fraco", "Excelente"]
})

df_alunos = spark.createDataFrame(dados_alunos)
df_alunos.createOrReplaceTempView("alunos")

# Consultas SQL
print("1Ô∏è‚É£ Listar todas as turmas:")
spark.sql("SELECT * FROM turmas").show()

print("2Ô∏è‚É£ Listar apenas nome e disciplina das turmas:")
spark.sql("SELECT nome_turma, disciplina FROM turmas").show()

print("3Ô∏è‚É£ Filtrar turmas do ano de 2024:")
spark.sql("SELECT * FROM turmas WHERE ano = 2024").show()

print("4Ô∏è‚É£ Ordenar turmas por n√∫mero de alunos (decrescente):")
spark.sql("SELECT * FROM turmas ORDER BY num_alunos DESC").show()

print("5Ô∏è‚É£ Contar quantas turmas existem:")
spark.sql("SELECT COUNT(*) AS total_turmas FROM turmas").show()

print("6Ô∏è‚É£ Listar todos os alunos:")
spark.sql("SELECT * FROM alunos").show()

print("7Ô∏è‚É£ Listar apenas nome e idade dos alunos:")
spark.sql("SELECT nome, idade FROM alunos").show()

print("8Ô∏è‚É£ Filtrar alunos com idade superior a 16 anos:")
spark.sql("SELECT * FROM alunos WHERE idade > 16").show()

print("9Ô∏è‚É£ Ordenar alunos por nome:")
spark.sql("SELECT * FROM alunos ORDER BY nome").show()

print("üîü Contar quantos alunos existem:")
spark.sql("SELECT COUNT(*) AS total_alunos FROM alunos").show()

print("1Ô∏è‚É£1Ô∏è‚É£ Listar alunos com desempenho 'Excelente':")
spark.sql("SELECT * FROM alunos WHERE desempenho = 'Excelente'").show()

print("1Ô∏è‚É£2Ô∏è‚É£ Mostrar alunos da 'Turma A':")
spark.sql("SELECT * FROM alunos WHERE turma = 1").show()

print("1Ô∏è‚É£3Ô∏è‚É£ Calcular a idade m√©dia dos alunos:")
spark.sql("SELECT AVG(idade) AS idade_media FROM alunos").show()

print("1Ô∏è‚É£4Ô∏è‚É£ Contar quantos alunos existem por turma:")
spark.sql("SELECT turma, COUNT(*) AS total_alunos FROM alunos GROUP BY turma").show()

print("1Ô∏è‚É£5Ô∏è‚É£ Listar alunos com categoria de idade:")
spark.sql("""
    SELECT *, 
        CASE 
            WHEN idade <= 16 THEN 'Menor de idade' 
            ELSE 'Maior de idade' 
        END AS categoria_idade
    FROM alunos
""").show()

print("1Ô∏è‚É£6Ô∏è‚É£ Criar coluna 'aprovado' com base no desempenho:")
spark.sql("""
    SELECT *, 
        CASE 
            WHEN desempenho IN ('Bom', 'Excelente') THEN 'Sim' 
            ELSE 'N√£o' 
        END AS aprovado
    FROM alunos
""").show()

print("1Ô∏è‚É£7Ô∏è‚É£ Juntar dados de alunos e disciplinas via INNER JOIN:")
spark.sql("""
    SELECT a.nome, t.disciplina 
    FROM alunos a
    INNER JOIN turmas t ON a.turma = t.id_turma
""").show()

print("1Ô∏è‚É£8Ô∏è‚É£ Identificar turmas sem alunos:")
spark.sql("""
    SELECT * FROM turmas 
    WHERE id_turma NOT IN (SELECT DISTINCT turma FROM alunos)
""").show()

print("1Ô∏è‚É£9Ô∏è‚É£ Criar ranking das turmas com mais alunos:")
spark.sql("""
    SELECT *, 
        DENSE_RANK() OVER (ORDER BY num_alunos DESC) AS ranking 
    FROM turmas
""").show()

print("2Ô∏è‚É£0Ô∏è‚É£ Apresentar as duas turmas com mais alunos:")
spark.sql("""
    SELECT * FROM turmas 
    ORDER BY num_alunos DESC 
    LIMIT 2
""").show()

# Fechar sess√£o
spark.stop()


1Ô∏è‚É£ Listar todas as turmas:
+--------+----------+----------+----+----------+
|id_turma|nome_turma|disciplina| ano|num_alunos|
+--------+----------+----------+----+----------+
|       1|   Turma A|Matem√°tica|2024|        30|
|       2|   Turma B|  Hist√≥ria|2023|        25|
|       3|   Turma C|    F√≠sica|2024|        20|
|       4|   Turma D|   Qu√≠mica|2023|        28|
+--------+----------+----------+----+----------+

2Ô∏è‚É£ Listar apenas nome e disciplina das turmas:
+----------+----------+
|nome_turma|disciplina|
+----------+----------+
|   Turma A|Matem√°tica|
|   Turma B|  Hist√≥ria|
|   Turma C|    F√≠sica|
|   Turma D|   Qu√≠mica|
+----------+----------+

3Ô∏è‚É£ Filtrar turmas do ano de 2024:
+--------+----------+----------+----+----------+
|id_turma|nome_turma|disciplina| ano|num_alunos|
+--------+----------+----------+----+----------+
|       1|   Turma A|Matem√°tica|2024|        30|
|       3|   Turma C|    F√≠sica|2024|        20|
+--------+----------+----------+----