In [11]:
from pyspark.sql import SparkSession # Importando a classe SparkSession do módulo pyspark.sql

# Criando uma sessão Spark.
# O nome da aplicação é definido como "meucsv".
# Se uma sessão com este nome já existir, ele a retornará; caso contrário, criará uma nova.
spark = SparkSession.builder.appName("meucsv").getOrCreate()

# Em vez de criar dados diretamente no código, estamos lendo dados de um arquivo CSV.
# O arquivo 'dados.csv' deve estar disponível no ambiente (por exemplo, no Google Colab, você precisaria fazer upload dele).
# 'header=True' indica que a primeira linha do CSV contém os nomes das colunas.
# 'inferSchema=True' faz com que o Spark tente deduzir automaticamente os tipos de dados de cada coluna (ex: inteiro, string).
df = spark.read.csv("dados.csv", header=True, inferSchema=True)

# Exibindo o conteúdo do DataFrame lido do CSV no console.
# Isso mostrará uma tabela com os dados do arquivo 'dados.csv'.
df.show()

# Criando uma view temporária SQL chamada "Pessoa" a partir do DataFrame.
# Isso permite que você execute consultas SQL diretamente no DataFrame como se fosse uma tabela de banco de dados.
df.createOrReplaceTempView("Pessoa")

# Executando uma consulta SQL na view temporária "Pessoa".
# Esta consulta seleciona todas as colunas de pessoas onde a Idade é maior que 20.
resultado = spark.sql("SELECT * FROM Pessoa WHERE Idade > 20")

# Exibindo o resultado da consulta SQL.
resultado.show()

# Parando a sessão Spark.
# É uma boa prática parar a sessão Spark quando não for mais necessária para liberar os recursos do cluster.
spark.stop()


+-------+-----+
|   Nome|Idade|
+-------+-----+
|    Peu|   20|
|    Leo|   21|
|  Bryan|   21|
|   Joao|   20|
|Laryssa|   21|
| Karina|   21|
+-------+-----+

+-------+-----+
|   Nome|Idade|
+-------+-----+
|    Leo|   21|
|  Bryan|   21|
|Laryssa|   21|
| Karina|   21|
+-------+-----+

