In [3]:
# Importa a classe SparkSession, que é o ponto de entrada para usar DataFrame e SQL no Spark
from pyspark.sql import SparkSession

# Importa tipos de dados para definir o esquema (schema) das colunas do DataFrame
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# Cria ou obtém uma SparkSession chamada "Spark"
# - appName define o nome da aplicação Spark
# - master define onde o Spark vai rodar (local[*] usa todos os núcleos locais disponíveis)
spark = (
    SparkSession.builder
    .appName("Spark")
    .master("local[*]")
    .getOrCreate()
)

# Define um esquema (schema) para o DataFrame
# StructType representa a estrutura de várias colunas
# StructField define o nome, tipo e se permite nulo (nullable) em cada coluna
schema = StructType([
    StructField("firstname", StringType(), True),    # coluna firstname do tipo String
    StructField("middlename", StringType(), True),   # coluna middlename do tipo String
    StructField("lastname", StringType(), True),     # coluna lastname do tipo String
    StructField("gender", StringType(), True),       # coluna gender do tipo String
    StructField("salary", IntegerType(), True)       # coluna salary do tipo Integer
])

# Lê um arquivo CSV chamado "employees.csv" na pasta data/
# - header=True indica que o CSV tem cabeçalho (nomes das colunas na primeira linha)
# - schema=schema aplica o esquema definido acima, garantindo tipos de dados corretos
df = spark.read.csv(
    "data/employees.csv",
    header=True,
    schema=schema
)

# Exibe as primeiras linhas do DataFrame (por padrão, mostra 20 linhas)
df.show()

# Imprime a estrutura (schema) do DataFrame, mostrando nome e tipo de cada coluna
df.printSchema()

# Encerra a SparkSession e libera os recursos usados
spark.stop()


+---------+-----------+---------+------+------+
|firstname| middlename| lastname|gender|salary|
+---------+-----------+---------+------+------+
|     John|    Michael|    Smith|     M| 58000|
|     Emma|      Grace|  Johnson|     F| 72000|
|   Oliver|      James|    Brown|     M| 64000|
|   Sophia|     Louise|    Jones|     F| 69000|
|  William|  Alexander|   Miller|     M| 53000|
|      Ava|       Rose|    Davis|     F| 75000|
|   Elijah|     Thomas|   Garcia|     M| 61000|
| Isabella|      Marie| Martinez|     F| 82000|
|    James|      David|Rodriguez|     M| 57000|
|      Mia|  Elizabeth|Hernandez|     F| 67000|
| Benjamin|     Joseph|    Lopez|     M| 73000|
|Charlotte|       Anne| Gonzalez|     F| 79000|
|    Lucas|    Anthony|   Wilson|     M| 56000|
|   Amelia|       Lynn| Anderson|     F| 71000|
|    Mason|     Edward|   Thomas|     M| 69000|
|   Harper|       Jane|   Taylor|     F| 68000|
|    Ethan|     Samuel|    Moore|     M| 60000|
|   Evelyn|     Claire|  Jackson|     F|