# Fundamentos do Spark e PySpark

## Verificando os pré-requisitos  para rodar o PySpark

In [4]:
# "PySpark requires Java 17 or later"
# 1. Verificando a versão do Java instalada
!java -version

openjdk version "21.0.10" 2026-01-20
OpenJDK Runtime Environment Homebrew (build 21.0.10)
OpenJDK 64-Bit Server VM Homebrew (build 21.0.10, mixed mode, sharing)


In [6]:
# Verificando se o pyspark está instalado
!uv pip list | grep pyspark

[2mUsing Python 3.13.11 environment at: /Users/vho/alura/pyspark_alura/.venv[0m
pyspark                   4.1.1


## Inicializando o SparkSession
O SparkSession atua como o ponto de entrada unificado para as funcionalidades do Apache Spark. Sua principais funções são:
1. Permitir a interação com as APIs de DataFrames e Datasets
2. Gerenciando desde as configurações de hardware e variáveis de ambiente até a execução de consultas SQL
3. Coordenar a distribuição de tarefas entre os nós de um cluster


<img src='https://spark.apache.org/docs/latest/img/cluster-overview.png'>

In [7]:
# Inicializando o Spark Session
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
26/02/03 22:14:46 WARN Utils: Your hostname, MacBook-Air-de-Vitor.local, resolves to a loopback address: 127.0.0.1; using 192.168.3.49 instead (on interface en0)
26/02/03 22:14:46 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
26/02/03 22:14:56 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [8]:
# Só para mostrar que estamos rodando o spark localmente - não em um conjunto de computadores (cluster)
spark.sparkContext.master

'local[*]'

## Criando um DataFrame de exemplo

In [18]:
data = [
    ("João", "20/05/1998", 10.0),
    ("Ana", "19/05/2000", 9.5),
]
columns = ["nome","nascimento","nota"]

df = spark.createDataFrame(data, columns)

df

DataFrame[nome: string, nascimento: string, nota: double]

In [19]:
df.show()

+----+----------+----+
|nome|nascimento|nota|
+----+----------+----+
|João|20/05/1998|10.0|
| Ana|19/05/2000| 9.5|
+----+----------+----+



In [20]:
df.printSchema()

root
 |-- nome: string (nullable = true)
 |-- nascimento: string (nullable = true)
 |-- nota: double (nullable = true)



## Explicação de Lazy Evaluation

**Resumo**: As transformações são executadas somente quando é necessario (uma action é executada), dessa forma (1) o Spark valida o nosso codigo sem a necessidade de executar todas a nossa query e (2) o Spark otimiza a query selecionando formas otimizadas de execução

Conceitos importantes para o entendimento:
- Transformation: metodo que retornar um DataFrame (ex: `.select()`)
- Action: metodo que retornar um valor (ex: `.count()` ou `.show()`)
- Catalyst Optimizer: mecanismo do spark que otimiza todas as transformaçõesque precisam ser executadas

<img src='https://www.databricks.com/wp-content/uploads/2018/05/Catalyst-Optimizer-diagram.png'>

