# Aula 3 — Estrutura básica de um script PySpark

Neste notebook, realizamos o primeiro contato com código PySpark.
O objetivo é compreender a estrutura básica de um script e a lógica dos comandos iniciais.

O foco está em:
- criar dados com `spark.range()`
- entender que isso gera um DataFrame
- visualizar os dados com `show()`


## Observação importante (ambiente local)

Para o Spark funcionar corretamente neste ambiente local, é necessário que o **Java esteja instalado**.
Recomendação: **Java 17 ou superior**.

Se o Spark não iniciar ou travar na criação da SparkSession, verifique a versão do Java.

## Usando o Spark no Jupyter

Para garantir que o código funcione em qualquer ambiente, vamos criar uma SparkSession local e leve.
Isso evita dependências de configurações prévias do Jupyter.


## Criando uma SparkSession leve

Vamos iniciar o Spark em modo local apenas para fins didáticos. Uma SparkSession é o ponto de entrada principal do Apache Spark, que concentra as configurações e oferece acesso unificado a recursos como DataFrame e SQL. Ela deve ser criada no início porque inicializa o ambiente de execução do Spark e garante que todos os recursos (contexto, configurações e conectores) estejam disponíveis de forma consistente para o restante do código.


In [5]:
from pyspark.sql import SparkSession

spark = (
    SparkSession.builder
    .appName("Aula3")
    .master("local[*]")
    .getOrCreate()
)


## Criando um DataFrame com `spark.range(0, 10)`

O comando `spark.range(início, fim)` cria um DataFrame automaticamente.

- `início`: valor inicial
- `fim`: valor final (**não incluído**)

Então `spark.range(0, 10)` gera valores de **0 a 9**.


In [6]:
df = spark.range(0, 10)

## Visualizando os dados com show()

Criar um DataFrame não exibe automaticamente os dados.
Para visualizar o conteúdo, utilizamos o método `show()`.

Esse comando exibe as linhas do DataFrame no ambiente de execução, permitindo observar os valores gerados.


In [7]:
df.show()

+---+
| id|
+---+
|  0|
|  1|
|  2|
|  3|
|  4|
|  5|
|  6|
|  7|
|  8|
|  9|
+---+



## Expandindo: `range` com variáveis

Em vez de escrever os números direto no `range()`, podemos usar variáveis.
Isso ajuda a entender que o intervalo pode mudar conforme a necessidade.

Exemplo:
- `inicio = 3`
- `fim = 8`

Isso deve gerar valores de **3 a 7** (porque o fim não entra).


In [8]:
inicio = 3
fim = 8

df_var = spark.range(inicio, fim)
df_var.show()

+---+
| id|
+---+
|  3|
|  4|
|  5|
|  6|
|  7|
+---+



## Criando mais colunas no DataFrame

Até agora, nosso DataFrame possui apenas uma coluna (`id`),
gerada automaticamente pelo `spark.range()`.

É possível criar **novas colunas** a partir dessa coluna,
sem criar um novo DataFrame do zero.

Isso permite enriquecer os dados e trabalhar com tabelas
com mais de uma coluna.


In [9]:
from pyspark.sql import functions as F

df_multi = (
    df
    .withColumn("id_dobro", F.col("id") * 2)
    .withColumn("id_quadrado", F.col("id") * F.col("id"))
)

df_multi.show()


+---+--------+-----------+
| id|id_dobro|id_quadrado|
+---+--------+-----------+
|  0|       0|          0|
|  1|       2|          1|
|  2|       4|          4|
|  3|       6|          9|
|  4|       8|         16|
|  5|      10|         25|
|  6|      12|         36|
|  7|      14|         49|
|  8|      16|         64|
|  9|      18|         81|
+---+--------+-----------+



Neste exemplo:
- `id_dobro` é o valor da coluna `id` multiplicado por 2
- `id_quadrado` é o valor da coluna `id` ao quadrado

Agora o DataFrame possui **três colunas**.


## Estrutura básica de um script PySpark

O fluxo mínimo de um script PySpark envolve:

1. Importar as bibliotecas necessárias
2. Criar a SparkSession
3. Criar dados (DataFrame)
4. Visualizar ou manipular os dados

Essa estrutura será reutilizada em outros exemplos ao longo do curso.
