# Aula 3 — Primeiro contato com PySpark

Neste notebook, você vai executar seus primeiros comandos em PySpark.

Você vai:
- criar dados com `spark.range()`
- ver que isso gera um DataFrame
- visualizar os dados com `show()`


## Observação importante (ambiente local)

Para o Spark funcionar no computador, o **Java precisa estar instalado**.
Recomendação: **Java 17 ou superior**.


## Criando a SparkSession

A SparkSession conecta o Python ao Spark.
Nesta aula, vamos iniciar o Spark em modo local (uso didático).


In [None]:
from pyspark.sql import SparkSession

spark = (
    SparkSession.builder
    .appName("Aula3")
    .master("local[*]")
    .getOrCreate()
)


## Criando dados com `spark.range(0, 10)`

O comando `spark.range(0, 10)` cria um DataFrame automaticamente.

- começa em 0
- termina em 10 (**10 não entra**)

Resultado esperado: valores de **0 a 9**.



In [None]:
df = spark.range(0, 10)

## Visualizando os dados com show()

Criar um DataFrame não exibe automaticamente os dados.
Para visualizar o conteúdo, utilizamos o método `show()`.

Esse comando exibe as linhas do DataFrame no ambiente de execução, permitindo observar os valores gerados.


In [None]:
df.show()

## Expandindo: `range` com variáveis

Em vez de escrever os números direto no `range()`, podemos usar variáveis.
Isso ajuda a entender que o intervalo pode mudar conforme a necessidade.

Exemplo:
- `inicio = 3`
- `fim = 8`

Isso deve gerar valores de **3 a 7** (porque o fim não entra).


In [None]:
inicio = 3
fim = 8

df_var = spark.range(inicio, fim)
df_var.show()

## Criando mais colunas no DataFrame

O DataFrame criado com `spark.range()` tem apenas uma coluna (`id`).
Podemos criar novas colunas a partir dela.


In [None]:
from pyspark.sql import functions as F

df_multi = (
    df
    .withColumn("id_dobro", F.col("id") * 2)
    .withColumn("id_quadrado", F.col("id") * F.col("id"))
)

df_multi.show()


Neste exemplo:
- `id_dobro` é o valor da coluna `id` multiplicado por 2
- `id_quadrado` é o valor da coluna `id` ao quadrado

Agora o DataFrame possui **três colunas**.


## Estrutura básica de um script PySpark

O fluxo mínimo de um script PySpark envolve:

1. Importar as bibliotecas necessárias
2. Criar a SparkSession
3. Criar dados (DataFrame)
4. Visualizar ou manipular os dados

Essa estrutura será reutilizada em outros exemplos ao longo do curso.
