<h1 style="text-align: center;">TÉCNICO EM CIÊNCIA DE DADOS</h1>
<h1 style="text-align: center;">Roteiro do Desenvolvendo Juntos</h1>
<br>
<br>

**Componente:** Fundamentos de Ambientes e Arquitetura de Dados
<br>
**Unidade Curricular:** Introdução ao PySpark e Processamento Distribuído
<br>
**Tema da Semana:** Iniciando com DataFrames
<br>
**Semana 16 – Aula 1**
<br>
**Aula 1:** SparkSession e DataFrames

<h2 align="center">SparkSession e DataFrame</h2>

## Objetivos

- Compreender o papel da SparkSession.
- Criar um DataFrame utilizando spark.range().
- Entender o início do fluxo de execução no PySpark.

## Lista de Materiais

- Computador com Anaconda (Jupyter Notebook) ou VS Code.
- Ambiente com PySpark configurado.
- Arquivo DADOSANO2C6B3S16A1_desenvolvendo_juntos.ipynb.

### Etapa 1: Iniciando a SparkSession

A SparkSession é o ponto de entrada do PySpark.
Ela ativa o ambiente Spark para que possamos criar e manipular DataFrames.

In [1]:
from pyspark.sql import SparkSession

spark = (
    SparkSession.builder
    .appName("Aula1_DataFrame_range")
    .master("local[*]")
    .getOrCreate()
)

spark.sparkContext.setLogLevel("ERROR")
print("SparkSession iniciada.")

SparkSession iniciada.


### O que fizemos aqui?

- Criamos a SparkSession com um nome de aplicação.
- Definimos o modo local (`local[*]`) para rodar no computador, usando os núcleos disponíveis.
- A partir daqui, o ambiente está pronto para criar DataFrames.

### Etapa 2: Criando um DataFrame nativo do Spark

Vamos utilizar `spark.range()` para criar um DataFrame diretamente no ambiente Spark.

Esse método cria automaticamente uma coluna chamada **id**, contendo uma sequência numérica.

Nesta etapa, o objetivo é compreender que o DataFrame já nasce dentro do Spark.

In [2]:
df = spark.range(1, 11)  # cria id de 1 a 10
print("DataFrame criado.")
print("SparkSession iniciada com sucesso.")

DataFrame criado.
SparkSession iniciada com sucesso.


### O que aconteceu aqui?

- Criamos um DataFrame com valores de 1 até 10.
- O Spark organizou esses dados em formato tabular.
- A coluna criada automaticamente se chama **id**.

Perceba que já temos uma estrutura organizada, mesmo sem definir manualmente colunas.

### Etapa 3: Criando novas colunas no DataFrame

Agora vamos expandir essa estrutura.

Usaremos `withColumn()` para adicionar novas informações ao DataFrame:

- Uma coluna de nome.
- Uma coluna fixa de turma.
- Uma coluna calculada de nota.

In [3]:
from pyspark.sql import functions as F

df = (
    df
    .withColumn("nome", F.concat(F.lit("Aluno "), F.col("id")))
    .withColumn("turma", F.lit("C6"))
    .withColumn("nota", (F.col("id") * 0.8 + 2).cast("double"))
)

### O que fizemos nesta etapa?

- `withColumn()` permite criar ou modificar colunas.
- Criamos a coluna **nome** combinando texto com o valor do id.
- Criamos a coluna **turma** com valor fixo.
- Criamos a coluna **nota** com um cálculo matemático.

Isso mostra que um DataFrame não é apenas uma lista de dados.
Ele permite organizar e transformar informações de forma estruturada.

### Etapa 4: Executando uma ação

Agora vamos visualizar o resultado.

O método `show()` é uma ação.
Ele faz o Spark executar o processamento e exibir os dados.

In [4]:
df.show()

+---+--------+-----+------------------+
| id|    nome|turma|              nota|
+---+--------+-----+------------------+
|  1| Aluno 1|   C6|               2.8|
|  2| Aluno 2|   C6|               3.6|
|  3| Aluno 3|   C6|               4.4|
|  4| Aluno 4|   C6|               5.2|
|  5| Aluno 5|   C6|               6.0|
|  6| Aluno 6|   C6| 6.800000000000001|
|  7| Aluno 7|   C6|7.6000000000000005|
|  8| Aluno 8|   C6|               8.4|
|  9| Aluno 9|   C6|               9.2|
| 10|Aluno 10|   C6|              10.0|
+---+--------+-----+------------------+



### O que aconteceu ao executar show()?

O Spark processou as transformações definidas anteriormente
e exibiu o resultado na tela.

Fluxo observado nesta aula:

1. Criamos a SparkSession.
2. Criamos um DataFrame.
3. Adicionamos novas colunas.
4. Executamos uma ação.

Este é o início do fluxo de execução no PySpark.

Na próxima aula, vamos aprofundar como inspecionar a estrutura do DataFrame.