<h1 style="text-align: center;">TÉCNICO EM CIÊNCIA DE DADOS</h1>
<h1 style="text-align: center;">Roteiro do Desenvolvendo Juntos</h1>
<br>
<br>

**Componente:** Fundamentos de Ambientes e Arquitetura de Dados  
<br>
**Unidade Curricular:** Introdução ao PySpark e Processamento Distribuído  
<br>
**Tema da Semana:** Iniciando com DataFrames  
<br>
**Semana 16 – Aula 2**  
<br>
**Aula 2:** Criando DataFrames e inspecionando estrutura

<h2 align="center">Visualizando dados e estrutura no PySpark</h2>

## Objetivos

- Criar um DataFrame utilizando `spark.range()`.
- Visualizar dados com `show()`.
- Inspecionar a estrutura com `printSchema()`.

## Lista de Materiais

- Computador com Anaconda (Jupyter Notebook) ou VS Code.
- Ambiente com PySpark configurado.
- Arquivo DADOSANO2C6B3S16A2_desenvolvendo_juntos.ipynb.

### Observação Importante

O método `createDataFrame()` é amplamente utilizado quando trabalhamos
com dados externos, como listas Python, arquivos CSV ou outras fontes.

No entanto, para manter o ambiente de execução estável e evitar
interferências técnicas que possam comprometer o foco conceitual,
manteremos a utilização do método `spark.range()` nesta prática.

A escolha pelo `range()` permite concentrar a atenção na
compreensão da estrutura do DataFrame e do schema,
que é o objetivo principal deste momento.

### Criando um DataFrame com spark.range()

O método `spark.range()` cria um DataFrame automaticamente
com uma coluna chamada **id**.

Essa coluna contém valores numéricos sequenciais.

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

spark = (
    SparkSession.builder
    .appName("Aula2_DataFrame_Structure")
    .master("local[*]")
    .getOrCreate()
)

spark.sparkContext.setLogLevel("ERROR")

df = spark.range(1, 6)
df = (
    df
    .withColumn("nome", F.concat(F.lit("Aluno "), F.col("id")))
    .withColumn("nota", (F.col("id") * 1.5).cast("double"))
)

print("DataFrame criado com sucesso.")

DataFrame criado com sucesso.


### O que foi criado?

Temos agora um DataFrame com três colunas:

- id
- nome
- nota

Os dados estão organizados em formato tabular.

### Visualizando registros com show()

O método `show()` exibe os dados armazenados no DataFrame.
Ele apresenta as linhas e seus respectivos valores.

In [2]:
df.show()

+---+-------+----+
| id|   nome|nota|
+---+-------+----+
|  1|Aluno 1| 1.5|
|  2|Aluno 2| 3.0|
|  3|Aluno 3| 4.5|
|  4|Aluno 4| 6.0|
|  5|Aluno 5| 7.5|
+---+-------+----+



### O que observamos?

- As linhas do DataFrame foram exibidas.
- Cada coluna mostra seus valores.
- Estamos visualizando os dados, não a estrutura técnica.

### Inspecionando o schema com printSchema()

O método `printSchema()` exibe a estrutura interna do DataFrame.

Ele mostra:

- Nome das colunas
- Tipo de dado de cada coluna

In [3]:
df.printSchema()

root
 |-- id: long (nullable = false)
 |-- nome: string (nullable = false)
 |-- nota: double (nullable = false)



### O que observamos agora?

- Cada coluna possui um tipo específico (long, string, double).
- O schema descreve tecnicamente como os dados estão organizados.

Diferença fundamental:

- `show()` → mostra valores.
- `printSchema()` → mostra estrutura.