## Gerador de DataSet em CSV para o Exercício
Execute o Script abaixo para gerar o Dataset para ser utilizado no [exercicio](../exercicio.md)

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.types import StructType, StructField, StringType
import os

# 1. Inicialização da SparkSession (garantir que está rodando)
spark = SparkSession.builder.appName("DesafioLogistica").getOrCreate()

# --- DADOS BRUTOS (Substitui o createDataFrame) ---

# CORREÇÃO: Usamos o caminho ABSOLUTO do contêiner para o volume 'data'
caminho_local_data = "/home/tavares/data/"
nome_arquivo = "logistica_raw.csv"
caminho_completo = os.path.join(caminho_local_data, nome_arquivo)

csv_content = """ID_RASTREIO,DATA_ENVIO_RAW,CUSTO_FRETE_RAW,CIDADE_DESTINO,STATUS_ENTREGA
L9001,2024-05-10,15.50,Sao Paulo,ENTREGUE
L9002,2024/05/11,22,00,Rio,Em Trânsito
L9003,2024-05-12,100.00,Salvador,
L9004,2024-05-12,,BH,PENDENTE
L9004,2024-05-12,,BH,PENDENTE
"""
# A escrita deve ser feita no caminho_completo
with open(caminho_completo, "w") as f:
    f.write(csv_content)
print(f"Arquivo de Logística Bruto gerado em: {caminho_completo}")

# --- PONTO DE PARTIDA DO ALUNO: LEITURA ---

# Defina o Schema (TODAS COMO StringType)
schema_logistica = StructType([
    StructField("ID_RASTREIO", StringType(), nullable=False),
    StructField("DATA_ENVIO_RAW", StringType(), nullable=True),
    StructField("CUSTO_FRETE_RAW", StringType(), nullable=True),
    StructField("CIDADE_DESTINO", StringType(), nullable=True),
    StructField("STATUS_ENTREGA", StringType(), nullable=True)
])

# Carregar o DataFrame para teste
# A leitura deve usar o mesmo caminho_completo
df_logistica_raw = (
    spark.read
    .csv(
        caminho_completo,
        header=True,
        schema=schema_logistica,
        sep=","
    )
)

print("\n--- INGESTÃO BEM-SUCEDIDA (5 linhas brutas) ---")
df_logistica_raw.show()
df_logistica_raw.printSchema()


Arquivo de Logística Bruto gerado em: /home/jovyan/data/logistica_raw.csv

--- INGESTÃO BEM-SUCEDIDA (5 linhas brutas) ---
+-----------+--------------+---------------+--------------+--------------+
|ID_RASTREIO|DATA_ENVIO_RAW|CUSTO_FRETE_RAW|CIDADE_DESTINO|STATUS_ENTREGA|
+-----------+--------------+---------------+--------------+--------------+
|      L9001|    2024-05-10|          15.50|     Sao Paulo|      ENTREGUE|
|      L9002|    2024/05/11|             22|            00|           Rio|
|      L9003|    2024-05-12|         100.00|      Salvador|          NULL|
|      L9004|    2024-05-12|           NULL|            BH|      PENDENTE|
|      L9004|    2024-05-12|           NULL|            BH|      PENDENTE|
+-----------+--------------+---------------+--------------+--------------+

root
 |-- ID_RASTREIO: string (nullable = true)
 |-- DATA_ENVIO_RAW: string (nullable = true)
 |-- CUSTO_FRETE_RAW: string (nullable = true)
 |-- CIDADE_DESTINO: string (nullable = true)
 |-- STATUS_EN