# üìä Notebook 1 ‚Äî Processamento e Prepara√ß√£o de Dados

Este notebook tem como objetivo realizar a **explora√ß√£o, limpeza e prepara√ß√£o dos dados brutos** do case t√©cnico proposto, utilizando **PySpark** como engine principal de processamento distribu√≠do.

---

## üéØ Objetivo

- Carregar os dados brutos fornecidos (`customers.json.gz`, `offers.json.gz`, `transactions.json.gz`)
- Realizar uma an√°lise explorat√≥ria inicial (**EDA**) para entender a estrutura, qualidade e distribui√ß√£o dos dados
- Tratar dados faltantes, tipos e formatos
- Preparar um conjunto de dados unificado e otimizado para an√°lise e modelagem futura
- Salvar os dados tratados em formato **Parquet**, que √© mais eficiente e leve para uso com Spark

---

## üîÅ Etapas executadas neste notebook

1. Importa√ß√£o de bibliotecas e configura√ß√£o do ambiente PySpark
2. Leitura dos arquivos `.json.gz` diretamente com Spark
3. Explora√ß√£o e valida√ß√£o de schemas e estat√≠sticas dos dados
4. Tratamento de dados ausentes, inconsistentes ou inv√°lidos
5. Convers√£o para formatos otimizados (`.parquet`)
6. Exporta√ß√£o dos dados tratados para `data/processed/`

---

## üóÇÔ∏è Estrutura esperada dos dados

- `data/raw/` ‚Üí Arquivos `.json.gz` (compactados)
- `data/processed/` ‚Üí Arquivos `.parquet` tratados e otimizados

---

## ‚öôÔ∏è Tecnologias utilizadas

- Python 3.11
- PySpark
- JupyterLab
- Pandas (suporte auxiliar para an√°lise explorat√≥ria)


## 1. üì¶ Importa√ß√£o de bibliotecas e configura√ß√£o do PySpark

Nesta etapa, vamos:

- Importar as bibliotecas necess√°rias para manipula√ß√£o e an√°lise dos dados
- Inicializar a sess√£o do PySpark (`SparkSession`), que ser√° usada para leitura, transforma√ß√£o e grava√ß√£o dos dados
- Configurar par√¢metros b√°sicos de execu√ß√£o, como nome da aplica√ß√£o e quantidade de mem√≥ria (caso necess√°rio)

In [None]:
import sys
import os

# Obt√©m o caminho absoluto do diret√≥rio 'src'
src_path = os.path.abspath("../")
# Adiciona 'src' ao sys.path
if src_path not in sys.path:
    sys.path.append(src_path)

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, when, isnan, count
from pathlib import Path

In [None]:
sys.path

In [None]:
# Inicializa√ß√£o do SparkSession
spark = SparkSession.builder \
    .appName("iFood - Data Processing") \
    .getOrCreate()

#Testa se Spark est√° funcionando
spark.sparkContext.setLogLevel("WARN")
print("‚úÖ SparkSession iniciada com sucesso!")


## 2.Leitura dos dados brutos (.json.gz)

Nesta etapa, vamos:

- Ler os tr√™s conjuntos de dados fornecidos:
  - `customers.json.gz`
  - `offers.json.gz`
  - `transactions.json.gz`
- Utilizar o PySpark para carregar os arquivos diretamente do formato `.gz`, que √© suportado nativamente
- Exibir uma pr√©via de cada dataset e verificar seu schema para garantir que os dados foram carregados corretamente


In [None]:
# L√™ os arquivos JSON compactados com PySpark
customers_df = spark.read.json("/app/data/raw/profile.json.gz")
offers_df = spark.read.json("/app/data/raw/offers.json.gz")
transactions_df = spark.read.json("/app/data/raw/transactions.json.gz")

In [None]:
# Mostra uma pr√©via dos dados
print("üè∑Ô∏è Offers:")
offers_df.show(5, truncate=False)

print("üë§ Customers:")
customers_df.show(5, truncate=False)

print("üí≥ Transactions:")
transactions_df.show(5, truncate=False)

## 3. üîç Explora√ß√£o e Valida√ß√£o dos Dados (EDA)

Nesta etapa, vamos:

- Explorar os schemas das tabelas para verificar tipos de dados
- Observar estat√≠sticas descritivas b√°sicas
- Contar valores nulos e valores √∫nicos
- Identificar poss√≠veis problemas de qualidade (ex: campos vazios, inconsistentes)
- Verificar distribui√ß√µes de colunas importantes

In [None]:
from src.eda.data_diagnostics import isna_sum, value_counts

### 3.1 Check NaN Values ``customers``

In [None]:
isna_sum(customers_df, "customers")

In [None]:
value_counts(customers_df, "gender")

In [None]:
value_counts(customers_df, "credit_card_limit")

### 3.2 Check NaN Values ``offers``

In [None]:
#isna_sum(offers_df, "offers")

In [None]:
#check_schema_and_nulls(transactions_df, "transactions")