# üìä Prepara√ß√£o de Dados - Previs√£o de Vendas

Este notebook realiza a prepara√ß√£o e limpeza dos dados para o modelo de previs√£o de vendas por PDV/SKU.

## üéØ Objetivos
- Unificar datasets de transa√ß√µes, lojas, produtos e informa√ß√µes auxiliares
- Limpar e tratar valores inconsistentes
- Criar features de engenharia (sazonalidade, hist√≥rico)
- Preparar dados para modelagem

## üìã Etapas do Pipeline
1. **Importa√ß√£o de bibliotecas**
2. **Leitura dos datasets**
3. **Unifica√ß√£o dos dados**
4. **Limpeza e tratamento**
5. **Engenharia de features**
6. **Exporta√ß√£o dos dados processados**

## üìö Importa√ß√£o de Bibliotecas

Carregamento das bibliotecas necess√°rias para manipula√ß√£o e processamento dos dados:
- **Polars**: Biblioteca de alta performance para manipula√ß√£o de DataFrames
- **NumPy**: Opera√ß√µes num√©ricas e matem√°ticas

In [1]:
import polars as pl
import numpy as np

## üìÇ Leitura dos Datasets

Carregamento dos datasets brutos necess√°rios para a an√°lise:

### Datasets Principais:
- **df_store**: Informa√ß√µes dos pontos de venda (PDVs)
- **df_transaction**: Hist√≥rico de transa√ß√µes de vendas
- **df_product**: Cat√°logo de produtos e suas caracter√≠sticas
- **df_zipcode**: Dados geogr√°ficos por CEP
- **df_holiday**: Calend√°rio de feriados para an√°lise de sazonalidade

> **Nota**: Os arquivos parquet oferecem melhor performance de leitura e compress√£o comparado a CSVs.

In [2]:
df_store = pl.read_parquet('../../data/raw/part-00000-tid-2779033056155408584-f6316110-4c9a-4061-ae48-69b77c7c8c36-4-1-c000.snappy.parquet')
df_transaction = pl.read_parquet('../../data/raw/part-00000-tid-5196563791502273604-c90d3a24-52f2-4955-b4ec-fb143aae74d8-4-1-c000.snappy.parquet')
df_product = pl.read_parquet('../../data/raw/part-00000-tid-7173294866425216458-eae53fbf-d19e-4130-ba74-78f96b9675f1-4-1-c000.snappy.parquet')
df_zipcode = pl.read_csv('../../data/raw/georef-zipcode.csv', separator=';')
df_holiday = pl.read_csv('../../data/processed/processed_usa_holiday.csv', separator=',')

## üîó Unifica√ß√£o dos Datasets

Processo de join entre os diferentes datasets para criar uma vis√£o unificada dos dados:

### Estrat√©gia de Join:
1. **Transa√ß√µes + Lojas**: Join por `internal_store_id` ‚Üî `pdv`
2. **Resultado + Produtos**: Join por `internal_product_id` ‚Üî `produto`

### Tipo de Join:
- **Left Join**: Mant√©m todas as transa√ß√µes, mesmo que n√£o tenham informa√ß√µes completas de loja/produto
- Garante que nenhuma transa√ß√£o seja perdida no processo

In [3]:
df = df_transaction.join(
    df_store,
    left_on="internal_store_id",
    right_on="pdv",
    how='left'
).join(
    df_product,
    left_on="internal_product_id",
    right_on="produto",
    how='left'
)

## üßπ Limpeza e Tratamento dos Dados

Etapas essenciais para garantir a qualidade dos dados antes da modelagem.

### üéØ Tratamento da Vari√°vel Target (Quantity)

**Problema**: Valores negativos e decimais na quantidade vendida
**Solu√ß√£o**: 
- Remover transa√ß√µes com quantidade negativa (devolu√ß√µes/erros)
- Arredondar valores decimais para inteiros (unidades de produtos)

**Justificativa**: Quantidades negativas podem representar devolu√ß√µes ou erros de sistema, que n√£o s√£o √∫teis para prever vendas futuras.

In [4]:
df = df.filter(df['quantity'] >= 0)
df = df.with_columns(df['quantity'].round().cast(pl.Int64))

### üìà Tratamento de Outliers Extremos

**Problema Identificado**: Data 2022-09-11 apresenta valores an√¥malos/outliers extremos
**Impacto**: Outliers podem distorcer o treinamento do modelo
**Estrat√©gia**: Investigar e tratar valores an√¥malos dessa data espec√≠fica

> **Importante**: Outliers podem ser eventos promocionais leg√≠timos ou erros de sistema. A an√°lise deve distinguir entre ambos.

In [5]:
# Remove from day 2022-09-11 the products with quantity greater than the percentile 75
# and products appearing for the first time

outlier_date = pl.lit('2022-09-11').str.to_date()

outlier_products = df.filter(
    pl.col('transaction_date') == outlier_date
)['internal_product_id'].unique()

normal_products = df.filter(
    (pl.col('internal_product_id').is_in(outlier_products)) &
    (pl.col('transaction_date') < outlier_date)
)['internal_product_id'].unique()

# Calculate the 75th percentile of quantity for the outlier date
outlier_percentile_75 = df.filter(
    pl.col('transaction_date') == outlier_date
).select(
    pl.col('quantity').quantile(0.75, interpolation='linear')
).item()

# Filter the DataFrame
df = df.filter(
    (pl.col('transaction_date') != outlier_date) |
    (
        pl.col('quantity').le(outlier_percentile_75) &
        pl.col('internal_product_id').is_in(normal_products)
    )
)

### üìÖ Transforma√ß√£o de Features Temporais

**Objetivo**: Extrair componentes temporais relevantes para capturar sazonalidade

**Features Criadas**:
- **month**: M√™s da transa√ß√£o (1-12) - sazonalidade mensal
- **week_of_year**: Semana do ano (0-53) - sazonalidade semanal

**Import√¢ncia**: Padr√µes sazonais s√£o cruciais para previs√£o de vendas no varejo.

In [6]:
df = df.with_columns([
    pl.col('transaction_date').dt.month().alias('month'),
    pl.col('transaction_date').dt.strftime("%U").cast(pl.Int64).alias('week_of_year')
])

## ‚ö° Engenharia de Features

Processo de cria√ß√£o de features avan√ßadas para melhorar a performance do modelo.

### üõ†Ô∏è Configura√ß√£o de Vari√°veis para Feature Engineering

**Defini√ß√£o de Grupos de Vari√°veis**:
- **cols**: M√©tricas num√©ricas (quantidade, valores, lucro)
- **keys**: Vari√°veis categ√≥ricas e temporais
- **Parti√ß√µes espec√≠ficas**: Agrupamentos por cidade, PDV, produto

**Estrat√©gia**: Diferentes combina√ß√µes de chaves para criar features agregadas espec√≠ficas por contexto.

In [7]:
cols = ['quantity','gross_value','net_value','gross_profit','discount']
keys = [
    'internal_product_id', 'internal_store_id', 'distributor_id',
    'premise', 'categoria_pdv', 'zipcode', 'tipos', 'label', 'subcategoria',
    'marca', 'fabricante', 'month', 'week_of_year', 'city'
]
city_partition = ['internal_product_id', 'city']
city_month_keys = ['internal_product_id', 'city', 'month']
city_week_keys = ['internal_product_id', 'city', 'week_of_year']
pdv_week_keys = ['internal_product_id', 'internal_store_id', 'week_of_year']
product_city_partition = ['internal_product_id', 'city']
product_pdv_partition = ['internal_product_id', 'internal_store_id']

### üó∫Ô∏è Enriquecimento Geogr√°fico

**Processo**: Adicionar informa√ß√£o de cidade atrav√©s do CEP
**Join**: `df` + `df_zipcode` por `zipcode`
**Resultado**: Feature geogr√°fica `city` para an√°lise regional

**Valor**: Permite capturar padr√µes de vendas por regi√£o geogr√°fica.

In [8]:
df_zipcode = df_zipcode.rename({'Zip Code': 'zipcode', 'Official USPS city name': 'city'})
df = df.join(df_zipcode.select(['zipcode', 'city']), on='zipcode', how='left')

### üéâ Tratamento de Feriados

**Processo**: Criar feature bin√°ria para identificar feriados
**Transforma√ß√£o**: 
- Converter string de data para formato date
- Criar flag `holiday = 1` para datas de feriado

**Import√¢ncia**: Feriados t√™m impacto significativo nos padr√µes de vendas do varejo.

In [9]:
df_holiday = df_holiday.with_columns([
    pl.col('Date').str.to_date().alias('Date'),
    pl.lit(1).alias('holiday')
])

df = df.join(
    df_holiday.select(['Date', 'holiday']),
    left_on='transaction_date',
    right_on='Date',
    how='left'
)

df = df.with_columns(
    pl.col('holiday').fill_null(0)
)

### üóëÔ∏è Remo√ß√£o de Colunas Desnecess√°rias

**Colunas Removidas**:
- `taxes`: N√£o relevante para previs√£o de quantidade
- `categoria`: Redundante com outras categoriza√ß√µes
- `descricao`: Texto livre, dificulta modelagem
- `reference_date`, `transaction_date`: J√° extra√≠mos features temporais

**Objetivo**: Simplificar dataset mantendo apenas features relevantes.

In [None]:
df = df.drop(['taxes','categoria','descricao','reference_date', 'transaction_date'])

### üìä Features de Hist√≥rico Mensal

**Objetivo**: Criar features de vendas do m√™s anterior por produto/cidade
**Agrega√ß√µes**: Soma mensal de quantidade, valores, lucro e desconto
**Lag**: Shift de 1 m√™s para capturar tend√™ncia hist√≥rica

**Features Criadas**:
- `previous_month_quantity_sum`: Quantidade vendida no m√™s anterior
- `previous_month_gross_value_sum`: Valor bruto do m√™s anterior
- `previous_month_net_value_sum`: Valor l√≠quido do m√™s anterior
- E outras m√©tricas mensais hist√≥ricas

**Import√¢ncia**: Hist√≥rico recente √© forte preditor de vendas futuras.

In [10]:
monthly_aggs = []
for c in cols:
    monthly_aggs += [
        pl.col(c).sum().alias(f"monthly_{c}_sum"),
    ]

monthly_totals = df.group_by(city_month_keys).agg(monthly_aggs)

monthly_shifts = []
monthly_shifts_names = []
for c in cols:
    monthly_shifts += [
        pl.col(f"monthly_{c}_sum").shift(n=1).over(product_city_partition).alias(f"previous_month_{c}_sum"),
    ]
    monthly_shifts_names += [
        f"previous_month_{c}_sum",
    ]

previous_month_values = monthly_totals.sort(city_month_keys).with_columns(monthly_shifts)

### üìà Features de Lag Semanal

**Objetivo**: Capturar padr√£o semanal de vendas por produto/PDV
**Lags Criados**: 5 semanas anteriores (`quantity_lag1` a `quantity_lag5`)
**Granularidade**: Por produto + PDV espec√≠fico

**Uso**: 
- Detectar tend√™ncias de curto prazo
- Capturar sazonalidade semanal
- Identificar produtos em alta/baixa

**Valor**: Lags de curto prazo s√£o essenciais para capturar momentum de vendas.

In [18]:
quantity_totals = df.group_by(pdv_week_keys).agg(
    pl.col('quantity').sum().alias('quantity')
)

quantity_shifts = [
    pl.col("quantity").shift(n=i).over(
        product_pdv_partition
    ).alias(f"quantity_lag{i}") for i in range(1, 6)
]
quantity_shifts_names = [
    f"quantity_lag{i}" for i in range(1, 6)
]

previous_quantity_values = quantity_totals.sort(pdv_week_keys).with_columns(quantity_shifts)

### üîó Consolida√ß√£o Final dos Dados

**Processo**:
1. **Agrega√ß√£o Principal**: Agrupar por todas as chaves categ√≥ricas e temporais
2. **Join Hist√≥rico Mensal**: Adicionar features do m√™s anterior
3. **Join Lags Semanais**: Adicionar lags de quantidade semanal
4. **Features Derivadas**: Calcular m√©tricas financeiras (discount_rate, profit_margin)

**Features Derivadas Criadas**:
- `discount_rate_month`: Taxa de desconto do m√™s anterior
- `profit_margin_month`: Margem de lucro do m√™s anterior

**Resultado**: Dataset final pronto para modelagem com todas as features de engenharia.

In [19]:
df = df.group_by(keys).agg([
    pl.col("quantity").sum().alias("quantity"),
    pl.col("holiday").max().alias("holiday")
]).join(
    previous_month_values.select(city_month_keys + monthly_shifts_names),
    on=city_month_keys,
    how="left"
).join(
    previous_quantity_values.select(pdv_week_keys + quantity_shifts_names),
    on=pdv_week_keys,
    how="left"
).with_columns([
    (pl.col('previous_month_discount_sum') / pl.col('previous_month_gross_value_sum')).fill_null(0).replace([np.inf, -np.inf], 0).alias('discount_rate_month'),
    (pl.col('previous_month_gross_profit_sum') / pl.col('previous_month_gross_value_sum')).fill_null(0).replace([np.inf, -np.inf], 0).alias('profit_margin_month')
])

## üíæ Salvando Dados Processados

**Formato**: Parquet para otimiza√ß√£o de performance
**Localiza√ß√£o**: `../../data/processed/processed_data.parquet`
**Conte√∫do**: Dataset final com todas as transforma√ß√µes e features de engenharia

**Pr√≥ximos Passos**: Os dados processados est√£o prontos para serem utilizados nos notebooks de modelagem (`02_models/`).

In [26]:
df.write_parquet('../../data/processed/processed_data.parquet')