# 04 - Pipeline Final de Produ√ß√£o

**üéØ PROP√ìSITO:**  
Este notebook implementa a solu√ß√£o final para gerar as predi√ß√µes de submiss√£o do hackathon.

**üöÄ EXECU√á√ÉO:**  
Execute todas as c√©lulas em sequ√™ncia. O arquivo `submission.csv` e `submission.parquet` ser√£o gerados automaticamente.

**üìä MODELO ESCOLHIDO:**  
LightGBM - selecionado ap√≥s rigorosa compara√ß√£o no notebook `03-Modeling-Experiments.ipynb`.

---

## Pipeline Completo:
1. **Carregar dados processados** (do notebook 02)
2. **Otimizar mem√≥ria** com downcasting
3. **Treinar LightGBM** no dataset completo de 2022  
4. **Implementar previs√£o iterativa** para as 5 semanas de 2023
5. **Gerar submiss√£o** nos formatos CSV e Parquet

In [1]:
# Importa√ß√µes necess√°rias
import pandas as pd
import numpy as np
import pickle
import warnings
warnings.filterwarnings('ignore')

# ML Libraries
import lightgbm as lgb
import gc

# Time series
from datetime import datetime, timedelta
import os

print('üìö Bibliotecas carregadas com sucesso!')
print('üöÄ Iniciando Pipeline Final de Produ√ß√£o')

üìö Bibliotecas carregadas com sucesso!
üöÄ Iniciando Pipeline Final de Produ√ß√£o


## 1. Carregamento e Prepara√ß√£o dos Dados

In [None]:
# Carregar dados com features processadas (EXATAMENTE como no experimento)
print('üìÇ Carregando dados processados...')

# Verificar se os arquivos essenciais existem
import os
required_files = [
    '../data/dados_features_completo.parquet',  # Usar parquet (mais r√°pido)
    '../data/feature_engineering_metadata.pkl'
]

missing_files = [f for f in required_files if not os.path.exists(f)]
if missing_files:
    print('‚ùå Arquivos n√£o encontrados:')
    for f in missing_files:
        print(f'   ‚Ä¢ {f}')
    print('\nüîÑ Execute primeiro o notebook 02-Feature-Engineering-Dask.ipynb')
else:
    print('‚úÖ Todos os arquivos necess√°rios encontrados')
    
    # Carregar dados principais (usar parquet para velocidade)
    print('üìä Carregando dataset (parquet)...')
    dados = pd.read_parquet('../data/dados_features_completo.parquet')
    
    # Carregar metadados
    with open('../data/feature_engineering_metadata.pkl', 'rb') as f:
        metadata = pickle.load(f)
    
    print(f'\nüìä Dados carregados com sucesso:')
    print(f'   ‚Ä¢ Shape: {dados.shape}')
    print(f'   ‚Ä¢ Per√≠odo: {dados["semana"].min()} at√© {dados["semana"].max()}')
    print(f'   ‚Ä¢ Features dispon√≠veis: {len(dados.columns)}')
    print(f'   ‚Ä¢ Mem√≥ria: {dados.memory_usage(deep=True).sum() / (1024**2):.1f} MB')
    print(f'   ‚Ä¢ Estrat√©gia: {metadata.get("estrategia", "Grid Inteligente")}')
    
    print(f'\nüîç Metadados do processamento:')
    for key, value in metadata.items():
        if key not in ['features_criadas', 'data_processamento']:  # Skip long items
            print(f'   ‚Ä¢ {key}: {value}')
    
    print(f'\n‚úÖ Pronto para modelagem!')

## 2. Otimiza√ß√£o de Mem√≥ria

In [3]:
print('üîß Aplicando otimiza√ß√£o de mem√≥ria (downcasting)...')

# Downcasting de tipos num√©ricos
for col in dados.select_dtypes(include=[np.number]).columns:
    if dados[col].dtype.kind in ['i', 'u']:  # Inteiros
        dados[col] = pd.to_numeric(dados[col], downcast='integer')
    else:  # Floats
        dados[col] = pd.to_numeric(dados[col], downcast='float')

# Otimizar categ√≥ricas
for col in dados.select_dtypes(include=['object']).columns:
    if col not in ['semana']:
        nunique = dados[col].nunique()
        if nunique / len(dados) < 0.5:
            dados[col] = dados[col].astype('category')

# Tratar missing values
if 'distributor_id' in dados.columns:
    if dados['distributor_id'].dtype.name == 'category':
        if -1 not in dados['distributor_id'].cat.categories:
            dados['distributor_id'] = dados['distributor_id'].cat.add_categories([-1])
    dados['distributor_id'] = dados['distributor_id'].fillna(-1)

# Preencher outros NaNs
for col in dados.columns:
    if dados[col].isnull().sum() > 0 and dados[col].dtype.kind in ['i', 'u', 'f']:
        dados[col] = dados[col].fillna(0)

memory_optimized = dados.memory_usage(deep=True).sum() / (1024**2)
print(f'‚úÖ Mem√≥ria otimizada: {memory_optimized:.1f} MB')
print(f'üìà Redu√ß√£o de mem√≥ria: {((memory_optimized / (dados.memory_usage(deep=True).sum() / (1024**2)) - 1) * 100):.1f}%')

üîß Aplicando otimiza√ß√£o de mem√≥ria (downcasting)...
‚úÖ Mem√≥ria otimizada: 4491.9 MB
üìà Redu√ß√£o de mem√≥ria: 0.0%


In [None]:
# SOLU√á√ÉO CORRETA: Otimiza√ß√£o de Tipos de Dados (Downcasting) - C√âLULA COMPLETA DO EXPERIMENTO
print('üìÖ Otimiza√ß√£o de Mem√≥ria para Produ√ß√£o (Dataset Completo)')
print('üß† Estrat√©gia: Downcasting em vez de amostragem (preserva s√©ries temporais)')

# PASSO 1: Inspecionar uso de mem√≥ria atual
print(f'\nüîç ANTES da otimiza√ß√£o:')
memory_before = dados.memory_usage(deep=True).sum() / (1024**3)
print(f'üíæ Mem√≥ria total: {memory_before:.2f} GB')

# PASSO 2: Aplicar Downcasting Inteligente
print(f'\nüöÄ Aplicando Downcasting...')

# Fazer uma c√≥pia para otimiza√ß√£o
dados_sorted = dados.copy()

# Otimizar colunas num√©ricas (inteiros e floats)
for col in dados_sorted.select_dtypes(include=[np.number]).columns:
    original_dtype = dados_sorted[col].dtype
    
    if dados_sorted[col].dtype.kind in ['i', 'u']:  # Inteiros
        dados_sorted[col] = pd.to_numeric(dados_sorted[col], downcast='integer')
    else:  # Floats
        dados_sorted[col] = pd.to_numeric(dados_sorted[col], downcast='float')
    
    new_dtype = dados_sorted[col].dtype
    if original_dtype != new_dtype:
        print(f'   ‚Ä¢ {col}: {original_dtype} ‚Üí {new_dtype}')

# Otimizar colunas categ√≥ricas
for col in dados_sorted.select_dtypes(include=['object']).columns:
    if col not in ['semana']:  # Preservar datetime
        nunique = dados_sorted[col].nunique()
        total_rows = len(dados_sorted)
        if nunique / total_rows < 0.5:  # Se <50% valores √∫nicos, usar category
            dados_sorted[col] = dados_sorted[col].astype('category')
            print(f'   ‚Ä¢ {col}: object ‚Üí category')

print(f'‚úÖ Downcasting conclu√≠do!')

# PASSO 3: Verificar resultado da otimiza√ß√£o
memory_after = dados_sorted.memory_usage(deep=True).sum() / (1024**3)
memory_reduction = (memory_before - memory_after) / memory_before * 100
print(f'\nüìä DEPOIS da otimiza√ß√£o:')
print(f'üíæ Mem√≥ria total: {memory_after:.2f} GB')
print(f'üéØ Redu√ß√£o: {memory_reduction:.1f}% ({memory_before-memory_after:.2f} GB economizados)')

# PASSO 4: SEM DIVIS√ÉO TEMPORAL (diferen√ßa para produ√ß√£o - usar TODO o dataset)
print(f'\nüìÖ Prepara√ß√£o para Produ√ß√£o (Dataset Completo)...')

# Ordenar por semana (manter consist√™ncia)
dados_sorted = dados_sorted.sort_values('semana')

# Verificar dados dispon√≠veis
semanas_unicas = sorted(dados_sorted['semana'].unique())
print(f'üìä Total de semanas dispon√≠veis: {len(semanas_unicas)}')
print(f'üìä Dataset completo ser√° usado para treinamento (produ√ß√£o)')

# CORRE√á√ÉO: Tratamento de missing values com categorias
print(f'\nüß† Tratamento inteligente de missing values (CORRIGIDO)...')
all_features = [col for col in dados_sorted.columns if col not in ['pdv_id', 'produto_id', 'semana', 'quantidade', 'valor', 'num_transacoes']]

for col in all_features:
    missing_count = dados_sorted[col].isnull().sum()
    if missing_count > 0:
        if col == 'distributor_id':
            # SOLU√á√ÉO: Adicionar -1 ao "menu" de categorias primeiro
            if dados_sorted[col].dtype.name == 'category':
                if -1 not in dados_sorted[col].cat.categories:
                    dados_sorted[col] = dados_sorted[col].cat.add_categories([-1])
            
            # Agora pode preencher com -1 sem erro
            dados_sorted[col] = dados_sorted[col].fillna(-1)
            print(f'   ‚Ä¢ {col}: {missing_count:,} NaN ‚Üí -1 (venda direta)')
            
        elif dados_sorted[col].dtype.kind in ['i', 'u', 'f']:
            # Num√©ricas: fillna funciona diretamente
            dados_sorted[col] = dados_sorted[col].fillna(0)
            print(f'   ‚Ä¢ {col}: {missing_count:,} NaN ‚Üí 0 (aus√™ncia)')

# PASSO 5: Preparar dados para modelagem (TODO O DATASET para produ√ß√£o)
print(f'\nüéØ Preparando dados para modelagem (PRODU√á√ÉO - M√ÅXIMO PODER PREDITIVO)...')
X_train = dados_sorted[all_features]
y_train = dados_sorted['quantidade']

print(f'‚úÖ Dados preparados com sucesso:')
print(f'   ‚Ä¢ X_train shape: {X_train.shape}')
print(f'   ‚Ä¢ Mem√≥ria X_train: {X_train.memory_usage(deep=True).sum() / (1024**2):.1f} MB')

# Garbage collection
import gc
gc.collect()

print(f'\nüéâ SUCESSO! Problema resolvido:')
print(f'   ‚úÖ Downcasting: {memory_reduction:.1f}% menos mem√≥ria')
print(f'   ‚úÖ Categorical fix: -1 adicionado ao "menu" de categorias')
print(f'   ‚úÖ S√©ries temporais preservadas integralmente')

print(f'\nüí° ADAPTA√á√ÉO PARA PRODU√á√ÉO:')
print(f'   ‚Ä¢ Experimento: 98% treino + 2% valida√ß√£o')
print(f'   ‚Ä¢ Produ√ß√£o: 100% treino (m√°ximo poder preditivo)')

## 3. Prepara√ß√£o para Treinamento

## 3. Treinamento do Modelo LightGBM (Produ√ß√£o)

## 4. Treinamento do Modelo LightGBM

In [None]:
# PASSO B: LightGBM Vanilla - Validar Pipeline e Features
print('\nüöÄ PASSO B: Modelo LightGBM Vanilla (Par√¢metros Default)')
print('=' * 60)
print('üéØ Objetivo: Validar se nossas features t√™m poder preditivo')

# Configura√ß√£o LightGBM Vanilla (par√¢metros simples/default)
lgb_params_vanilla = {
    'objective': 'regression_l1',  # MAE - melhor para WMAPE
    'metric': 'mae',
    'boosting_type': 'gbdt',
    'verbosity': -1,
    'random_state': 42,
    'n_jobs': -1
}

print('\nüìã Configura√ß√£o Vanilla:')
for param, value in lgb_params_vanilla.items():
    print(f'   ‚Ä¢ {param}: {value}')

# Preparar dados para LightGBM
print('\nüìä Preparando dados para treinamento...')
train_lgb = lgb.Dataset(X_train, label=y_train)

print(f'   ‚Ä¢ Train shape: {X_train.shape}')
print(f'   ‚Ä¢ Features: {len(all_features)}')

# Treinar modelo Vanilla (VERS√ÉO PARA PRODU√á√ÉO - SEM VALIDA√á√ÉO)
print('\nüîÑ Treinando LightGBM Vanilla (produ√ß√£o - dataset completo)...')
lgb_vanilla = lgb.train(
    lgb_params_vanilla,
    train_lgb,
    num_boost_round=200  # N√∫mero moderado para vanilla
)

print(f'‚úÖ Treinamento conclu√≠do em {lgb_vanilla.num_trees()} itera√ß√µes')

# Salvar modelo
os.makedirs('../models', exist_ok=True)
lgb_vanilla.save_model('../models/lightgbm_final.txt')
print('üíæ Modelo salvo em: ../models/lightgbm_final.txt')

print('\n‚úÖ LightGBM treinado e salvo com sucesso!')


üöÄ PASSO B: Modelo LightGBM Vanilla (Par√¢metros Default)
üéØ Objetivo: Validar se nossas features t√™m poder preditivo

üìã Configura√ß√£o Vanilla:
   ‚Ä¢ objective: regression_l1
   ‚Ä¢ metric: mae
   ‚Ä¢ boosting_type: gbdt
   ‚Ä¢ verbosity: -1
   ‚Ä¢ random_state: 42
   ‚Ä¢ n_jobs: -1

üìä Preparando dados para treinamento...
   ‚Ä¢ Train shape: (51171190, 20)
   ‚Ä¢ Features: 20

üîÑ Treinando LightGBM Vanilla (produ√ß√£o - dataset completo)...


## 5. Implementa√ß√£o da Previs√£o Iterativa

In [None]:
print('üîÑ Implementando previs√£o iterativa para 2023...')

# Obter combina√ß√µes √∫nicas de PDV x Produto de 2022
combinacoes_2022 = dados[['pdv_id', 'produto_id']].drop_duplicates()
print(f'üìä Combina√ß√µes PDV x Produto encontradas em 2022: {len(combinacoes_2022):,}')

# Definir as 5 semanas de 2023 para previs√£o
# Assumindo que 2023 come√ßa na semana seguinte ao √∫ltimo dado de 2022
ultima_semana_2022 = dados['semana'].max()
semanas_2023 = []
for i in range(1, 6):  # 5 semanas
    proxima_semana = ultima_semana_2022 + timedelta(weeks=i)
    semanas_2023.append(proxima_semana)

print('üìÖ Semanas para previs√£o:')
for i, semana in enumerate(semanas_2023, 1):
    print(f'   {i}. {semana.strftime("%Y-%m-%d")}')

# Preparar dados hist√≥ricos para features iterativas
dados_historicos = dados.copy()
previsoes_finais = []

print('\\nüîÑ Iniciando previs√µes iterativas...')
for week_num, semana_target in enumerate(semanas_2023, 1):
    print(f'\\n   Semana {week_num}/5: {semana_target.strftime("%Y-%m-%d")}')
    
    # Criar features para a semana alvo
    dados_semana = combinacoes_2022.copy()
    dados_semana['semana'] = semana_target
    
    # Engenharia de features baseada no hist√≥rico atual
    print('     üîß Criando features...')
    
    # Features temporais
    dados_semana['mes_sin'] = np.sin(2 * np.pi * semana_target.month / 12)
    dados_semana['mes_cos'] = np.cos(2 * np.pi * semana_target.month / 12)
    
    # Features de lag (baseadas no hist√≥rico)
    for lag in [1, 2, 3, 4]:
        semana_lag = semana_target - timedelta(weeks=lag)
        dados_lag = dados_historicos[dados_historicos['semana'] == semana_lag]
        
        if len(dados_lag) > 0:
            lag_dict = dados_lag.set_index(['pdv_id', 'produto_id'])['quantidade'].to_dict()
            dados_semana[f'quantidade_lag_{lag}'] = dados_semana.apply(
                lambda row: lag_dict.get((row['pdv_id'], row['produto_id']), 0), axis=1
            )
        else:
            dados_semana[f'quantidade_lag_{lag}'] = 0
    
    # Features de rolling (√∫ltimas 4 semanas)
    semanas_rolling = [semana_target - timedelta(weeks=i) for i in range(1, 5)]
    dados_rolling = dados_historicos[dados_historicos['semana'].isin(semanas_rolling)]
    
    if len(dados_rolling) > 0:
        rolling_stats = dados_rolling.groupby(['pdv_id', 'produto_id'])['quantidade'].agg({
            'mean': 'mean',
            'max': 'max', 
            'min': 'min'
        }).reset_index()
        
        rolling_stats.columns = ['pdv_id', 'produto_id', 'quantidade_media_4w', 'quantidade_max_4w', 'quantidade_min_4w']
        dados_semana = dados_semana.merge(rolling_stats, on=['pdv_id', 'produto_id'], how='left')
    
    # Preencher NaNs
    for col in ['quantidade_media_4w', 'quantidade_max_4w', 'quantidade_min_4w']:
        if col in dados_semana.columns:
            dados_semana[col] = dados_semana[col].fillna(0)
    
    # Features de hash e hist√≥ricas (copiar l√≥gica do notebook de feature engineering)
    dados_semana['pdv_hash'] = dados_semana['pdv_id'].astype(str).apply(hash) % 100
    dados_semana['produto_hash'] = dados_semana['produto_id'].astype(str).apply(hash) % 100
    dados_semana['pdv_produto_hash'] = (dados_semana['pdv_id'].astype(str) + '_' + dados_semana['produto_id'].astype(str)).apply(hash) % 1000
    
    # Features hist√≥ricas (toda a s√©rie at√© agora)
    hist_stats = dados_historicos.groupby(['pdv_id', 'produto_id'])['quantidade'].agg({
        'mean': 'mean',
        'std': 'std',
        'max': 'max',
        'count': 'count'
    }).reset_index()
    hist_stats.columns = ['pdv_id', 'produto_id', 'hist_mean', 'hist_std', 'hist_max', 'hist_count']
    dados_semana = dados_semana.merge(hist_stats, on=['pdv_id', 'produto_id'], how='left')
    
    # Preencher NaNs
    for col in ['hist_mean', 'hist_std', 'hist_max', 'hist_count']:
        dados_semana[col] = dados_semana[col].fillna(0)
    
    # Adicionar distributor_id (assumir como -1 para novas predi√ß√µes)
    dados_semana['distributor_id'] = -1
    
    # Garantir que todas as features necess√°rias existem
    for feature in all_features:
        if feature not in dados_semana.columns:
            dados_semana[feature] = 0
    
    # Fazer previs√µes
    print('     üéØ Fazendo previs√µes...')
    X_pred = dados_semana[all_features]
    
    # Garantir tipos de dados consistentes
    for col in X_pred.columns:
        if X_pred[col].dtype != X_train[col].dtype:
            X_pred[col] = X_pred[col].astype(X_train[col].dtype)
    
    # CORRE√á√ÉO: Usar lgb_vanilla em vez de model
    predictions = lgb_vanilla.predict(X_pred)
    predictions = np.maximum(0, predictions)  # N√£o permitir valores negativos
    
    # Armazenar previs√µes
    resultado_semana = dados_semana[['pdv_id', 'produto_id', 'semana']].copy()
    resultado_semana['quantidade'] = predictions
    previsoes_finais.append(resultado_semana)
    
    # Atualizar dados hist√≥ricos com as previs√µes
    dados_historicos = pd.concat([dados_historicos, resultado_semana], ignore_index=True)
    
    print(f'     ‚úÖ {len(predictions):,} previs√µes geradas')

print('\\n‚úÖ Previs√£o iterativa conclu√≠da!')

## 6. Gera√ß√£o dos Arquivos de Submiss√£o

In [None]:
print('üìã Preparando arquivos de submiss√£o...')

# Consolidar todas as previs√µes
submission_df = pd.concat(previsoes_finais, ignore_index=True)

print(f'üìä Estat√≠sticas das previs√µes:')
print(f'   ‚Ä¢ Total de registros: {len(submission_df):,}')
print(f'   ‚Ä¢ Combina√ß√µes √∫nicas: {submission_df.groupby(["pdv_id", "produto_id"]).size().shape[0]:,}')
print(f'   ‚Ä¢ Semanas: {submission_df["semana"].nunique()}')
print(f'   ‚Ä¢ Quantidade m√©dia: {submission_df["quantidade"].mean():.4f}')
print(f'   ‚Ä¢ Quantidade m√°xima: {submission_df["quantidade"].max():.4f}')
print(f'   ‚Ä¢ % zeros: {(submission_df["quantidade"] == 0).mean()*100:.1f}%')

# Criar diret√≥rio de submiss√£o
os.makedirs('../submission', exist_ok=True)

# Salvar em CSV
csv_path = '../submission/submission.csv'
submission_df.to_csv(csv_path, index=False)
print(f'üíæ Arquivo CSV salvo: {csv_path}')

# Salvar em Parquet
parquet_path = '../submission/submission.parquet'
submission_df.to_parquet(parquet_path, index=False)
print(f'üíæ Arquivo Parquet salvo: {parquet_path}')

# Verificar tamanhos dos arquivos
csv_size = os.path.getsize(csv_path) / (1024**2)
parquet_size = os.path.getsize(parquet_path) / (1024**2)

print(f'\nüìè Tamanhos dos arquivos:')
print(f'   ‚Ä¢ CSV: {csv_size:.1f} MB')
print(f'   ‚Ä¢ Parquet: {parquet_size:.1f} MB ({parquet_size/csv_size*100:.1f}% do CSV)')

## 7. Valida√ß√£o e Resumo Final

In [None]:
print('üîç Valida√ß√£o final dos dados...')

# Verificar estrutura dos dados
print(f'\nüìã Estrutura final:')
print(f'   ‚Ä¢ Colunas: {list(submission_df.columns)}')
print(f'   ‚Ä¢ Tipos: {submission_df.dtypes.to_dict()}')
print(f'   ‚Ä¢ Shape: {submission_df.shape}')

# Verificar completude
print(f'\n‚úÖ Verifica√ß√µes:')
print(f'   ‚Ä¢ Valores nulos: {submission_df.isnull().sum().sum()} (deve ser 0)')
print(f'   ‚Ä¢ Valores negativos: {(submission_df["quantidade"] < 0).sum()} (deve ser 0)')
print(f'   ‚Ä¢ Semanas √∫nicas: {sorted(submission_df["semana"].dt.strftime("%Y-%m-%d").unique())}')

# An√°lise por semana
print(f'\nüìä An√°lise por semana:')
weekly_stats = submission_df.groupby('semana')['quantidade'].agg({
    'count': 'count',
    'mean': 'mean',
    'sum': 'sum',
    'zeros': lambda x: (x == 0).sum()
}).round(4)

for semana, stats in weekly_stats.iterrows():
    zeros_pct = (stats['zeros'] / stats['count']) * 100
    print(f'   ‚Ä¢ {semana.strftime("%Y-%m-%d")}: {stats["count"]:,} registros, m√©dia={stats["mean"]:.4f}, zeros={zeros_pct:.1f}%')

print(f'\nüéâ PIPELINE FINAL CONCLU√çDO COM SUCESSO!')
print('=' * 60)
print(f'‚úÖ Modelo LightGBM treinado com {len(dados):,} registros de 2022')
print(f'‚úÖ Previs√µes iterativas geradas para 5 semanas de 2023')
print(f'‚úÖ {len(submission_df):,} previs√µes salvas em CSV e Parquet')
print(f'‚úÖ Arquivos prontos para submiss√£o no hackathon!')

print(f'\nüìÅ Arquivos gerados:')
print(f'   ‚Ä¢ {csv_path}')
print(f'   ‚Ä¢ {parquet_path}')
print(f'   ‚Ä¢ ../models/lightgbm_final.txt')