# 04 - Pipeline Final de Produ√ß√£o

**üéØ PROP√ìSITO:**  
Este notebook implementa a solu√ß√£o final para gerar as predi√ß√µes de submiss√£o do hackathon.

**üöÄ EXECU√á√ÉO:**  
Execute todas as c√©lulas em sequ√™ncia. O arquivo `submission.csv` e `submission.parquet` ser√£o gerados automaticamente.

**üìä MODELO ESCOLHIDO:**  
LightGBM - selecionado ap√≥s rigorosa compara√ß√£o no notebook `03-Modeling-Experiments.ipynb`.

---

## Pipeline Completo:
1. **Carregar dados processados** (do notebook 02)
2. **Otimizar mem√≥ria** com downcasting
3. **Treinar LightGBM** no dataset completo de 2022  
4. **Implementar previs√£o iterativa** para as 5 semanas de 2023
5. **Gerar submiss√£o** nos formatos CSV e Parquet

In [None]:
# Importa√ß√µes necess√°rias
import pandas as pd
import numpy as np
import pickle
import warnings
warnings.filterwarnings('ignore')

# ML Libraries
import lightgbm as lgb
from lightgbm.callback import early_stopping
import gc

# Time series
from datetime import datetime, timedelta
import os

print('üìö Bibliotecas carregadas com sucesso!')
print('üöÄ Iniciando Pipeline Final de Produ√ß√£o')

## 1. Carregamento e Prepara√ß√£o dos Dados

In [None]:
# Verificar arquivos necess√°rios
required_files = [
    '../data/dados_features_completo.parquet',
    '../data/feature_engineering_metadata.pkl'
]

missing_files = [f for f in required_files if not os.path.exists(f)]
if missing_files:
    raise FileNotFoundError(f'Arquivos n√£o encontrados: {missing_files}')

print('üìÇ Carregando dados processados...')
dados = pd.read_parquet('../data/dados_features_completo.parquet')

with open('../data/feature_engineering_metadata.pkl', 'rb') as f:
    metadata = pickle.load(f)

print(f'‚úÖ Dados carregados: {dados.shape}')
print(f'üìÖ Per√≠odo: {dados["semana"].min()} at√© {dados["semana"].max()}')
print(f'üíæ Mem√≥ria inicial: {dados.memory_usage(deep=True).sum() / (1024**2):.1f} MB')

## 2. Otimiza√ß√£o de Mem√≥ria

In [None]:
print('üîß Aplicando otimiza√ß√£o de mem√≥ria (downcasting)...')

# Downcasting de tipos num√©ricos
for col in dados.select_dtypes(include=[np.number]).columns:
    if dados[col].dtype.kind in ['i', 'u']:  # Inteiros
        dados[col] = pd.to_numeric(dados[col], downcast='integer')
    else:  # Floats
        dados[col] = pd.to_numeric(dados[col], downcast='float')

# Otimizar categ√≥ricas
for col in dados.select_dtypes(include=['object']).columns:
    if col not in ['semana']:
        nunique = dados[col].nunique()
        if nunique / len(dados) < 0.5:
            dados[col] = dados[col].astype('category')

# Tratar missing values
if 'distributor_id' in dados.columns:
    if dados['distributor_id'].dtype.name == 'category':
        if -1 not in dados['distributor_id'].cat.categories:
            dados['distributor_id'] = dados['distributor_id'].cat.add_categories([-1])
    dados['distributor_id'] = dados['distributor_id'].fillna(-1)

# Preencher outros NaNs
for col in dados.columns:
    if dados[col].isnull().sum() > 0 and dados[col].dtype.kind in ['i', 'u', 'f']:
        dados[col] = dados[col].fillna(0)

memory_optimized = dados.memory_usage(deep=True).sum() / (1024**2)
print(f'‚úÖ Mem√≥ria otimizada: {memory_optimized:.1f} MB')
print(f'üìà Redu√ß√£o de mem√≥ria: {((memory_optimized / (dados.memory_usage(deep=True).sum() / (1024**2)) - 1) * 100):.1f}%')

## 3. Prepara√ß√£o para Treinamento

In [None]:
# Definir features e target
target = 'quantidade'
exclude_features = ['pdv_id', 'produto_id', 'semana', 'quantidade', 'valor', 'num_transacoes']
all_features = [col for col in dados.columns if col not in exclude_features]

print(f'üéØ Configura√ß√£o do modelo:')
print(f'   ‚Ä¢ Target: {target}')
print(f'   ‚Ä¢ Features: {len(all_features)}')

# Preparar dados para treinamento (todo o dataset de 2022)
X_train = dados[all_features]
y_train = dados[target]

print(f'üìä Dados de treinamento:')
print(f'   ‚Ä¢ Shape: {X_train.shape}')
print(f'   ‚Ä¢ Per√≠odo completo de 2022')

## 4. Treinamento do Modelo LightGBM

In [None]:
print('üöÄ Treinando modelo LightGBM...')

# Par√¢metros otimizados do LightGBM
lgb_params = {
    'objective': 'regression_l1',  # MAE - melhor para WMAPE
    'metric': 'mae',
    'boosting_type': 'gbdt',
    'num_leaves': 31,
    'learning_rate': 0.1,
    'feature_fraction': 0.9,
    'bagging_fraction': 0.8,
    'bagging_freq': 5,
    'verbosity': -1,
    'random_state': 42,
    'n_jobs': -1
}

# Criar dataset LightGBM
train_lgb = lgb.Dataset(X_train, label=y_train)

# Treinar modelo
model = lgb.train(
    lgb_params,
    train_lgb,
    num_boost_round=500,
    callbacks=[early_stopping(stopping_rounds=50, verbose=False)]
)

print(f'‚úÖ Modelo treinado com {model.num_trees()} √°rvores')

# Salvar modelo
os.makedirs('../models', exist_ok=True)
model.save_model('../models/lightgbm_final.txt')
print('üíæ Modelo salvo em: ../models/lightgbm_final.txt')

## 5. Implementa√ß√£o da Previs√£o Iterativa

In [None]:
print('üîÑ Implementando previs√£o iterativa para 2023...')

# Obter combina√ß√µes √∫nicas de PDV x Produto de 2022
combinacoes_2022 = dados[['pdv_id', 'produto_id']].drop_duplicates()
print(f'üìä Combina√ß√µes PDV x Produto encontradas em 2022: {len(combinacoes_2022):,}')

# Definir as 5 semanas de 2023 para previs√£o
# Assumindo que 2023 come√ßa na semana seguinte ao √∫ltimo dado de 2022
ultima_semana_2022 = dados['semana'].max()
semanas_2023 = []
for i in range(1, 6):  # 5 semanas
    proxima_semana = ultima_semana_2022 + timedelta(weeks=i)
    semanas_2023.append(proxima_semana)

print(f'üìÖ Semanas para previs√£o:')
for i, semana in enumerate(semanas_2023, 1):
    print(f'   {i}. {semana.strftime("%Y-%m-%d")}')

# Preparar dados hist√≥ricos para features iterativas
dados_historicos = dados.copy()
previsoes_finais = []

print('\nüîÑ Iniciando previs√µes iterativas...')
for week_num, semana_target in enumerate(semanas_2023, 1):
    print(f'\n   Semana {week_num}/5: {semana_target.strftime("%Y-%m-%d")}')
    
    # Criar features para a semana alvo
    dados_semana = combinacoes_2022.copy()
    dados_semana['semana'] = semana_target
    
    # Engenharia de features baseada no hist√≥rico atual
    print('     üîß Criando features...')
    
    # Features temporais
    dados_semana['mes_sin'] = np.sin(2 * np.pi * semana_target.month / 12)
    dados_semana['mes_cos'] = np.cos(2 * np.pi * semana_target.month / 12)
    
    # Features de lag (baseadas no hist√≥rico)
    for lag in [1, 2, 3, 4]:
        semana_lag = semana_target - timedelta(weeks=lag)
        dados_lag = dados_historicos[dados_historicos['semana'] == semana_lag]
        
        if len(dados_lag) > 0:
            lag_dict = dados_lag.set_index(['pdv_id', 'produto_id'])['quantidade'].to_dict()
            dados_semana[f'quantidade_lag_{lag}'] = dados_semana.apply(
                lambda row: lag_dict.get((row['pdv_id'], row['produto_id']), 0), axis=1
            )
        else:
            dados_semana[f'quantidade_lag_{lag}'] = 0
    
    # Features de rolling (√∫ltimas 4 semanas)
    semanas_rolling = [semana_target - timedelta(weeks=i) for i in range(1, 5)]
    dados_rolling = dados_historicos[dados_historicos['semana'].isin(semanas_rolling)]
    
    if len(dados_rolling) > 0:
        rolling_stats = dados_rolling.groupby(['pdv_id', 'produto_id'])['quantidade'].agg({
            'mean': 'mean',
            'max': 'max', 
            'min': 'min'
        }).reset_index()
        
        rolling_stats.columns = ['pdv_id', 'produto_id', 'quantidade_media_4w', 'quantidade_max_4w', 'quantidade_min_4w']
        dados_semana = dados_semana.merge(rolling_stats, on=['pdv_id', 'produto_id'], how='left')
    
    # Preencher NaNs
    for col in ['quantidade_media_4w', 'quantidade_max_4w', 'quantidade_min_4w']:
        if col in dados_semana.columns:
            dados_semana[col] = dados_semana[col].fillna(0)
    
    # Features de hash e hist√≥ricas (copiar l√≥gica do notebook de feature engineering)
    dados_semana['pdv_hash'] = dados_semana['pdv_id'].astype(str).apply(hash) % 100
    dados_semana['produto_hash'] = dados_semana['produto_id'].astype(str).apply(hash) % 100
    dados_semana['pdv_produto_hash'] = (dados_semana['pdv_id'].astype(str) + '_' + dados_semana['produto_id'].astype(str)).apply(hash) % 1000
    
    # Features hist√≥ricas (toda a s√©rie at√© agora)
    hist_stats = dados_historicos.groupby(['pdv_id', 'produto_id'])['quantidade'].agg({
        'mean': 'mean',
        'std': 'std',
        'max': 'max',
        'count': 'count'
    }).reset_index()
    hist_stats.columns = ['pdv_id', 'produto_id', 'hist_mean', 'hist_std', 'hist_max', 'hist_count']
    dados_semana = dados_semana.merge(hist_stats, on=['pdv_id', 'produto_id'], how='left')
    
    # Preencher NaNs
    for col in ['hist_mean', 'hist_std', 'hist_max', 'hist_count']:
        dados_semana[col] = dados_semana[col].fillna(0)
    
    # Adicionar distributor_id (assumir como -1 para novas predi√ß√µes)
    dados_semana['distributor_id'] = -1
    
    # Garantir que todas as features necess√°rias existem
    for feature in all_features:
        if feature not in dados_semana.columns:
            dados_semana[feature] = 0
    
    # Fazer previs√µes
    print('     üéØ Fazendo previs√µes...')
    X_pred = dados_semana[all_features]
    
    # Garantir tipos de dados consistentes
    for col in X_pred.columns:
        if X_pred[col].dtype != X_train[col].dtype:
            X_pred[col] = X_pred[col].astype(X_train[col].dtype)
    
    predictions = model.predict(X_pred)
    predictions = np.maximum(0, predictions)  # N√£o permitir valores negativos
    
    # Armazenar previs√µes
    resultado_semana = dados_semana[['pdv_id', 'produto_id', 'semana']].copy()
    resultado_semana['quantidade'] = predictions
    previsoes_finais.append(resultado_semana)
    
    # Atualizar dados hist√≥ricos com as previs√µes
    dados_historicos = pd.concat([dados_historicos, resultado_semana], ignore_index=True)
    
    print(f'     ‚úÖ {len(predictions):,} previs√µes geradas')

print(f'\n‚úÖ Previs√£o iterativa conclu√≠da!')

## 6. Gera√ß√£o dos Arquivos de Submiss√£o

In [None]:
print('üìã Preparando arquivos de submiss√£o...')

# Consolidar todas as previs√µes
submission_df = pd.concat(previsoes_finais, ignore_index=True)

print(f'üìä Estat√≠sticas das previs√µes:')
print(f'   ‚Ä¢ Total de registros: {len(submission_df):,}')
print(f'   ‚Ä¢ Combina√ß√µes √∫nicas: {submission_df.groupby(["pdv_id", "produto_id"]).size().shape[0]:,}')
print(f'   ‚Ä¢ Semanas: {submission_df["semana"].nunique()}')
print(f'   ‚Ä¢ Quantidade m√©dia: {submission_df["quantidade"].mean():.4f}')
print(f'   ‚Ä¢ Quantidade m√°xima: {submission_df["quantidade"].max():.4f}')
print(f'   ‚Ä¢ % zeros: {(submission_df["quantidade"] == 0).mean()*100:.1f}%')

# Criar diret√≥rio de submiss√£o
os.makedirs('../submission', exist_ok=True)

# Salvar em CSV
csv_path = '../submission/submission.csv'
submission_df.to_csv(csv_path, index=False)
print(f'üíæ Arquivo CSV salvo: {csv_path}')

# Salvar em Parquet
parquet_path = '../submission/submission.parquet'
submission_df.to_parquet(parquet_path, index=False)
print(f'üíæ Arquivo Parquet salvo: {parquet_path}')

# Verificar tamanhos dos arquivos
csv_size = os.path.getsize(csv_path) / (1024**2)
parquet_size = os.path.getsize(parquet_path) / (1024**2)

print(f'\nüìè Tamanhos dos arquivos:')
print(f'   ‚Ä¢ CSV: {csv_size:.1f} MB')
print(f'   ‚Ä¢ Parquet: {parquet_size:.1f} MB ({parquet_size/csv_size*100:.1f}% do CSV)')

## 7. Valida√ß√£o e Resumo Final

In [None]:
print('üîç Valida√ß√£o final dos dados...')

# Verificar estrutura dos dados
print(f'\nüìã Estrutura final:')
print(f'   ‚Ä¢ Colunas: {list(submission_df.columns)}')
print(f'   ‚Ä¢ Tipos: {submission_df.dtypes.to_dict()}')
print(f'   ‚Ä¢ Shape: {submission_df.shape}')

# Verificar completude
print(f'\n‚úÖ Verifica√ß√µes:')
print(f'   ‚Ä¢ Valores nulos: {submission_df.isnull().sum().sum()} (deve ser 0)')
print(f'   ‚Ä¢ Valores negativos: {(submission_df["quantidade"] < 0).sum()} (deve ser 0)')
print(f'   ‚Ä¢ Semanas √∫nicas: {sorted(submission_df["semana"].dt.strftime("%Y-%m-%d").unique())}')

# An√°lise por semana
print(f'\nüìä An√°lise por semana:')
weekly_stats = submission_df.groupby('semana')['quantidade'].agg({
    'count': 'count',
    'mean': 'mean',
    'sum': 'sum',
    'zeros': lambda x: (x == 0).sum()
}).round(4)

for semana, stats in weekly_stats.iterrows():
    zeros_pct = (stats['zeros'] / stats['count']) * 100
    print(f'   ‚Ä¢ {semana.strftime("%Y-%m-%d")}: {stats["count"]:,} registros, m√©dia={stats["mean"]:.4f}, zeros={zeros_pct:.1f}%')

print(f'\nüéâ PIPELINE FINAL CONCLU√çDO COM SUCESSO!')
print('=' * 60)
print(f'‚úÖ Modelo LightGBM treinado com {len(dados):,} registros de 2022')
print(f'‚úÖ Previs√µes iterativas geradas para 5 semanas de 2023')
print(f'‚úÖ {len(submission_df):,} previs√µes salvas em CSV e Parquet')
print(f'‚úÖ Arquivos prontos para submiss√£o no hackathon!')

print(f'\nüìÅ Arquivos gerados:')
print(f'   ‚Ä¢ {csv_path}')
print(f'   ‚Ä¢ {parquet_path}')
print(f'   ‚Ä¢ ../models/lightgbm_final.txt')