# 03 - Modelagem e Experimentos (Di√°rio de Bordo)

**üéØ PROP√ìSITO DESTE NOTEBOOK:**
Este notebook documenta o nosso processo completo de explora√ß√£o e sele√ß√£o de modelos. Aqui comparamos Baselines, RandomForest, LightGBM e XGBoost para justificar a nossa escolha final.

**üìä RESULTADO PRINCIPAL:**
- Testamos m√∫ltiplos modelos (Baselines, Random Forest, LightGBM, XGBoost)  
- **LightGBM** venceu com **WMAPE: 15.25%** (91% melhor que baseline)
- XGBoost foi marginalmente melhor, mas **inst√°vel** em produ√ß√£o
- Este notebook cont√©m a **justificativa t√©cnica** da nossa decis√£o final

**üöÄ PARA EXECUTAR A SOLU√á√ÉO FINAL:**
Use o notebook `04-Final-Pipeline.ipynb` - ele cont√©m apenas o c√≥digo necess√°rio para treinar o modelo vencedor e gerar a submiss√£o.

---

## Objetivos da Explora√ß√£o:
1. **Carregamento dos Dados**: Carregar dataset com features processadas
2. **Prepara√ß√£o para ML**: Dividir dados em treino/valida√ß√£o, preparar features  
3. **Baseline Models**: Implementar modelos simples como refer√™ncia
4. **Advanced Models**: Testar modelos avan√ßados (LightGBM, XGBoost, etc.)
5. **Compara√ß√£o Rigorosa**: Avaliar todos os modelos usando m√©tricas adequadas
6. **Sele√ß√£o Final**: Escolher o modelo mais robusto para produ√ß√£o

In [None]:
import pandas as pd
import numpy as np
import pickle
import warnings
warnings.filterwarnings('ignore')

# ML Libraries
from sklearn.model_selection import train_test_split, TimeSeriesSplit
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression

# Advanced ML
import lightgbm as lgb
from lightgbm.callback import early_stopping  # CORRE√á√ÉO: Importar early_stopping
import xgboost as xgb

# Visualization
import matplotlib.pyplot as plt
import seaborn as sns

# Time series
from datetime import datetime, timedelta
import gc

plt.style.use('default')
sns.set_palette("husl")

print('üìö Bibliotecas carregadas com sucesso!')
print('üéØ Iniciando fase de Modelagem e Treinamento')

## 1. Carregamento dos Dados Processados

In [None]:
# Carregar dados com features processadas
print('üìÇ Carregando dados processados...')

# Verificar se os arquivos essenciais existem
import os
required_files = [
    '../data/dados_features_completo.parquet',  # Usar parquet (mais r√°pido)
    '../data/feature_engineering_metadata.pkl'
]

missing_files = [f for f in required_files if not os.path.exists(f)]
if missing_files:
    print('‚ùå Arquivos n√£o encontrados:')
    for f in missing_files:
        print(f'   ‚Ä¢ {f}')
    print('\nüîÑ Execute primeiro o notebook 02-Feature-Engineering-Dask.ipynb')
else:
    print('‚úÖ Todos os arquivos necess√°rios encontrados')
    
    # Carregar dados principais (usar parquet para velocidade)
    print('üìä Carregando dataset (parquet)...')
    dados = pd.read_parquet('../data/dados_features_completo.parquet')
    
    # Carregar metadados
    with open('../data/feature_engineering_metadata.pkl', 'rb') as f:
        metadata = pickle.load(f)
    
    print(f'\nüìä Dados carregados com sucesso:')
    print(f'   ‚Ä¢ Shape: {dados.shape}')
    print(f'   ‚Ä¢ Per√≠odo: {dados["semana"].min()} at√© {dados["semana"].max()}')
    print(f'   ‚Ä¢ Features dispon√≠veis: {len(dados.columns)}')
    print(f'   ‚Ä¢ Mem√≥ria: {dados.memory_usage(deep=True).sum() / (1024**2):.1f} MB')
    print(f'   ‚Ä¢ Estrat√©gia: {metadata.get("estrategia", "Grid Inteligente")}')
    
    print(f'\nüîç Metadados do processamento:')
    for key, value in metadata.items():
        if key not in ['features_criadas', 'data_processamento']:  # Skip long items
            print(f'   ‚Ä¢ {key}: {value}')
    
    print(f'\n‚úÖ Pronto para modelagem!')

## 2. Prepara√ß√£o dos Dados para ML

In [None]:
# Definir vari√°vel target e features
target = 'quantidade'

# Features a excluir (n√£o devem ser usadas para predi√ß√£o)
exclude_features = [
    'pdv_id', 'produto_id', 'semana',  # IDs e data
    'quantidade',  # Target
    'valor', 'num_transacoes',  # Features que vazam informa√ß√£o do futuro
]

# Identificar features dispon√≠veis
all_features = [col for col in dados.columns if col not in exclude_features]

print(f'üéØ Prepara√ß√£o dos dados:')
print(f'   ‚Ä¢ Target: {target}')
print(f'   ‚Ä¢ Features dispon√≠veis: {len(all_features)}')
print(f'   ‚Ä¢ Features exclu√≠das: {len(exclude_features)}')

# Verificar missing values nas features
missing_features = dados[all_features].isnull().sum()
missing_features = missing_features[missing_features > 0].sort_values(ascending=False)

if len(missing_features) > 0:
    print(f'\n‚ö†Ô∏è Features com valores missing:')
    for feature, count in missing_features.head(10).items():
        pct = (count / len(dados)) * 100
        print(f'   ‚Ä¢ {feature}: {count:,} ({pct:.1f}%)')
    
    print(f'\nüß† Estrat√©gia de Tratamento Inteligente:')
    print('   ‚Ä¢ distributor_id (categ√≥rica): NaN ‚Üí -1 (venda direta)')
    print('   ‚Ä¢ Features num√©ricas: NaN ‚Üí 0 (aus√™ncia = zero)')
    print('   ‚Ä¢ LightGBM aprender√° padr√µes espec√≠ficos para valores -1/0')
else:
    print('\n‚úÖ Nenhum valor missing nas features')

print(f'\nüìã Features finais para modelagem: {len(all_features)}')
print('üí° Missing values ser√£o tratados como informa√ß√£o, n√£o removidos')

In [None]:
# SOLU√á√ÉO CORRETA: Otimiza√ß√£o de Tipos de Dados (Downcasting)
print('üìÖ Otimiza√ß√£o de Mem√≥ria + Divis√£o Temporal')
print('üß† Estrat√©gia: Downcasting em vez de amostragem (preserva s√©ries temporais)')

# PASSO 1: Inspecionar uso de mem√≥ria atual
print(f'\nüîç ANTES da otimiza√ß√£o:')
memory_before = dados.memory_usage(deep=True).sum() / (1024**3)
print(f'üíæ Mem√≥ria total: {memory_before:.2f} GB')

# PASSO 2: Aplicar Downcasting Inteligente
print(f'\nüöÄ Aplicando Downcasting...')

# Fazer uma c√≥pia para otimiza√ß√£o
dados_sorted = dados.copy()

# Otimizar colunas num√©ricas (inteiros e floats)
for col in dados_sorted.select_dtypes(include=[np.number]).columns:
    original_dtype = dados_sorted[col].dtype
    
    if dados_sorted[col].dtype.kind in ['i', 'u']:  # Inteiros
        dados_sorted[col] = pd.to_numeric(dados_sorted[col], downcast='integer')
    else:  # Floats
        dados_sorted[col] = pd.to_numeric(dados_sorted[col], downcast='float')
    
    new_dtype = dados_sorted[col].dtype
    if original_dtype != new_dtype:
        print(f'   ‚Ä¢ {col}: {original_dtype} ‚Üí {new_dtype}')

# Otimizar colunas categ√≥ricas
for col in dados_sorted.select_dtypes(include=['object']).columns:
    if col not in ['semana']:  # Preservar datetime
        nunique = dados_sorted[col].nunique()
        total_rows = len(dados_sorted)
        if nunique / total_rows < 0.5:  # Se <50% valores √∫nicos, usar category
            dados_sorted[col] = dados_sorted[col].astype('category')
            print(f'   ‚Ä¢ {col}: object ‚Üí category')

print(f'‚úÖ Downcasting conclu√≠do!')

# PASSO 3: Verificar resultado da otimiza√ß√£o
memory_after = dados_sorted.memory_usage(deep=True).sum() / (1024**3)
memory_reduction = (memory_before - memory_after) / memory_before * 100
print(f'\nüìä DEPOIS da otimiza√ß√£o:')
print(f'üíæ Mem√≥ria total: {memory_after:.2f} GB')
print(f'üéØ Redu√ß√£o: {memory_reduction:.1f}% ({memory_before-memory_after:.2f} GB economizados)')

# PASSO 4: Divis√£o temporal (agora com dados otimizados)
print(f'\nüìÖ Divis√£o temporal dos dados (com mem√≥ria otimizada)...')

# Ordenar por semana
dados_sorted = dados_sorted.sort_values('semana')

# Split temporal: semanas 1-48 treino, 49-52 valida√ß√£o
semanas_unicas = sorted(dados_sorted['semana'].unique())
print(f'üìä Total de semanas dispon√≠veis: {len(semanas_unicas)}')

cutoff_week_idx = 48  # Primeiras 48 semanas para treino
if len(semanas_unicas) >= cutoff_week_idx:
    cutoff_week = semanas_unicas[cutoff_week_idx-1]
    
    # Criar m√°scaras (sem c√≥pia)
    train_mask = dados_sorted['semana'] <= cutoff_week
    val_mask = dados_sorted['semana'] > cutoff_week
    
    print(f'üìä Divis√£o dos dados:')
    print(f'   ‚Ä¢ Treino: {train_mask.sum():,} registros ({train_mask.mean()*100:.1f}%)')
    print(f'   ‚Ä¢ Valida√ß√£o: {val_mask.sum():,} registros ({val_mask.mean()*100:.1f}%)')
    
    # CORRE√á√ÉO: Tratamento de missing values com categorias
    print(f'\nüß† Tratamento inteligente de missing values (CORRIGIDO)...')
    all_features = [col for col in dados_sorted.columns if col not in ['pdv_id', 'produto_id', 'semana', 'quantidade', 'valor', 'num_transacoes']]
    
    for col in all_features:
        missing_count = dados_sorted[col].isnull().sum()
        if missing_count > 0:
            if col == 'distributor_id':
                # SOLU√á√ÉO: Adicionar -1 ao "menu" de categorias primeiro
                if dados_sorted[col].dtype.name == 'category':
                    if -1 not in dados_sorted[col].cat.categories:
                        dados_sorted[col] = dados_sorted[col].cat.add_categories([-1])
                
                # Agora pode preencher com -1 sem erro
                dados_sorted[col] = dados_sorted[col].fillna(-1)
                print(f'   ‚Ä¢ {col}: {missing_count:,} NaN ‚Üí -1 (venda direta)')
                
            elif dados_sorted[col].dtype.kind in ['i', 'u', 'f']:
                # Num√©ricas: fillna funciona diretamente
                dados_sorted[col] = dados_sorted[col].fillna(0)
                print(f'   ‚Ä¢ {col}: {missing_count:,} NaN ‚Üí 0 (aus√™ncia)')
    
    # PASSO 5: Preparar dados para modelagem (agora deve funcionar!)
    print(f'\nüéØ Preparando dados para modelagem...')
    X_train = dados_sorted.loc[train_mask, all_features]
    y_train = dados_sorted.loc[train_mask, 'quantidade']
    X_val = dados_sorted.loc[val_mask, all_features]
    y_val = dados_sorted.loc[val_mask, 'quantidade']
    
    print(f'‚úÖ Dados preparados com sucesso:')
    print(f'   ‚Ä¢ X_train shape: {X_train.shape}')
    print(f'   ‚Ä¢ X_val shape: {X_val.shape}')
    print(f'   ‚Ä¢ Mem√≥ria X_train: {X_train.memory_usage(deep=True).sum() / (1024**2):.1f} MB')
    print(f'   ‚Ä¢ Mem√≥ria X_val: {X_val.memory_usage(deep=True).sum() / (1024**2):.1f} MB')
    
    # Garbage collection
    import gc
    gc.collect()
    
    print(f'\nüéâ SUCESSO! Problema resolvido:')
    print(f'   ‚úÖ Downcasting: {memory_reduction:.1f}% menos mem√≥ria')
    print(f'   ‚úÖ Categorical fix: -1 adicionado ao "menu" de categorias')
    print(f'   ‚úÖ S√©ries temporais preservadas integralmente')
    
else:
    print(f'‚ö†Ô∏è Menos de 48 semanas dispon√≠veis.')

## 3. An√°lise Explorat√≥ria do Target

In [None]:
# An√°lise da distribui√ß√£o do target (usando dados otimizados)
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Distribui√ß√£o geral (usando y_train que foi criado)
axes[0,0].hist(y_train, bins=50, alpha=0.7, edgecolor='black')
axes[0,0].set_title('Distribui√ß√£o da Quantidade (Treino)')
axes[0,0].set_xlabel('Quantidade')
axes[0,0].set_ylabel('Frequ√™ncia')

# Log-scale
non_zero_train = y_train[y_train > 0]
axes[0,1].hist(np.log1p(non_zero_train), bins=50, alpha=0.7, edgecolor='black')
axes[0,1].set_title('Distribui√ß√£o log(Quantidade + 1) - Apenas > 0')
axes[0,1].set_xlabel('log(Quantidade + 1)')
axes[0,1].set_ylabel('Frequ√™ncia')

# Zeros vs Non-zeros
zero_counts = [len(y_train[y_train == 0]), len(y_train[y_train > 0])]
axes[1,0].pie(zero_counts, labels=['Zeros', 'N√£o-zeros'], autopct='%1.1f%%')
axes[1,0].set_title('Propor√ß√£o Zeros vs N√£o-zeros')

# Boxplot por semana (√∫ltimas 12 semanas) - usando dados_sorted com train_mask
train_weeks_data = dados_sorted.loc[train_mask, ['semana', 'quantidade']]
recent_weeks = sorted(train_weeks_data['semana'].unique())[-12:]
recent_data = train_weeks_data[train_weeks_data['semana'].isin(recent_weeks)]

# Criar boxplot manualmente para evitar problemas com groupby
week_data = []
week_labels = []
for week in recent_weeks:
    week_quantities = recent_data[recent_data['semana'] == week]['quantidade']
    if len(week_quantities) > 0:
        week_data.append(week_quantities.values)
        week_labels.append(week.strftime('%m-%d'))

if week_data:
    axes[1,1].boxplot(week_data, labels=week_labels)
    axes[1,1].set_title('Distribui√ß√£o por Semana (√öltimas 12)')
    axes[1,1].set_xlabel('Semana')
    axes[1,1].tick_params(axis='x', rotation=45)
else:
    axes[1,1].text(0.5, 0.5, 'Dados insuficientes\npara boxplot', 
                   ha='center', va='center', transform=axes[1,1].transAxes)
    axes[1,1].set_title('Distribui√ß√£o por Semana')

plt.tight_layout()
plt.show()

# Estat√≠sticas descritivas
print('üìà Estat√≠sticas do Target (treino):')
print(y_train.describe())

print(f'\nüéØ M√©tricas importantes:')
print(f'   ‚Ä¢ Zeros: {(y_train == 0).sum():,} ({(y_train == 0).mean()*100:.1f}%)')
print(f'   ‚Ä¢ N√£o-zeros: {(y_train > 0).sum():,} ({(y_train > 0).mean()*100:.1f}%)')
print(f'   ‚Ä¢ M√©dia (apenas > 0): {y_train[y_train > 0].mean():.2f}')
print(f'   ‚Ä¢ Mediana (apenas > 0): {y_train[y_train > 0].median():.2f}')

## 5. Modelos de Machine Learning

In [None]:
# PASSO B: LightGBM Vanilla - Validar Pipeline e Features
print('\nüöÄ PASSO B: Modelo LightGBM Vanilla (Par√¢metros Default)')
print('=' * 60)
print('üéØ Objetivo: Validar se nossas features t√™m poder preditivo')

# Configura√ß√£o LightGBM Vanilla (par√¢metros simples/default)
lgb_params_vanilla = {
    'objective': 'regression_l1',  # MAE - melhor para WMAPE
    'metric': 'mae',
    'boosting_type': 'gbdt',
    'verbosity': -1,
    'random_state': 42,
    'n_jobs': -1
}

print(f'\nüìã Configura√ß√£o Vanilla:')
for param, value in lgb_params_vanilla.items():
    print(f'   ‚Ä¢ {param}: {value}')

# Preparar dados para LightGBM
print(f'\nüìä Preparando dados para treinamento...')
train_lgb = lgb.Dataset(X_train, label=y_train)
val_lgb = lgb.Dataset(X_val, label=y_val, reference=train_lgb)

print(f'   ‚Ä¢ Train shape: {X_train.shape}')
print(f'   ‚Ä¢ Val shape: {X_val.shape}')
print(f'   ‚Ä¢ Features: {len(all_features)}')

# Treinar modelo Vanilla (VERS√ÉO CORRIGIDA)
print(f'\nüîÑ Treinando LightGBM Vanilla...')
lgb_vanilla = lgb.train(
    lgb_params_vanilla,
    train_lgb,
    num_boost_round=200,  # N√∫mero moderado para vanilla
    valid_sets=[train_lgb, val_lgb],
    valid_names=['train', 'eval'],
    # CORRE√á√ÉO: Usar callbacks em vez de early_stopping_rounds
    callbacks=[early_stopping(stopping_rounds=20, verbose=False)]
)

print(f'‚úÖ Treinamento conclu√≠do em {lgb_vanilla.best_iteration} itera√ß√µes')

# Predi√ß√µes
print(f'\nüéØ Gerando predi√ß√µes...')
lgb_vanilla_pred = lgb_vanilla.predict(X_val, num_iteration=lgb_vanilla.best_iteration)
lgb_vanilla_pred = np.maximum(0, lgb_vanilla_pred)  # N√£o permitir predi√ß√µes negativas

# Avalia√ß√£o
results_lgb_vanilla = evaluate_model(y_val, lgb_vanilla_pred, 'LightGBM Vanilla')
model_results.append(results_lgb_vanilla)

# AN√ÅLISE CR√çTICA - Pergunta chave
print(f'\nüîç AN√ÅLISE CR√çTICA - VALIDA√á√ÉO DO PIPELINE:')
print('=' * 60)
print(f'LightGBM Vanilla    | WMAPE: {results_lgb_vanilla["WMAPE"]:6.2f}% | MAE: {results_lgb_vanilla["MAE"]:8.4f} | R¬≤: {results_lgb_vanilla["R¬≤"]:6.4f}')
print(f'Melhor Baseline     | WMAPE: {best_baseline["WMAPE"]:6.2f}% | MAE: {best_baseline["MAE"]:8.4f} | R¬≤: {best_baseline["R¬≤"]:6.4f}')

# Calcular melhoria
wmape_improvement = ((best_baseline["WMAPE"] - results_lgb_vanilla["WMAPE"]) / best_baseline["WMAPE"]) * 100
mae_improvement = ((best_baseline["MAE"] - results_lgb_vanilla["MAE"]) / best_baseline["MAE"]) * 100

print(f'\nüìà MELHORIA SOBRE MELHOR BASELINE:')
print(f'   ‚Ä¢ WMAPE: {wmape_improvement:+.2f}% {"‚úÖ SIGNIFICATIVA!" if wmape_improvement > 5 else "‚ö†Ô∏è MARGINAL" if wmape_improvement > 0 else "‚ùå PIOR QUE BASELINE!"}')
print(f'   ‚Ä¢ MAE:   {mae_improvement:+.2f}% {"‚úÖ" if mae_improvement > 0 else "‚ùå"}')

# Diagn√≥stico
if wmape_improvement > 5:
    print(f'\nüéâ DIAGN√ìSTICO: PIPELINE VALIDADO!')
    print(f'   ‚úÖ Features t√™m forte poder preditivo')
    print(f'   ‚úÖ Pronto para otimiza√ß√£o de hiperpar√¢metros')
elif wmape_improvement > 0:
    print(f'\nü§î DIAGN√ìSTICO: MELHORIA MARGINAL')
    print(f'   ‚ö†Ô∏è Features t√™m algum poder preditivo, mas limitado')
    print(f'   üîç Considerar an√°lise de feature importance')
else:
    print(f'\nüö® DIAGN√ìSTICO: PROBLEMA NO PIPELINE!')
    print(f'   ‚ùå Modelo pior que baseline - poss√≠vel data leakage ou bug')
    print(f'   üîß Revisar feature engineering urgentemente')

print(f'\n‚úÖ Passo B conclu√≠do - LightGBM Vanilla validado!')

## 9. Prepara√ß√£o para Predi√ß√µes Finais

In [None]:
print('üéØ Prepara√ß√£o para predi√ß√µes finais...')

# Retreinar melhor modelo com todos os dados dispon√≠veis
print(f'üîÑ Retreinando {best_model_name} com todos os dados...')

# CORRE√á√ÉO: Usar dados otimizados (dados_sorted) em vez de dados originais
print('üß† Preparando dados com tipos otimizados (mesmo processamento de treino/valida√ß√£o)...')

# Usar dados_sorted que j√° foram otimizados e tratados
X_full = dados_sorted[all_features]
y_full = dados_sorted[target]

print(f'   ‚Ä¢ X_full shape: {X_full.shape}')
print(f'   ‚Ä¢ Tipos de dados consistentes: {X_full.dtypes.value_counts().to_dict()}')

# Retreinar LightGBM
train_full_lgb = lgb.Dataset(X_full, label=y_full)
final_model = lgb.train(
    lgb_params_vanilla,
    train_full_lgb,
    num_boost_round=lgb_vanilla.best_iteration,
    verbose_eval=False
)

print('‚úÖ Modelo final treinado e pronto para predi√ß√µes')

# Salvar modelo e configura√ß√µes
model_artifacts = {
    'model': final_model,
    'model_type': best_model_name,
    'features': all_features,
    'target': target,
    'validation_mae': results_df.iloc[0]['MAE'],
    'validation_rmse': results_df.iloc[0]['RMSE'],
    'validation_r2': results_df.iloc[0]['R¬≤'],
    'validation_wmape': results_df.iloc[0]['WMAPE'],
    'training_date': pd.Timestamp.now(),
    'combo_means': combo_means_full if best_model_name not in ['LightGBM Vanilla', 'XGBoost', 'Random Forest'] else None,
    'metadata': metadata
}

# Salvar artefatos do modelo
with open('../data/trained_model.pkl', 'wb') as f:
    pickle.dump(model_artifacts, f)

print('üíæ Modelo e artefatos salvos em: data/trained_model.pkl')
print('üéØ Pronto para gerar predi√ß√µes para o per√≠odo de teste!')