# 04 - Pipeline Final para Submiss√£o

**üéØ PROP√ìSITO DESTE NOTEBOOK:**
Este notebook implementa o pipeline final para gerar as previs√µes de vendas para janeiro de 2023. Utiliza todos os dados de 2022 para treinar o modelo final e gera os arquivos de submiss√£o nos formatos requeridos.

**üöÄ ESTRAT√âGIA OTIMIZADA:**
- **Treino com Dataset Completo**: Usa todos os dados de 2022 (sem divis√£o treino/valida√ß√£o)
- **Modelo Final**: LightGBM treinado com n√∫mero √≥timo de itera√ß√µes
- **Predi√ß√µes Janeiro/2023**: Gera features para as 5 semanas de janeiro de 2023
- **Submiss√£o**: Salva nos formatos CSV e Parquet na pasta correta

---

## Fluxo do Pipeline:
1. **Carregamento**: Dados processados com features de `02-Feature-Engineering-Dask.ipynb`
2. **Prepara√ß√£o**: Otimiza√ß√£o de mem√≥ria e uso do dataset completo de 2022
3. **Treinamento**: Modelo final LightGBM com dados completos
4. **Predi√ß√£o**: Gera√ß√£o de features para janeiro/2023 e previs√µes finais
5. **Submiss√£o**: Arquivos finais em CSV e Parquet prontos para envio

In [None]:
import pandas as pd
import numpy as np
import pickle
import warnings
warnings.filterwarnings('ignore')

# ML Libraries
from sklearn.model_selection import train_test_split, TimeSeriesSplit
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression

# Advanced ML
import lightgbm as lgb
from lightgbm.callback import early_stopping  # CORRE√á√ÉO: Importar early_stopping
import xgboost as xgb

# Visualization
import matplotlib.pyplot as plt
import seaborn as sns

# Time series
from datetime import datetime, timedelta
import gc

plt.style.use('default')
sns.set_palette("husl")

print('üìö Bibliotecas carregadas com sucesso!')
print('üéØ Iniciando fase de Modelagem e Treinamento')

## 1. Carregamento dos Dados Processados

In [None]:
# Carregar dados com features processadas
print('üìÇ Carregando dados processados...')

# Verificar se os arquivos essenciais existem
import os
required_files = [
    '../data/dados_features_completo.parquet',  # Usar parquet (mais r√°pido)
    '../data/feature_engineering_metadata.pkl'
]

missing_files = [f for f in required_files if not os.path.exists(f)]
if missing_files:
    print('‚ùå Arquivos n√£o encontrados:')
    for f in missing_files:
        print(f'   ‚Ä¢ {f}')
    print('\nüîÑ Execute primeiro o notebook 02-Feature-Engineering-Dask.ipynb')
else:
    print('‚úÖ Todos os arquivos necess√°rios encontrados')
    
    # Carregar dados principais (usar parquet para velocidade)
    print('üìä Carregando dataset (parquet)...')
    dados = pd.read_parquet('../data/dados_features_completo.parquet')
    
    # Carregar metadados
    with open('../data/feature_engineering_metadata.pkl', 'rb') as f:
        metadata = pickle.load(f)
    
    print(f'\nüìä Dados carregados com sucesso:')
    print(f'   ‚Ä¢ Shape: {dados.shape}')
    print(f'   ‚Ä¢ Per√≠odo: {dados["semana"].min()} at√© {dados["semana"].max()}')
    print(f'   ‚Ä¢ Features dispon√≠veis: {len(dados.columns)}')
    print(f'   ‚Ä¢ Mem√≥ria: {dados.memory_usage(deep=True).sum() / (1024**2):.1f} MB')
    print(f'   ‚Ä¢ Estrat√©gia: {metadata.get("estrategia", "Grid Inteligente")}')
    
    print(f'\nüîç Metadados do processamento:')
    for key, value in metadata.items():
        if key not in ['features_criadas', 'data_processamento']:  # Skip long items
            print(f'   ‚Ä¢ {key}: {value}')
    
    print(f'\n‚úÖ Pronto para modelagem!')

## 2. Prepara√ß√£o dos Dados para ML

In [None]:
# Definir vari√°vel target e features
target = 'quantidade'

# Features a excluir (n√£o devem ser usadas para predi√ß√£o)
exclude_features = [
    'pdv_id', 'produto_id', 'semana',  # IDs e data
    'quantidade',  # Target
    'valor', 'num_transacoes',  # Features que vazam informa√ß√£o do futuro
]

# Identificar features dispon√≠veis
all_features = [col for col in dados.columns if col not in exclude_features]

print(f'üéØ Prepara√ß√£o dos dados:')
print(f'   ‚Ä¢ Target: {target}')
print(f'   ‚Ä¢ Features dispon√≠veis: {len(all_features)}')
print(f'   ‚Ä¢ Features exclu√≠das: {len(exclude_features)}')

# Verificar missing values nas features
missing_features = dados[all_features].isnull().sum()
missing_features = missing_features[missing_features > 0].sort_values(ascending=False)

if len(missing_features) > 0:
    print(f'\n‚ö†Ô∏è Features com valores missing:')
    for feature, count in missing_features.head(10).items():
        pct = (count / len(dados)) * 100
        print(f'   ‚Ä¢ {feature}: {count:,} ({pct:.1f}%)')
    
    print(f'\nüß† Estrat√©gia de Tratamento Inteligente:')
    print('   ‚Ä¢ distributor_id (categ√≥rica): NaN ‚Üí -1 (venda direta)')
    print('   ‚Ä¢ Features num√©ricas: NaN ‚Üí 0 (aus√™ncia = zero)')
    print('   ‚Ä¢ LightGBM aprender√° padr√µes espec√≠ficos para valores -1/0')
else:
    print('\n‚úÖ Nenhum valor missing nas features')

print(f'\nüìã Features finais para modelagem: {len(all_features)}')
print('üí° Missing values ser√£o tratados como informa√ß√£o, n√£o removidos')

In [None]:
# PIPELINE FINAL: Otimiza√ß√£o de Mem√≥ria + Prepara√ß√£o dos Dados Completos
print('üß† Preparando dados de treino com o ano de 2022 completo...')
print('üöÄ Estrat√©gia: Usar todos os dados dispon√≠veis para o modelo final')

# PASSO 1: Inspecionar uso de mem√≥ria atual
print(f'\nüîç ANTES da otimiza√ß√£o:')
memory_before = dados.memory_usage(deep=True).sum() / (1024**3)
print(f'üíæ Mem√≥ria total: {memory_before:.2f} GB')

# PASSO 2: Aplicar Downcasting Inteligente
print(f'\nüöÄ Aplicando Downcasting...')

# Fazer uma c√≥pia para otimiza√ß√£o
dados_sorted = dados.copy()

# Otimizar colunas num√©ricas (inteiros e floats)
for col in dados_sorted.select_dtypes(include=[np.number]).columns:
    original_dtype = dados_sorted[col].dtype
    
    if dados_sorted[col].dtype.kind in ['i', 'u']:  # Inteiros
        dados_sorted[col] = pd.to_numeric(dados_sorted[col], downcast='integer')
    else:  # Floats
        dados_sorted[col] = pd.to_numeric(dados_sorted[col], downcast='float')
    
    new_dtype = dados_sorted[col].dtype
    if original_dtype != new_dtype:
        print(f'   ‚Ä¢ {col}: {original_dtype} ‚Üí {new_dtype}')

# Otimizar colunas categ√≥ricas
for col in dados_sorted.select_dtypes(include=['object']).columns:
    if col not in ['semana']:  # Preservar datetime
        nunique = dados_sorted[col].nunique()
        total_rows = len(dados_sorted)
        if nunique / total_rows < 0.5:  # Se <50% valores √∫nicos, usar category
            dados_sorted[col] = dados_sorted[col].astype('category')
            print(f'   ‚Ä¢ {col}: object ‚Üí category')

print(f'‚úÖ Downcasting conclu√≠do!')

# PASSO 3: Verificar resultado da otimiza√ß√£o
memory_after = dados_sorted.memory_usage(deep=True).sum() / (1024**3)
memory_reduction = (memory_before - memory_after) / memory_before * 100
print(f'\nüìä DEPOIS da otimiza√ß√£o:')
print(f'üíæ Mem√≥ria total: {memory_after:.2f} GB')
print(f'üéØ Redu√ß√£o: {memory_reduction:.1f}% ({memory_before-memory_after:.2f} GB economizados)')

# PASSO 4: Tratamento de missing values
print(f'\nüß† Tratamento inteligente de missing values...')
all_features = [col for col in dados_sorted.columns if col not in ['pdv_id', 'produto_id', 'semana', 'quantidade', 'valor', 'num_transacoes']]

for col in all_features:
    missing_count = dados_sorted[col].isnull().sum()
    if missing_count > 0:
        if col == 'distributor_id':
            # Adicionar -1 ao "menu" de categorias primeiro
            if dados_sorted[col].dtype.name == 'category':
                if -1 not in dados_sorted[col].cat.categories:
                    dados_sorted[col] = dados_sorted[col].cat.add_categories([-1])
            
            dados_sorted[col] = dados_sorted[col].fillna(-1)
            print(f'   ‚Ä¢ {col}: {missing_count:,} NaN ‚Üí -1 (venda direta)')
            
        elif dados_sorted[col].dtype.kind in ['i', 'u', 'f']:
            dados_sorted[col] = dados_sorted[col].fillna(0)
            print(f'   ‚Ä¢ {col}: {missing_count:,} NaN ‚Üí 0 (aus√™ncia)')

# PASSO 5: Preparar dados COMPLETOS para modelagem (SEM divis√£o treino/valida√ß√£o)
print(f'\nüéØ Preparando dados completos para o modelo final...')

# Usar todos os dados de 2022 para o treino final
X_full = dados_sorted[all_features]
y_full = dados_sorted[target]

print(f'‚úÖ Dados de treino preparados:')
print(f'   ‚Ä¢ X_full shape: {X_full.shape}')
print(f'   ‚Ä¢ y_full shape: {y_full.shape}')
print(f'   ‚Ä¢ Per√≠odo: {dados_sorted["semana"].min()} at√© {dados_sorted["semana"].max()}')
print(f'   ‚Ä¢ Mem√≥ria X_full: {X_full.memory_usage(deep=True).sum() / (1024**2):.1f} MB')

# Limpeza de mem√≥ria
import gc
del dados
gc.collect()

print(f'\nüéâ SUCESSO! Dados preparados para treinamento final:')
print(f'   ‚úÖ Dataset completo de 2022: {len(dados_sorted):,} registros')
print(f'   ‚úÖ Features otimizadas: {len(all_features)}')
print(f'   ‚úÖ Mem√≥ria otimizada: {memory_reduction:.1f}% de redu√ß√£o')
print(f'   ‚úÖ Pronto para treinar modelo final!')

In [None]:
# TREINAMENTO DO MODELO FINAL
print('üöÄ Treinando o modelo LightGBM final com todos os dados de 2022...')
print('=' * 60)

# Par√¢metros do LightGBM (baseado nos experimentos do notebook 03)
lgb_params_final = {
    'objective': 'regression_l1',  # MAE - melhor para WMAPE
    'metric': 'mae',
    'boosting_type': 'gbdt',
    'verbosity': -1,
    'random_state': 42,
    'n_jobs': -1
}

print(f'\nüìã Configura√ß√£o do modelo final:')
for param, value in lgb_params_final.items():
    print(f'   ‚Ä¢ {param}: {value}')

# Criar o dataset LightGBM com todos os dados
print(f'\nüìä Preparando dados para treinamento...')
train_full_lgb = lgb.Dataset(X_full, label=y_full)

print(f'   ‚Ä¢ Dados shape: {X_full.shape}')
print(f'   ‚Ä¢ Features: {len(all_features)}')
print(f'   ‚Ä¢ Target: {target}')

# O n√∫mero de itera√ß√µes ideais foi encontrado no notebook 03 (ajustar conforme seus experimentos)
# Usar um n√∫mero fixo baseado nos experimentos anteriores
best_iteration = 200  # Substitua pelo valor encontrado nos seus experimentos

print(f'\nüîÑ Treinando modelo final com {best_iteration} itera√ß√µes...')

# CORRE√á√ÉO: Removido o par√¢metro "verbose_eval" que causava o erro
final_model = lgb.train(
    lgb_params_final,
    train_full_lgb,
    num_boost_round=best_iteration
)

print(f'‚úÖ Modelo final treinado com sucesso!')

# Salvar o modelo
import pickle
import os
os.makedirs('../data', exist_ok=True)

with open('../data/final_lightgbm_model.pkl', 'wb') as f:
    pickle.dump(final_model, f)

print('üíæ Modelo salvo em: ../data/final_lightgbm_model.pkl')

# Informa√ß√µes do modelo
print(f'\nüìà Informa√ß√µes do modelo final:')
print(f'   ‚Ä¢ N√∫mero de √°rvores: {final_model.num_trees()}')
print(f'   ‚Ä¢ Features utilizadas: {len(all_features)}')
print(f'   ‚Ä¢ Dados de treino: {len(y_full):,} registros')
print(f'   ‚Ä¢ Per√≠odo de treino: Todo o ano de 2022')
print(f'   ‚Ä¢ Pronto para predi√ß√µes!')

## 3. Gera√ß√£o de Features para Janeiro/2023

In [None]:
# GERA√á√ÉO DE FEATURES PARA JANEIRO/2023
print('üìÖ Criando grid de dados para as 5 semanas de janeiro/2023...')
print('üéØ Estrat√©gia: Criar template para todas as combina√ß√µes PDV/Produto')

# PASSO 1: Obter todas as combina√ß√µes √∫nicas e suas informa√ß√µes do hist√≥rico
print('\nüîç Extraindo informa√ß√µes √∫nicas de PDV/Produto do hist√≥rico...')
# CORRE√á√ÉO: Usar 'dados_sorted' como fonte √∫nica de verdade para informa√ß√µes est√°ticas
available_cols = [col for col in ['pdv_id', 'produto_id', 'uf', 'distributor_id', 'brand'] if col in dados_sorted.columns]
info_basica_df = dados_sorted[available_cols].drop_duplicates(subset=['pdv_id', 'produto_id'])
print(f'   ‚Ä¢ Total de combina√ß√µes √∫nicas com informa√ß√µes: {len(info_basica_df):,}')
print(f'   ‚Ä¢ Colunas dispon√≠veis: {available_cols}')

# PASSO 2: Definir as 5 semanas de janeiro de 2023
print('\nüìÖ Definindo as 5 semanas de janeiro/2023...')
prediction_weeks = pd.to_datetime(['2023-01-03', '2023-01-10', '2023-01-17', '2023-01-24', '2023-01-31'])
print(f'   ‚Ä¢ Semanas: {[w.strftime("%Y-%m-%d") for w in prediction_weeks]}')

# PASSO 3: Criar o grid de teste (todas as combina√ß√µes x todas as semanas)
print('\nüèóÔ∏è Construindo grid de teste...')
test_grid_list = []
for week in prediction_weeks:
    combo_week = info_basica_df.copy()
    combo_week['semana'] = week
    test_grid_list.append(combo_week)

test_grid = pd.concat(test_grid_list, ignore_index=True)
print(f'   ‚Ä¢ Grid shape: {test_grid.shape}')
print(f'   ‚Ä¢ Total de predi√ß√µes: {len(test_grid):,}')

# PASSO 4: Adicionar features temporais
print('\nüîß Gerando features temporais...')
test_grid['ano'] = test_grid['semana'].dt.year
test_grid['mes'] = test_grid['semana'].dt.month
test_grid['semana_ano'] = test_grid['semana'].dt.isocalendar().week
test_grid['dia_ano'] = test_grid['semana'].dt.dayofyear

# Features temporais trigonom√©tricas (se existirem no treino)
if 'mes_sin' in all_features:
    test_grid['mes_sin'] = np.sin(2 * np.pi * test_grid['mes']/12)
    test_grid['mes_cos'] = np.cos(2 * np.pi * test_grid['mes']/12)

print('   ‚Ä¢ Features temporais adicionadas')

# PASSO 5: Calcular lags e rolling windows (usando dados_sorted como hist√≥rico)
print('\nüìä Calculando features de lag e estat√≠sticas hist√≥ricas...')

# Para cada combina√ß√£o PDV/Produto, calcular estat√≠sticas do hist√≥rico
historical_stats = dados_sorted.groupby(['pdv_id', 'produto_id'])['quantidade'].agg([
    'mean', 'std', 'min', 'max', 'count'
]).reset_index()
historical_stats.columns = ['pdv_id', 'produto_id', 'hist_mean', 'hist_std', 'hist_min', 'hist_max', 'hist_count']

# Merge com estat√≠sticas hist√≥ricas
test_grid = test_grid.merge(historical_stats, on=['pdv_id', 'produto_id'], how='left')

# Para os lags, vamos usar as √∫ltimas semanas de 2022
print('   ‚Ä¢ Calculando lags das √∫ltimas semanas de 2022...')
last_week_2022 = dados_sorted[dados_sorted['semana'] == dados_sorted['semana'].max()]
last_week_stats = last_week_2022[['pdv_id', 'produto_id', 'quantidade']].rename(columns={'quantidade': 'quantidade_lag_1'})
test_grid = test_grid.merge(last_week_stats, on=['pdv_id', 'produto_id'], how='left')

# Calcular mais lags se existirem no treino
unique_weeks = sorted(dados_sorted['semana'].unique(), reverse=True)
for lag in range(2, min(5, len(unique_weeks) + 1)):  # at√© lag_4
    if f'quantidade_lag_{lag}' in all_features:
        week_data = dados_sorted[dados_sorted['semana'] == unique_weeks[lag-1]]
        lag_stats = week_data[['pdv_id', 'produto_id', 'quantidade']].rename(columns={'quantidade': f'quantidade_lag_{lag}'})
        test_grid = test_grid.merge(lag_stats, on=['pdv_id', 'produto_id'], how='left')

# Rolling features (se existirem no treino)
lag_cols = [f'quantidade_lag_{i}' for i in range(1, 5) if f'quantidade_lag_{i}' in test_grid.columns]
if len(lag_cols) > 1:
    test_grid['quantidade_media_4w'] = test_grid[lag_cols].mean(axis=1)
    test_grid['quantidade_std_4w'] = test_grid[lag_cols].std(axis=1)
    test_grid['quantidade_max_4w'] = test_grid[lag_cols].max(axis=1)
    test_grid['quantidade_min_4w'] = test_grid[lag_cols].min(axis=1)

print('   ‚Ä¢ Features de lag e rolling adicionadas')

# PASSO 6: Preencher valores ausentes e finalizar
print('\nüîß Finalizando e preenchendo valores ausentes...')

# Identificar colunas num√©ricas para preencher com 0
numeric_cols = test_grid.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    test_grid[col] = test_grid[col].fillna(0)

# Tratar distributor_id especificamente
if 'distributor_id' in test_grid.columns:
    if test_grid['distributor_id'].dtype.name == 'category':
        if -1 not in test_grid['distributor_id'].cat.categories:
            test_grid['distributor_id'] = test_grid['distributor_id'].cat.add_categories([-1])
    test_grid['distributor_id'] = test_grid['distributor_id'].fillna(-1)

print(f'\n‚úÖ Features para janeiro/2023 geradas com sucesso!')
print(f'   ‚Ä¢ Grid final: {test_grid.shape}')
print(f'   ‚Ä¢ Colunas: {len(test_grid.columns)}')
print(f'   ‚Ä¢ Pronto para predi√ß√µes!')

## 4. Predi√ß√µes e Gera√ß√£o dos Arquivos de Submiss√£o

In [None]:
# PREDI√á√ïES FINAIS E GERA√á√ÉO DE SUBMISS√ÉO
print('üöÄ Realizando predi√ß√µes para janeiro/2023...')
print('üéØ Usando modelo final treinado com todo o dataset de 2022')

# PASSO 1: Preparar dados de teste com as mesmas features do treino
print('\nüîß Preparando dados de teste...')

# Identificar features que existem tanto no treino quanto no teste
available_test_features = [col for col in all_features if col in test_grid.columns]
missing_features = [col for col in all_features if col not in test_grid.columns]

print(f'   ‚Ä¢ Features dispon√≠veis no teste: {len(available_test_features)}')
if missing_features:
    print(f'   ‚ö†Ô∏è Features ausentes no teste: {len(missing_features)}')
    print(f'     Criando com valores padr√£o: {missing_features[:5]}...')
    
    # Criar features ausentes com valores padr√£o (0 ou -1)
    for feature in missing_features:
        if 'distributor' in feature or 'id' in feature:
            test_grid[feature] = -1
        else:
            test_grid[feature] = 0

# Selecionar apenas as features que foram usadas no treinamento
X_test = test_grid[all_features]

print(f'   ‚Ä¢ X_test shape: {X_test.shape}')
print(f'   ‚Ä¢ Features utilizadas: {len(all_features)}')

# PASSO 2: Aplicar o mesmo tratamento de tipos de dados
print('\nüîß Aplicando otimiza√ß√µes de tipos de dados...')
for col in X_test.select_dtypes(include=[np.number]).columns:
    if X_test[col].dtype.kind in ['i', 'u']:  # Inteiros
        X_test[col] = pd.to_numeric(X_test[col], downcast='integer')
    else:  # Floats
        X_test[col] = pd.to_numeric(X_test[col], downcast='float')

# PASSO 3: Gerar predi√ß√µes
print('\nüéØ Gerando predi√ß√µes...')
predictions = final_model.predict(X_test)

# Garantir que as previs√µes n√£o sejam negativas e arredondar para inteiros
predictions = np.maximum(0, predictions).round().astype(int)

print(f'   ‚Ä¢ Predi√ß√µes geradas: {len(predictions):,}')
print(f'   ‚Ä¢ Range: {predictions.min()} - {predictions.max()}')
print(f'   ‚Ä¢ M√©dia: {predictions.mean():.2f}')
print(f'   ‚Ä¢ Zeros: {(predictions == 0).sum():,} ({(predictions == 0).mean()*100:.1f}%)')

# PASSO 4: Criar o DataFrame de submiss√£o
print('\nüìã Criando DataFrame de submiss√£o...')

# Preparar dados para submiss√£o
submission_df = test_grid[['semana', 'pdv_id', 'produto_id']].copy()
submission_df['quantidade'] = predictions

# Converter semana para formato num√©rico (semana 1-5 de janeiro)
submission_df['semana_num'] = submission_df['semana'].dt.isocalendar().week
# Como s√£o as semanas 1-5 de janeiro de 2023, ajustar numera√ß√£o
primeira_semana = submission_df['semana_num'].min()
submission_df['semana'] = submission_df['semana_num'] - primeira_semana + 1

# Renomear colunas para o padr√£o da submiss√£o
submission_df = submission_df.rename(columns={
    'semana': 'semana',
    'pdv_id': 'pdv', 
    'produto_id': 'produto'
})

# Selecionar apenas as colunas finais
submission_df = submission_df[['semana', 'pdv', 'produto', 'quantidade']]

print(f'   ‚Ä¢ DataFrame de submiss√£o criado: {submission_df.shape}')
print(f'   ‚Ä¢ Colunas: {list(submission_df.columns)}')
print(f'   ‚Ä¢ Semanas: {sorted(submission_df["semana"].unique())}')

print(f'\\nüìä Estat√≠sticas da submiss√£o:')
for semana in sorted(submission_df['semana'].unique()):
    week_data = submission_df[submission_df['semana'] == semana]['quantidade']
    print(f'   ‚Ä¢ Semana {semana}: {len(week_data):,} predi√ß√µes, m√©dia: {week_data.mean():.1f}')

print(f'\\n‚úÖ Dados de submiss√£o preparados!')

In [None]:
# SALVAMENTO DOS ARQUIVOS DE SUBMISS√ÉO
print('üíæ Salvando arquivos de submiss√£o...')
print('üéØ Formatos: CSV (com separador ;) e Parquet')

# PASSO 1: Criar pasta de submiss√£o
output_dir = '../submissions'
os.makedirs(output_dir, exist_ok=True)
print(f'   ‚Ä¢ Pasta criada: {output_dir}')

# PASSO 2: Validar DataFrame antes de salvar
print(f'\nüîç Valida√ß√£o final do DataFrame:')
print(f'   ‚Ä¢ Shape: {submission_df.shape}')
print(f'   ‚Ä¢ Colunas: {list(submission_df.columns)}')
print(f'   ‚Ä¢ Tipos: {submission_df.dtypes.to_dict()}')
print(f'   ‚Ä¢ Missing values: {submission_df.isnull().sum().sum()}')
print(f'   ‚Ä¢ Valores negativos: {(submission_df["quantidade"] < 0).sum()}')

# Verificar se h√° problemas
if submission_df.isnull().sum().sum() > 0:
    print('   ‚ö†Ô∏è H√° valores missing - preenchendo com 0')
    submission_df = submission_df.fillna(0)

if (submission_df["quantidade"] < 0).sum() > 0:
    print('   ‚ö†Ô∏è H√° valores negativos - convertendo para 0')
    submission_df["quantidade"] = submission_df["quantidade"].clip(lower=0)

# PASSO 3: Salvar no formato CSV
csv_path = os.path.join(output_dir, 'submission.csv')
submission_df.to_csv(
    csv_path,
    sep=';',  # Separador conforme especifica√ß√£o
    index=False,
    encoding='utf-8'
)
print(f'   ‚Ä¢ Arquivo CSV salvo: {csv_path}')

# PASSO 4: Salvar no formato Parquet
parquet_path = os.path.join(output_dir, 'submission.parquet')
submission_df.to_parquet(parquet_path, index=False)
print(f'   ‚Ä¢ Arquivo Parquet salvo: {parquet_path}')

# PASSO 5: Verificar arquivos salvos
import os
csv_size = os.path.getsize(csv_path) / (1024**2)  # MB
parquet_size = os.path.getsize(parquet_path) / (1024**2)  # MB

print(f'\nüìÅ Arquivos de submiss√£o gerados:')
print(f'   ‚Ä¢ CSV: {csv_path} ({csv_size:.1f} MB)')
print(f'   ‚Ä¢ Parquet: {parquet_path} ({parquet_size:.1f} MB)')

# PASSO 6: Visualizar algumas linhas do resultado
print(f'\nüëÄ Preview da submiss√£o (primeiras 10 linhas):')
print(submission_df.head(10).to_string(index=False))

print(f'\nüéâ PROCESSO FINALIZADO!')
print(f'=' * 60)
print(f'‚úÖ Modelo LightGBM treinado com {len(y_full):,} registros de 2022')
print(f'‚úÖ Predi√ß√µes geradas para {len(submission_df):,} combina√ß√µes')
print(f'‚úÖ Arquivos de submiss√£o salvos em: {output_dir}')
print(f'‚úÖ Formatos: CSV (;) e Parquet')
print(f'')
print(f'üöÄ PR√ìXIMOS PASSOS:')
print(f'   1. Validar os arquivos gerados')
print(f'   2. Fazer upload conforme regulamento do hackathon')
print(f'   3. Acompanhar resultados na plataforma')
print(f'')
print(f'üèÜ Boa sorte no hackathon!')