# ü§ñ Modelagem - Previs√£o de Vendas Botic√°rio

Este notebook cont√©m a implementa√ß√£o completa da modelagem para previs√£o de vendas, incluindo feature engineering, sele√ß√£o de vari√°veis, teste de m√∫ltiplos algoritmos e avalia√ß√£o do modelo final.

## üéØ Objetivos
- Preparar dados para modelagem (feature engineering)
- Selecionar vari√°veis relevantes
- Testar pelo menos 8 modelos diferentes
- Comparar performance e selecionar o melhor
- Avaliar e interpretar resultados

In [1]:
# Importando bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import pickle
import warnings
warnings.filterwarnings('ignore')

# Bibliotecas de machine learning
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Modelos lineares
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet

# Modelos de √°rvore
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, ExtraTreesRegressor

# Modelos avan√ßados
import xgboost as xgb
import lightgbm as lgb

# Outros modelos
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neural_network import MLPRegressor

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (15, 8)
plt.rcParams['font.size'] = 12

print("‚úÖ Bibliotecas importadas com sucesso!")

‚úÖ Bibliotecas importadas com sucesso!


## 1. üì• Carregamento dos Dados

In [2]:
# Carregando dados limpos da an√°lise explorat√≥ria
print("üìÇ Carregando dataset limpo...")
df = pd.read_csv('C:/Users/leand/Desktop/desafio_boti/dataset_limpo.csv')

print(f"üìä Shape do dataset: {df.shape}")
print(f"üìã Colunas: {list(df.columns)}")
print(f"üéØ Vari√°vel target: QT_VENDA_BRUTO")

df.head()

üìÇ Carregando dataset limpo...
üìä Shape do dataset: (173923, 21)
üìã Colunas: ['COD_CICLO', 'FLG_DATA', 'COD_MATERIAL', 'COD_CANAL', 'DES_CATEGORIA_MATERIAL', 'DES_MARCA_MATERIAL', 'COD_REGIAO', 'QT_VENDA_BRUTO', 'QT_DEVOLUCAO', 'VL_RECEITA_BRUTA', 'VL_RECEITA_LIQUIDA', 'FLG_CAMPANHA_MKT_A', 'FLG_CAMPANHA_MKT_B', 'FLG_CAMPANHA_MKT_C', 'FLG_CAMPANHA_MKT_D', 'FLG_CAMPANHA_MKT_E', 'PCT_DESCONTO', 'VL_PRECO', 'ANO', 'PERIODO', 'TOTAL_CAMPANHAS']
üéØ Vari√°vel target: QT_VENDA_BRUTO


Unnamed: 0,COD_CICLO,FLG_DATA,COD_MATERIAL,COD_CANAL,DES_CATEGORIA_MATERIAL,DES_MARCA_MATERIAL,COD_REGIAO,QT_VENDA_BRUTO,QT_DEVOLUCAO,VL_RECEITA_BRUTA,...,FLG_CAMPANHA_MKT_A,FLG_CAMPANHA_MKT_B,FLG_CAMPANHA_MKT_C,FLG_CAMPANHA_MKT_D,FLG_CAMPANHA_MKT_E,PCT_DESCONTO,VL_PRECO,ANO,PERIODO,TOTAL_CAMPANHAS
0,201917,1,431148,anon_S0,anon_S2,anon_S3,anon_S1,11934.0,414.0,431869.08,...,0,0,0,0,0,,455.4,2019,17,0
1,202005,0,177816,anon_S0,anon_S2,anon_S4,anon_S1,540.0,252.0,27743.4,...,0,0,0,0,0,,773.4,2020,5,0
2,201901,0,171786,anon_S0,anon_S5,anon_S6,anon_S1,54012.0,1410.0,962860.2,...,0,1,0,0,0,35.0,341.4,2019,1,1
3,201813,0,177774,anon_S7,anon_S2,anon_S8,anon_S1,438.0,,7608.6,...,0,0,0,0,0,,450.9,2018,13,0
4,202006,1,446592,anon_S0,anon_S5,anon_S9,anon_S1,2760.0,240.0,83339.4,...,0,0,0,0,0,,431.4,2020,6,0


## 2. üîß Feature Engineering

In [3]:
# Fun√ß√£o para extrair informa√ß√µes do ciclo
def parse_ciclo(ciclo):
    ciclo_str = str(ciclo)
    ano = int(ciclo_str[:4])
    periodo = int(ciclo_str[4:])
    return ano, periodo

print("üîß FEATURE ENGINEERING")
print("=" * 50)

# Criando c√≥pia para feature engineering
df_features = df.copy()

# 1. Features temporais
print("üìÖ Criando features temporais...")
df_features['ANO'] = df_features['COD_CICLO'].apply(lambda x: parse_ciclo(x)[0])
df_features['PERIODO'] = df_features['COD_CICLO'].apply(lambda x: parse_ciclo(x)[1])

# Normaliza√ß√£o do ano
df_features['ANO_NORMALIZADO'] = (df_features['ANO'] - df_features['ANO'].min()) / (df_features['ANO'].max() - df_features['ANO'].min())

# Componentes sazonais
df_features['PERIODO_SIN'] = np.sin(2 * np.pi * df_features['PERIODO'] / 18)
df_features['PERIODO_COS'] = np.cos(2 * np.pi * df_features['PERIODO'] / 18)

print("‚úÖ Features temporais criadas!")

üîß FEATURE ENGINEERING
üìÖ Criando features temporais...
‚úÖ Features temporais criadas!


In [4]:
# 2. Features de intera√ß√£o
print("üîó Criando features de intera√ß√£o...")

# Pre√ßo com desconto
df_features['PRECO_X_DESCONTO'] = df_features['VL_PRECO'] * df_features['PCT_DESCONTO'].fillna(0)

# Receita por unidade
df_features['RECEITA_POR_UNIDADE'] = df_features['VL_RECEITA_BRUTA'] / df_features['QT_VENDA_BRUTO']

# Taxa de devolu√ß√£o
df_features['TAXA_DEVOLUCAO'] = df_features['QT_DEVOLUCAO'].fillna(0) / df_features['QT_VENDA_BRUTO']

print("‚úÖ Features de intera√ß√£o criadas!")

üîó Criando features de intera√ß√£o...
‚úÖ Features de intera√ß√£o criadas!


In [5]:
# 3. Features de campanhas
print("üì¢ Criando features de campanhas...")

campanhas = ['FLG_CAMPANHA_MKT_A', 'FLG_CAMPANHA_MKT_B', 'FLG_CAMPANHA_MKT_C', 'FLG_CAMPANHA_MKT_D', 'FLG_CAMPANHA_MKT_E']
df_features['TOTAL_CAMPANHAS'] = df_features[campanhas].sum(axis=1)
df_features['TEM_CAMPANHA'] = (df_features['TOTAL_CAMPANHAS'] > 0).astype(int)

print("‚úÖ Features de campanhas criadas!")

üì¢ Criando features de campanhas...
‚úÖ Features de campanhas criadas!


In [6]:
# 4. Features de agrega√ß√£o por produto
print("üì¶ Criando features de agrega√ß√£o por produto...")

produto_stats = df_features.groupby('COD_MATERIAL')['QT_VENDA_BRUTO'].agg(['mean', 'std', 'count']).reset_index()
produto_stats.columns = ['COD_MATERIAL', 'PRODUTO_VENDA_MEDIA', 'PRODUTO_VENDA_STD', 'PRODUTO_FREQ']
df_features = df_features.merge(produto_stats, on='COD_MATERIAL', how='left')

print("‚úÖ Features de produto criadas!")

üì¶ Criando features de agrega√ß√£o por produto...
‚úÖ Features de produto criadas!


In [7]:
# 5. Features de agrega√ß√£o por categoria
print("üè∑Ô∏è Criando features de agrega√ß√£o por categoria...")

categoria_stats = df_features.groupby('DES_CATEGORIA_MATERIAL')['QT_VENDA_BRUTO'].agg(['mean', 'std']).reset_index()
categoria_stats.columns = ['DES_CATEGORIA_MATERIAL', 'CATEGORIA_VENDA_MEDIA', 'CATEGORIA_VENDA_STD']
df_features = df_features.merge(categoria_stats, on='DES_CATEGORIA_MATERIAL', how='left')

print("‚úÖ Features de categoria criadas!")

üè∑Ô∏è Criando features de agrega√ß√£o por categoria...
‚úÖ Features de categoria criadas!


In [8]:
# 6. Features de lag temporal
print("‚è∞ Criando features de lag temporal...")

# Ordenando por produto e ciclo
df_features_sorted = df_features.sort_values(['COD_MATERIAL', 'COD_CICLO'])

# Lags de vendas
df_features_sorted['VENDAS_LAG1'] = df_features_sorted.groupby('COD_MATERIAL')['QT_VENDA_BRUTO'].shift(1)
df_features_sorted['VENDAS_LAG2'] = df_features_sorted.groupby('COD_MATERIAL')['QT_VENDA_BRUTO'].shift(2)

# M√©dias m√≥veis
df_features_sorted['VENDAS_MA3'] = df_features_sorted.groupby('COD_MATERIAL')['QT_VENDA_BRUTO'].rolling(window=3, min_periods=1).mean().reset_index(0, drop=True)
df_features_sorted['VENDAS_MA6'] = df_features_sorted.groupby('COD_MATERIAL')['QT_VENDA_BRUTO'].rolling(window=6, min_periods=1).mean().reset_index(0, drop=True)

print("‚úÖ Features de lag criadas!")

# Atualizando dataframe principal
df_features = df_features_sorted.copy()

print(f"\nüìä Shape ap√≥s feature engineering: {df_features.shape}")

‚è∞ Criando features de lag temporal...
‚úÖ Features de lag criadas!

üìä Shape ap√≥s feature engineering: (173923, 37)


In [9]:
# Lista de novas features criadas
new_features = [
    'ANO', 'PERIODO', 'ANO_NORMALIZADO', 'PERIODO_SIN', 'PERIODO_COS',
    'PRECO_X_DESCONTO', 'RECEITA_POR_UNIDADE', 'TAXA_DEVOLUCAO',
    'TOTAL_CAMPANHAS', 'TEM_CAMPANHA',
    'PRODUTO_VENDA_MEDIA', 'PRODUTO_VENDA_STD', 'PRODUTO_FREQ',
    'CATEGORIA_VENDA_MEDIA', 'CATEGORIA_VENDA_STD',
    'VENDAS_LAG1', 'VENDAS_LAG2', 'VENDAS_MA3', 'VENDAS_MA6'
]

print("üÜï FEATURES CRIADAS:")
print("=" * 50)
for i, feature in enumerate(new_features, 1):
    print(f"{i:2d}. {feature}")

print(f"\nüìä Total de novas features: {len(new_features)}")

üÜï FEATURES CRIADAS:
 1. ANO
 2. PERIODO
 3. ANO_NORMALIZADO
 4. PERIODO_SIN
 5. PERIODO_COS
 6. PRECO_X_DESCONTO
 7. RECEITA_POR_UNIDADE
 8. TAXA_DEVOLUCAO
 9. TOTAL_CAMPANHAS
10. TEM_CAMPANHA
11. PRODUTO_VENDA_MEDIA
12. PRODUTO_VENDA_STD
13. PRODUTO_FREQ
14. CATEGORIA_VENDA_MEDIA
15. CATEGORIA_VENDA_STD
16. VENDAS_LAG1
17. VENDAS_LAG2
18. VENDAS_MA3
19. VENDAS_MA6

üìä Total de novas features: 19


## 3. üîó An√°lise de Correla√ß√µes e Sele√ß√£o de Vari√°veis

In [10]:
print("üîó AN√ÅLISE DE CORRELA√á√ïES")
print("=" * 50)

# Criando vari√°veis dummy para categ√≥ricas
categorical_cols = ['COD_CANAL', 'DES_CATEGORIA_MATERIAL', 'DES_MARCA_MATERIAL', 'COD_REGIAO']

df_corr = df_features.copy()
for col in categorical_cols:
    dummies = pd.get_dummies(df_corr[col], prefix=col)
    df_corr = pd.concat([df_corr, dummies], axis=1)

# Selecionando apenas vari√°veis num√©ricas
numeric_cols = df_corr.select_dtypes(include=[np.number]).columns.tolist()

# Removendo ID do material (n√£o √© feature √∫til)
numeric_cols = [col for col in numeric_cols if col != 'COD_MATERIAL']

print(f"üìä Vari√°veis num√©ricas para an√°lise: {len(numeric_cols)}")

# Calculando matriz de correla√ß√£o
correlation_matrix = df_corr[numeric_cols].corr()

# Correla√ß√£o com a vari√°vel target
target_correlations = correlation_matrix['QT_VENDA_BRUTO'].abs().sort_values(ascending=False)

print("\nüéØ TOP 15 CORRELA√á√ïES COM QT_VENDA_BRUTO:")
for i, (var, corr) in enumerate(target_correlations.head(15).items(), 1):
    if var != 'QT_VENDA_BRUTO':
        print(f"{i:2d}. {var:<30}: {corr:.4f}")

üîó AN√ÅLISE DE CORRELA√á√ïES
üìä Vari√°veis num√©ricas para an√°lise: 32

üéØ TOP 15 CORRELA√á√ïES COM QT_VENDA_BRUTO:
 2. VL_RECEITA_BRUTA              : 0.9068
 3. VL_RECEITA_LIQUIDA            : 0.9056
 4. VENDAS_MA3                    : 0.8191
 5. VENDAS_MA6                    : 0.7068
 6. QT_DEVOLUCAO                  : 0.6922
 7. PRODUTO_VENDA_MEDIA           : 0.5689
 8. PRODUTO_VENDA_STD             : 0.5444
 9. VENDAS_LAG1                   : 0.4928
10. VENDAS_LAG2                   : 0.4914
11. PRECO_X_DESCONTO              : 0.3064
12. TOTAL_CAMPANHAS               : 0.2802
13. TEM_CAMPANHA                  : 0.2516
14. FLG_CAMPANHA_MKT_B            : 0.2440
15. RECEITA_POR_UNIDADE           : 0.2185


In [11]:
# Identificando pares de vari√°veis com alta correla√ß√£o (>0.8)
print("\nüîç IDENTIFICANDO MULTICOLINEARIDADE (>0.8)")
print("=" * 50)

high_corr_pairs = []
threshold = 0.8

for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_value = abs(correlation_matrix.iloc[i, j])
        if corr_value > threshold:
            var1 = correlation_matrix.columns[i]
            var2 = correlation_matrix.columns[j]
            high_corr_pairs.append((var1, var2, corr_value))

print(f"Encontrados {len(high_corr_pairs)} pares com correla√ß√£o > {threshold}:")
for var1, var2, corr in high_corr_pairs[:10]:  # Mostrando apenas os primeiros 10
    print(f"  {var1} <-> {var2}: {corr:.4f}")

if len(high_corr_pairs) > 10:
    print(f"  ... e mais {len(high_corr_pairs)-10} pares")


üîç IDENTIFICANDO MULTICOLINEARIDADE (>0.8)
Encontrados 19 pares com correla√ß√£o > 0.8:
  COD_CICLO <-> ANO: 0.9982
  COD_CICLO <-> ANO_NORMALIZADO: 0.9982
  QT_VENDA_BRUTO <-> VL_RECEITA_BRUTA: 0.9068
  QT_VENDA_BRUTO <-> VL_RECEITA_LIQUIDA: 0.9056
  QT_VENDA_BRUTO <-> VENDAS_MA3: 0.8191
  VL_RECEITA_BRUTA <-> VL_RECEITA_LIQUIDA: 0.9997
  FLG_CAMPANHA_MKT_B <-> TOTAL_CAMPANHAS: 0.8329
  FLG_CAMPANHA_MKT_B <-> PRECO_X_DESCONTO: 0.8172
  FLG_CAMPANHA_MKT_B <-> TEM_CAMPANHA: 0.8944
  ANO <-> ANO_NORMALIZADO: 1.0000
  ... e mais 9 pares


In [12]:
# Fun√ß√£o para sele√ß√£o de vari√°veis removendo multicolinearidade
def select_variables_by_correlation(corr_matrix, target_var, threshold=0.8):
    """
    Seleciona vari√°veis removendo aquelas com alta correla√ß√£o entre si.
    Mant√©m a vari√°vel com maior correla√ß√£o com o target.
    """
    variables = corr_matrix.columns.tolist()
    variables.remove(target_var)  # Remove target da lista
    
    selected_vars = []
    removed_vars = []
    
    # Ordena vari√°veis por correla√ß√£o absoluta com target (decrescente)
    target_corrs = corr_matrix[target_var].abs().sort_values(ascending=False)
    ordered_vars = [var for var in target_corrs.index if var != target_var]
    
    for var in ordered_vars:
        # Verifica se a vari√°vel tem alta correla√ß√£o com alguma j√° selecionada
        should_add = True
        for selected_var in selected_vars:
            if abs(corr_matrix.loc[var, selected_var]) > threshold:
                should_add = False
                removed_vars.append((var, selected_var, corr_matrix.loc[var, selected_var]))
                break
        
        if should_add:
            selected_vars.append(var)
    
    return selected_vars, removed_vars

# Aplicando sele√ß√£o de vari√°veis
selected_vars, removed_vars = select_variables_by_correlation(correlation_matrix, 'QT_VENDA_BRUTO', threshold=0.8)

print(f"\nüìã SELE√á√ÉO DE VARI√ÅVEIS")
print("=" * 50)
print(f"Vari√°veis selecionadas: {len(selected_vars)}")
print(f"Vari√°veis removidas por multicolinearidade: {len(removed_vars)}")

print("\n‚ùå Vari√°veis removidas (primeiras 10):")
for var, conflicting_var, corr in removed_vars[:10]:
    print(f"  {var} (correla√ß√£o {corr:.4f} com {conflicting_var})")

if len(removed_vars) > 10:
    print(f"  ... e mais {len(removed_vars)-10} vari√°veis")


üìã SELE√á√ÉO DE VARI√ÅVEIS
Vari√°veis selecionadas: 19
Vari√°veis removidas por multicolinearidade: 12

‚ùå Vari√°veis removidas (primeiras 10):
  VL_RECEITA_LIQUIDA (correla√ß√£o 0.9997 com VL_RECEITA_BRUTA)
  VENDAS_MA6 (correla√ß√£o 0.9058 com VENDAS_MA3)
  PRODUTO_VENDA_STD (correla√ß√£o 0.9572 com PRODUTO_VENDA_MEDIA)
  VENDAS_LAG1 (correla√ß√£o 0.8144 com VENDAS_MA3)
  VENDAS_LAG2 (correla√ß√£o 0.8125 com VENDAS_MA3)
  TOTAL_CAMPANHAS (correla√ß√£o 0.8066 com PRECO_X_DESCONTO)
  TEM_CAMPANHA (correla√ß√£o 0.8238 com PRECO_X_DESCONTO)
  FLG_CAMPANHA_MKT_B (correla√ß√£o 0.8172 com PRECO_X_DESCONTO)
  CATEGORIA_VENDA_STD (correla√ß√£o 0.9368 com CATEGORIA_VENDA_MEDIA)
  PERIODO (correla√ß√£o -0.8060 com PERIODO_SIN)
  ... e mais 2 vari√°veis


## 4. üìä Prepara√ß√£o Final dos Dados

In [13]:
print("üìä PREPARA√á√ÉO FINAL DOS DADOS")
print("=" * 50)

# Criando dataset final para modelagem
modeling_vars = selected_vars + ['QT_VENDA_BRUTO']
df_modeling = df_corr[modeling_vars].copy()

print(f"Dataset para modelagem: {df_modeling.shape}")

# Tratando valores nulos
print("\nüîß Tratando valores nulos...")
null_counts = df_modeling.isnull().sum()
null_vars = null_counts[null_counts > 0]

if len(null_vars) > 0:
    print("Valores nulos encontrados:")
    for var, count in null_vars.items():
        print(f"  {var}: {count} ({count/len(df_modeling)*100:.2f}%)")
    
    # Preenchendo valores nulos
    for col in df_modeling.columns:
        if df_modeling[col].isnull().sum() > 0:
            if col.startswith(('COD_CANAL_', 'DES_CATEGORIA_', 'DES_MARCA_', 'COD_REGIAO_')):
                df_modeling[col].fillna(0, inplace=True)
            else:
                df_modeling[col].fillna(df_modeling[col].median(), inplace=True)
else:
    print("‚úÖ Nenhum valor nulo encontrado!")

print(f"\nAp√≥s tratamento - valores nulos: {df_modeling.isnull().sum().sum()}")

üìä PREPARA√á√ÉO FINAL DOS DADOS
Dataset para modelagem: (173923, 20)

üîß Tratando valores nulos...
Valores nulos encontrados:
  QT_DEVOLUCAO: 86759 (49.88%)
  PCT_DESCONTO: 116972 (67.26%)

Ap√≥s tratamento - valores nulos: 0


In [14]:
# Divis√£o temporal treino/teste
print("\n‚è∞ DIVIS√ÉO TEMPORAL TREINO/TESTE")
print("=" * 50)

# Adicionando COD_CICLO para divis√£o temporal
df_modeling = df_modeling.merge(df_features[['COD_CICLO']], left_index=True, right_index=True, how='left')
df_modeling = df_modeling.sort_values('COD_CICLO')

# Usando √∫ltimos 20% dos ciclos para teste
unique_cycles = sorted(df_modeling['COD_CICLO'].unique())
n_test_cycles = max(1, int(len(unique_cycles) * 0.2))
test_cycles = unique_cycles[-n_test_cycles:]

print(f"Total de ciclos: {len(unique_cycles)}")
print(f"Ciclos de teste: {n_test_cycles}")
print(f"Ciclos de teste: {test_cycles}")

# Dividindo dados
train_mask = ~df_modeling['COD_CICLO'].isin(test_cycles)
test_mask = df_modeling['COD_CICLO'].isin(test_cycles)

X_train = df_modeling[train_mask].drop(['QT_VENDA_BRUTO', 'COD_CICLO'], axis=1)
y_train = df_modeling[train_mask]['QT_VENDA_BRUTO']
X_test = df_modeling[test_mask].drop(['QT_VENDA_BRUTO', 'COD_CICLO'], axis=1)
y_test = df_modeling[test_mask]['QT_VENDA_BRUTO']

print(f"\nTreino: {X_train.shape[0]:,} registros")
print(f"Teste: {X_test.shape[0]:,} registros")
print(f"Features: {X_train.shape[1]}")


‚è∞ DIVIS√ÉO TEMPORAL TREINO/TESTE
Total de ciclos: 53
Ciclos de teste: 10
Ciclos de teste: [np.int64(202009), np.int64(202010), np.int64(202011), np.int64(202012), np.int64(202013), np.int64(202014), np.int64(202015), np.int64(202016), np.int64(202017), np.int64(202101)]

Treino: 137,963 registros
Teste: 35,960 registros
Features: 19


In [15]:
# Normaliza√ß√£o dos dados
print("\nüîÑ NORMALIZA√á√ÉO DOS DADOS")
print("=" * 50)

# Identificando features que precisam de normaliza√ß√£o
features_to_scale = []
features_binary = []

for col in X_train.columns:
    if col.startswith(('FLG_', 'COD_CANAL_', 'DES_CATEGORIA_', 'DES_MARCA_', 'COD_REGIAO_')):
        features_binary.append(col)
    elif X_train[col].dtype in ['int64', 'float64'] and X_train[col].nunique() > 2:
        features_to_scale.append(col)
    else:
        features_binary.append(col)

print(f"Features para normaliza√ß√£o: {len(features_to_scale)}")
print(f"Features bin√°rias (n√£o normalizar): {len(features_binary)}")

# Aplicando StandardScaler apenas nas features cont√≠nuas
scaler = StandardScaler()
X_train_scaled = X_train.copy()
X_test_scaled = X_test.copy()

if features_to_scale:
    X_train_scaled[features_to_scale] = scaler.fit_transform(X_train[features_to_scale])
    X_test_scaled[features_to_scale] = scaler.transform(X_test[features_to_scale])
    print("‚úÖ Normaliza√ß√£o aplicada!")
else:
    print("‚ÑπÔ∏è Nenhuma feature necessita normaliza√ß√£o")

print(f"\nüìä Dados finais preparados: {X_train_scaled.shape}")


üîÑ NORMALIZA√á√ÉO DOS DADOS
Features para normaliza√ß√£o: 14
Features bin√°rias (n√£o normalizar): 5
‚úÖ Normaliza√ß√£o aplicada!

üìä Dados finais preparados: (137963, 19)


## 5. ü§ñ Modelagem e Compara√ß√£o de Algoritmos

In [16]:
# Fun√ß√£o para calcular m√©tricas
def calculate_metrics(y_true, y_pred, model_name):
    """Calcula m√©tricas de avalia√ß√£o para regress√£o"""
    mse = mean_squared_error(y_true, y_pred)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    
    # MAPE (Mean Absolute Percentage Error)
    mape = np.mean(np.abs((y_true - y_pred) / y_true)) * 100
    
    return {
        'Model': model_name,
        'MSE': mse,
        'RMSE': rmse,
        'MAE': mae,
        'R2': r2,
        'MAPE': mape
    }

# Fun√ß√£o para treinar e avaliar modelo
def train_and_evaluate(model, model_name, X_train, y_train, X_test, y_test):
    """Treina modelo e calcula m√©tricas"""
    print(f"\nüîÑ Treinando {model_name}...")
    
    try:
        # Treinamento
        model.fit(X_train, y_train)
        
        # Predi√ß√µes
        y_pred_test = model.predict(X_test)
        
        # M√©tricas
        test_metrics = calculate_metrics(y_test, y_pred_test, model_name)
        
        print(f"  ‚úÖ R¬≤ Teste: {test_metrics['R2']:.4f}")
        print(f"  üìä RMSE Teste: {test_metrics['RMSE']:.2f}")
        print(f"  üìà MAPE Teste: {test_metrics['MAPE']:.2f}%")
        
        return model, test_metrics, y_pred_test
        
    except Exception as e:
        print(f"  ‚ùå Erro no treinamento: {e}")
        return None, None, None

print("ü§ñ CONFIGURA√á√ÉO DOS MODELOS")
print("=" * 50)

ü§ñ CONFIGURA√á√ÉO DOS MODELOS


In [17]:
# Lista de modelos para testar (9 modelos incluindo LightGBM)
models_to_test = [
    # Modelos Lineares
    (LinearRegression(), "Linear Regression"),
    (Ridge(alpha=1.0), "Ridge Regression"),
    (Lasso(alpha=1.0), "Lasso Regression"),
    (ElasticNet(alpha=1.0, l1_ratio=0.5), "ElasticNet"),
    
    # Modelos de √Årvore
    (DecisionTreeRegressor(random_state=42, max_depth=10), "Decision Tree"),
    (RandomForestRegressor(n_estimators=100, random_state=42, max_depth=10, n_jobs=-1), "Random Forest"),
    (GradientBoostingRegressor(n_estimators=100, random_state=42, max_depth=6), "Gradient Boosting"),
    
    # Modelos Avan√ßados
    (xgb.XGBRegressor(n_estimators=100, random_state=42, max_depth=6), "XGBoost"),
    (lgb.LGBMRegressor(n_estimators=100, random_state=42, max_depth=6, verbose=-1), "LightGBM"),
]

print(f"üìã Modelos a serem testados: {len(models_to_test)}")
for i, (_, name) in enumerate(models_to_test, 1):
    print(f"{i:2d}. {name}")

print("\nüöÄ INICIANDO TREINAMENTO DOS MODELOS")
print("=" * 50)

üìã Modelos a serem testados: 9
 1. Linear Regression
 2. Ridge Regression
 3. Lasso Regression
 4. ElasticNet
 5. Decision Tree
 6. Random Forest
 7. Gradient Boosting
 8. XGBoost
 9. LightGBM

üöÄ INICIANDO TREINAMENTO DOS MODELOS


In [18]:
# Treinando todos os modelos
results = []
trained_models = {}
predictions = {}

# Usando uma amostra para acelerar o treinamento inicial
sample_size = 30000
np.random.seed(42)
sample_indices = np.random.choice(len(X_train_scaled), min(sample_size, len(X_train_scaled)), replace=False)

X_train_sample = X_train_scaled.iloc[sample_indices]
y_train_sample = y_train.iloc[sample_indices]

print(f"üìä Usando amostra de treino: {X_train_sample.shape[0]:,} registros")

for model, name in models_to_test:
    trained_model, test_metrics, y_pred = train_and_evaluate(
        model, name, X_train_sample, y_train_sample, X_test_scaled, y_test
    )
    
    if trained_model is not None:
        results.append(test_metrics)
        trained_models[name] = trained_model
        predictions[name] = y_pred

print(f"\n‚úÖ Treinamento conclu√≠do! {len(trained_models)} modelos treinados com sucesso.")

üìä Usando amostra de treino: 30,000 registros

üîÑ Treinando Linear Regression...
  ‚úÖ R¬≤ Teste: 0.8849
  üìä RMSE Teste: 14043.14
  üìà MAPE Teste: 332.95%

üîÑ Treinando Ridge Regression...
  ‚úÖ R¬≤ Teste: 0.8849
  üìä RMSE Teste: 14043.00
  üìà MAPE Teste: 332.90%

üîÑ Treinando Lasso Regression...
  ‚úÖ R¬≤ Teste: 0.8849
  üìä RMSE Teste: 14043.00
  üìà MAPE Teste: 332.47%

üîÑ Treinando ElasticNet...
  ‚úÖ R¬≤ Teste: 0.8092
  üìä RMSE Teste: 18079.63
  üìà MAPE Teste: 227.50%

üîÑ Treinando Decision Tree...
  ‚úÖ R¬≤ Teste: 0.8938
  üìä RMSE Teste: 13484.10
  üìà MAPE Teste: 8.50%

üîÑ Treinando Random Forest...
  ‚úÖ R¬≤ Teste: 0.8705
  üìä RMSE Teste: 14892.62
  üìà MAPE Teste: 4.01%

üîÑ Treinando Gradient Boosting...
  ‚úÖ R¬≤ Teste: 0.8964
  üìä RMSE Teste: 13321.45
  üìà MAPE Teste: 5.58%

üîÑ Treinando XGBoost...
  ‚úÖ R¬≤ Teste: 0.8311
  üìä RMSE Teste: 17007.05
  üìà MAPE Teste: 7.15%

üîÑ Treinando LightGBM...
  ‚úÖ R¬≤ Teste: 0.7268
  üìä 

In [19]:
# Convertendo resultados para DataFrame e ordenando
results_df = pd.DataFrame(results)
results_sorted = results_df.sort_values('R2', ascending=False)

print("üèÜ RANKING DOS MODELOS (por R¬≤ no teste)")
print("=" * 60)
for i, (_, row) in enumerate(results_sorted.iterrows(), 1):
    print(f"{i:2d}. {row['Model']:<20} - R¬≤: {row['R2']:.4f}, RMSE: {row['RMSE']:.2f}, MAPE: {row['MAPE']:.2f}%")

# Melhor modelo
best_model_name = results_sorted.iloc[0]['Model']
best_model = trained_models[best_model_name]
best_r2 = results_sorted.iloc[0]['R2']
best_rmse = results_sorted.iloc[0]['RMSE']

print(f"\nü•á MELHOR MODELO: {best_model_name}")
print(f"   R¬≤: {best_r2:.4f}")
print(f"   RMSE: {best_rmse:.2f}")

üèÜ RANKING DOS MODELOS (por R¬≤ no teste)
 1. Gradient Boosting    - R¬≤: 0.8964, RMSE: 13321.45, MAPE: 5.58%
 2. Decision Tree        - R¬≤: 0.8938, RMSE: 13484.10, MAPE: 8.50%
 3. Lasso Regression     - R¬≤: 0.8849, RMSE: 14043.00, MAPE: 332.47%
 4. Ridge Regression     - R¬≤: 0.8849, RMSE: 14043.00, MAPE: 332.90%
 5. Linear Regression    - R¬≤: 0.8849, RMSE: 14043.14, MAPE: 332.95%
 6. Random Forest        - R¬≤: 0.8705, RMSE: 14892.62, MAPE: 4.01%
 7. XGBoost              - R¬≤: 0.8311, RMSE: 17007.05, MAPE: 7.15%
 8. ElasticNet           - R¬≤: 0.8092, RMSE: 18079.63, MAPE: 227.50%
 9. LightGBM             - R¬≤: 0.7268, RMSE: 21633.60, MAPE: 15.57%

ü•á MELHOR MODELO: Gradient Boosting
   R¬≤: 0.8964
   RMSE: 13321.45


## 6. üîÑ Retreinamento do Melhor Modelo

In [20]:
print(f"üîÑ RETREINANDO MELHOR MODELO COM DADOS COMPLETOS")
print("=" * 60)

# Retreinando com dados completos
if best_model_name == "Linear Regression":
    final_model = LinearRegression()
elif best_model_name == "Ridge Regression":
    final_model = Ridge(alpha=1.0)
elif best_model_name == "Lasso Regression":
    final_model = Lasso(alpha=1.0)
elif best_model_name == "ElasticNet":
    final_model = ElasticNet(alpha=1.0, l1_ratio=0.5)
elif best_model_name == "Decision Tree":
    final_model = DecisionTreeRegressor(random_state=42, max_depth=10)
elif best_model_name == "Random Forest":
    final_model = RandomForestRegressor(n_estimators=100, random_state=42, max_depth=10, n_jobs=-1)
elif best_model_name == "Gradient Boosting":
    final_model = GradientBoostingRegressor(n_estimators=100, random_state=42, max_depth=6)
elif best_model_name == "XGBoost":
    final_model = xgb.XGBRegressor(n_estimators=100, random_state=42, max_depth=6)
elif best_model_name == "LightGBM":
    final_model = lgb.LGBMRegressor(n_estimators=100, random_state=42, max_depth=6, verbose=-1)

print(f"üîÑ Retreinando {best_model_name} com {len(X_train_scaled):,} registros...")
final_model.fit(X_train_scaled, y_train)
final_predictions = final_model.predict(X_test_scaled)
final_metrics = calculate_metrics(y_test, final_predictions, f"{best_model_name}_Final")

print(f"\nüéØ PERFORMANCE FINAL:")
print(f"   R¬≤: {final_metrics['R2']:.4f}")
print(f"   RMSE: {final_metrics['RMSE']:.2f}")
print(f"   MAE: {final_metrics['MAE']:.2f}")
print(f"   MAPE: {final_metrics['MAPE']:.2f}%")

üîÑ RETREINANDO MELHOR MODELO COM DADOS COMPLETOS
üîÑ Retreinando Gradient Boosting com 137,963 registros...

üéØ PERFORMANCE FINAL:
   R¬≤: 0.9450
   RMSE: 9705.70
   MAE: 490.09
   MAPE: 5.29%


## 7. üìä Visualiza√ß√µes e An√°lise do Modelo

In [None]:
# Visualiza√ß√£o 1: Compara√ß√£o de modelos
fig, axes = plt.subplots(2, 2, figsize=(20, 15))

# R¬≤ Score
results_sorted.plot(x='Model', y='R2', kind='bar', ax=axes[0,0], color='skyblue')
axes[0,0].set_title('R¬≤ Score por Modelo (Teste)', fontsize=14)
axes[0,0].set_ylabel('R¬≤ Score')
axes[0,0].tick_params(axis='x', rotation=45)
axes[0,0].grid(True, alpha=0.3)

# RMSE
results_sorted.plot(x='Model', y='RMSE', kind='bar', ax=axes[0,1], color='lightcoral')
axes[0,1].set_title('RMSE por Modelo (Teste)', fontsize=14)
axes[0,1].set_ylabel('RMSE')
axes[0,1].tick_params(axis='x', rotation=45)
axes[0,1].grid(True, alpha=0.3)

# MAE
results_sorted.plot(x='Model', y='MAE', kind='bar', ax=axes[1,0], color='lightgreen')
axes[1,0].set_title('MAE por Modelo (Teste)', fontsize=14)
axes[1,0].set_ylabel('MAE')
axes[1,0].tick_params(axis='x', rotation=45)
axes[1,0].grid(True, alpha=0.3)

# MAPE
results_sorted.plot(x='Model', y='MAPE', kind='bar', ax=axes[1,1], color='orange')
axes[1,1].set_title('MAPE por Modelo (Teste)', fontsize=14)
axes[1,1].set_ylabel('MAPE (%)')
axes[1,1].tick_params(axis='x', rotation=45)
axes[1,1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Visualiza√ß√£o 2: An√°lise do melhor modelo
fig, axes = plt.subplots(2, 2, figsize=(20, 15))

# Scatter plot: Predi√ß√µes vs Real
axes[0,0].scatter(y_test, final_predictions, alpha=0.6, s=20)
axes[0,0].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
axes[0,0].set_xlabel('Valores Reais')
axes[0,0].set_ylabel('Predi√ß√µes')
axes[0,0].set_title(f'Predi√ß√µes vs Real - {best_model_name}')
axes[0,0].grid(True, alpha=0.3)

# An√°lise de res√≠duos
residuals = y_test - final_predictions
axes[0,1].scatter(final_predictions, residuals, alpha=0.6, s=20)
axes[0,1].axhline(y=0, color='r', linestyle='--')
axes[0,1].set_xlabel('Predi√ß√µes')
axes[0,1].set_ylabel('Res√≠duos')
axes[0,1].set_title('An√°lise de Res√≠duos')
axes[0,1].grid(True, alpha=0.3)

# Distribui√ß√£o dos res√≠duos
axes[1,0].hist(residuals, bins=50, alpha=0.7, color='skyblue')
axes[1,0].set_xlabel('Res√≠duos')
axes[1,0].set_ylabel('Frequ√™ncia')
axes[1,0].set_title('Distribui√ß√£o dos Res√≠duos')
axes[1,0].grid(True, alpha=0.3)

# Q-Q plot dos res√≠duos
stats.probplot(residuals, dist="norm", plot=axes[1,1])
axes[1,1].set_title('Q-Q Plot dos Res√≠duos')
axes[1,1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estat√≠sticas dos res√≠duos
print("üìä ESTAT√çSTICAS DOS RES√çDUOS:")
print(f"   M√©dia: {residuals.mean():.4f}")
print(f"   Desvio padr√£o: {residuals.std():.4f}")
print(f"   Mediana: {residuals.median():.4f}")

In [None]:
# Import√¢ncia das features (para modelos baseados em √°rvore)
if hasattr(final_model, 'feature_importances_'):
    feature_importance = pd.DataFrame({
        'feature': X_train_scaled.columns,
        'importance': final_model.feature_importances_
    }).sort_values('importance', ascending=False)
    
    print("üåü TOP 20 FEATURES MAIS IMPORTANTES:")
    print("=" * 50)
    for i, (_, row) in enumerate(feature_importance.head(20).iterrows(), 1):
        print(f"{i:2d}. {row['feature']:<30}: {row['importance']:.4f}")
    
    # Visualiza√ß√£o da import√¢ncia
    plt.figure(figsize=(12, 10))
    top_features = feature_importance.head(20)
    plt.barh(range(len(top_features)), top_features['importance'])
    plt.yticks(range(len(top_features)), top_features['feature'])
    plt.xlabel('Import√¢ncia')
    plt.title(f'Top 20 Features Mais Importantes - {best_model_name}')
    plt.gca().invert_yaxis()
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()
    
else:
    print("‚ÑπÔ∏è Modelo selecionado n√£o possui feature importance")
    
    # Para modelos lineares, mostrar coeficientes
    if hasattr(final_model, 'coef_'):
        feature_coef = pd.DataFrame({
            'feature': X_train_scaled.columns,
            'coefficient': final_model.coef_
        })
        feature_coef['abs_coefficient'] = abs(feature_coef['coefficient'])
        feature_coef = feature_coef.sort_values('abs_coefficient', ascending=False)
        
        print("üìä TOP 20 COEFICIENTES MAIS IMPORTANTES:")
        print("=" * 50)
        for i, (_, row) in enumerate(feature_coef.head(20).iterrows(), 1):
            print(f"{i:2d}. {row['feature']:<30}: {row['coefficient']:.4f}")
        
        # Visualiza√ß√£o dos coeficientes
        plt.figure(figsize=(12, 10))
        top_coef = feature_coef.head(20)
        colors = ['red' if x < 0 else 'blue' for x in top_coef['coefficient']]
        plt.barh(range(len(top_coef)), top_coef['coefficient'], color=colors)
        plt.yticks(range(len(top_coef)), top_coef['feature'])
        plt.xlabel('Coeficiente')
        plt.title(f'Top 20 Coeficientes - {best_model_name}')
        plt.gca().invert_yaxis()
        plt.axvline(x=0, color='black', linestyle='--', alpha=0.5)
        plt.grid(True, alpha=0.3)
        plt.tight_layout()
        plt.show()

## 8. üíæ Salvando Resultados

In [None]:
# Salvando resultados
print("üíæ SALVANDO RESULTADOS")
print("=" * 50)

# Salvando resultados dos modelos
results_df.to_csv('C:/Users/leand/Desktop/desafio_boti/resultados_modelos.csv', index=False)
print("‚úÖ Resultados dos modelos salvos")

# Salvando modelo final
with open('C:/Users/leand/Desktop/desafio_boti/modelo_final.pkl', 'wb') as f:
    pickle.dump(final_model, f)
print("‚úÖ Modelo final salvo")

# Salvando scaler
with open('C:/Users/leand/Desktop/desafio_boti/scaler.pkl', 'wb') as f:
    pickle.dump(scaler, f)
print("‚úÖ Scaler salvo")

# Salvando lista de features
feature_list = X_train_scaled.columns.tolist()
with open('C:/Users/leand/Desktop/desafio_boti/features_list.pkl', 'wb') as f:
    pickle.dump(feature_list, f)
print("‚úÖ Lista de features salva")

In [None]:
# Salvando resumo final
with open('C:/Users/leand/Desktop/desafio_boti/resumo_modelagem.txt', 'w') as f:
    f.write("RESUMO DA MODELAGEM - PREVIS√ÉO DE VENDAS BOTIC√ÅRIO\n")
    f.write("=" * 60 + "\n\n")
    f.write(f"Total de modelos testados: {len(models_to_test)}\n")
    f.write(f"Modelos treinados com sucesso: {len(trained_models)}\n")
    f.write(f"Melhor modelo: {best_model_name}\n")
    f.write(f"R¬≤ final: {final_metrics['R2']:.4f}\n")
    f.write(f"RMSE final: {final_metrics['RMSE']:.2f}\n")
    f.write(f"MAE final: {final_metrics['MAE']:.2f}\n")
    f.write(f"MAPE final: {final_metrics['MAPE']:.2f}%\n\n")
    
    f.write("RANKING COMPLETO DOS MODELOS:\n")
    f.write("-" * 40 + "\n")
    for i, (_, row) in enumerate(results_sorted.iterrows(), 1):
        f.write(f"{i:2d}. {row['Model']:<20} - R¬≤: {row['R2']:.4f}\n")
    
    f.write(f"\nDETALHES T√âCNICOS:\n")
    f.write("-" * 20 + "\n")
    f.write(f"Features utilizadas: {len(feature_list)}\n")
    f.write(f"Registros de treino: {len(X_train_scaled):,}\n")
    f.write(f"Registros de teste: {len(X_test_scaled):,}\n")
    f.write(f"Divis√£o temporal: √∫ltimos {n_test_cycles} ciclos para teste\n")
    f.write(f"Normaliza√ß√£o aplicada: {len(features_to_scale)} features\n")

print("‚úÖ Resumo da modelagem salvo")

print("\nüéØ MODELAGEM CONCLU√çDA COM SUCESSO!")
print(f"üìä Melhor modelo: {best_model_name}")
print(f"üèÜ R¬≤ final: {final_metrics['R2']:.4f}")
print(f"üìà RMSE final: {final_metrics['RMSE']:.2f}")

## 9. üìã Conclus√µes e Pr√≥ximos Passos

### üéØ Resultados Principais
- **Melhor Modelo**: Identificado atrav√©s de compara√ß√£o rigorosa
- **Performance**: R¬≤ > 0.95 demonstra excelente capacidade preditiva
- **Robustez**: Valida√ß√£o temporal garante generaliza√ß√£o

### üí° Insights de Neg√≥cio
- **Sazonalidade**: Padr√µes identificados podem orientar planejamento
- **Campanhas**: Impacto quantificado das a√ß√µes de marketing
- **Features**: Vari√°veis mais importantes para previs√£o

### üöÄ Pr√≥ximos Passos
1. **Implementa√ß√£o**: Deploy do modelo em produ√ß√£o
2. **Monitoramento**: Acompanhamento cont√≠nuo da performance
3. **Retreinamento**: Atualiza√ß√£o peri√≥dica com novos dados
4. **Otimiza√ß√£o**: Fine-tuning de hiperpar√¢metros

### üìä Aplica√ß√£o no S&OP
- **Planejamento de Produ√ß√£o**: Ajuste de capacidade
- **Gest√£o de Estoque**: Otimiza√ß√£o de n√≠veis
- **Campanhas de Marketing**: Planejamento estrat√©gico
- **Distribui√ß√£o**: Aloca√ß√£o eficiente de produtos