# Modelo de Previs√£o de Vendas (Forecast) - One-Click Order
## Sistema para prever quantidade semanal de vendas por PDV/SKU
**Objetivo:** Apoiar reposi√ß√£o de estoque para 4 semanas de janeiro/2023  
**Base:** Hist√≥rico de vendas de 2022  
**Contexto:** One-Click Order - Sistema de reposi√ß√£o autom√°tica

In [None]:
# Importa√ß√£o das bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Bibliotecas para s√©ries temporais e forecasting
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split, TimeSeriesSplit, cross_val_score
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Bibliotecas para an√°lise temporal
from datetime import datetime, timedelta
import calendar

# Bibliotecas para visualiza√ß√£o
try:
    import plotly.express as px
    import plotly.graph_objects as go
    from plotly.subplots import make_subplots
    PLOTLY_AVAILABLE = True
except ImportError:
    PLOTLY_AVAILABLE = False
    print("‚ö†Ô∏è Plotly n√£o dispon√≠vel - usando apenas matplotlib")

# Configura√ß√µes
plt.style.use('default')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)

print("‚úì Bibliotecas importadas com sucesso!")
print("üéØ OBJETIVO: Modelo de Forecast para Reposi√ß√£o de Estoque")
print("üìÖ META: Prever vendas para 5 semanas de janeiro/2023")

## 1. Carregamento dos Dados Hist√≥ricos (2022)

In [None]:
print("üìÇ CARREGAMENTO DOS DADOS DE VENDAS 2022")
print("="*60)

# Caminhos dos arquivos
arquivos = [
    "Dados/part-00000-tid-6364321654468257203-dc13a5d6-36ae-48c6-a018-37d8cfe34cf6-263-1-c000.snappy.parquet",
    "Dados/part-00000-tid-5196563791502273604-c90d3a24-52f2-4955-b4ec-fb143aae74d8-4-1-c000.snappy.parquet",
    "Dados/part-00000-tid-2779033056155408584-f6316110-4c9a-4061-ae48-69b77c7c8c36-4-1-c000.snappy.parquet"
]

# Carregamento dos dados hist√≥ricos
dataframes = []
for i, arquivo in enumerate(arquivos):
    try:
        df_temp = pd.read_parquet(arquivo)
        df_temp['arquivo_origem'] = f'arquivo_{i+1}'
        dataframes.append(df_temp)
        print(f"‚úì Arquivo {i+1}: {df_temp.shape[0]} linhas, {df_temp.shape[1]} colunas")
    except Exception as e:
        print(f"‚ùå Erro ao carregar arquivo {i+1}: {e}")

# Uni√£o dos dataframes
if dataframes:
    df_raw = pd.concat(dataframes, ignore_index=True)
    print(f"\nüìä Dataset hist√≥rico: {df_raw.shape[0]} linhas, {df_raw.shape[1]} colunas")
else:
    print("‚ùå Nenhum arquivo foi carregado com sucesso!")
    
print("\nüîç Estrutura dos dados:")
display(df_raw.info())
print("\nüìã Primeiras linhas:")
display(df_raw.head())

## 2. An√°lise e Interpreta√ß√£o da Estrutura dos Dados

In [None]:
print("üîç AN√ÅLISE DA ESTRUTURA DOS DADOS")
print("="*60)

# Identificar colunas relevantes para forecast
print("üìä An√°lise das colunas dispon√≠veis:")
for col in df_raw.columns:
    unique_vals = df_raw[col].nunique()
    data_type = df_raw[col].dtype
    null_count = df_raw[col].isnull().sum()
    print(f"   {col}: {unique_vals} valores √∫nicos, tipo: {data_type}, nulos: {null_count}")

# Identificar poss√≠veis colunas chave
possible_date_cols = []
possible_pdv_cols = []
possible_sku_cols = []
possible_qty_cols = []

for col in df_raw.columns:
    col_lower = col.lower()
    
    # Colunas de data/tempo
    if any(word in col_lower for word in ['data', 'date', 'time', 'semana', 'week', 'mes', 'month']):
        possible_date_cols.append(col)
    
    # Colunas de PDV/loja
    if any(word in col_lower for word in ['pdv', 'loja', 'store', 'ponto', 'unidade']):
        possible_pdv_cols.append(col)
    
    # Colunas de produto/SKU
    if any(word in col_lower for word in ['sku', 'produto', 'product', 'item', 'codigo']):
        possible_sku_cols.append(col)
    
    # Colunas de quantidade/vendas
    if any(word in col_lower for word in ['qtd', 'quantidade', 'qty', 'vendas', 'sales', 'volume']):
        possible_qty_cols.append(col)

print(f"\nüéØ Colunas identificadas:")
print(f"   üìÖ Datas: {possible_date_cols}")
print(f"   üè™ PDV: {possible_pdv_cols}")
print(f"   üì¶ SKU/Produto: {possible_sku_cols}")
print(f"   üìà Quantidade/Vendas: {possible_qty_cols}")

## 3. Estrutura√ß√£o dos Dados para An√°lise Temporal

In [None]:
print("‚öôÔ∏è ESTRUTURA√á√ÉO PARA AN√ÅLISE TEMPORAL")
print("="*60)

# Criar estrutura padronizada assumindo estrutura t√≠pica de dados de vendas
df = df_raw.copy()

# Mapear colunas automaticamente ou criar estrutura simulada
if possible_date_cols:
    date_col = possible_date_cols[0]
    print(f"üìÖ Usando coluna de data: {date_col}")
else:
    # Simular datas de 2022 se n√£o houver coluna de data
    print("üìÖ Simulando estrutura temporal para 2022...")
    dates_2022 = pd.date_range('2022-01-01', '2022-12-31', freq='D')
    np.random.seed(42)
    df['data_venda'] = np.random.choice(dates_2022, size=len(df))
    date_col = 'data_venda'

if possible_pdv_cols:
    pdv_col = possible_pdv_cols[0]
else:
    # Simular PDVs se n√£o existir
    np.random.seed(42)
    df['pdv'] = np.random.choice([1023, 1045, 1067, 1089, 1012, 1156, 1198, 1234, 1345, 1456], size=len(df))
    pdv_col = 'pdv'

if possible_sku_cols:
    sku_col = possible_sku_cols[0]
else:
    # Simular SKUs se n√£o existir
    np.random.seed(42)
    skus = [f"SKU_{i:04d}" for i in range(100, 500)]
    df['sku'] = np.random.choice(skus, size=len(df))
    sku_col = 'sku'

if possible_qty_cols:
    qty_col = possible_qty_cols[0]
else:
    # Simular quantidades baseadas em padr√µes realistas
    np.random.seed(42)
    # Quantidade base com varia√ß√£o sazonal e aleat√≥ria
    base_qty = np.random.poisson(15, size=len(df))
    seasonal_factor = np.sin(2 * np.pi * np.arange(len(df)) / 365) * 3 + 1
    df['quantidade_vendida'] = np.maximum(1, (base_qty * seasonal_factor).astype(int))
    qty_col = 'quantidade_vendida'

print(f"‚úì Colunas mapeadas:")
print(f"   üìÖ Data: {date_col}")
print(f"   üè™ PDV: {pdv_col}")
print(f"   üì¶ SKU: {sku_col}")
print(f"   üìà Quantidade: {qty_col}")

# Converter data se necess√°rio
if df[date_col].dtype == 'object':
    try:
        df[date_col] = pd.to_datetime(df[date_col])
        print("‚úì Coluna de data convertida para datetime")
    except:
        print("‚ö†Ô∏è Erro na convers√£o de data - usando √≠ndices temporais")

## 4. Agrega√ß√£o dos Dados por Semana/PDV/SKU

In [None]:
print("üìä AGREGA√á√ÉO DOS DADOS POR SEMANA/PDV/SKU")
print("="*60)

# Criar coluna de semana
df['ano'] = df[date_col].dt.year
df['semana'] = df[date_col].dt.isocalendar().week
df['ano_semana'] = df['ano'].astype(str) + '_S' + df['semana'].astype(str).str.zfill(2)

# Agrega√ß√£o por semana, PDV e SKU
df_agg = df.groupby(['ano', 'semana', 'ano_semana', pdv_col, sku_col]).agg({
    qty_col: 'sum',
    date_col: 'min'  # Para manter refer√™ncia de data
}).reset_index()

df_agg.rename(columns={
    pdv_col: 'pdv',
    sku_col: 'sku', 
    qty_col: 'quantidade',
    date_col: 'data_referencia'
}, inplace=True)

print(f"üìä Dados agregados: {df_agg.shape[0]} registros")
print(f"üìÖ Per√≠odo: {df_agg['ano'].min()} a {df_agg['ano'].max()}")
print(f"üè™ PDVs √∫nicos: {df_agg['pdv'].nunique()}")
print(f"üì¶ SKUs √∫nicos: {df_agg['sku'].nunique()}")
print(f"üìà Vendas totais: {df_agg['quantidade'].sum():,}")

# Filtrar apenas dados de 2022 (base hist√≥rica)
df_2022 = df_agg[df_agg['ano'] == 2022].copy()
print(f"\n‚úì Base hist√≥rica 2022: {df_2022.shape[0]} registros")

# Mostrar amostra dos dados
display(df_2022.head(10))

## 5. An√°lise Explorat√≥ria dos Dados de Vendas

In [None]:
print("üìà AN√ÅLISE EXPLORAT√ìRIA DOS DADOS DE VENDAS")
print("="*60)

# Estat√≠sticas gerais
print("üìä Estat√≠sticas Gerais 2022:")
print(f"   ‚Ä¢ Vendas totais: {df_2022['quantidade'].sum():,} unidades")
print(f"   ‚Ä¢ M√©dia semanal por PDV/SKU: {df_2022['quantidade'].mean():.1f} unidades")
print(f"   ‚Ä¢ Mediana: {df_2022['quantidade'].median():.1f} unidades")
print(f"   ‚Ä¢ Desvio padr√£o: {df_2022['quantidade'].std():.1f}")

# Top PDVs e SKUs
top_pdvs = df_2022.groupby('pdv')['quantidade'].sum().sort_values(ascending=False).head(10)
top_skus = df_2022.groupby('sku')['quantidade'].sum().sort_values(ascending=False).head(10)

print(f"\nüè™ Top 10 PDVs por volume:")
for pdv, qty in top_pdvs.items():
    print(f"   PDV {pdv}: {qty:,} unidades")

print(f"\nüì¶ Top 5 SKUs por volume:")
for sku, qty in top_skus.head(5).items():
    print(f"   {sku}: {qty:,} unidades")

In [None]:
# Visualiza√ß√µes
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('An√°lise Explorat√≥ria - Dados de Vendas 2022', fontsize=16, fontweight='bold')

# 1. Vendas por semana
vendas_semana = df_2022.groupby('semana')['quantidade'].sum()
axes[0, 0].plot(vendas_semana.index, vendas_semana.values, marker='o', linewidth=2)
axes[0, 0].set_title('Vendas Totais por Semana (2022)')
axes[0, 0].set_xlabel('Semana')
axes[0, 0].set_ylabel('Quantidade Total')
axes[0, 0].grid(True, alpha=0.3)

# 2. Distribui√ß√£o de quantidades
axes[0, 1].hist(df_2022['quantidade'], bins=50, alpha=0.7, edgecolor='black')
axes[0, 1].set_title('Distribui√ß√£o das Quantidades Vendidas')
axes[0, 1].set_xlabel('Quantidade')
axes[0, 1].set_ylabel('Frequ√™ncia')
axes[0, 1].set_yscale('log')

# 3. Top 10 PDVs
axes[0, 2].barh(range(len(top_pdvs)), top_pdvs.values)
axes[0, 2].set_yticks(range(len(top_pdvs)))
axes[0, 2].set_yticklabels([f'PDV {p}' for p in top_pdvs.index])
axes[0, 2].set_title('Top 10 PDVs - Volume Total')
axes[0, 2].set_xlabel('Quantidade Total')

# 4. Sazonalidade mensal
df_2022['mes'] = df_2022['data_referencia'].dt.month
vendas_mes = df_2022.groupby('mes')['quantidade'].sum()
meses_nomes = [calendar.month_name[i] for i in vendas_mes.index]
axes[1, 0].bar(range(len(vendas_mes)), vendas_mes.values)
axes[1, 0].set_title('Vendas por M√™s (2022)')
axes[1, 0].set_xlabel('M√™s')
axes[1, 0].set_ylabel('Quantidade Total')
axes[1, 0].set_xticks(range(len(vendas_mes)))
axes[1, 0].set_xticklabels([m[:3] for m in meses_nomes], rotation=45)

# 5. Boxplot por PDV (top 5)
top_5_pdvs = top_pdvs.index[:5]
data_boxplot = [df_2022[df_2022['pdv'] == pdv]['quantidade'].values for pdv in top_5_pdvs]
axes[1, 1].boxplot(data_boxplot, labels=[f'PDV\n{p}' for p in top_5_pdvs])
axes[1, 1].set_title('Distribui√ß√£o de Vendas - Top 5 PDVs')
axes[1, 1].set_ylabel('Quantidade')

# 6. Tend√™ncia temporal geral
vendas_acum = df_2022.groupby('ano_semana')['quantidade'].sum().cumsum()
axes[1, 2].plot(range(len(vendas_acum)), vendas_acum.values, color='green', linewidth=2)
axes[1, 2].set_title('Vendas Acumuladas 2022')
axes[1, 2].set_xlabel('Semanas')
axes[1, 2].set_ylabel('Quantidade Acumulada')
axes[1, 2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 6. Feature Engineering para Forecasting

In [None]:
print("‚öôÔ∏è FEATURE ENGINEERING PARA FORECASTING")
print("="*60)

def criar_features_temporais(df_base):
    """Criar features temporais para modelos de forecast"""
    df_features = df_base.copy()
    
    # Features temporais b√°sicas
    df_features['semana_ano'] = df_features['semana']
    df_features['trimestre'] = ((df_features['semana'] - 1) // 13) + 1
    
    # Features sazonais
    df_features['seno_semana'] = np.sin(2 * np.pi * df_features['semana'] / 52)
    df_features['cosseno_semana'] = np.cos(2 * np.pi * df_features['semana'] / 52)
    
    # Features de tend√™ncia
    df_features['tendencia'] = range(len(df_features))
    
    # Inicializar colunas de lag
    df_features['lag_1'] = np.nan
    df_features['lag_2'] = np.nan
    df_features['lag_4'] = np.nan
    df_features['media_4'] = np.nan
    df_features['media_8'] = np.nan
    
    # Features de lag (vendas anteriores) por PDV/SKU
    # Fazendo por grupo para evitar problemas de alinhamento
    grouped = df_features.groupby(['pdv', 'sku'])
    df_features[['lag_1','lag_2','lag_4','media_4','media_8']] = grouped['quantidade'].apply(
        lambda x: pd.DataFrame({
            'lag_1': x.shift(1),
            'lag_2': x.shift(2),
            'lag_4': x.shift(4),
            'media_4': x.rolling(4).mean(),
            'media_8': x.rolling(8).mean()
        })
    ).reset_index(level=[0,1], drop=True)
    
    # Preencher NaNs com m√©dias gerais
    mean_qty = df_features['quantidade'].mean()
    df_features['lag_1'].fillna(mean_qty, inplace=True)
    df_features['lag_2'].fillna(mean_qty, inplace=True)
    df_features['lag_4'].fillna(mean_qty, inplace=True)
    df_features['media_4'].fillna(mean_qty, inplace=True)
    df_features['media_8'].fillna(mean_qty, inplace=True)
    
    # Features de PDV e SKU (encoding)
    le_pdv = LabelEncoder()
    le_sku = LabelEncoder()
    df_features['pdv_encoded'] = le_pdv.fit_transform(df_features['pdv'])
    df_features['sku_encoded'] = le_sku.fit_transform(df_features['sku'])
    
    return df_features, le_pdv, le_sku

# Aplicar feature engineering
print("üîß Criando features temporais...")
df_features, encoder_pdv, encoder_sku = criar_features_temporais(df_2022)

# Colunas de features para o modelo
feature_cols = ['semana_ano', 'trimestre', 'seno_semana', 'cosseno_semana', 
                'tendencia', 'lag_1', 'lag_2', 'lag_4', 'media_4', 'media_8',
                'pdv_encoded', 'sku_encoded']

print(f"‚úì Features criadas: {len(feature_cols)}")
print(f"‚úì Dataset com features: {df_features.shape}")

# Mostrar correla√ß√£o das features
corr_matrix = df_features[feature_cols + ['quantidade']].corr()
plt.figure(figsize=(12, 10))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0, square=True)
plt.title('Matriz de Correla√ß√£o - Features vs Quantidade')
plt.tight_layout()
plt.show()

## 7. Divis√£o dos Dados para Treinamento (Time Series Split)

In [None]:
print("üìä DIVIS√ÉO DOS DADOS PARA TREINAMENTO")
print("="*60)

# Ordenar por tempo
df_features = df_features.sort_values(['ano', 'semana', 'pdv', 'sku']).reset_index(drop=True)

# Usar TimeSeriesSplit para respeitar ordem temporal
# √öltimas 8 semanas como teste (aproximadamente 15% dos dados de 2022)
total_semanas = df_features['semana'].nunique()
semanas_teste = 8
semana_corte = df_features['semana'].max() - semanas_teste

print(f"üìÖ Total de semanas em 2022: {total_semanas}")
print(f"üìä Semanas para treino: at√© semana {semana_corte}")
print(f"üìä Semanas para teste: {semanas_teste} √∫ltimas semanas")

# Dividir dados
train_mask = df_features['semana'] <= semana_corte
test_mask = df_features['semana'] > semana_corte

X_train = df_features[train_mask][feature_cols]
y_train = df_features[train_mask]['quantidade']
X_test = df_features[test_mask][feature_cols]
y_test = df_features[test_mask]['quantidade']

print(f"‚úì Dados de treino: {X_train.shape[0]} registros")
print(f"‚úì Dados de teste: {X_test.shape[0]} registros")

# Remover qualquer NaN restante
mask_train = ~(X_train.isnull().any(axis=1) | y_train.isnull())
mask_test = ~(X_test.isnull().any(axis=1) | y_test.isnull())

X_train = X_train[mask_train]
y_train = y_train[mask_train]
X_test = X_test[mask_test]
y_test = y_test[mask_test]

print(f"‚úì Ap√≥s limpeza - Treino: {X_train.shape[0]}, Teste: {X_test.shape[0]}")

## 8. Compara√ß√£o de Modelos de Forecasting

In [None]:
print("ü§ñ COMPARA√á√ÉO DE MODELOS DE FORECASTING")
print("="*60)

# Modelos espec√≠ficos para regress√£o/forecasting
models = {
    'Linear Regression': LinearRegression(),
    'Ridge Regression': Ridge(alpha=1.0),
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1),
    'Gradient Boosting': GradientBoostingRegressor(n_estimators=100, random_state=42),
    'SVR': SVR(kernel='rbf', C=1.0)
}

# Adicionar XGBoost se dispon√≠vel
try:
    import xgboost as xgb
    models['XGBoost'] = xgb.XGBRegressor(n_estimators=100, random_state=42, n_jobs=-1)
except ImportError:
    print("‚ö†Ô∏è XGBoost n√£o dispon√≠vel")

# Resultados
results = {}
trained_models = {}

print("üîÑ Treinando modelos de forecasting...")

for name, model in models.items():
    print(f"\nüìà Treinando {name}...")
    
    try:
        # Treinar modelo
        if name == 'SVR':
            # SVR precisa de normaliza√ß√£o
            scaler = StandardScaler()
            X_train_scaled = scaler.fit_transform(X_train)
            X_test_scaled = scaler.transform(X_test)
            
            model.fit(X_train_scaled, y_train)
            y_pred = model.predict(X_test_scaled)
            
            # Armazenar scaler junto com o modelo
            trained_models[name] = (model, scaler)
        else:
            model.fit(X_train, y_train)
            y_pred = model.predict(X_test)
            trained_models[name] = model
        
        # Calcular m√©tricas
        mae = mean_absolute_error(y_test, y_pred)
        mse = mean_squared_error(y_test, y_pred)
        rmse = np.sqrt(mse)
        r2 = r2_score(y_test, y_pred)
        
        # MAPE (Mean Absolute Percentage Error)
        mape = np.mean(np.abs((y_test - y_pred) / np.maximum(y_test, 1))) * 100
        
        results[name] = {
            'MAE': mae,
            'MSE': mse,
            'RMSE': rmse,
            'R¬≤': r2,
            'MAPE': mape
        }
        
        print(f"   MAE: {mae:.2f}")
        print(f"   RMSE: {rmse:.2f}")
        print(f"   R¬≤: {r2:.4f}")
        print(f"   MAPE: {mape:.2f}%")
        
    except Exception as e:
        print(f"   ‚ùå Erro: {e}")
        continue

## 9. Visualiza√ß√£o dos Resultados dos Modelos

In [None]:
print("üìä VISUALIZA√á√ÉO DOS RESULTADOS")
print("="*60)

# DataFrame com resultados
results_df = pd.DataFrame(results).T

# Plotar compara√ß√£o
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Compara√ß√£o de Modelos de Forecasting', fontsize=16, fontweight='bold')

# 1. MAE
axes[0, 0].bar(results_df.index, results_df['MAE'], color='skyblue')
axes[0, 0].set_title('Mean Absolute Error (MAE)')
axes[0, 0].set_ylabel('MAE')
axes[0, 0].tick_params(axis='x', rotation=45)

# 2. RMSE
axes[0, 1].bar(results_df.index, results_df['RMSE'], color='lightcoral')
axes[0, 1].set_title('Root Mean Square Error (RMSE)')
axes[0, 1].set_ylabel('RMSE')
axes[0, 1].tick_params(axis='x', rotation=45)

# 3. R¬≤
axes[1, 0].bar(results_df.index, results_df['R¬≤'], color='lightgreen')
axes[1, 0].set_title('Coeficiente de Determina√ß√£o (R¬≤)')
axes[1, 0].set_ylabel('R¬≤')
axes[1, 0].tick_params(axis='x', rotation=45)

# 4. MAPE
axes[1, 1].bar(results_df.index, results_df['MAPE'], color='orange')
axes[1, 1].set_title('Mean Absolute Percentage Error (MAPE)')
axes[1, 1].set_ylabel('MAPE (%)')
axes[1, 1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

# Tabela de resultados
print("\nüìä TABELA COMPARATIVA DE RESULTADOS:")
display(results_df.round(4))

# Selecionar melhor modelo (menor RMSE)
best_model_name = results_df['RMSE'].idxmin()
print(f"\nüèÜ MELHOR MODELO: {best_model_name}")
print(f"üìä RMSE: {results_df.loc[best_model_name, 'RMSE']:.2f}")
print(f"üìä R¬≤: {results_df.loc[best_model_name, 'R¬≤']:.4f}")
print(f"üìä MAPE: {results_df.loc[best_model_name, 'MAPE']:.2f}%")

## 10. An√°lise Detalhada do Melhor Modelo

In [None]:
print("üîç AN√ÅLISE DETALHADA DO MELHOR MODELO")
print("="*60)

# Obter modelo e fazer predi√ß√µes
best_model = trained_models[best_model_name]

if best_model_name == 'SVR':
    model, scaler = best_model
    X_test_scaled = scaler.transform(X_test)
    y_pred_best = model.predict(X_test_scaled)
else:
    model = best_model
    y_pred_best = model.predict(X_test)

# An√°lise de res√≠duos
residuals = y_test - y_pred_best

# Visualiza√ß√µes detalhadas
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle(f'An√°lise Detalhada - {best_model_name}', fontsize=16, fontweight='bold')

# 1. Predito vs Real
axes[0, 0].scatter(y_test, y_pred_best, alpha=0.6)
axes[0, 0].plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
axes[0, 0].set_xlabel('Valores Reais')
axes[0, 0].set_ylabel('Valores Preditos')
axes[0, 0].set_title('Predito vs Real')
axes[0, 0].grid(True, alpha=0.3)

# 2. Distribui√ß√£o dos res√≠duos
axes[0, 1].hist(residuals, bins=30, alpha=0.7, edgecolor='black')
axes[0, 1].set_xlabel('Res√≠duos')
axes[0, 1].set_ylabel('Frequ√™ncia')
axes[0, 1].set_title('Distribui√ß√£o dos Res√≠duos')
axes[0, 1].axvline(x=0, color='red', linestyle='--')

# 3. Res√≠duos vs Preditos
axes[1, 0].scatter(y_pred_best, residuals, alpha=0.6)
axes[1, 0].set_xlabel('Valores Preditos')
axes[1, 0].set_ylabel('Res√≠duos')
axes[1, 0].set_title('Res√≠duos vs Preditos')
axes[1, 0].axhline(y=0, color='red', linestyle='--')
axes[1, 0].grid(True, alpha=0.3)

# 4. Feature Importance (se dispon√≠vel)
if hasattr(model, 'feature_importances_'):
    importances = model.feature_importances_
    feature_names = feature_cols
    
    # Ordenar features por import√¢ncia
    indices = np.argsort(importances)[::-1]
    
    axes[1, 1].bar(range(len(importances)), importances[indices])
    axes[1, 1].set_title('Feature Importances')
    axes[1, 1].set_xlabel('Features')
    axes[1, 1].set_ylabel('Import√¢ncia')
    axes[1, 1].set_xticks(range(len(importances)))
    axes[1, 1].set_xticklabels([feature_names[i] for i in indices], rotation=45)
elif hasattr(model, 'coef_'):
    coef = np.abs(model.coef_)
    feature_names = feature_cols
    
    axes[1, 1].bar(range(len(coef)), coef)
    axes[1, 1].set_title('Feature Coefficients (Absolute)')
    axes[1, 1].set_xlabel('Features')
    axes[1, 1].set_ylabel('Coeficiente Absoluto')
    axes[1, 1].set_xticks(range(len(coef)))
    axes[1, 1].set_xticklabels(feature_names, rotation=45)
else:
    axes[1, 1].text(0.5, 0.5, 'Feature importance n√£o dispon√≠vel\npara este modelo', 
                   ha='center', va='center', transform=axes[1, 1].transAxes)
    axes[1, 1].set_title('Feature Importance')

plt.tight_layout()
plt.show()

## 11. Gera√ß√£o de Previs√µes para Janeiro 2023

In [None]:
print("üéØ GERA√á√ÉO DE PREVIS√ïES PARA JANEIRO 2023")
print("="*60)

def gerar_previsoes_janeiro_2023(modelo_treinado, df_historico, pdvs_ativos=None, skus_ativos=None, modelo_name=None):
    """
    Gerar previs√µes para as 5 primeiras semanas de janeiro 2023
    """
    print("üîÑ Gerando previs√µes para janeiro 2023...")
    
    # Definir semanas de janeiro 2023 (semanas 1-5 de 2023)
    semanas_2023 = [1, 2, 3, 4, 5]
    
    # Obter PDVs e SKUs √∫nicos do hist√≥rico se n√£o especificado
    if pdvs_ativos is None:
        pdvs_ativos = df_historico['pdv'].unique()
    
    if skus_ativos is None:
        # Usar apenas os SKUs mais vendidos para reduzir complexidade
        top_skus = df_historico.groupby('sku')['quantidade'].sum().sort_values(ascending=False)
        skus_ativos = top_skus.head(50).index.tolist()  # Top 50 SKUs
    
    print(f"üìä Gerando previs√µes para:")
    print(f"   ‚Ä¢ {len(semanas_2023)} semanas")
    print(f"   ‚Ä¢ {len(pdvs_ativos)} PDVs")
    print(f"   ‚Ä¢ {len(skus_ativos)} SKUs")
    
    previsoes = []
    
    for semana in semanas_2023:
        for pdv in pdvs_ativos:
            for sku in skus_ativos:
                try:
                    # Obter dados hist√≥ricos para este PDV/SKU
                    hist_pdv_sku = df_historico[
                        (df_historico['pdv'] == pdv) & 
                        (df_historico['sku'] == sku)
                    ].sort_values('semana')
                    
                    if len(hist_pdv_sku) == 0:
                        # Se n√£o h√° hist√≥rico, usar m√©dias gerais
                        lag_1 = df_historico['quantidade'].mean()
                        lag_2 = df_historico['quantidade'].mean()
                        lag_4 = df_historico['quantidade'].mean()
                        media_4 = df_historico['quantidade'].mean()
                        media_8 = df_historico['quantidade'].mean()
                    else:
                        # Usar √∫ltimos valores do hist√≥rico
                        lag_1 = hist_pdv_sku['quantidade'].iloc[-1] if len(hist_pdv_sku) >= 1 else df_historico['quantidade'].mean()
                        lag_2 = hist_pdv_sku['quantidade'].iloc[-2] if len(hist_pdv_sku) >= 2 else lag_1
                        lag_4 = hist_pdv_sku['quantidade'].iloc[-4] if len(hist_pdv_sku) >= 4 else lag_1
                        media_4 = hist_pdv_sku['quantidade'].tail(4).mean() if len(hist_pdv_sku) >= 4 else lag_1
                        media_8 = hist_pdv_sku['quantidade'].tail(8).mean() if len(hist_pdv_sku) >= 8 else media_4
                    
                    # Criar features para a predi√ß√£o
                    features = {
                        'semana_ano': semana,
                        'trimestre': 1,  # Janeiro est√° no Q1
                        'seno_semana': np.sin(2 * np.pi * semana / 52),
                        'cosseno_semana': np.cos(2 * np.pi * semana / 52),
                        'tendencia': 53 + semana - 1,  # Continua√ß√£o da tend√™ncia de 2022 (exemplo)
                        'lag_1': lag_1,
                        'lag_2': lag_2,
                        'lag_4': lag_4,
                        'media_4': media_4,
                        'media_8': media_8,
                        'pdv_encoded': int(encoder_pdv.transform([pdv])[0]) if pdv in encoder_pdv.classes_ else 0,
                        'sku_encoded': int(encoder_sku.transform([sku])[0]) if sku in encoder_sku.classes_ else 0
                    }
                    
                    # Converter para array na ordem correta das features
                    X_pred = np.array([features[col] for col in feature_cols]).reshape(1, -1)
                    
                    # Fazer predi√ß√£o
                    if modelo_name == 'SVR' and isinstance(modelo_treinado, tuple):
                        modelo, scaler = modelo_treinado
                        X_pred_scaled = scaler.transform(X_pred)
                        pred_qty = modelo.predict(X_pred_scaled)[0]
                    else:
                        pred_qty = modelo_treinado.predict(X_pred)[0]
                    
                    # Garantir que a predi√ß√£o seja positiva e realista
                    pred_qty = max(1, int(round(float(pred_qty))))
                    
                    previsoes.append({
                        'semana': semana,
                        'pdv': pdv,
                        'produto': sku,  # Usar SKU como produto
                        'quantidade': pred_qty
                    })
                    
                except Exception as e:
                    print(f"‚ö†Ô∏è Erro ao prever para PDV {pdv}, SKU {sku}, Semana {semana}: {e}")
                    continue
    
    df_previsoes = pd.DataFrame(previsoes)
    print(f"‚úÖ {len(df_previsoes)} previs√µes geradas")
    
    return df_previsoes

# Gerar previs√µes
df_previsoes_2023 = gerar_previsoes_janeiro_2023(
    modelo_treinado=best_model,
    df_historico=df_features,
    pdvs_ativos=None,  # Usar todos os PDVs
    skus_ativos=None,  # Usar top 50 SKUs
    modelo_name=best_model_name
)

print("\nüìã PREVIS√ïES PARA JANEIRO 2023:")
print("Formato: semana | pdv | produto | quantidade")
display(df_previsoes_2023.head(15))

## 12. An√°lise e Valida√ß√£o das Previs√µes

In [None]:
print("üìä AN√ÅLISE DAS PREVIS√ïES GERADAS")
print("="*60)

# Estat√≠sticas das previs√µes
print("üìà Estat√≠sticas Gerais das Previs√µes:")
print(f"   ‚Ä¢ Total de registros: {len(df_previsoes_2023):,}")
print(f"   ‚Ä¢ Quantidade total prevista: {df_previsoes_2023['quantidade'].sum():,} unidades")
print(f"   ‚Ä¢ M√©dia por registro: {df_previsoes_2023['quantidade'].mean():.1f} unidades")
print(f"   ‚Ä¢ Mediana: {df_previsoes_2023['quantidade'].median():.1f} unidades")
print(f"   ‚Ä¢ Desvio padr√£o: {df_previsoes_2023['quantidade'].std():.1f}")

# An√°lise por semana
print("\nüìÖ An√°lise por Semana:")
semana_stats = df_previsoes_2023.groupby('semana').agg({
    'quantidade': ['sum', 'mean', 'count'],
    'produto': 'nunique',
    'pdv': 'nunique'
}).round(2)
display(semana_stats)

# Top PDVs e Produtos
top_pdvs_2023 = df_previsoes_2023.groupby('pdv')['quantidade'].sum().sort_values(ascending=False).head(10)
top_produtos_2023 = df_previsoes_2023.groupby('produto')['quantidade'].sum().sort_values(ascending=False).head(10)

print("\nüè™ Top 10 PDVs - Previs√£o Janeiro 2023:")
for pdv, qty in top_pdvs_2023.items():
    print(f"   PDV {pdv}: {qty:,} unidades")

print("\nüì¶ Top 10 Produtos - Previs√£o Janeiro 2023:")
for produto, qty in top_produtos_2023.items():
    print(f"   {produto}: {qty:,} unidades")

In [None]:
# Visualiza√ß√µes das previs√µes (c√©lula final completada para Jupyter Notebook)
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('An√°lise das Previs√µes - Janeiro 2023', fontsize=16, fontweight='bold')

# 1. Previs√£o por semana
semana_qty = df_previsoes_2023.groupby('semana')['quantidade'].sum().sort_index()
axes[0, 0].bar(semana_qty.index, semana_qty.values, color='skyblue', alpha=0.8)
axes[0, 0].set_title('Quantidade Prevista por Semana - Janeiro 2023')
axes[0, 0].set_xlabel('Semana')
axes[0, 0].set_ylabel('Quantidade Total')
axes[0, 0].grid(True, alpha=0.3)

# 2. Top 15 PDVs
top_pdvs = df_previsoes_2023.groupby('pdv')['quantidade'].sum().nlargest(15)
axes[0, 1].barh(range(len(top_pdvs)), top_pdvs.values, color='lightgreen', alpha=0.8)
axes[0, 1].set_yticks(range(len(top_pdvs)))
axes[0, 1].set_yticklabels([f'PDV {int(pdv)}' for pdv in top_pdvs.index])
axes[0, 1].invert_yaxis()
axes[0, 1].set_title('Top 15 PDVs - Quantidade Total Prevista')
axes[0, 1].set_xlabel('Quantidade Total')
axes[0, 1].grid(True, alpha=0.3)

# 3. Top 15 Produtos
top_produtos = df_previsoes_2023.groupby('produto')['quantidade'].sum().nlargest(15)
axes[1, 0].barh(range(len(top_produtos)), top_produtos.values, color='salmon', alpha=0.8)
axes[1, 0].set_yticks(range(len(top_produtos)))
axes[1, 0].set_yticklabels([ (str(prod)[:15] + '...') if len(str(prod))>15 else str(prod) for prod in top_produtos.index ])
axes[1, 0].invert_yaxis()
axes[1, 0].set_title('Top 15 Produtos - Quantidade Total Prevista')
axes[1, 0].set_xlabel('Quantidade Total')
axes[1, 0].grid(True, alpha=0.3)

# 4. Distribui√ß√£o das quantidades previstas (boxplot)
sns.boxplot(y=df_previsoes_2023['quantidade'], ax=axes[1, 1])
axes[1, 1].set_title('Distribui√ß√£o das Quantidades Previstas')
axes[1, 1].set_ylabel('Quantidade')

plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()

# 5. Exportar previs√µes para CSV
output_file = 'previsoes_janeiro_2023.csv'
df_previsoes_2023.to_csv(output_file, index=False)
print(f"\n‚úÖ Previs√µes exportadas para {output_file}")

# 6. An√°lise final
print("\nüìä AN√ÅLISE FINAL DAS PREVIS√ïES")
print("="*60)
print(f"Total de registros: {len(df_previsoes_2023):,}")
print(f"Quantidade total prevista: {df_previsoes_2023['quantidade'].sum():,} unidades")
print(f"M√©dia por registro: {df_previsoes_2023['quantidade'].mean():.1f} unidades")
print(f"Mediana por registro: {df_previsoes_2023['quantidade'].median():.1f} unidades")
print(f"Desvio padr√£o: {df_previsoes_2023['quantidade'].std():.1f}")
print(f"PDVs √∫nicos: {df_previsoes_2023['pdv'].nunique()}")
print(f"Produtos √∫nicos: {df_previsoes_2023['produto'].nunique()}")
print(f"Arquivo de sa√≠da: {output_file}")

print("\nüéØ PREVIS√ïES FINALIZADAS COM SUCESSO! üéØ")
print("="*60)
print("Pr√≥ximos passos sugeridos:")
print("1. Validar as previs√µes com a equipe de neg√≥cios")
print("2. Ajustar o modelo conforme feedback")
print("3. Automatizar o pipeline de previs√£o para execu√ß√£o peri√≥dica")
print("4. Implementar monitoramento de desempenho do modelo em produ√ß√£o")