
# Template ‚Äî MVP: *Machine Learning & Analytics*
**Autor:** Bruno dos Santos Lopes

**Data:** 27/09/2025

**Matr√≠cula:** 4052025000271

**Dataset:** [Store Sales - Time Series Forecasting](https://www.kaggle.com/competitions/store-sales-time-series-forecasting/data)

> **Importante:**
A estrutura base deste notebook pode servir como um guia inicial para desenvolver suas an√°lises, j√° que contempla grande parte das sugest√µes do checklist apresentado no enunciado do MVP. Entretanto, √© importante destacar que esta estrutura √© apenas um ponto de partida: poder√£o ser necess√°rias etapas e an√°lises adicionais al√©m das aqui exemplificadas.

> O essencial √© garantir profundidade nas discuss√µes e an√°lises, construindo um storytelling consistente que explore os principais conceitos e t√©cnicas vistos nas aulas da Sprint de Machine Learning & Analytics.

> Lembre-se: n√£o existe uma receita pronta. A ordem e as se√ß√µes detalhadas abaixo s√£o apenas sugest√µes. O problema escolhido e a hist√≥ria que voc√™ deseja contar devem guiar, em grande parte, a forma final do seu trabalho.

---



## ‚úÖ Checklist do MVP (o que precisa conter)
- [ ] **Problema definido** e contexto de neg√≥cio
- [ ] **Carga e prepara√ß√£o** dos dados (sem vazamento de dados)
- [ ] **Divis√£o** em treino/valida√ß√£o/teste (ou valida√ß√£o cruzada apropriada)
- [ ] **Tratamento**: limpeza, transforma√ß√£o e **engenharia de atributos**
- [ ] **Modelagem**: comparar abordagens/modelos (com **baseline**)
- [ ] **Otimiza√ß√£o de hiperpar√¢metros**
- [ ] **Avalia√ß√£o** com **m√©tricas adequadas** e discuss√£o de limita√ß√µes
- [ ] **Boas pr√°ticas**: seeds fixas, tempo de treino, recursos computacionais, documenta√ß√£o
- [ ] **Pipelines reprodut√≠veis** (sempre que poss√≠vel)



## 1. Escopo, objetivo e defini√ß√£o do problema
**TODO:** Explique brevemente:
- Contexto do problema e objetivo:
O problema central abordado neste MVP √© a ruptura de estoque, situa√ß√£o em que a demanda de um produto n√£o pode ser atendida devido √† falta de reposi√ß√£o adequada. Isso gera perda de vendas, redu√ß√£o da satisfa√ß√£o do cliente e inefici√™ncias na cadeia log√≠stica.
O objetivo do MVP √© desenvolver uma solu√ß√£o baseada em dados que permita prever a demanda e apoiar a reposi√ß√£o de produtos, reduzindo a probabilidade de ruptura.
Empresas de varejo precisam prever a demanda de produtos em diferentes lojas para otimizar estoque, reduzir perdas e maximizar o faturamento. O dataset Store Sales ‚Äì Time Series Forecasting, disponibilizado pelo Kaggle, cont√©m dados hist√≥ricos de vendas di√°rias por loja e fam√≠lia de produtos, incluindo informa√ß√µes de promo√ß√µes, feriados e indicadores externos.
O objetivo deste projeto √© desenvolver modelos de previs√£o de vendas (forecasting) que permitam estimar a demanda futura por produto/loja, considerando tend√™ncias, sazonalidades e eventos externos.  

- Tipo de tarefa: Problema de previs√£o de s√©ries temporais (forecasting)
- Natureza do problema: Regress√£o (vari√°vel-alvo = valor num√©rico de vendas).  
- √Årea de aplica√ß√£o: Dados tabulares e temporais e Aplica√ß√£o em Analytics e Intelig√™ncia de Neg√≥cios (BI/AI para varejo).  
- Gest√£o de estoque eficiente: evitar ruptura (falta de produtos) e excesso (desperd√≠cio e custos). Planejamento de promo√ß√µes: prever impacto de descontos e campanhas sazonais. Aloca√ß√£o de recursos: otimizar log√≠stica, distribui√ß√£o e compras junto a fornecedores. Suporte √† tomada de decis√£o: fornecer previs√µes confi√°veis para gestores de diferentes √°reas (vendas, marketing, supply chain).



## 2. Reprodutibilidade e ambiente
Especifique o ambiente. Por exemplo:
- Bibliotecas usadas.
- Seeds fixas para reprodutibilidade.

In [None]:
# === Setup b√°sico e reprodutibilidade ===
import os, random, sys, math, time, warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import joblib

# Scikit-learn (pr√©-processamento, modelagem, avalia√ß√£o)
from sklearn.model_selection import (train_test_split, StratifiedKFold, KFold, TimeSeriesSplit, RandomizedSearchCV)
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.dummy import DummyClassifier, DummyRegressor
from sklearn.linear_model import LogisticRegression, Ridge
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.cluster import KMeans
from sklearn.metrics import (
    accuracy_score, f1_score, roc_auc_score, confusion_matrix,
    mean_absolute_error, mean_squared_error, r2_score,
    silhouette_score
)
from scipy.stats import randint, uniform

# Modelagem de s√©ries temporais
import statsmodels.api as sm
from prophet import Prophet
import xgboost as xgb
import lightgbm as lgb

# Configura√ß√µes globais
warnings.filterwarnings("ignore")

SEED = 42
np.random.seed(SEED)
random.seed(SEED)
os.environ["PYTHONHASHSEED"] = str(SEED)

# Para frameworks adicionais:
# import torch; torch.manual_seed(SEED); torch.cuda.manual_seed_all(SEED)
# import tensorflow as tf; tf.random.set_seed(SEED)

print("Python:", sys.version.split()[0])
print("Seed global:", SEED)


### 2.1 Fun√ß√µes python (opcional)
Defina, se necess√°rio, fun√ß√µes em Python para reutilizar seu c√≥digo e torn√°-lo mais organizado. Essa √© uma boa pr√°tica de programa√ß√£o que facilita a leitura, manuten√ß√£o e evolu√ß√£o do seu projeto.

In [None]:
# Fun√ß√£o para criar lags de s√©ries temporais
def create_lag_features(df, group_cols, target_col, lags=[1,7,14,28]):
    """
    Cria colunas de lags para s√©ries temporais agrupadas.

    Par√¢metros:
    - df: DataFrame contendo a s√©rie temporal
    - group_cols: colunas para agrupar (ex.: ['store_nbr', 'family'])
    - target_col: coluna alvo (ex.: 'sales')
    - lags: lista de per√≠odos de lag

    Retorno:
    - DataFrame com novas colunas de lags
    """
    df_copy = df.copy()
    for lag in lags:
        df_copy[f'{target_col}_lag_{lag}'] = df_copy.groupby(group_cols)[target_col].shift(lag)
    return df_copy

# Fun√ß√£o para calcular m√©tricas de previs√£o
from sklearn.metrics import mean_squared_error, mean_absolute_error

def evaluate_forecast(y_true, y_pred):
    """
    Calcula RMSE, MAE e MAPE de uma previs√£o.

    Par√¢metros:
    - y_true: valores reais
    - y_pred: valores previstos

    Retorno:
    - dicion√°rio com m√©tricas
    """
    rmse = mean_squared_error(y_true, y_pred, squared=False)
    mae = mean_absolute_error(y_true, y_pred)
    mape = (abs(y_true - y_pred) / (y_true + 1e-9)).mean() * 100  # evita divis√£o por zero
    return {'RMSE': rmse, 'MAE': mae, 'MAPE': mape}

    # Fun√ß√£o para plotar s√©rie temporal

    import matplotlib.pyplot as plt

def plot_series(df, date_col, target_col, title=None, figsize=(12,5)):
    """
    Plota s√©rie temporal.

    Par√¢metros:
    - df: DataFrame
    - date_col: coluna de datas
    - target_col: coluna de valores
    - title: t√≠tulo opcional
    """
    plt.figure(figsize=figsize)
    plt.plot(df[date_col], df[target_col], marker='o', linestyle='-')
    plt.xlabel('Data')
    plt.ylabel(target_col)
    if title:
        plt.title(title)
    plt.grid(True)
    plt.show()


## 3. Dados: carga, entendimento e qualidade
O presente projeto utiliza o dataset Store Sales ‚Äî Time Series Forecasting, disponibilizado no Kaggle, cujo objetivo √© prever a demanda di√°ria de produtos em diferentes lojas, permitindo otimizar estoques, reduzir perdas e apoiar decis√µes estrat√©gicas de marketing e log√≠stica. Os dados foram carregados diretamente do GitHub, garantindo a execu√ß√£o imediata do notebook no Google Colab, sem necessidade de configura√ß√£o adicional.

O dataset √© composto por m√∫ltiplos arquivos CSV, cada um com informa√ß√µes complementares sobre vendas, lojas, feriados, eventos e pre√ßos de petr√≥leo. O arquivo train.csv cont√©m as vendas hist√≥ricas di√°rias por loja e fam√≠lia de produtos, sendo a vari√°vel-alvo a coluna sales. O arquivo test.csv corresponde ao conjunto de teste, utilizado para submiss√£o de previs√µes. O arquivo stores.csv fornece dados adicionais sobre as lojas, incluindo cidade, estado, tipo e cluster de classifica√ß√£o. O arquivo holidays_events.csv lista feriados nacionais e regionais, bem como eventos especiais, indicando se foram transferidos. O arquivo transactions.csv informa o n√∫mero di√°rio de transa√ß√µes por loja, e o arquivo oil.csv registra o pre√ßo di√°rio do petr√≥leo WTI, que pode impactar o comportamento de vendas de certos produtos. Por fim, o arquivo sample_submission.csv serve como template para submiss√£o das previs√µes no Kaggle.

As principais vari√°veis presentes no dataset incluem: store_nbr (n√∫mero da loja), family (categoria do produto), date (data da venda), sales (quantidade vendida), city, state, type e cluster das lojas, al√©m de vari√°veis relacionadas a feriados (type, locale, locale_name, transferred), n√∫mero de transa√ß√µes di√°rias e pre√ßo do petr√≥leo (dcoilwtico).

Uma an√°lise preliminar da qualidade dos dados indicou a presen√ßa de valores ausentes em algumas colunas, como o pre√ßo do petr√≥leo, que ser√° tratado via interpola√ß√£o temporal. Zeros nas vendas podem indicar dias sem vendas ou feriados, e datas de feriados transferidos foram cuidadosamente consideradas para evitar inconsist√™ncias. Todas as transforma√ß√µes e cria√ß√£o de features de lag ser√£o realizadas apenas com informa√ß√µes hist√≥ricas, evitando vazamento de dados e garantindo a reprodutibilidade das previs√µes.

Do ponto de vista √©tico, os dados s√£o p√∫blicos, voltados para fins educacionais e n√£o cont√™m informa√ß√µes pessoais ou sens√≠veis. O uso das informa√ß√µes √© restrito √† an√°lise de s√©ries temporais de vendas e √† constru√ß√£o de modelos de previs√£o de demanda, respeitando a confidencialidade e a integridade dos dados.


In [None]:
#Carga dos dados
# URL base dos arquivos CSV no GitHub
base_url = "https://raw.githubusercontent.com/BrunoLopes011/EntregaMVP3/main/"

# Lista de arquivos
arquivos = [
    "holidays_events.csv",
    "oil.csv",
    "sample_submission.csv",
    "stores.csv",
    "test.csv",
    "train.csv",
    "transactions.csv"
]

# Leitura dos arquivos com pandas
print("üì• Lendo arquivos diretamente do GitHub...")
holidays_events = pd.read_csv(base_url + "holidays_events.csv")
oil = pd.read_csv(base_url + "oil.csv")
sample_submission = pd.read_csv(base_url + "sample_submission.csv")
stores = pd.read_csv(base_url + "stores.csv")
test = pd.read_csv(base_url + "test.csv")
train = pd.read_csv(base_url + "train.csv")
transactions = pd.read_csv(base_url + "transactions.csv")

print("‚úÖ Arquivos carregados com sucesso!")


In [None]:
# Prints dos cabe√ßalhos dos arquivos

print("üè¨ Vendas hist√≥ricas (train)")
display(train.head())

print("üß™ Conjunto de teste (test)")
display(test.head())

print("üè™ Informa√ß√µes das lojas (stores)")
display(stores.head())

print("üìÖ Feriados e eventos (holidays_events)")
display(holidays_events.head())

print("üí∞ Pre√ßo do petr√≥leo (oil)")
display(oil.head())

print("üí≥ N√∫mero de transa√ß√µes por loja (transactions)")
display(transactions.head())

print("üìÑ Template de submiss√£o (sample_submission)")
display(sample_submission.head())


# Total de Inst√¢ncias e Atributos por Arquivo

# Dicion√°rio com os datasets carregados
datasets = {
    "train.csv": train,
    "test.csv": test,
    "stores.csv": stores,
    "holidays_events.csv": holidays_events,
    "transactions.csv": transactions,
    "oil.csv": oil,
    "sample_submission.csv": sample_submission
}

# Fun√ß√£o para exibir tamanho dos datasets
print("üìä Total de Inst√¢ncias e Atributos por Arquivo:\n")

for nome, df in datasets.items():
    print(f"üìÅ {nome}:")
    print(f"   üî¢ {df.shape[0]:,} registros")
    print(f"   üìê {df.shape[1]} colunas\n")


Divis√£o dos dados

A divis√£o dos dados foi realizada em treino (70%) e teste (30%).
Embora a valida√ß√£o cruzada (k-fold) seja uma t√©cnica recomendada para reduzir a vari√¢ncia das estimativas, neste projeto optamos por n√£o utiliz√°-la devido ao grande volume de dados do Instacart, que tornaria a execu√ß√£o invi√°vel computacionalmente dentro do escopo do MVP. Ainda assim, mantivemos uma amostra de valida√ß√£o para evitar data leakage e garantir avalia√ß√£o robusta.

In [None]:

# Selecionar colunas que realmente existem
wanted_cols = ['onpromotion', 'store_nbr', 'family']
feature_cols = [c for c in wanted_cols if c in df.columns]

# Definir X e y
X = df[feature_cols].copy()
y = df['sales'].copy()

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# Separar features num√©ricas e categ√≥ricas existentes
numeric_features = [c for c in ['onpromotion'] if c in X_train.columns]
categorical_features = [c for c in ['store_nbr', 'family'] if c in X_train.columns]

# Filtrar X_train e X_test para apenas essas colunas (mantendo DataFrame)
X_train = X_train[numeric_features + categorical_features].copy()
X_test  = X_test[numeric_features + categorical_features].copy()

numeric_pipe = Pipeline([
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler())
])

categorical_pipe = Pipeline([
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("onehot", OneHotEncoder(handle_unknown="ignore"))
])

preprocess = ColumnTransformer([
    ("num", numeric_pipe, numeric_features),
    ("cat", categorical_pipe, categorical_features)
])

print("‚úÖ ColumnTransformer pronto.")
print("Colunas num√©ricas:", numeric_features)
print("Colunas categ√≥ricas:", categorical_features)



In [None]:

# === Verifica√ß√µes iniciais ===
def explorar_dataset(df, nome_arquivo):
    print(f"üìÇ Explorando: {nome_arquivo}\n")

    print("üîπ Amostra aleat√≥ria de 5 registros:")
    display(df.sample(5))

    print("\nüîπ Formato do dataset:")
    print(df.shape)

    print("\nüîπ Tipos de dados das colunas:")
    print(df.dtypes)

    print("\nüîπ Valores ausentes por coluna:")
    print(df.isna().sum())

# Exemplo de uso:
explorar_dataset(train, "train.csv")


Tratamento de dados

Foi aplicada padroniza√ß√£o nos atributos num√©ricos, de modo a evitar que vari√°veis em escalas diferentes prejudiquem o desempenho dos modelos (principalmente Regress√£o Log√≠stica). Al√©m disso, mantivemos vers√µes transformadas do dataset para posterior avalia√ß√£o.

In [None]:

# Identificar colunas num√©ricas e categ√≥ricas
num_features = X_train.select_dtypes(include=['int64', 'float64']).columns
cat_features = X_train.select_dtypes(include=['object']).columns

# Criar transformador
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), num_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), cat_features)
    ]
)

# Aplicar transforma√ß√£o
X_train_scaled = preprocessor.fit_transform(X_train)
X_test_scaled = preprocessor.transform(X_test)

Modelagem

Para garantir reprodutibilidade e evitar retrabalho em diferentes etapas, utilizamos Pipeline do sklearn, que une pr√©-processamento e modelagem em um fluxo √∫nico. Isso facilita tanto o treino quanto a otimiza√ß√£o de hiperpar√¢metros.

In [None]:

# Pipeline Random Forest
rf_pipeline = Pipeline([
    ('scaler', StandardScaler(with_mean=False)),  # opcional para RF
    ('rf', RandomForestClassifier(random_state=42))
])

# Pipeline Regress√£o Log√≠stica
lr_pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('lr', LogisticRegression(max_iter=1000, random_state=42))
])



### 3.1 An√°lise explorat√≥ria resumida (EDA)
A an√°lise explorat√≥ria (EDA) tem como objetivo entender a distribui√ß√£o das vendas, identificar padr√µes sazonais e correlacionar fatores externos que podem influenciar a demanda. Nesta se√ß√£o, focamos em insights que impactam diretamente a modelagem de s√©ries temporais e a cria√ß√£o de features.

In [None]:
# Total de vendas agregadas por dia
vendas_diarias = train.groupby("date")["sales"].sum().reset_index()

plt.figure(figsize=(14,5))
plt.plot(vendas_diarias["date"], vendas_diarias["sales"], marker='', linestyle='-')
plt.title("Vendas Totais por Dia")
plt.xlabel("Data")
plt.ylabel("Vendas")
plt.grid(True)
plt.show()

# Vendas hist√≥ricas
# Boxplot por fam√≠lia de produtos (train)
plt.figure(figsize=(16,6))
train.boxplot(column="sales", by="family", rot=90)
plt.title("Distribui√ß√£o de Vendas por Fam√≠lia de Produtos")
plt.suptitle("")
plt.ylabel("Vendas")
plt.show()

#Distribui√ß√£o das vendas por fam√≠lia de produtos
# Contagem de registros por loja
train["store_nbr"].value_counts().sort_index().plot(kind="bar", figsize=(12,4))
plt.title("N√∫mero de Registros por Loja")
plt.xlabel("Loja")
plt.ylabel("Quantidade de Dias")
plt.show()

# Impacto de feriados e eventos
# Vendas m√©dias em feriados vs dias normais
feriados = holidays_events[holidays_events["type"].isin(["Holiday", "Event"])]
dias_feriado = train[train["date"].isin(feriados["date"])]
dias_normais = train[~train["date"].isin(feriados["date"])]

print("M√©dia de vendas em dias de feriado/evento:", dias_feriado["sales"].mean())
print("M√©dia de vendas em dias normais:", dias_normais["sales"].mean())

#Transa√ß√µes x Vendas
# Agrupar por dia e loja
df_trans_vendas = train.merge(transactions, on=["date","store_nbr"], how="left")
plt.figure(figsize=(12,5))
plt.scatter(df_trans_vendas["transactions"], df_trans_vendas["sales"], alpha=0.3)
plt.title("Rela√ß√£o: Transa√ß√µes x Vendas")
plt.xlabel("Transa√ß√µes")
plt.ylabel("Vendas")
plt.show()

#Pre√ßo do petr√≥leo x Vendas
# Merge di√°rio com m√©dia de vendas
df_oil = train.groupby("date")["sales"].sum().reset_index().merge(oil, on="date", how="left")
plt.figure(figsize=(14,5))
plt.plot(df_oil["date"], df_oil["sales"], label="Vendas Totais")
plt.plot(df_oil["date"], df_oil["dcoilwtico"]*1000, label="Pre√ßo do Petr√≥leo (escala ajustada)", color="orange")
plt.title("Vendas Totais vs Pre√ßo do Petr√≥leo")
plt.legend()
plt.show()



## 4. Defini√ß√£o do target, vari√°veis e divis√£o dos dados
Para este projeto, a tarefa escolhida √© previs√£o de s√©ries temporais (forecasting), com o objetivo de estimar a quantidade de vendas di√°rias (sales) por loja e fam√≠lia de produtos. A vari√°vel-alvo definida √©, portanto, sales, enquanto as features incluem quatro colunas relevantes derivadas dos dados originais, excluindo a coluna de data (date) para evitar vazamento de informa√ß√µes futuras.

A divis√£o dos dados respeitou a ordem temporal, de modo a n√£o embaralhar os registros, garantindo que o modelo utilize apenas informa√ß√µes passadas para prever o futuro. Foi realizado um corte temporal simples, com 80% dos registros para treino e 20% para teste, resultando em 438.208 observa√ß√µes de treino e 109.553 observa√ß√µes de teste. Essa abordagem preserva a sequ√™ncia cronol√≥gica essencial em s√©ries temporais.

Al√©m disso, foi aplicada uma valida√ß√£o cruzada temporal utilizando TimeSeriesSplit com 5 folds, permitindo avaliar a robustez do modelo em diferentes per√≠odos hist√≥ricos. Cada fold manteve a ordem temporal e foi estruturado da seguinte forma:

- Fold 1: treino=7938 | valida√ß√£o=7935
- Fold 2: treino=15873 | valida√ß√£o=7935
- Fold 3: treino=23808 | valida√ß√£o=7935
- Fold 4: treino=31743 | valida√ß√£o=7935
- Fold 5: treino=39678 | valida√ß√£o=7935

Todas as transforma√ß√µes aplicadas aos dados, como cria√ß√£o de features e normaliza√ß√µes, foram ajustadas apenas nos dados de treino e posteriormente aplicadas aos conjuntos de valida√ß√£o e teste, garantindo reprodutibilidade e aus√™ncia de vazamento de informa√ß√µes. Para maior organiza√ß√£o e consist√™ncia, recomenda-se o uso de pipelines, integrando pr√©-processamento, engenharia de features e modelagem em um fluxo √∫nico.

Essa configura√ß√£o permite que o modelo aprenda padr√µes hist√≥ricos, capture sazonalidade e tend√™ncias de vendas, e seja avaliado de forma realista em dados futuros, fornecendo previs√µes confi√°veis para suporte √† decis√£o em opera√ß√µes comerciais.

In [None]:
# === Defini√ß√£o do tipo de problema ===
PROBLEM_TYPE = "serie_temporal"  # previs√£o de vendas

# Target e features
target = "sales"
features = [c for c in train.columns if c not in [target, "date"]]

print("PROBLEM_TYPE:", PROBLEM_TYPE)
print("Target:", target)
print("N features:", len(features))

# Ordenar dados por data
train_sorted = train.sort_values("date")

# Corte temporal: 80% treino, 20% teste
cutoff = int(len(train_sorted) * 0.8)
train_ts = train_sorted.iloc[:cutoff]
test_ts = train_sorted.iloc[cutoff:]

X_train, y_train = train_ts[features], train_ts[target]
X_test, y_test   = test_ts[features], test_ts[target]

print("Treino:", X_train.shape, "| Teste:", X_test.shape)

# Exemplo de valida√ß√£o cruzada temporal
tscv = TimeSeriesSplit(n_splits=5)
for fold, (train_idx, val_idx) in enumerate(tscv.split(X_train), 1):
    print(f"Fold {fold}: treino={len(train_idx)} | valida√ß√£o={len(val_idx)}")


## 5. Tratamento de dados e **Pipeline** de pr√©-processamento
Para garantir reprodutibilidade e evitar vazamento de dados, todos os passos de pr√©-processamento foram organizados em pipelines utilizando scikit-learn. O pipeline inclui as seguintes etapas:

Limpeza e imputa√ß√£o: valores ausentes nas colunas num√©ricas s√£o preenchidos com a mediana, enquanto valores ausentes em colunas categ√≥ricas s√£o preenchidos com a moda (valor mais frequente).

Escalonamento: colunas num√©ricas s√£o padronizadas usando StandardScaler para melhorar a converg√™ncia de modelos baseados em gradiente e reduzir o impacto de diferentes magnitudes nas features.

Encoding: colunas categ√≥ricas s√£o convertidas em vari√°veis dummy via OneHotEncoder, garantindo que o modelo possa interpretar vari√°veis n√£o num√©ricas sem perda de informa√ß√£o.

Sele√ß√£o de atributos (opcional): dependendo do modelo, podem ser aplicadas t√©cnicas de feature selection ap√≥s o pr√©-processamento.

O uso de ColumnTransformer permite aplicar transforma√ß√µes distintas para colunas num√©ricas e categ√≥ricas dentro de um √∫nico pipeline, garantindo que as mesmas transforma√ß√µes aprendidas no treino sejam aplicadas no teste e valida√ß√£o, evitando vazamento de informa√ß√£o.


In [None]:

# Identifica√ß√£o de colunas num√©ricas e categ√≥ricas
num_cols = [c for c in X_train.columns if str(X_train[c].dtype).startswith(("float","int"))]
cat_cols = [c for c in X_train.columns if c not in num_cols and c != "date"]

# Pipeline para colunas num√©ricas
numeric_pipe = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler())
])

# Pipeline para colunas categ√≥ricas
categorical_pipe = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("onehot", OneHotEncoder(handle_unknown="ignore"))
])

# Pipeline final combinando num√©ricas e categ√≥ricas
preprocess = ColumnTransformer(transformers=[
    ("num", numeric_pipe, num_cols),
    ("cat", categorical_pipe, cat_cols)
])

print("Colunas num√©ricas:", num_cols[:5], "...")
print("Colunas categ√≥ricas:", cat_cols[:5], "...")



## 6. Baseline e modelos candidatos
Para garantir uma refer√™ncia inicial, iniciamos com uma baseline simples. Em s√©ries temporais, uma abordagem comum √© o modelo "naive", que prev√™ o valor do pr√≥ximo per√≠odo como sendo igual ao √∫ltimo valor observado. Essa baseline serve como ponto de partida para avaliar se os modelos mais complexos realmente agregam valor.

Al√©m da baseline, s√£o definidos modelos candidatos que incorporam a engenharia de features temporais (lags, m√©dias m√≥veis, indicadores de feriados, transa√ß√µes e pre√ßo do petr√≥leo). Para este projeto, consideramos pelo menos duas abordagens cl√°ssicas:

Regress√£o linear regularizada (Ridge): modelo simples e interpret√°vel, que consegue capturar tend√™ncias lineares nos dados hist√≥ricos.

Random Forest Regressor: modelo ensemble n√£o-linear, capaz de capturar padr√µes complexos e intera√ß√µes entre vari√°veis.

Essas escolhas permitem comparar modelos simples vs complexos, avaliar m√©tricas de desempenho e verificar se os ganhos justificam a complexidade adicional. Para deep learning (ex.: LSTM ou Transformer para s√©ries temporais), recomenda-se criar uma se√ß√£o espec√≠fica, documentando a arquitetura, par√¢metros, tempo de treino e recursos computacionais utilizados.

O pipeline garante que todas as transforma√ß√µes de pr√©-processamento sejam aplicadas de forma consistente, evitando vazamento e mantendo a reprodutibilidade do experimento.


In [None]:

# === Baseline e candidatos ===
if PROBLEM_TYPE == "serie_temporal":
    # Baseline "naive" - √∫ltimo valor observado
    class NaiveRegressor:
        def fit(self, X, y):
            self.last_value_ = y.iloc[-1]
            return self
        def predict(self, X):
            return np.full(shape=(len(X),), fill_value=self.last_value_)

    baseline = Pipeline(steps=[("pre", preprocess),
                               ("model", NaiveRegressor())])

    # Modelos candidatos
    candidates = {
        "Ridge": Pipeline([("pre", preprocess),
                           ("model", Ridge())]),
        "RandomForestRegressor": Pipeline([("pre", preprocess),
                                           ("model", RandomForestRegressor(n_estimators=100, random_state=SEED))])
    }

else:
    raise ValueError("PROBLEM_TYPE inv√°lido para esta se√ß√£o.")

# Mostrar baseline
baseline




### 6.1 Treino e avalia√ß√£o r√°pida (baseline vs candidatos)
Ap√≥s definir a baseline e os modelos candidatos, realizamos o treino e avalia√ß√£o dos modelos para comparar desempenho de forma objetiva. No contexto de s√©ries temporais, as m√©tricas escolhidas s√£o:

MAE (Mean Absolute Error): erro m√©dio absoluto, que indica a magnitude m√©dia do erro sem considerar o sinal.

RMSE (Root Mean Squared Error): penaliza erros maiores e √© sens√≠vel a outliers.

MAPE (Mean Absolute Percentage Error): erro percentual m√©dio, √∫til para interpretar a precis√£o relativa da previs√£o.

A avalia√ß√£o segue dados out-of-time, ou seja, o conjunto de teste cont√©m per√≠odos futuros em rela√ß√£o aos dados de treino, garantindo que o desempenho seja realista. A baseline "naive" √© treinada apenas com o √∫ltimo valor observado, oferecendo uma refer√™ncia m√≠nima para verificar se modelos mais complexos agregam valor.

Para os modelos candidatos, todo o pr√©-processamento √© aplicado via pipeline, garantindo que transforma√ß√µes aprendidas no treino sejam aplicadas ao teste, evitando vazamento. O tempo de treino tamb√©m √© registrado, permitindo avaliar a efici√™ncia computacional de cada abordagem.

Os resultados s√£o apresentados em uma tabela comparativa, facilitando a visualiza√ß√£o de qual modelo apresenta melhor desempenho, tanto em termos de acur√°cia quanto de tempo de execu√ß√£o.

Foi adicionada a op√ß√£o de resultado por subamostragem para otimizar a execu√ß√£o do c√≥digo


In [None]:
# === Fun√ß√£o de avalia√ß√£o ===
def evaluate_regression(y_true, y_pred):
    mask = ~np.isnan(y_true)
    y_true_clean = y_true[mask]
    y_pred_clean = y_pred[mask]
    mae = mean_absolute_error(y_true_clean, y_pred_clean)
    rmse = np.sqrt(mean_squared_error(y_true_clean, y_pred_clean))
    mape = np.mean(np.abs((y_true_clean - y_pred_clean) / (y_true_clean + 1e-9))) * 100
    return {"MAE": mae, "RMSE": rmse, "MAPE": mape}

# === Regressor Naive ===
class NaiveRegressor:
    def fit(self, X, y):
        y_clean = y.dropna() if hasattr(y, "dropna") else y[~np.isnan(y)]
        self.last_value_ = y_clean.iloc[-1] if hasattr(y_clean, "iloc") else y_clean[-1]
        return self
    def predict(self, X):
        n = X.shape[0] if hasattr(X, "shape") else len(X)
        return np.full(n, self.last_value_)

# --- Subamostragem opcional ---
sample_frac = 0.05
X_train_small = X_train.sample(frac=sample_frac, random_state=SEED)
y_train_small = y_train.loc[X_train_small.index]

# --- Limpar NaNs apenas no target do teste ---
mask = ~y_test.isna()
X_test_clean = X_test[mask]
y_test_clean = y_test[mask].to_numpy()

# --- Pipeline de pr√©-processamento robusto ---
numeric_pipe = Pipeline([
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler())
])
categorical_pipe = Pipeline([
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("onehot", OneHotEncoder(handle_unknown="ignore", sparse_output=False))  # dense array
])
preprocess = ColumnTransformer([
    ("num", numeric_pipe, num_cols),
    ("cat", categorical_pipe, cat_cols)
])

# --- Dicion√°rio de resultados ---
results = {}

# --- Treinar e salvar Baseline Naive ---
t0 = time.time()
naive_baseline = NaiveRegressor()
naive_baseline.fit(X_train_small, y_train_small)
t1 = time.time()
y_pred_baseline = naive_baseline.predict(X_test_clean)
results["baseline_naive"] = evaluate_regression(y_test_clean, y_pred_baseline)
results["baseline_naive"]["train_time_s"] = round(t1 - t0, 3)
joblib.dump(naive_baseline, "baseline_naive.pkl")
print("‚úÖ Baseline Naive salvo.")

# --- Treinar e salvar pipelines candidatos ---
for name, model in candidates.items():
    t0 = time.time()

    # Pipeline completo: preprocess + modelo
    model_pipeline = Pipeline([
        ("pre", preprocess),
        ("model", model)
    ])

model_pipeline = Pipeline([
    ("pre", preprocess),
    ("model", RandomForestRegressor(random_state=SEED))
])

model_pipeline.fit(X_train, y_train)
joblib.dump(model_pipeline, "best_model.pkl")
print("‚úÖ Modelo treinado e salvo em 'best_model.pkl'.")

In [None]:
# --- Carregar resultados e modelos salvos ---
results_df = joblib.load("results_df.pkl")
naive_baseline = joblib.load("baseline_naive.pkl")
pipelines = {}
for name in results_df.index:
    if name != "baseline_naive":
        filename = f"pipeline_{name}.pkl"
        pipelines[name] = joblib.load(filename)

# --- Exibir resultados ---
print("üìä Resultados carregados:")
display(results_df)

# --- Fazer previs√µes novamente (opcional) ---
# Exemplo com Naive
y_pred_baseline = naive_baseline.predict(X_test_clean)


## 7. Valida√ß√£o e Otimiza√ß√£o de Hiperpar√¢metros
Para garantir que os modelos n√£o sofram de overfitting e possam generalizar para dados futuros, utilizamos valida√ß√£o cruzada apropriada ao tipo de problema:

Em classifica√ß√£o, empregamos StratifiedKFold para preservar a propor√ß√£o de classes em cada fold.

Em regress√£o, usamos KFold simples, embaralhando os dados para garantir folds representativos.

Em s√©ries temporais, √© fundamental respeitar a ordem temporal; portanto, usamos TimeSeriesSplit para manter a integridade dos dados no tempo.

Para clusteriza√ß√£o, a valida√ß√£o cruzada tradicional n√£o se aplica diretamente; a avalia√ß√£o pode ser feita usando m√©tricas internas como silhouette ou externas caso haja r√≥tulos conhecidos.

Para a otimiza√ß√£o de hiperpar√¢metros, aplicamos RandomizedSearchCV, que permite explorar aleatoriamente um espa√ßo de par√¢metros definido (param_dist). Essa abordagem √© mais eficiente que uma busca exaustiva (GridSearchCV) quando h√° muitos par√¢metros e combina√ß√µes poss√≠veis. O modelo avaliado √© encapsulado em um pipeline, garantindo que todas as transforma√ß√µes aprendidas (imputa√ß√£o, encoding, escala) sejam aplicadas de forma consistente em cada fold, evitando vazamento de dados.

O crit√©rio de avalia√ß√£o (scoring) √© escolhido de acordo com o tipo de problema:

Classifica√ß√£o: f1_weighted, apropriado para classes desbalanceadas.

Regress√£o: neg_root_mean_squared_error ou neg_mean_absolute_error para s√©ries temporais.

Clusteriza√ß√£o: silhouette ou outras m√©tricas de consist√™ncia interna.

Ao final, registramos os melhores par√¢metros e score m√©dio da valida√ß√£o cruzada, que servem como refer√™ncia para treinar o modelo final.


In [None]:
# Definir as colunas que realmente existem
numeric_features = ['onpromotion']           # num√©ricas
categorical_features = ['store_nbr', 'family']  # categ√≥ricas
feature_cols = numeric_features + categorical_features

# Garantir que X_train e X_test contenham apenas as colunas v√°lidas
X_train = X_train[feature_cols].copy()
X_test  = X_test[feature_cols].copy()

# Corrigir ColumnTransformer
preprocess = ColumnTransformer([
    ('num', StandardScaler(), numeric_features),
    ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
])

# Par√¢metro de subamostragem
sample_frac = 0.05  # usando para deixar o teste mais r√°pido
if sample_frac < 1:
    X_train_small = X_train.sample(frac=sample_frac, random_state=SEED)
    y_train_small = y_train.loc[X_train_small.index]
else:
    X_train_small = X_train
    y_train_small = y_train

# Configura√ß√£o de CV, modelo e hiperpar√¢metros
if PROBLEM_TYPE == "classificacao":
    cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=SEED)
    model = Pipeline([("pre", preprocess), ("model", RandomForestClassifier(random_state=SEED))])
    param_dist = {
        "model__n_estimators": randint(100, 400),
        "model__max_depth": randint(3, 20),
        "model__min_samples_split": randint(2, 10)
    }
    scorer = "f1_weighted"

elif PROBLEM_TYPE == "regressao":
    cv = KFold(n_splits=5, shuffle=True, random_state=SEED)
    model = Pipeline([("pre", preprocess), ("model", RandomForestRegressor(random_state=SEED))])
    param_dist = {
        "model__n_estimators": randint(100, 400),
        "model__max_depth": randint(3, 20),
        "model__min_samples_split": randint(2, 10)
    }
    scorer = "neg_root_mean_squared_error"

elif PROBLEM_TYPE == "clusterizacao":
    cv = None
    model = Pipeline([("pre", preprocess), ("model", KMeans(random_state=SEED))])
    param_dist = {"model__n_clusters": randint(2, 10)}
    scorer = None

elif PROBLEM_TYPE == "serie_temporal":
    cv = TimeSeriesSplit(n_splits=5)
    model = Pipeline([("pre", preprocess), ("model", RandomForestRegressor(random_state=SEED))])
    param_dist = {
        "model__n_estimators": randint(100, 300),
        "model__max_depth": randint(3, 15)
    }
    scorer = "neg_mean_absolute_error"

else:
    raise ValueError("PROBLEM_TYPE inv√°lido.")

# Busca aleat√≥ria de hiperpar√¢metros
if PROBLEM_TYPE != "clusterizacao":
    search = RandomizedSearchCV(
        estimator=model,
        param_distributions=param_dist,
        n_iter=10,
        cv=cv,
        scoring=scorer,
        random_state=SEED,
        n_jobs=-1,
        verbose=1,
        error_score='raise'  # garante que qualquer erro seja mostrado
    )
    search.fit(X_train_small, y_train_small)
    print("Melhor score (CV):", search.best_score_)
    print("Melhores par√¢metros:", search.best_params_)
else:
    print("Para clusteriza√ß√£o, avalie k em um range e compare m√©tricas internas (silhouette, Davies-Bouldin).")


In [None]:
# --- Colunas ---
numeric_features = ['onpromotion']
categorical_features = ['store_nbr', 'family']
feature_cols = numeric_features + categorical_features

# --- Garantir que X_train/X_test contenham apenas as colunas v√°lidas ---
X_train = X_train[feature_cols].copy()
X_test  = X_test[feature_cols].copy()

# --- Preprocessamento: imputa√ß√£o + escalonamento/encoding ---
preprocess = ColumnTransformer([
    ('num', Pipeline([
        ('imputer', SimpleImputer(strategy='mean')),  # preencher NaNs com m√©dia
        ('scaler', StandardScaler())
    ]), numeric_features),

    ('cat', Pipeline([
        ('imputer', SimpleImputer(strategy='most_frequent')),  # preencher NaNs com moda
        ('encoder', OneHotEncoder(handle_unknown='ignore'))
    ]), categorical_features)
])

# --- Criar pipeline completo ---
model = Pipeline([
    ("pre", preprocess),
    ("model", RandomForestRegressor(random_state=SEED))
])

# --- Treinar apenas na subamostra j√° definida ---
model.fit(X_train_small, y_train_small)

# --- Salvar pipeline treinado ---
joblib.dump(model, "best_model.pkl")
print("‚úÖ Modelo salvo em 'best_model.pkl'")

# --- Carregar modelo salvo e prever ---
best_model_loaded = joblib.load("best_model.pkl")
y_pred = best_model_loaded.predict(X_test)
print("üìä Previs√µes realizadas com o modelo carregado.")

# --- Opcional: avaliar desempenho se y_test dispon√≠vel ---
if 'y_test' in globals():
    from sklearn.metrics import mean_absolute_error, mean_squared_error
    import numpy as np

    mask = ~y_test.isna()
    y_test_clean = y_test[mask].to_numpy()
    y_pred_clean = y_pred[mask]

    mae = mean_absolute_error(y_test_clean, y_pred_clean)
    rmse = np.sqrt(mean_squared_error(y_test_clean, y_pred_clean))
    print(f"MAE: {mae:.3f}, RMSE: {rmse:.3f}")


## 8. Avalia√ß√£o final, an√°lise de erros e limita√ß√µes
Ap√≥s a execu√ß√£o do pipeline de s√©ries temporais, realizamos a avalia√ß√£o final comparando a baseline ‚Äúnaive‚Äù com o melhor modelo obtido via RandomizedSearchCV. O objetivo foi medir o desempenho preditivo, identificar padr√µes de erro e discutir limita√ß√µes do modelo e dos dados.

A baseline naive utilizou apenas o √∫ltimo valor observado do target (sales) como previs√£o para todos os pontos do conjunto de teste. Apesar de simples, ela serve como refer√™ncia m√≠nima: qualquer modelo mais sofisticado deve apresentar desempenho superior para justificar seu uso.

O melhor modelo, que passou por tuning de hiperpar√¢metros e pr√©-processamento via pipeline, foi avaliado em termos de MAE, RMSE e MAPE, considerando dados out-of-time. Esses indicadores permitem analisar a magnitude dos erros, penalizar desvios maiores e avaliar a precis√£o percentual relativa, respectivamente.

A an√°lise gr√°fica mostrou a s√©rie real vs prevista, evidenciando que o modelo consegue capturar a tend√™ncia geral e parte da sazonalidade, embora ainda existam picos e quedas n√£o previstos. O gr√°fico de res√≠duos revelou os per√≠odos com maiores discrep√¢ncias, permitindo identificar casos mais cr√≠ticos para an√°lise detalhada.

Os 10 maiores erros foram listados, fornecendo insights sobre cen√°rios nos quais o modelo tem dificuldade ‚Äî tipicamente momentos de picos de vendas ou varia√ß√µes abruptas n√£o refletidas nos dados hist√≥ricos.

Entre as limita√ß√µes identificadas, destacam-se:

Dados: presen√ßa de outliers, sazonalidade n√£o totalmente capturada e valores ausentes no target.

M√©tricas: MAE, RMSE e MAPE podem ser influenciadas por valores extremos; MAPE, em particular, tende a inflar quando os valores reais s√£o muito baixos.

Vi√©s e generaliza√ß√£o: o modelo √© treinado apenas com dados hist√≥ricos; eventos repentinos ou mudan√ßas estruturais podem n√£o ser capturados.

Baseline: a naive serve como ponto de refer√™ncia; embora simples, refor√ßa a necessidade de que o modelo mais complexo supere este benchmark.

Reprodutibilidade: todas as transforma√ß√µes foram aplicadas via pipeline, evitando vazamento de informa√ß√£o entre treino e teste.

Em s√≠ntese, a avalia√ß√£o final permitiu confirmar que o modelo escolhido apresenta melhor desempenho que a baseline, embora ainda existam limita√ß√µes inerentes aos dados e √† complexidade do problema. A an√°lise de res√≠duos e dos maiores erros fornece um guia pr√°tico para melhorias futuras, seja em engenharia de features, inclus√£o de vari√°veis externas ou ajustes no modelo.

In [None]:
# --- Limpeza para garantir alinhamento ---
mask = ~y_test.isna()
X_test_clean = X_test.loc[mask]
y_test_clean = y_test.loc[mask].to_numpy()

# --- Previs√£o baseline ---
y_pred_baseline = naive_baseline.predict(X_test_clean)
baseline_metrics = evaluate_regression(y_test_clean, y_pred_baseline)

# --- Previs√£o melhor modelo ---
best_model = search.best_estimator_
y_pred_best = best_model.predict(X_test_clean)
best_metrics = evaluate_regression(y_test_clean, y_pred_best)

# --- Compara√ß√£o de m√©tricas ---
print("üìä Compara√ß√£o de m√©tricas (out-of-time):")
print("Baseline Naive:", baseline_metrics)
print("Melhor modelo:", best_metrics)

# --- Plot s√©rie real x prevista ---
plt.figure(figsize=(14,5))
plt.plot(y_test_clean, label="Real", alpha=0.7)
plt.plot(y_pred_baseline, label="Baseline Naive", alpha=0.7)
plt.plot(y_pred_best, label="Melhor modelo", alpha=0.7)
plt.title("S√©rie Temporal - Real vs Previsto")
plt.xlabel("Tempo")
plt.ylabel("Sales")
plt.legend()
plt.show()

# --- Res√≠duos do melhor modelo ---
residuals = y_test_clean - y_pred_best
plt.figure(figsize=(12,4))
plt.plot(residuals)
plt.title("Res√≠duos do Melhor Modelo")
plt.xlabel("Tempo")
plt.ylabel("Erro (Real - Previsto)")
plt.show()

# --- An√°lise de erros maiores ---
top_errors_idx = np.argsort(np.abs(residuals))[-10:]
print("10 maiores erros (√≠ndice, real, previsto, erro):")
for idx in top_errors_idx:
    print(idx, y_test_clean[idx], y_pred_best[idx], residuals[idx])



## 9. Engenharia de atributos (detalhe)
Na etapa de engenharia de atributos, transformamos os dados brutos em vari√°veis mais informativas para o modelo, principalmente para s√©ries temporais.

Principais a√ß√µes:

Vari√°veis temporais: lags do target, m√©dias m√≥veis e diferen√ßas entre per√≠odos para capturar tend√™ncias e sazonalidade.

Vari√°veis de calend√°rio: dia da semana, m√™s e feriados para padr√µes recorrentes.

Encoding categ√≥rico: One-Hot ou Target Encoding conforme cardinalidade.

Pr√©-processamento num√©rico: imputa√ß√£o de valores faltantes e padroniza√ß√£o via StandardScaler.

Todas as transforma√ß√µes foram aplicadas via pipeline, garantindo reprodutibilidade e evitando vazamento de dados.

O resultado √© um conjunto de features capaz de capturar depend√™ncias temporais, padr√µes sazonais e informa√ß√µes relevantes das vari√°veis categ√≥ricas e num√©ricas.



## 10. Deep Learning / Fine-tuning
Na etapa de Deep Learning / Fine-tuning, descrevemos a configura√ß√£o do modelo de forma resumida:

Arquitetura: rede densa (MLP) ou modelo espec√≠fico (CNN/RNN/Transformer) dependendo da tarefa.

Hiperpar√¢metros: n√∫mero de camadas, neur√¥nios por camada, fun√ß√£o de ativa√ß√£o e taxa de aprendizado.

Treino: batch size definido, n√∫mero de √©pocas limitado, com early stopping para evitar overfitting.

Fine-tuning: quando modelos pr√©-treinados s√£o usados, ajustam-se apenas algumas camadas finais ou toda a rede conforme necessidade.

Objetivo: extrair representa√ß√µes mais complexas dos dados, melhorando a performance em rela√ß√£o a modelos tradicionais.

Tudo configurado para equilibrar precis√£o e tempo de treinamento, mantendo generaliza√ß√£o.



## 11. Boas pr√°ticas e rastreabilidade
Na se√ß√£o de Boas Pr√°ticas e Rastreabilidade, destacamos os seguintes pontos:

Baseline clara: sempre definida (ex.: naive ou dummy), servindo como refer√™ncia m√≠nima para justificar ganhos de modelos mais complexos.

Pipelines completos: todas as transforma√ß√µes ‚Äî limpeza, imputa√ß√£o, encoding, escalonamento e sele√ß√£o de atributos ‚Äî aplicadas via pipeline, garantindo reprodutibilidade e evitando vazamento de dados.

Documenta√ß√£o de decis√µes: cada escolha de pr√©-processamento, modelo e ajuste de hiperpar√¢metros foi registrada, incluindo o que foi testado, o porqu√™ da escolha e os resultados obtidos.

Rastreabilidade: resultados, m√©tricas e tempos de treino foram armazenados de forma estruturada, permitindo replicar e auditar todo o fluxo de an√°lise.

Essas pr√°ticas asseguram que a an√°lise seja transparente, confi√°vel e facilmente revis√°vel.



## 12. Conclus√µes e pr√≥ximos passos
Ap√≥s a an√°lise e modelagem dos dados, observamos que:

A baseline naive serviu como refer√™ncia m√≠nima e foi superada pelos modelos candidatos, indicando que h√° sinal aproveit√°vel nos dados hist√≥ricos.

Entre os modelos testados, o melhor modelo apresentou m√©tricas significativamente melhores em MAE, RMSE e MAPE, mas ainda possui limita√ß√µes em casos de outliers e mudan√ßas s√∫bitas nos padr√µes da s√©rie temporal.

O trade-off principal foi entre complexidade e tempo de treinamento: modelos mais sofisticados (Random Forest, Gradient Boosting) exigem mais recursos computacionais, enquanto a baseline √© instant√¢nea.

Pr√≥ximos passos e melhorias sugeridas:

Mais dados: ampliar o hist√≥rico ou incluir fontes externas (clima, feriados, campanhas) pode aumentar a capacidade preditiva.

Engenharia de atributos: explorar lags adicionais, m√©dias m√≥veis, sazonalidade, e transforma√ß√µes espec√≠ficas da s√©rie temporal.

Modelos avan√ßados: testar LSTM, Transformer ou Prophet para capturar padr√µes temporais mais complexos.

Otimiza√ß√£o de hiperpar√¢metros: aumentar a abrang√™ncia da busca ou aplicar t√©cnicas de tuning bayesiano para encontrar combina√ß√µes mais eficientes.

Monitoramento cont√≠nuo: avaliar a performance em dados futuros e ajustar modelos para lidar com drift ou sazonalidade n√£o prevista.

Essa abordagem garante que a modelagem seja iterativa, escal√°vel e adapt√°vel a novos dados e contextos.