Pipeline completa em Python para previsão de demanda, usando dados de vendas, produtos, promoções e categorias. Esse pipeline é ideal para rodar em notebooks ou scripts de análise:


In [None]:
# 1. Importação de bibliotecas
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error
from xgboost import XGBRegressor

# 2. Conexão com banco de dados SQL
engine = create_engine('mysql+pymysql://usuario:senha@host:porta/banco')
vendas = pd.read_sql('SELECT * FROM vendas', engine)
produtos = pd.read_sql('SELECT * FROM produtos', engine)
promocoes = pd.read_sql('SELECT * FROM promocao', engine)
categorias = pd.read_sql('SELECT * FROM categoria_produtos', engine)

# 3. Merge e preparação dos dados
df = vendas.merge(produtos, on='produto_id')\
           .merge(categorias, on='categoria_id')\
           .merge(promocoes, on='data', how='left')

df['data'] = pd.to_datetime(df['data'])
df['semana'] = df['data'].dt.isocalendar().week
df['ano'] = df['data'].dt.year
df['promocao_ativa'] = df['promocao_valor'].notnull().astype(int)

# 4. Feature engineering
df['vendas_movel'] = df.groupby('produto_id')['quantidade_vendida'].transform(lambda x: x.rolling(3).mean())
df['dias_desde_ultima_venda'] = df.groupby('produto_id')['data'].diff().dt.days.fillna(0)

# 5. Seleção de variáveis
X = df[['semana', 'ano', 'estoque_atual', 'promocao_ativa', 'vendas_movel', 'dias_desde_ultima_venda']]
y = df['quantidade_vendida']

# 6. Treinamento do modelo
model = XGBRegressor()
kf = KFold(n_splits=5, shuffle=True, random_state=42)
mae = cross_val_score(model, X, y, cv=kf, scoring='neg_mean_absolute_error')
mape = cross_val_score(model, X, y, cv=kf, scoring='neg_mean_absolute_percentage_error')

# 7. Resultados
print(f'MAE médio: {-mae.mean():.2f}')
print(f'MAPE médio: {-mape.mean()*100:.2f}%')

✅ O que esse pipeline entrega:
- Previsão de demanda por produto e semana
- Integração com dados reais do SQL
- Validação estatística com K-Fold
- Métricas claras para RH, compras e operação
