# üîÑ Infer√™ncia Recorrente (Batch Scoring) ‚Äî CVC Lojas

## üéØ Objetivo
Gerar previs√µes de vendas para os pr√≥ximos dias usando o modelo produtivo `Champion`.

## ‚öôÔ∏è Fluxo de Execu√ß√£o
1. **Context Loading:** Carrega hist√≥rico recente via `DataIngestion` (Feature Store) ‚Äî **mesmo padr√£o do treino**.
2. **Market Data:** Carrega `historico_suporte_loja` (IPCA, D√≥lar, etc.) com cobertura futura.
3. **Model Loading:** Baixa o modelo `Champion` do Unity Catalog.
4. **Inference:** Envia o DataFrame cru ao `UnifiedForecaster`. O wrapper aplica internamente: extens√£o de datas, features de calend√°rio e scaling.
5. **Persistence:** Salva os resultados na tabela `previsao_lojas_futuro`.

---
**‚ö†Ô∏è IMPORTANTE:** Este notebook N√ÉO gera features de calend√°rio manualmente.
O `UnifiedForecaster` (wrapper) j√° faz isso internamente via `_add_calendar_features()`,
garantindo total consist√™ncia com o padr√£o usado no treinamento.

In [0]:
# ==============================================================================
# 0. SETUP E IMPORTS
# ==============================================================================
%load_ext autoreload
%autoreload 2

import sys
import os
sys.path.append(os.getcwd())

import pandas as pd
import numpy as np
import mlflow
import pyspark.sql.functions as F
from datetime import date, timedelta, datetime
from mlflow.tracking import MlflowClient

# M√≥dulos do projeto
from src.validation.config import Config
from src.validation.data import DataIngestion

# Configs Spark
spark.conf.set("spark.databricks.delta.optimizeWrite.enabled", "true")
spark.conf.set("spark.databricks.delta.autoCompact.enabled", "true")

client = MlflowClient()
print("‚úÖ Setup conclu√≠do.")

In [0]:
# ==============================================================================
# 1. CONFIGURA√á√ÉO DA JANELA DE CONTEXTO
# ==============================================================================
# Horizonte de previs√£o (em dias)
FORECAST_HORIZON = 35

# 'Hoje' ‚Äî em produ√ß√£o, usar date.today()
today = date.today()

# Janela de lookback: suficiente para os lags do modelo (max_lag=15) + margem
# O wrapper usa max_lag=15 por padr√£o. Usamos 90 dias para ter hist√≥rico farto.
context_days = 90
start_context = today - timedelta(days=context_days)

# Config din√¢mica (mesmos par√¢metros do treino)
config = Config(spark)
config.DATA_START  = start_context.strftime("%Y-%m-%d")
config.INGESTION_END = today.strftime("%Y-%m-%d")
config.SCHEMA = "cvc_pred"

print(f"üìÖ Data de Refer√™ncia (Hoje): {today}")
print(f"üîé Janela de contexto: {config.DATA_START} ‚Üí {config.INGESTION_END}")
print(f"üîÆ Horizonte de previs√£o: {FORECAST_HORIZON} dias")

In [0]:
# ==============================================================================
# 2. CARREGAMENTO DO HIST√ìRICO VIA FEATURE STORE
#    Usa exatamente o mesmo DataIngestion do treino ‚Äî garante consist√™ncia
#    nas features est√°ticas (cluster_loja, sigla_uf, tipo_loja, modelo_loja)
#    e covari√°veis locais (is_feriado).
# ==============================================================================
print("‚è≥ Carregando hist√≥rico recente via Feature Store...")
ingestion = DataIngestion(spark, config)
df_spark_raw = ingestion.create_training_set()

# Filtro de seguran√ßa (a DataIngestion j√° filtra, mas garantimos aqui)
df_spark_raw = df_spark_raw.filter(
    F.col("data").between(config.DATA_START, config.INGESTION_END)
)

# Converte para Pandas ‚Äî volume pequeno (janela de 90 dias)
df_context_pd = df_spark_raw.toPandas()
df_context_pd['data'] = pd.to_datetime(df_context_pd['data'])
df_context_pd['codigo_loja'] = (
    df_context_pd['codigo_loja']
    .astype(str)
    .str.replace(r'\.0$', '', regex=True)
)

print(f"‚úÖ Hist√≥rico carregado: {len(df_context_pd)} linhas | {df_context_pd['codigo_loja'].nunique()} lojas")
print(f"   Colunas: {df_context_pd.columns.tolist()}")

In [0]:
# ==============================================================================
# 3. CARREGAMENTO DOS INDICADORES DE MERCADO (historico_suporte_loja)
#    Segue o mesmo padr√£o de get_global_support() do data.py:
#    - Sem filtro de data (carrega tudo para ter cobertura futura)
#    - Pivot por 'metricas'
#    - Frequ√™ncia di√°ria cont√≠nua (asfreq + ffill)
#    - Extens√£o para cobrir o FORECAST_HORIZON
# ==============================================================================
print("üìä Carregando indicadores de mercado (suporte global)...")

df_market_spark = (
    spark.table(f"{config.CATALOG}.{config.SCHEMA}.historico_suporte_loja")
    .groupBy("data")
    .pivot("metricas")
    .agg(F.sum("valor"))
    .na.fill(0.0)
)

pdf_market = df_market_spark.toPandas()
pdf_market['data'] = pd.to_datetime(pdf_market['data'])

# Garante frequ√™ncia di√°ria cont√≠nua (igual ao data.py)
pdf_market = (
    pdf_market
    .set_index('data')
    .asfreq('D')
    .fillna(0.0)
)

# Extens√£o futura: cobre o horizonte de previs√£o (igual ao get_global_support)
full_market_range = pd.date_range(
    start=pdf_market.index.min(),
    periods=len(pdf_market) + FORECAST_HORIZON + 15,  # margem extra
    freq='D'
)
pdf_market = pdf_market.reindex(full_market_range).ffill().fillna(0.0).reset_index()
pdf_market.rename(columns={'index': 'data'}, inplace=True)

market_cols = [c for c in pdf_market.columns if c != 'data']
print(f"‚úÖ Mercado carregado: {len(pdf_market)} dias | Indicadores: {market_cols}")

In [0]:
# ==============================================================================
# 4. MONTAGEM DO DATAFRAME DE INFER√äNCIA
#    Estrat√©gia:
#    a) Expande o hist√≥rico por loja √ó datas (hist√≥rico + futuro)
#    b) Faz merge com os indicadores de mercado
#    c) N√ÉO gera features de calend√°rio aqui ‚Äî o UnifiedForecaster.predict()
#       chama _add_calendar_features() internamente (dayofweek, quarter, week)
#       garantindo exatamente o mesmo padr√£o do treinamento.
# ==============================================================================
print("üîß Montando DataFrame de infer√™ncia...")

last_date_history = df_context_pd['data'].max()
start_date_context = df_context_pd['data'].min()

# Margem de 3 meses para tr√°s (igual ao covariates_range do data.py)
safe_start_date = start_date_context - pd.DateOffset(months=3)

# Datas futuras: hist√≥rico + horizonte + buffer para os lags
future_end = last_date_history + pd.Timedelta(days=FORECAST_HORIZON + 15)
inference_range = pd.date_range(start=safe_start_date, end=future_end, freq='D')

# Colunas est√°ticas dispon√≠veis (provenientes do Feature Store)
static_cols = ['codigo_loja', 'cluster_loja', 'sigla_uf', 'tipo_loja', 'modelo_loja']
static_cols = [c for c in static_cols if c in df_context_pd.columns]

# Um registro por loja com os atributos est√°ticos mais recentes
df_stores_ref = (
    df_context_pd
    .sort_values('data')
    .groupby('codigo_loja')[static_cols]
    .tail(1)
    .reset_index(drop=True)
)

# Cross-join: loja √ó todas as datas do intervalo
df_full_timeline = (
    df_stores_ref
    .assign(key=1)
    .merge(pd.DataFrame({'data': inference_range, 'key': 1}), on='key')
    .drop('key', axis=1)
)

# Salvar as ventas reais (target) ‚Äî futuro fica NaN (o wrapper sabe lidar)
df_full_timeline = pd.merge(
    df_full_timeline,
    df_context_pd[['data', 'codigo_loja', 'target_vendas']],
    on=['data', 'codigo_loja'],
    how='left'
)

# Feriados: carregados da tabela oficial (cobre passado + futuro)
print("üóìÔ∏è Carregando calend√°rio de feriados...")
df_feriados_pd = (
    spark.table(f"{config.CATALOG}.{config.SCHEMA}.historico_feriados_loja")
    .select("codigo_loja", "data", "valor")
    .withColumn("codigo_loja", F.col("codigo_loja").cast("string"))
    .toPandas()
)
df_feriados_pd['data'] = pd.to_datetime(df_feriados_pd['data'])
df_feriados_pd['codigo_loja'] = (
    df_feriados_pd['codigo_loja']
    .astype(str)
    .str.replace(r'\.0$', '', regex=True)
)
df_feriados_pd.rename(columns={'valor': 'is_feriado'}, inplace=True)

# Merge de feriados
df_full_timeline = pd.merge(
    df_full_timeline,
    df_feriados_pd,
    on=['data', 'codigo_loja'],
    how='left'
)
df_full_timeline['is_feriado'] = df_full_timeline['is_feriado'].fillna(0.0)
# target_vendas: NaN nas datas futuras √© intencional (wrapper usa para separar hist√≥rico)

# Merge com indicadores de mercado
df_inference_final = pd.merge(df_full_timeline, pdf_market, on='data', how='left')
df_inference_final[market_cols] = df_inference_final[market_cols].ffill().bfill().fillna(0.0)

# Ajuste de tipos
for col in market_cols + ['is_feriado']:
    df_inference_final[col] = df_inference_final[col].astype(float)

# Coluna 'n': horizonte de previs√£o para o wrapper
df_inference_final['n'] = int(FORECAST_HORIZON)

# Data como string (exig√™ncia do schema MLflow)
df_inference_final['data'] = df_inference_final['data'].dt.strftime('%Y-%m-%d')

print(f"‚úÖ DataFrame de infer√™ncia montado.")
print(f"   Linhas: {len(df_inference_final)} | Colunas: {len(df_inference_final.columns)}")
print(f"   Colunas: {df_inference_final.columns.tolist()}")

In [0]:
# ==============================================================================
# 5. CARREGAMENTO DO MODELO CHAMPION
# ==============================================================================
model_name = f"{config.CATALOG}.cvc_pred.cvc_lojas_forecast_production"

print(f"üì¶ Carregando modelo: {model_name}@Champion")
loaded_model = mlflow.pyfunc.load_model(f"models:/{model_name}@Champion")

mv = client.get_model_version_by_alias(name=model_name, alias="Champion")
print(f"‚úÖ Modelo carregado!")
print(f"   Vers√£o : {mv.version}")
print(f"   Run ID : {mv.run_id}")
print(f"   Desc   : {mv.description}")

In [0]:
# ==============================================================================
# 6. DIAGN√ìSTICO PR√â-INFER√äNCIA
#    Verifica o metadata do modelo carregado para garantir alinhamento de
#    colunas entre treino e infer√™ncia.
# ==============================================================================
try:
    python_model = loaded_model._model_impl.python_model
    meta = getattr(python_model, 'metadata', {})
    if meta:
        static_order = meta.get('static_cols_order', [])
        cov_order    = meta.get('covariate_cols_order', [])
        max_lag      = meta.get('max_lag', 'N/A')
        print(f"üßê Metadata do Modelo:")
        print(f"   static_cols_order    : {static_order}")
        print(f"   covariate_cols_order : {cov_order}")
        print(f"   max_lag              : {max_lag}")

        # Verifica se todas as covari√°veis do treino est√£o presentes no input
        missing_covs = [c for c in cov_order if c not in df_inference_final.columns]
        if missing_covs:
            print(f"‚ö†Ô∏è ATEN√á√ÉO ‚Äî Covari√°veis do treino ausentes no input: {missing_covs}")
            print("   Preenchendo com zeros...")
            for mc in missing_covs:
                df_inference_final[mc] = 0.0
        else:
            print("‚úÖ Todas as covari√°veis do treino est√£o presentes no input.")
    else:
        print("‚ÑπÔ∏è Metadata n√£o encontrado ‚Äî wrapper usar√° heur√≠stica de fallback.")
except Exception as e:
    print(f"‚ö†Ô∏è N√£o foi poss√≠vel ler o metadata do modelo: {e}")

In [0]:
# ==============================================================================
# 7. INFER√äNCIA
#    O UnifiedForecaster recebe o DataFrame cru e internamente:
#    a) Expande datas futuras (_ensure_future_horizon)
#    b) Gera features de calend√°rio (_add_calendar_features) ‚Äî dayofweek, quarter, week
#    c) Constr√≥i objetos TimeSeries Darts com as colunas ordenadas pelo metadata
#    d) Aplica o pipeline de scaling (target_pipeline, static_pipeline, covariate_pipeline)
#    e) Chama model.predict() e inverte o scaling
# ==============================================================================
print("üîÆ Gerando previs√µes...")

# Saneamento at√¥mico: garante que n√£o haja colunas duplicadas (artefato de merges)
clean_dict = {}
for col in df_inference_final.columns.unique():
    col_name = str(col).strip()
    series_data = df_inference_final[col]
    if isinstance(series_data, pd.DataFrame):
        series_data = series_data.iloc[:, 0]
    clean_dict[col_name] = series_data.values.flatten()

df_inference_cleaned = pd.DataFrame(clean_dict)

# Predi√ß√£o ‚Äî o wrapper cuida de todo o pr√©-processamento internamente
forecast_df = loaded_model.predict(df_inference_cleaned)

# Metadados de rastreabilidade
forecast_df['version_model']     = mv.version
forecast_df['description_model'] = mv.description
forecast_df['model_name']        = model_name
forecast_df['data_reference']    = datetime.now()

n_lojas = forecast_df['codigo_loja'].nunique()
print(f"‚úÖ Previs√£o conclu√≠da para {n_lojas} lojas.")
print(f"   Per√≠odo previsto: {forecast_df['data_previsao'].min()} ‚Üí {forecast_df['data_previsao'].max()}")

In [0]:
# ==============================================================================
# 8. PERSIST√äNCIA (WRITE BACK)
# ==============================================================================
output_table = f"{config.CATALOG}.{config.SCHEMA}.previsao_lojas_futuro"

print(f"üíæ Salvando resultados em: {output_table}")
(
    spark.createDataFrame(forecast_df)
    .write
    .format("delta")
    .mode("append")
    .option("mergeSchema", "true")
    .saveAsTable(output_table)
)
spark.sql(f"OPTIMIZE {output_table}")
print("‚ú® Sucesso! Dados salvos e otimizados.")

In [0]:
display(forecast_df)