AutoGluon - Predicción de ventas (tn) por producto para febrero 2020

In [None]:
!pip install autogluon.timeseries

In [None]:
# Importar librerías
import pandas as pd
from autogluon.timeseries import TimeSeriesPredictor, TimeSeriesDataFrame

In [None]:
# Cargar datasets
df_sellin = pd.read_csv("../data/sell-in.txt", sep="\t")
df_productos = pd.read_csv("../data/tb_productos.txt", sep="\t")

# Leer lista de productos a predecir
with open("../data/product_id_apredecir201912.txt", "r") as f:
    product_ids = [int(line.strip()) for line in f if line.strip().isdigit()]

# Preprocesamiento
# Convertir periodo a datetime
df_sellin['timestamp'] = pd.to_datetime(df_sellin['periodo'], format='%Y%m')

In [None]:
# Filtrar hasta dic 2019 y productos requeridos
df_filtered = df_sellin[
    (df_sellin['timestamp'] <= '2019-12-01') &
    (df_sellin['product_id'].isin(product_ids))
]

In [None]:
# Agregar tn por periodo, cliente y producto
df_grouped = df_filtered.groupby(['timestamp', 'customer_id', 'product_id'], as_index=False)['tn'].sum()

In [None]:
# Agregar tn total por periodo y producto
df_monthly_product = df_grouped.groupby(['timestamp', 'product_id'], as_index=False)['tn'].sum()

In [None]:
# Agregar columna 'item_id' para AutoGluon
df_monthly_product['item_id'] = df_monthly_product['product_id']

In [None]:
# # ⏰ 4. Crear TimeSeriesDataFrame
# ts_data = TimeSeriesDataFrame.from_data_frame(
#     df_monthly_product,
#     id_column='item_id',
#     timestamp_column='timestamp'
# )
# Completar valores faltantes
# ts_data = ts_data.fill_missing_values()

In [None]:
# --- Inserta este código en una nueva celda después de la celda [9] ---

# Hacemos una copia para mantener el dataframe original intacto
df_with_lags = df_monthly_product.copy()

# Es fundamental ordenar por producto (item_id) y fecha (timestamp)
# para que el cálculo de los lags sea correcto para cada serie individual.
df_with_lags = df_with_lags.sort_values(by=['item_id', 'timestamp'])

# Usamos el método shift() de pandas para crear los lags.
# El groupby('item_id') es CRUCIAL para asegurar que los lags se calculan
# dentro de cada serie de producto y no se mezclen datos entre productos.
print("Creando lags de 12 meses...")
for i in range(1, 13):
    df_with_lags[f'tn_lag_{i}'] = df_with_lags.groupby('item_id')['tn'].shift(i)

# Nota: El método shift() introducirá valores NaN al principio de cada serie
# (ej. los primeros 3 meses para el lag 3). Esto es normal.
# AutoGluon puede manejar estos NaNs en las covariables.

print("\nAsí se ven las primeras filas del DataFrame con los nuevos lags:")
# Mostramos un producto específico para ver los lags en acción
print(df_with_lags[df_with_lags['item_id'] == 20001].head())


# --- Ahora, modifica tu celda [11] para usar este nuevo DataFrame ---

# 4. Crear TimeSeriesDataFrame (usando el dataframe con lags)
# AutoGluon detectará automáticamente las columnas 'tn_lag_...' como 'past_covariates'
ts_data = TimeSeriesDataFrame.from_data_frame(
    df_with_lags,       # <--- ¡Asegúrate de usar el nuevo DataFrame!
    id_column='item_id',
    timestamp_column='timestamp'
)

ts_data = ts_data.fill_missing_values()


In [None]:
# ⚙️ 5. Definir y entrenar predictor
predictor = TimeSeriesPredictor(
    prediction_length=2,
    target='tn',
    freq='MS'  # Frecuencia mensual (Month Start), 
)

predictor.fit(ts_data, num_val_windows=2, time_limit=60*60*4)

In [None]:
# 🔮 6. Generar predicción
forecast = predictor.predict(ts_data)

In [None]:
# Extraer predicción media y filtrar febrero 2020
forecast_mean = forecast['mean'].reset_index()
print(forecast_mean.columns)

In [None]:
# Tomar solo item_id y la predicción 'mean'
resultado = forecast['mean'].reset_index()[['item_id', 'mean']]
resultado.columns = ['product_id', 'tn']

# Filtrar solo febrero 2020
resultado = forecast['mean'].reset_index()
resultado = resultado[resultado['timestamp'] == '2020-02-01']

# Renombrar columnas
resultado = resultado[['item_id', 'mean']]
resultado.columns = ['product_id', 'tn']


In [None]:
# 💾 7. Guardar archivo
resultado.to_csv("predicciones_febrero2020_fecha_01_07-autogluon-lags.csv", index=False)
resultado.head()

In [None]:
# Mostrar los mejores modelos del predictor
print("Mejores modelos entrenados:")
print(predictor.leaderboard())