In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import seaborn as sns

sell_in = pd.read_csv('../../data/sell-in.txt', sep='\t')
productos_a_predecir = pd.read_csv('../../data/product_id_apredecir201912.txt', sep='\t')

In [2]:
# Asegurar que 'periodo' sea string
sell_in['periodo'] = sell_in['periodo'].astype(str)

# Filtrar solo Diciembre 2019
sell_in_dic2019 = sell_in[sell_in['periodo'] == '201912']

# Agrupar por product_id y sumar tn
ventas_dic2019 = sell_in_dic2019.groupby('product_id')['tn'].sum().reset_index()
ventas_dic2019 = ventas_dic2019.rename(columns={'tn': 'tn_dic2019'})

# Unir con la tabla de productos a predecir
productos_a_predecir = productos_a_predecir.merge(ventas_dic2019, on='product_id', how='left')

# Reemplazar NaN por 0 si el producto no tuvo ventas en ese período
productos_a_predecir['tn_dic2019'] = productos_a_predecir['tn_dic2019'].fillna(0)

# Mostrar los primeros resultados
print(productos_a_predecir.head())

# Guardar si querés el resultado final
# productos_a_predecir.to_csv('../../data/productos_prediccion_con_tn_dic2019.csv', index=False)

   product_id  tn_dic2019
0       20001  1504.68856
1       20002  1087.30855
2       20003   892.50129
3       20004   637.90002
4       20005   593.24443


In [3]:
productos_a_predecir.to_csv('../../data/pred_trivial_dic19.csv', index=False)


In [11]:
# Promedio 3 meses

# Cargar datos
sell_in = pd.read_csv('../../data/sell-in.txt', sep='\t')
productos_a_predecir = pd.read_csv('../../data/product_id_apredecir201912.txt', sep='\t')

# Limpiar nombres de columnas
sell_in.columns = sell_in.columns.str.strip()
productos_a_predecir.columns = productos_a_predecir.columns.str.strip()

# Asegurar que 'periodo' sea texto
sell_in['periodo'] = sell_in['periodo'].astype(str)

# Paso 1: agrupar por producto y periodo, sumando tn por mes
tn_por_producto_y_mes = (
    sell_in
    .groupby(['product_id', 'periodo'])['tn']
    .sum()
    .reset_index()
)

# Paso 2: filtrar solo los últimos 3 meses deseados
ultimos_3 = ['201910', '201911', '201912']
tn_filtrado = tn_por_producto_y_mes[tn_por_producto_y_mes['periodo'].isin(ultimos_3)]

# Paso 3: calcular el promedio de esos tres meses por producto
promedio_ultimos3 = (
    tn_filtrado
    .groupby('product_id')['tn']
    .mean()
    .reset_index()
    .rename(columns={'tn': 'tn'})
)

# Unir con productos a predecir
submission = productos_a_predecir.merge(promedio_ultimos3, on='product_id', how='left')
submission['tn'] = submission['tn'].fillna(0)

# Exportar CSV final
submission.to_csv('../../data/submission_promedio_ultimos3.csv', index=False)
print("✅ Archivo final generado correctamente con promedio de 3 meses reales por producto.")





✅ Archivo final generado correctamente con promedio de 3 meses reales por producto.


In [12]:
# Promedio 6 meses

# Cargar datos
sell_in = pd.read_csv('../../data/sell-in.txt', sep='\t')
productos_a_predecir = pd.read_csv('../../data/product_id_apredecir201912.txt', sep='\t')

# Limpiar nombres de columnas
sell_in.columns = sell_in.columns.str.strip()
productos_a_predecir.columns = productos_a_predecir.columns.str.strip()

# Asegurar que 'periodo' sea texto
sell_in['periodo'] = sell_in['periodo'].astype(str)

# Paso 1: agrupar por producto y periodo, sumando tn por mes
tn_por_producto_y_mes = (
    sell_in
    .groupby(['product_id', 'periodo'])['tn']
    .sum()
    .reset_index()
)

# Paso 2: filtrar solo los últimos 6 meses deseados
ultimos_6 = ["201907", "201908", "201909", '201910', '201911', '201912']
tn_filtrado = tn_por_producto_y_mes[tn_por_producto_y_mes['periodo'].isin(ultimos_6)]

# Paso 3: calcular el promedio de esos seis meses por producto
promedio_ultimos6 = (
    tn_filtrado
    .groupby('product_id')['tn']
    .mean()
    .reset_index()
    .rename(columns={'tn': 'tn'})
)

# Unir con productos a predecir
submission = productos_a_predecir.merge(promedio_ultimos6, on='product_id', how='left')
submission['tn'] = submission['tn'].fillna(0)

# Exportar CSV final
submission.to_csv('../../data/submission_promedio_ultimos6.csv', index=False)
print("✅ Archivo final generado correctamente con promedio de 6 meses reales por producto.")


✅ Archivo final generado correctamente con promedio de 6 meses reales por producto.


In [13]:
# Promedio 9 meses

# Cargar datos
sell_in = pd.read_csv('../../data/sell-in.txt', sep='\t')
productos_a_predecir = pd.read_csv('../../data/product_id_apredecir201912.txt', sep='\t')

# Limpiar nombres de columnas
sell_in.columns = sell_in.columns.str.strip()
productos_a_predecir.columns = productos_a_predecir.columns.str.strip()

# Asegurar que 'periodo' sea texto
sell_in['periodo'] = sell_in['periodo'].astype(str)

# Paso 1: agrupar por producto y periodo, sumando tn por mes
tn_por_producto_y_mes = (
    sell_in
    .groupby(['product_id', 'periodo'])['tn']
    .sum()
    .reset_index()
)

# Paso 2: filtrar solo los últimos 9 meses deseados
ultimos_9 = ["201904", "201905", "201906", "201907", "201908", "201909", '201910', '201911', '201912']
tn_filtrado = tn_por_producto_y_mes[tn_por_producto_y_mes['periodo'].isin(ultimos_9)]

# Paso 3: calcular el promedio de esos nueve meses por producto
promedio_ultimos9 = (
    tn_filtrado
    .groupby('product_id')['tn']
    .mean()
    .reset_index()
    .rename(columns={'tn': 'tn'})
)

# Unir con productos a predecir
submission = productos_a_predecir.merge(promedio_ultimos9, on='product_id', how='left')
submission['tn'] = submission['tn'].fillna(0)

# Exportar CSV final
submission.to_csv('../../data/submission_promedio_ultimos9.csv', index=False)
print("✅ Archivo final generado correctamente con promedio de 9 meses reales por producto.")

✅ Archivo final generado correctamente con promedio de 9 meses reales por producto.


In [16]:
# Promedio 12 meses

# Cargar datos
sell_in = pd.read_csv('../../data/sell-in.txt', sep='\t')
productos_a_predecir = pd.read_csv('../../data/product_id_apredecir201912.txt', sep='\t')

# Limpiar nombres de columnas
sell_in.columns = sell_in.columns.str.strip()
productos_a_predecir.columns = productos_a_predecir.columns.str.strip()

# Asegurar que 'periodo' sea texto
sell_in['periodo'] = sell_in['periodo'].astype(str)

# Paso 1: agrupar por producto y periodo, sumando tn por mes
tn_por_producto_y_mes = (
    sell_in
    .groupby(['product_id', 'periodo'])['tn']
    .sum()
    .reset_index()
)

# Paso 2: filtrar solo los 12 meses deseados
ultimos_12 = ['201901', '201902', '201903', '201904', '201905', '201906',
              '201907', '201908', '201909', '201910', '201911', '201912']
tn_filtrado = tn_por_producto_y_mes[tn_por_producto_y_mes['periodo'].isin(ultimos_12)]

# Paso 3: calcular el promedio de esos doce meses por producto
promedio_ultimos12 = (
    tn_filtrado
    .groupby('product_id')['tn']
    .mean()
    .reset_index()
    .rename(columns={'tn': 'tn'})
)

# Unir con productos a predecir
submission = productos_a_predecir.merge(promedio_ultimos12, on='product_id', how='left')
submission['tn'] = submission['tn'].fillna(0)

# Exportar CSV final
submission.to_csv('../../data/submission_promedio_ultimos12.csv', index=False)
print("✅ Archivo submission_promedio_ultimos12.csv generado correctamente.")


✅ Archivo submission_promedio_ultimos12.csv generado correctamente.


In [17]:
# Tomo el promedio de 12 meses y lo multiplico por 0.98, 0.99, 1.01 y 1.02 para generar variantes

# Cargar el archivo base del promedio de 12 meses
base = pd.read_csv('../../data/submission_promedio_ultimos12.csv')

# Crear variantes multiplicadas
variantes = {
    'submission_promedio_ultimos12_x098.csv': 0.98,
    'submission_promedio_ultimos12_x099.csv': 0.99,
    'submission_promedio_ultimos12_x101.csv': 1.01,
    'submission_promedio_ultimos12_x102.csv': 1.02
}

# Generar y guardar cada variante
for nombre_archivo, factor in variantes.items():
    df_modificado = base.copy()
    df_modificado['tn'] = df_modificado['tn'] * factor
    df_modificado.to_csv(f'../../data/{nombre_archivo}', index=False)

print("✅ Variantes basadas en el promedio de 12 meses generadas correctamente.")



✅ Variantes basadas en el promedio de 12 meses generadas correctamente.


In [18]:
# Multiplicación aleatoria de 0.96 a 0.98 para el promedio de 12 meses
import numpy as np

# Fijar la semilla para reproducibilidad
np.random.seed(20042024)

# Cargar archivo base
base = pd.read_csv('../../data/submission_promedio_ultimos12.csv')

# Generar factores aleatorios normales
factores = np.random.normal(loc=0.96, scale=0.001, size=len(base))

# Aplicar los factores a la columna 'tn'
base['tn'] = base['tn'] * factores

# Exportar nuevo archivo
base.to_csv('../../data/submission_promedio_ultimos12_random096.csv', index=False)

print("✅ Archivo submission_promedio_ultimos12_random096.csv generado correctamente.")


✅ Archivo submission_promedio_ultimos12_random096.csv generado correctamente.


In [23]:
import pandas as pd
import numpy as np
from statsmodels.tsa.arima.model import ARIMA
from tqdm import tqdm

# Cargar archivos
sell_in = pd.read_csv('../../data/sell-in.txt', sep='\t')
productos_a_predecir = pd.read_csv('../../data/product_id_apredecir201912.txt', sep='\t')

# Limpiar columnas
sell_in.columns = sell_in.columns.str.strip()
productos_a_predecir.columns = productos_a_predecir.columns.str.strip()

# Convertir periodo a string y luego a datetime con formato año-mes
sell_in['periodo'] = sell_in['periodo'].astype(str)
sell_in['periodo'] = pd.to_datetime(sell_in['periodo'], format='%Y%m')

# Filtrar productos a predecir
sell_in = sell_in[sell_in['product_id'].isin(productos_a_predecir['product_id'])]

# Agrupar por producto y periodo
ventas_agrupadas = (
    sell_in
    .groupby(['product_id', 'periodo'])['tn']
    .sum()
    .reset_index()
    .sort_values(['product_id', 'periodo'])
)

# Lista para guardar predicciones
resultados = []

# Predicción ARIMA por producto
for producto in tqdm(productos_a_predecir['product_id']):
    serie = ventas_agrupadas[ventas_agrupadas['product_id'] == producto]
    serie = serie.set_index('periodo')
    ts = serie['tn']

    # Validaciones mínimas
    if ts.isnull().any() or len(ts) < 6 or ts.sum() == 0 or ts.nunique() == 1:
        forecast = 0
    else:
        try:
            model = ARIMA(ts, order=(1, 1, 1))
            model_fit = model.fit()
            forecast = model_fit.forecast(steps=1)[0]
            forecast = max(forecast, 0)
        except:
            forecast = 0

    resultados.append({'product_id': producto, 'tn': forecast})

# Guardar resultados
df_forecast = pd.DataFrame(resultados)
df_forecast.to_csv('../../data/submission_arima.csv', index=False)
print("✅ Archivo submission_arima.csv generado correctamente.")


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  forecast = model_fit.forecast(steps=1)[0]
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  forecast = model_fit.forecast(steps=1)[0]
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  forecast = model_fit.forecast(steps=1)[0]
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  forecast = model_fit.forecast(steps=1)[0]
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  warn('Non-stationary starting autoregressive parameters'
  warn('Non-invertible starting MA parameters found.'
  forecast = model_fit.forecast(steps=1)[0]
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  forecast = model_fit.forecast(steps=1)[0]
  self._init_dates(dates, freq)
  self._init_da

✅ Archivo submission_arima.csv generado correctamente.





In [26]:
import pandas as pd
import numpy as np
from pmdarima import auto_arima
from tqdm import tqdm

# Cargar archivos
sell_in = pd.read_csv('../../data/sell-in.txt', sep='\t')
productos_a_predecir = pd.read_csv('../../data/product_id_apredecir201912.txt', sep='\t')

# Limpiar columnas
sell_in.columns = sell_in.columns.str.strip()
productos_a_predecir.columns = productos_a_predecir.columns.str.strip()

# Convertir periodo a datetime
sell_in['periodo'] = sell_in['periodo'].astype(str)
sell_in['periodo'] = pd.to_datetime(sell_in['periodo'], format='%Y%m')

# Filtrar productos a predecir
sell_in = sell_in[sell_in['product_id'].isin(productos_a_predecir['product_id'])]

# Agrupar por producto y periodo
ventas_agrupadas = (
    sell_in
    .groupby(['product_id', 'periodo'])['tn']
    .sum()
    .reset_index()
    .sort_values(['product_id', 'periodo'])
)

# Lista de resultados
resultados = []

# Loop con auto_arima
for producto in tqdm(productos_a_predecir['product_id']):
    serie = ventas_agrupadas[ventas_agrupadas['product_id'] == producto]
    serie = serie.set_index('periodo')
    ts = serie['tn']

    if ts.isnull().any() or len(ts) < 6 or ts.sum() == 0 or ts.nunique() == 1:
        forecast = 0
    else:
        try:
            modelo = auto_arima(ts,
                                seasonal=True,
                                m=12,  # Asumiendo estacionalidad mensual
                                stepwise=True,
                                suppress_warnings=True,
                                error_action='ignore',
                                max_order=10)
            forecast = modelo.predict(n_periods=1)[0]
            forecast = max(forecast, 0)
        except:
            forecast = 0

    resultados.append({'product_id': producto, 'tn': forecast})

# Guardar resultado
df_forecast = pd.DataFrame(resultados)
df_forecast.to_csv('../../data/submission_autoarima3.csv', index=False)

print("✅ Archivo submission_autoarima3.csv generado correctamente con modelos óptimos por producto.")


  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_periods=1)[0]
  forecast = modelo.predict(n_pe

✅ Archivo submission_autoarima3.csv generado correctamente con modelos óptimos por producto.





In [None]:
#Statsforecast con AutoARIMA y agrupación por producto y cliente

import pandas as pd
from statsforecast import StatsForecast
from statsforecast.models import AutoARIMA
import numpy as np

# 1. Cargar datos
sell_in = pd.read_csv('../../data/sell-in.txt', sep='\t')
productos_a_predecir = pd.read_csv('../../data/product_id_apredecir201912.txt', sep='\t')

# 2. Limpiar columnas
sell_in.columns = sell_in.columns.str.strip()
productos_a_predecir.columns = productos_a_predecir.columns.str.strip()

# 3. Filtrar productos a predecir
sell_in = sell_in[sell_in['product_id'].isin(productos_a_predecir['product_id'])]

# 4. Formato de fechas y columnas para statsforecast
sell_in['unique_id'] = sell_in['customer_id'].astype(str) + '-' + sell_in['product_id'].astype(str)
sell_in['ds'] = pd.to_datetime(sell_in['periodo'].astype(str), format='%Y%m')
sell_in['y'] = sell_in['tn']

# 5. Preparar dataset para statsforecast
sf_df = sell_in[['unique_id', 'ds', 'y']].copy()

# 6. Crear modelo ARIMA estacional
sf = StatsForecast(models=[AutoARIMA(season_length=12)], freq='MS', n_jobs=-1)

# 7. Predecir 1 período por cliente-producto
predicciones = sf.forecast(df=sf_df, h=1)

# 8. Extraer product_id y agrupar por producto
predicciones['product_id'] = predicciones['unique_id'].apply(lambda x: int(x.split('-')[1]))
resultado = predicciones.groupby('product_id')['AutoARIMA'].sum().reset_index()
resultado.rename(columns={'AutoARIMA': 'tn'}, inplace=True)

# 9. Calcular promedio de los últimos 12 meses por producto
sell_in['periodo'] = sell_in['ds'].dt.strftime('%Y%m')
ultimos_12 = sorted(sell_in['periodo'].unique())[-12:]
promedios_12m = (
    sell_in[sell_in['periodo'].isin(ultimos_12)]
    .groupby('product_id')['tn']
    .mean()
    .reset_index()
    .rename(columns={'tn': 'promedio_12m'})
)

# 10. Reemplazar tn = 0 con promedio de los últimos 12 meses
resultado = resultado.merge(promedios_12m, on='product_id', how='left')
resultado['tn'] = np.where(resultado['tn'] <= 0, resultado['promedio_12m'], resultado['tn'])

# 11. Limpiar y exportar
resultado = resultado[['product_id', 'tn']]
resultado.to_csv('../../data/submission_statsforecast.csv', index=False)

print("✅ Archivo submission_statsforecast.csv generado correctamente, con reemplazo por promedio 12m.")


  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - npar + 1)
  fit["sigma2"] = np.nansum(fit["residuals"] ** 2) / (nstar - np

✅ Archivo submission_statsforecast.csv generado correctamente, con reemplazo por promedio 12m.
