# ALGORITMOS BASADOS EN SERIES TEMPORALES

## 1) Modelo de Promedio Ponderado de Ventas de Periodos Anteriores (PPPA)
* Toma como base de c√°lculo el Per√≠odo Actual de la Ventana de Reposici√≥n Definida.
* El mismo per√≠odo del mes anterior.
* El mismo per√≠odo del a√±o anterior.
* Con los 3 valores hace un promedio simple ponderado
* Podr√≠a agregarse mayor peso a cada uno de los factores si hiciera falta.

### Estee modelo calcula la demanda como un promedio ponderado de:

* **Mes en curso (t)** ‚Üí Refleja la demanda actual.
* **Mes anterior (t-1)** ‚Üí Captura tendencias recientes.
* **Mismo mes del a√±o anterior (t-12)** ‚Üí Captura estacionalidad.

### F√≥rmula General:


\begin{equation}
ùê∑ùë°=ùõº‚ãÖùëâùë° + ùõΩ‚ãÖùëâùë°‚àí1 + ùõæ‚ãÖùëâùë°-12

\end{equation}

#### Donde:
* Dt = Demanda estimada del mes actual.
* ùëâùë° = Ventas del mes en curso.
* ùëâùë°‚àí1 = Ventas del mes anterior.
* ùëâùë°‚àí12 = Ventas del mismo mes del a√±o anterior.
* ùõº,ùõΩ,ùõæ = Pesos asignados a cada variable, definidos con base en la importancia de cada factor.

### üìå Este modelo es √∫til cuando la demanda sigue un patr√≥n estacional anual y presenta tendencias recientes que afectan las ventas.


### 1) RUTINA PRINCIPAL

In [None]:
# Importar Librerias
import pandas as pd
import numpy as np
from datetime import datetime
# Mostrar los resultados
import ace_tools_open as tools

# Evitar Mensajes Molestos
import warnings
warnings.simplefilter(action='ignore', category=UserWarning)
warnings.simplefilter(action='ignore', category= FutureWarning)

In [14]:
# FUNCIONES

def forecast_basic(df, current_date, period_length=30):
    """
    Calcula la demanda estimada utilizando el algoritmo b√°sico.

    Par√°metros:
    - df: DataFrame de pandas con la informaci√≥n hist√≥rica de ventas.
    - current_date: Fecha de referencia para el c√°lculo.
    - period_length: N√∫mero de d√≠as que conforman el per√≠odo (por defecto 30).

    El algoritmo utiliza tres per√≠odos:
      1. √öltimos 'period_length' d√≠as: desde current_date - (period_length - 1) hasta current_date.
      2. Los 'period_length' d√≠as anteriores: desde current_date - (2*period_length - 1) hasta current_date - period_length.
      3. El mismo per√≠odo del a√±o anterior: desde current_date - 1 a√±o - (period_length - 1) hasta current_date - 1 a√±o.

    La demanda estimada se calcula como el promedio de las ventas en estos tres per√≠odos.
    """
    # Facctores de Pnderaci√≥n
    # de Cada uno de los 3 per√≠odos
   
    factor_last = 70
    factor_previous = 20
    factor_year = 10


    # Definir rangos de fechas para cada per√≠odo
    last_period_start = current_date - pd.Timedelta(days=period_length - 1)
    last_period_end = current_date

    previous_period_start = current_date - pd.Timedelta(days=2 * period_length - 1)
    previous_period_end = current_date - pd.Timedelta(days=period_length)

    same_period_last_year_start = current_date - pd.DateOffset(years=1) - pd.Timedelta(days=period_length - 1)
    same_period_last_year_end = current_date - pd.DateOffset(years=1)

    # Filtrar los datos para cada uno de los per√≠odos
    df_last = df[(df['Fecha'] >= last_period_start) & (df['Fecha'] <= last_period_end)]
    df_previous = df[(df['Fecha'] >= previous_period_start) & (df['Fecha'] <= previous_period_end)]
    df_same_year = df[(df['Fecha'] >= same_period_last_year_start) & (df['Fecha'] <= same_period_last_year_end)]
 
    # Agregar las ventas (unidades) por art√≠culo y sucursal para cada per√≠odo
    sales_last = df_last.groupby(['Codigo_Articulo', 'Sucursal'])['Unidades'] \
                        .sum().reset_index().rename(columns={'Unidades': 'ventas_last'})
    sales_previous = df_previous.groupby(['Codigo_Articulo', 'Sucursal'])['Unidades'] \
                                .sum().reset_index().rename(columns={'Unidades': 'ventas_previous'})
    sales_same_year = df_same_year.groupby(['Codigo_Articulo', 'Sucursal'])['Unidades'] \
                                  .sum().reset_index().rename(columns={'Unidades': 'ventas_same_year'})

    # Unir la informaci√≥n de los tres per√≠odos
    forecast_df = pd.merge(sales_last, sales_previous, on=['Codigo_Articulo', 'Sucursal'], how='outer')
    forecast_df = pd.merge(forecast_df, sales_same_year, on=['Codigo_Articulo', 'Sucursal'], how='outer')
    forecast_df.fillna(0, inplace=True)

    # Calcular la demanda estimada como el promedio de las ventas de los tres per√≠odos
    forecast_df['forecast'] = (forecast_df['ventas_last'] * factor_last +
                               forecast_df['ventas_previous'] * factor_previous +
                               forecast_df['ventas_same_year'] * factor_year) / (factor_year + factor_last + factor_previous)

    # Redondear la predicci√≥n al entero m√°s cercano
    forecast_df['forecast'] = forecast_df['forecast'].round().astype(int)

    return forecast_df

def evaluate_forecast(forecast_df, actual_df, merge_keys=['Codigo_Articulo', 'Sucursal']):
    """
    Eval√∫a la precisi√≥n del algoritmo de predicci√≥n calculando m√©tricas de error.

    Par√°metros:
    - forecast_df: DataFrame con las predicciones (debe incluir la columna 'forecast').
    - actual_df: DataFrame con las ventas reales (debe incluir la columna 'actual').
    - merge_keys: Lista de columnas en las que se realizar√° la uni√≥n de ambos DataFrames.

    Retorna un diccionario con las m√©tricas MAE, MSE y MAPE.
    """
    # Unir las predicciones con los valores reales
    merged = pd.merge(forecast_df, actual_df, on=merge_keys, how='inner')

    # Calcular las m√©tricas de error
    mae = np.mean(np.abs(merged['forecast'] - merged['actual']))
    mse = np.mean((merged['forecast'] - merged['actual'])**2)
    # Se a√±ade un valor peque√±o para evitar divisi√≥n por cero
    mape = np.mean(np.abs((merged['forecast'] - merged['actual']) / (merged['actual'] + 1e-9))) * 100

    return {'MAE': mae, 'MSE': mse, 'MAPE': mape}

def get_forecast(df, algorithm='basic', current_date=None, period_length=30):
    """
    Permite la selecci√≥n del algoritmo de predicci√≥n y calcula la demanda estimada.
    En el futuro podr√©mos ir agregando algoritmos

    Par√°metros:
    - df: DataFrame con la informaci√≥n hist√≥rica.
    - algorithm: Algoritmo a utilizar (por defecto 'basic').
    - current_date: Fecha de referencia para el c√°lculo; si es None, se toma la fecha m√°xima del DataFrame.
    - period_length: N√∫mero de d√≠as del per√≠odo a analizar.

    Retorna un DataFrame con las predicciones.
    """
    if current_date is None:
        current_date = df['Fecha'].max()
    else:
        current_date = pd.to_datetime(current_date)
        
    if algorithm == 'basic':
        forecast_df = forecast_basic(df, current_date, period_length)
    else:
        raise ValueError(f"El algoritmo '{algorithm}' no est√° implementado.")

    return forecast_df


### 2) PRUEBA con DATOS

In [15]:
# ELEGIR el PROVEEDOR

proveedor = 20
label = '20_Molinos'

# Se puede leer direto de la BD de SQL o desde un archivo CSV local previamente

# Cargar Datos
data = pd.read_csv(f'data/{label}.csv')
data.head()

# Adecuar Tipos de Datos
data['Sucursal']= data['Sucursal'].astype(int)
data['Familia']= data['Familia'].astype(int)
data['Rubro']= data['Rubro'].astype(int)
data['SubRubro']= data['SubRubro'].astype(int)
data['Clasificacion']= data['Clasificacion'].astype(int)
data['Codigo_Articulo']= data['Codigo_Articulo'].astype(int)
data['Fecha'] = pd.to_datetime(data['Fecha'])  # Convertir a formato datetime si a√∫n no lo est√°
data.sort_values(by='Fecha', ascending=True)  # Ordenar por fecha de menor a mayor

# Crear una nueva columna con el mes y el a√±o para an√°lisis temporal
data['A√±o-Mes'] = data['Fecha'].dt.to_period('M')

# Crear una nueva columna con el formato A√±o-Semana (AAAA-WW) a partir de la columna Fecha
data['A√±o-Semana'] = data['Fecha'].dt.strftime('%Y-%W')

# Confirmar que la columna sigue siendo un campo datetime
#print(data.dtypes)

#data = data.sort_values(by='Fecha', ascending=True)  # Ordenar en orden ascendente (del m√°s antiguo al m√°s reciente)
#data = data.reset_index()

# Recortar Cantidad de Datos ULTIMO A√ëO COMPLETO
df = data[data['Fecha']>='2021-01-01']

In [16]:
# Mostrar los resultados
# import ace_tools_open as tools
tools.display_dataframe_to_user(name="SET de Datos del Proveedor", dataframe=df)

SET de Datos del Proveedor


C_PROVEEDOR_PRIMARIO,C_ARTICULO,C_SUCU_EMPR,Q_FACTOR_VENTA_ESP,Q_FACTOR_VTA_SUCU,M_OFERTA_SUCU,M_HABILITADO_SUCU,M_BAJA,Q_VTA_DIA_ANT,Q_VTA_ACUM,Q_ULT_ING_STOCK,Q_STOCK_A_ULT_ING,Q_15DIASVTA_A_ULT_ING_STOCK,Q_30DIASVTA_A_ULT_ING_STOCK,Q_BULTOS_PENDIENTE_OC,Q_PESO_PENDIENTE_OC,Q_UNID_PESO_PEND_RECEP_TRANSF,Q_UNID_PESO_VTA_MES_ACTUAL,F_ULTIMA_VTA,Q_VTA_ULTIMOS_15DIAS,Q_VTA_ULTIMOS_30DIAS,Q_TRANSF_PEND,Q_TRANSF_EN_PREP,M_FOLDER,M_ALTA_RENTABILIDAD,Lugar_Abastecimiento,M_COSTO_LOGISTICO,Fecha,Codigo_Articulo,Sucursal,Precio,Costo,Unidades,Familia,Rubro,SubRubro,Nombre_Articulo,Clasificacion,A√±o-Mes,A√±o-Semana
Loading ITables v2.2.4 from the internet... (need help?),,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [17]:
# Calcular la demanda estimada utilizando el algoritmo b√°sico
forecast_result = get_forecast(df, algorithm='basic',current_date='2024-01-01', period_length=15)

# Mostrar los resultados
# import ace_tools_open as tools
tools.display_dataframe_to_user(name="Demanda estimada utilizando el algoritmo b√°sico:", dataframe=forecast_result)

Demanda estimada utilizando el algoritmo b√°sico:


Codigo_Articulo,Sucursal,ventas_last,ventas_previous,ventas_same_year,forecast
Loading ITables v2.2.4 from the internet... (need help?),,,,,


### 3) BACK TESTING  

* Generamos 4 per√≠odos sobre la base hist√≥rica.
* Simulamos la fecha actual dentro del per√≠odo de Datos.
* Comparamos contra FORECAST contra ACTUAL que ser√≠a el Real
* Graficamos


In [18]:
current_date ='2024-01-15'   # Establecemos un Curernt Date dentro del Rango de Datos
period_length=15

current_date =  pd.to_datetime(current_date)

# Definir rangos de fechas para cada per√≠odo
last_period_start = current_date - pd.Timedelta(days=period_length - 1)
last_period_end = current_date

previous_period_start = current_date - pd.Timedelta(days=2 * period_length - 1)
previous_period_end = current_date - pd.Timedelta(days=period_length)

same_period_last_year_start = current_date - pd.DateOffset(years=1) - pd.Timedelta(days=period_length - 1)
same_period_last_year_end = current_date - pd.DateOffset(years=1)

actual_period_start = current_date + pd.Timedelta(+ 1)
actual_period_end = current_date + pd.Timedelta(days=period_length + 2)

In [19]:
# CALCULAMOS LA DEMANDA y la SIMULACI√ìN

# Facctores de Pnderaci√≥n
# Cada uno de los 3 per√≠odos
factor_last = 70
factor_previous = 20
factor_year = 10

 # Filtrar los datos para cada uno de los per√≠odos
df_last = df[(df['Fecha'] >= last_period_start) & (df['Fecha'] <= last_period_end)]
df_previous = df[(df['Fecha'] >= previous_period_start) & (df['Fecha'] <= previous_period_end)]
df_same_year = df[(df['Fecha'] >= same_period_last_year_start) & (df['Fecha'] <= same_period_last_year_end)]
df_actual = df[(df['Fecha'] >= actual_period_start) & (df['Fecha'] <= actual_period_end)]

# Agregar las ventas (unidades) por art√≠culo y sucursal para cada per√≠odo
sales_last = df_last.groupby(['Codigo_Articulo', 'Sucursal'])['Unidades'] \
                  .sum().reset_index().rename(columns={'Unidades': 'ventas_last'})
sales_previous = df_previous.groupby(['Codigo_Articulo', 'Sucursal'])['Unidades'] \
                           .sum().reset_index().rename(columns={'Unidades': 'ventas_previous'})
sales_same_year = df_same_year.groupby(['Codigo_Articulo', 'Sucursal'])['Unidades'] \
                              .sum().reset_index().rename(columns={'Unidades': 'ventas_same_year'})
sales_actual = df_actual.groupby(['Codigo_Articulo', 'Sucursal'])['Unidades'] \
                           .sum().reset_index().rename(columns={'Unidades': 'ventas_actual'})

# Unir la informaci√≥n de los tres per√≠odos
forecast_df = pd.merge(sales_last, sales_previous, on=['Codigo_Articulo', 'Sucursal'], how='outer')
forecast_df = pd.merge(forecast_df, sales_same_year, on=['Codigo_Articulo', 'Sucursal'], how='outer')
forecast_df = pd.merge(forecast_df, sales_actual, on=['Codigo_Articulo', 'Sucursal'], how='outer')
forecast_df.fillna(0, inplace=True)

# Calcular la demanda estimada como el promedio de las ventas de los tres per√≠odos
forecast_df['forecast'] = (forecast_df['ventas_last'] * factor_last +
                            forecast_df['ventas_previous'] * factor_previous +
                            forecast_df['ventas_same_year'] * factor_year) / (factor_year + factor_last + factor_previous)

# Redondear la predicci√≥n al entero m√°s cercano
forecast_df['forecast'] = forecast_df['forecast'].round().astype(int)

In [9]:
# Mostrar resultado
#import ace_tools_open  as tools
tools.display_dataframe_to_user(name="DataFrame B√°sico", dataframe=forecast_df)

DataFrame B√°sico


Codigo_Articulo,Sucursal,ventas_last,ventas_previous,ventas_same_year,ventas_actual,forecast
Loading ITables v2.2.4 from the internet... (need help?),,,,,,


### METRICAS DEL MODELO

In [20]:
# Calcular las m√©tricas de error
mae = np.mean(np.abs(forecast_df['forecast'] - forecast_df['ventas_actual']))
mse = np.mean((forecast_df['forecast'] - forecast_df['ventas_actual'])**2)
# Se a√±ade un valor peque√±o para evitar divisi√≥n por cero
mape = np.mean(np.abs((forecast_df['forecast'] - forecast_df['ventas_actual']) / (forecast_df['ventas_actual'] + 1e-9))) * 100

print("M√©tricas de evaluaci√≥n:\n",  {'MAE': mae, 'MSE': mse, 'MAPE': mape})

M√©tricas de evaluaci√≥n:
 {'MAE': 55.99295097725088, 'MSE': 20278.351169496957, 'MAPE': 931752643539.7194}


#### 1. MAE (Mean Absolute Error - Error Absoluto Medio)

* **Interpretaci√≥n:**
Representa el promedio de los errores absolutos entre las predicciones y los valores reales.
Se mide en las mismas unidades que la variable objetivo.
Es f√°cil de interpretar, ya que indica el error promedio sin considerar la direcci√≥n del error (positivo o negativo).
* **Ejemplo:**
Si el MAE es 5, significa que, en promedio, las predicciones del modelo se desv√≠an en **5 unidades** de los valores reales.

#### 2. MSE (Mean Squared Error - Error Cuadr√°tico Medio)

* **Interpretaci√≥n:**
Representa el promedio de los errores al cuadrado.
Penaliza m√°s los errores grandes que los peque√±os, ya que eleva al cuadrado las diferencias entre los valores reales y predichos.
Se mide en las unidades al cuadrado de la variable objetivo, lo que a veces dificulta la interpretaci√≥n directa.
* **Ejemplo:**
Si el MSE es 25 y la variable objetivo se mide en metros, significa que el error cuadr√°tico medio es de 25 metros cuadrados, lo cual no es intuitivo.
* **Uso com√∫n:**
Se prefiere cuando se quiere penalizar m√°s los errores grandes.
Se usa mucho en problemas de optimizaci√≥n de modelos porque es una funci√≥n diferenciable.

#### 3. MAPE (Mean Absolute Percentage Error - Error Porcentual Absoluto Medio)
* **Interpretaci√≥n:**

Expresa el error en t√©rminos porcentuales con respecto al valor real.
Permite comparar el desempe√±o de modelos en diferentes escalas de datos.
No se ve afectado por la magnitud de la variable objetivo.
* **Ejemplo:**
Si el MAPE es 10%, significa que, en promedio, las predicciones del modelo tienen un error del 10% con respecto a los valores reales.
* **Limitaciones:**
No es ideal cuando hay valores reales cercanos a cero, ya que puede generar valores muy grandes o incluso errores de divisi√≥n por cero.

In [21]:
# Mostrar los resultados
# import ace_tools_open as tools
tools.display_dataframe_to_user(name="Predicciones de Compra Sin Negativos", dataframe=forecast_result)

Predicciones de Compra Sin Negativos


Codigo_Articulo,Sucursal,ventas_last,ventas_previous,ventas_same_year,forecast
Loading ITables v2.2.4 from the internet... (need help?),,,,,
