In [4]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Crear un DataFrame a partir de una tupla de ejemplo con fechas y ventas mensuales
data = {
    'Fecha': pd.date_range(start='2022-01-01', periods=24, freq='M'),
    'Ventas': [100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 210,
               220, 230, 240, 250, 260, 270, 280, 290, 300, 310, 320, 330]
}

df = pd.DataFrame(data)
df.set_index('Fecha', inplace=True)
print(df.head(24))
print(' ')
print(df.shape)

# Crear un modelo de regresión lineal simple
model = LinearRegression()




            Ventas
Fecha             
2022-01-31     100
2022-02-28     110
2022-03-31     120
2022-04-30     130
2022-05-31     140
2022-06-30     150
2022-07-31     160
2022-08-31     170
2022-09-30     180
2022-10-31     190
2022-11-30     200
2022-12-31     210
2023-01-31     220
2023-02-28     230
2023-03-31     240
2023-04-30     250
2023-05-31     260
2023-06-30     270
2023-07-31     280
2023-08-31     290
2023-09-30     300
2023-10-31     310
2023-11-30     320
2023-12-31     330
 
(24, 1)


In [13]:
#################### METODOS ######################
# Validación cruzada retrospectiva (Backtesting)
# En este enfoque, divides tus datos históricos en un conjunto de entrenamiento y un conjunto de prueba.
# Utilizas los datos de entrenamiento para ajustar tu modelo y luego generas predicciones para el período
# de prueba. Esto simula cómo se habría comportado tu modelo en el pasado. Luego puedes comparar tus
# predicciones con los valores reales en el conjunto de prueba para evaluar la calidad de las predicciones.
window_size = 12  # Tamaño de la ventana de entrenamiento
for i in range(window_size, len(df)): # i desde 12 hasta 24
    train_data = df.iloc[i - window_size:i] # en la primera iteracion: 12 - 12 = 0, el rango es de 0:12
    test_data = df.iloc[i:i + 1] # aqui vamos a guardar el valor a realizar el forecast
    
    # x_train es el conjunto de variables predictoras, en este caso va a ser un vector de 0 a len(train_data)
    X_train = np.arange(len(train_data)).reshape(-1, 1) # arange(crea arreglo de 0 a len(x) -1)
                                        # reshape() cambia la forma de un array creado por arange() a
                                        # una matriz de 1 columna,-1 indica que la long de la dim se calcula automaticamente
    y_train = train_data['Ventas']
    X_test = np.array([[len(train_data)]]) # matriz que guarda las variables predictoras de prueba

    model.fit(X_train, y_train)
    prediction = model.predict(X_test)

    actual_value = test_data['Ventas'].values[0] # extrae el numero del dataframe de prueba
    print(
        f"Mes: {test_data.index[0]}, Predicción: {prediction[0]}, Valor real: {actual_value}")

Mes: 2023-01-31 00:00:00, Predicción: 219.99999999999997, Valor real: 220
Mes: 2023-02-28 00:00:00, Predicción: 229.99999999999997, Valor real: 230
Mes: 2023-03-31 00:00:00, Predicción: 239.99999999999997, Valor real: 240
Mes: 2023-04-30 00:00:00, Predicción: 249.99999999999997, Valor real: 250
Mes: 2023-05-31 00:00:00, Predicción: 260.0, Valor real: 260
Mes: 2023-06-30 00:00:00, Predicción: 270.0, Valor real: 270
Mes: 2023-07-31 00:00:00, Predicción: 280.0, Valor real: 280
Mes: 2023-08-31 00:00:00, Predicción: 290.0, Valor real: 290
Mes: 2023-09-30 00:00:00, Predicción: 300.0, Valor real: 300
Mes: 2023-10-31 00:00:00, Predicción: 310.0, Valor real: 310
Mes: 2023-11-30 00:00:00, Predicción: 320.0, Valor real: 320
Mes: 2023-12-31 00:00:00, Predicción: 330.0, Valor real: 330


In [14]:

# Analisis de ventanas deslizantes (Rolling Window Analysis)
window_size = 12  # Tamaño de la ventana de entrenamiento
for i in range(window_size, len(df)):
    train_data = df.iloc[i - window_size:i]
    test_data = df.iloc[i:i + 1]

    X_train = np.arange(len(train_data)).reshape(-1, 1)
    y_train = train_data['Ventas']
    X_test = np.array([[len(train_data)]])

    model.fit(X_train, y_train)
    prediction = model.predict(X_test)

    actual_value = test_data['Ventas'].values[0]
    print(
        f"Mes: {test_data.index[0]}, Predicción: {prediction[0]}, Valor real: {actual_value}")

Mes: 2023-01-31 00:00:00, Predicción: 219.99999999999997, Valor real: 220
Mes: 2023-02-28 00:00:00, Predicción: 229.99999999999997, Valor real: 230
Mes: 2023-03-31 00:00:00, Predicción: 239.99999999999997, Valor real: 240
Mes: 2023-04-30 00:00:00, Predicción: 249.99999999999997, Valor real: 250
Mes: 2023-05-31 00:00:00, Predicción: 260.0, Valor real: 260
Mes: 2023-06-30 00:00:00, Predicción: 270.0, Valor real: 270
Mes: 2023-07-31 00:00:00, Predicción: 280.0, Valor real: 280
Mes: 2023-08-31 00:00:00, Predicción: 290.0, Valor real: 290
Mes: 2023-09-30 00:00:00, Predicción: 300.0, Valor real: 300
Mes: 2023-10-31 00:00:00, Predicción: 310.0, Valor real: 310
Mes: 2023-11-30 00:00:00, Predicción: 320.0, Valor real: 320
Mes: 2023-12-31 00:00:00, Predicción: 330.0, Valor real: 330
