# Entrenamiento y predicción de modelos

In [144]:
import nb_black
import pandas as pd
import numpy as np
import openpyxl
from sklearn.linear_model import LinearRegression
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.tsa.holtwinters import ExponentialSmoothing
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import joblib

# Cargar datos
ventas_h = pd.read_excel('../data/Ventas_históricas.xlsx',parse_dates=['Fecha'])
ventas_h

Unnamed: 0,Fecha,Producto A,Producto B,Producto C,Producto D
0,2018-01-01,100,120,90,80
1,2018-02-01,107,123,92,86
2,2018-03-01,111,127,97,88
3,2018-04-01,118,134,101,93
4,2018-05-01,121,139,105,97
...,...,...,...,...,...
67,2023-08-01,441,506,391,359
68,2023-09-01,446,512,396,363
69,2023-10-01,452,518,401,368
70,2023-11-01,457,524,406,372


### Preprocesamiento de datos

In [None]:

def preprocess_data(data_ventas):
    data_ventas['mes'] = data_ventas['Fecha'].dt.month
    data_ventas['año'] = data_ventas['Fecha'].dt.year
    data_ventas = data_ventas.groupby(['año', 'mes']).agg({'Producto A':'sum' , 'Producto B': 'sum', 'Producto C': 'sum', 'Producto D':'sum'}).reset_index()
    return data_ventas

ventas_agrupadas = preprocess_data(ventas_h)
ventas_agrupadas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72 entries, 0 to 71
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   año         72 non-null     int32
 1   mes         72 non-null     int32
 2   Producto A  72 non-null     int64
 3   Producto B  72 non-null     int64
 4   Producto C  72 non-null     int64
 5   Producto D  72 non-null     int64
dtypes: int32(2), int64(4)
memory usage: 2.9 KB


In [66]:
ventas_agrupadas

Unnamed: 0,año,mes,Producto A,Producto B,Producto C,Producto D
0,2018,1,100,120,90,80
1,2018,2,107,123,92,86
2,2018,3,111,127,97,88
3,2018,4,118,134,101,93
4,2018,5,121,139,105,97
...,...,...,...,...,...,...
67,2023,8,441,506,391,359
68,2023,9,446,512,396,363
69,2023,10,452,518,401,368
70,2023,11,457,524,406,372


### Evaluación del modelo de regresión lineal en cada producto

In [93]:
def evaluacion_modelo_productos(data):
    productos = ['Producto A', 'Producto B', 'Producto C', 'Producto D']
    precision_modelos = {}
    
    for producto in productos:
        # Filtrar los datos para el producto actual
        product_data = data[['año', 'mes', producto]].dropna()
        # Dividir en X (variables independientes) e y (variable dependiente)
        x = ventas_agrupadas[['año','mes']]
        y = product_data[producto]

        x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.2, random_state=42)

        # Crear y entrenar el model
        md_regresion_lineal = LinearRegression()
        md_regresion_lineal.fit(x_train, y_train)

        # Predicción
        Y_pred = md_regresion_lineal.predict(x_test)
        
        # Calcular métricas de evaluación
        mse = mean_squared_error(y_test, Y_pred)
        mae = mean_absolute_error(y_test, Y_pred)
        r2 = r2_score(y_test, Y_pred)
                
        # Almacenar los resultados
        if producto not in precision_modelos:
            precision_modelos[producto] = {}
        precision_modelos[producto] = {'MSE': mse, 'MAE': mae, 'R2': r2}  

        #Guardar modelos
        if producto == 'Producto A':
            joblib.dump(md_regresion_lineal, "../Modelos_creados/MODEL_RL_producto_A.pkl")
        elif producto == 'Producto B':
            joblib.dump(md_regresion_lineal, "../Modelos_creados/MODEL_RL_producto_B.pkl")
        elif producto == 'Producto C':
            joblib.dump(md_regresion_lineal, "../Modelos_creados/MODEL_RL_producto_C.pkl")
        else:
            joblib.dump(md_regresion_lineal, "../Modelos_creados/MODEL_RL_producto_D.pkl")
        
    return precision_modelos

### Resultados de la métricas evaluadas

In [94]:
evaluacion_modelos = evaluacion_modelo_productos(ventas_agrupadas) 
evaluacion_modelos = pd.DataFrame(evaluacion_modelos)
evaluacion_modelos

Unnamed: 0,Producto A,Producto B,Producto C,Producto D
MSE,10.709271,13.126581,21.945663,12.616778
MAE,2.500852,2.755546,4.019196,3.196922
R2,0.998928,0.999004,0.997174,0.998072


### Cargar modelo

In [98]:
#Funciones para cargar modelos

def load_modelo_RL_PA():
    return joblib.load("../Modelos_creados/MODEL_RL_producto_A.pkl")

def load_modelo_RL_PB():
    return joblib.load("../Modelos_creados/MODEL_RL_producto_B.pkl")

def load_modelo_RL_PC():
    return joblib.load("../Modelos_creados/MODEL_RL_producto_C.pkl")

def load_modelo_RL_PD():
    return joblib.load("../Modelos_creados/MODEL_RL_producto_D.pkl")


### Predicción de demanda para el año 2025 por cada mes

In [140]:
#Data para predicción
año = 2025
mes = [1,2,3,4,5,6,7,8,9,10,11,12]
input_data = pd.DataFrame({'año': año, 'mes': mes})
input_data = input_data.reset_index(drop=True)  
#input_data.index = input_data.index + 1 
input_data


Unnamed: 0,año,mes
0,2025,1
1,2025,2
2,2025,3
3,2025,4
4,2025,5
5,2025,6
6,2025,7
7,2025,8
8,2025,9
9,2025,10


In [136]:

modelo_PA = load_modelo_RL_PA()
prediction = modelo_PA.predict(input_data)
prediction.round()

array([526., 531., 536., 541., 546., 551., 556., 562., 567., 572., 577.,
       582.])

In [145]:
# Cargar los modelos
modelo_PA = load_modelo_RL_PA()
modelo_PB = load_modelo_RL_PB()
modelo_PC = load_modelo_RL_PC()
modelo_PD = load_modelo_RL_PD()
# Realizar la predicción y convertir las predicciones en un DataFrame
predictionA = modelo_PA.predict(input_data)
predictionA = np.ceil(predictionA)
predictionsA_df = pd.DataFrame(predictionA , columns=['Predicciones_PA'])

predictionB = modelo_PB.predict(input_data)
predictionB = np.ceil(predictionB)
predictionsB_df = pd.DataFrame(predictionB , columns=['Predicciones_PB'])

predictionC = modelo_PC.predict(input_data)
predictionC = np.ceil(predictionC)
predictionsC_df = pd.DataFrame(predictionC , columns=['Predicciones_PC'])

predictionD = modelo_PD.predict(input_data)
predictionD = np.ceil(predictionD)
predictionsD_df = pd.DataFrame(predictionD , columns=['Predicciones_PD'])

# Unir las predicciones con los datos de entrada
data_output = pd.concat([input_data, predictionsA_df, predictionsB_df, predictionsC_df, predictionsD_df], axis=1)

#Guardamos la tabla de predicciones
data_output.to_csv('../data/data_predicción.csv')

# Devolver el resultado para que Power BI lo utilice
data_output

Unnamed: 0,año,mes,Predicciones_PA,Predicciones_PB,Predicciones_PC,Predicciones_PD
0,2025,1,526.0,604.0,464.0,426.0
1,2025,2,531.0,610.0,469.0,430.0
2,2025,3,537.0,616.0,474.0,435.0
3,2025,4,542.0,622.0,478.0,439.0
4,2025,5,547.0,628.0,483.0,443.0
5,2025,6,552.0,634.0,488.0,447.0
6,2025,7,557.0,640.0,492.0,452.0
7,2025,8,562.0,646.0,497.0,456.0
8,2025,9,567.0,651.0,502.0,460.0
9,2025,10,572.0,657.0,506.0,465.0
