In [1]:
import pandas as pd  # Pandas proporciona estructuras de datos y herramientas para el análisis de datos.
import seaborn as sns  # Seaborn es una biblioteca de visualización de datos basada en matplotlib.
import matplotlib.pyplot as plt  # Matplotlib es una biblioteca de gráficos 2D que produce figuras de calidad de publicación.
from pathlib import Path  # Pathlib ofrece clases para manejar rutas de archivos de manera orientada a objetos.
import os  # La biblioteca os permite interactuar con el sistema operativo.

In [2]:
s_path = Path.cwd()  # Obtiene el directorio de trabajo actual como un objeto Path.
s_prt_path = s_path.parent/'..'/'Datasets' # Accede al directorio padre del directorio actual. Utilizamos '..' para subir un nivel en la jerarquía de directorios.
ruta_carpeta_atras = s_prt_path.resolve() # Normalizamos la ruta para resolver cualquier ruta relativa
ruta_csv = os.path.join(s_prt_path,'DataPrepandemia_XM.csv')  # Crea una ruta al archivo CSV en el directorio padre.
df_DataModel= pd.read_csv(ruta_csv)  # Lee el archivo CSV en un DataFrame de pandas.

In [3]:
df_DataModel['Date'] = pd.to_datetime(df_DataModel['Date'])  # Convierte la columna 'Date' a tipo datetime.
df_DataModel.drop('Unnamed: 0', axis=1, inplace=True)  # Elimina la columna 'Unnamed: 0'.

In [4]:
df_DataModel.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1461 entries, 0 to 1460
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Date       1461 non-null   datetime64[ns]
 1   Demanda    1461 non-null   float64       
 2   VolUtil    1461 non-null   float64       
 3   Aportes    1461 non-null   float64       
 4   PrecioB    1461 non-null   float64       
 5   PrecioO    1461 non-null   float64       
 6   DispTer    1461 non-null   float64       
 7   DispNoTer  1461 non-null   float64       
dtypes: datetime64[ns](1), float64(7)
memory usage: 91.4 KB


In [5]:
from sklearn.ensemble import RandomForestRegressor

In [6]:
# Definir la ventana de tiempo (por ejemplo, 3 días)
ventana_tiempo = 2

In [7]:
# Crear características basadas en la ventana de tiempo para 'PrecioB'
for i in range(ventana_tiempo):
    df_DataModel[f'PrecioB_lag_{i+1}'] = df_DataModel['PrecioB'].shift(i+1)

In [8]:
# Eliminar las filas con valores NaN creados por el shift
df_DataModel = df_DataModel.dropna()

In [9]:
# Definir las variables independientes (X) y la variable dependiente (y)
X = df_DataModel.drop(['PrecioB', 'Date'], axis=1)
y = df_DataModel['PrecioB']

In [10]:
X.head(10)

Unnamed: 0,Demanda,VolUtil,Aportes,PrecioO,DispTer,DispNoTer,PrecioB_lag_1,PrecioB_lag_2,PrecioB_lag_3,PrecioB_lag_4,PrecioB_lag_5,PrecioB_lag_6,PrecioB_lag_7
7,7665034.0,10358770000.0,56916800.0,430.419115,3811161.0,9135660.0,629.537537,633.454963,573.129733,535.140967,499.329203,407.627913,407.565972
8,7319285.0,10315240000.0,58531700.0,453.829644,3595526.0,9121233.0,587.248523,629.537537,633.454963,573.129733,535.140967,499.329203,407.627913
9,6542415.0,10281740000.0,55702100.0,449.891662,3671894.0,9247313.0,496.745422,587.248523,629.537537,633.454963,573.129733,535.140967,499.329203
10,6639139.0,10246220000.0,55021300.0,464.874644,3683867.0,9167086.0,533.0209,496.745422,587.248523,629.537537,633.454963,573.129733,535.140967
11,7592810.0,10189830000.0,51698900.0,448.358021,3690565.0,8985126.0,540.924392,533.0209,496.745422,587.248523,629.537537,633.454963,573.129733
12,7757863.0,10131110000.0,57472800.0,461.912549,3560153.0,8934978.0,659.949268,540.924392,533.0209,496.745422,587.248523,629.537537,633.454963
13,7834628.0,10072280000.0,47998200.0,458.685795,3791296.0,8685103.0,685.15492,659.949268,540.924392,533.0209,496.745422,587.248523,629.537537
14,7903700.0,10011850000.0,49197100.0,441.016662,3797674.0,8717157.0,770.768537,685.15492,659.949268,540.924392,533.0209,496.745422,587.248523
15,7438146.0,9961400000.0,48121500.0,439.755908,3816076.0,9146723.0,693.806823,770.768537,685.15492,659.949268,540.924392,533.0209,496.745422
16,6739229.0,9928000000.0,45333900.0,443.53421,4095417.0,9047262.0,621.637368,693.806823,770.768537,685.15492,659.949268,540.924392,533.0209


In [11]:
# Dividir los datos en conjuntos de entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [12]:
# Inicializar el modelo de Random Forest
modelo_rf = RandomForestRegressor(n_estimators=100, random_state=42)

In [13]:
# Entrenar el modelo
modelo_rf.fit(X_train, y_train)

In [14]:
# Realizar predicciones
y_predict = modelo_rf.predict(X_test)

In [15]:
# Evaluar el modelo
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_predict)
print(f'Error cuadrático medio: {mse}')

Error cuadrático medio: 427.7225194024815
