In [1]:
# Entrena un modelo de Gradient Boosted Trees
# para predecir el consumo eléctrico
# y la cantidad de usuarios.

# Tomado y modificado a partir de:
# https://www.datacamp.com/community/tutorials/xgboost-in-python
# https://towardsdatascience.com/a-beginners-guide-to-xgboost-87f5d4c30ed7

import pandas as pd
import numpy as np

import xgboost as xgb

from joblib import dump

from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

In [2]:
path_drive = "/content/drive/MyDrive/Colab/Subsidio_electricidad/" 
path_data = path_drive + "data/Actual/"
fname = "data.csv"

test = []
reg_model = []

data = pd.read_csv(path_data + fname)

data.rename({"Población": "Poblacion"},
    axis = 1, inplace = True)

# Escogemos las variables relevantes.
data.drop(["Area", "CVE_ENT", "CVE_MUN",
    "Tmax", "Tmin", "HDD_mean",
    "HDD_p10",  "CDD_p90", "$luz"],
    axis = 1, inplace = True)

# Unimos las tarifas 1 y DAC.
data["Consumo_1*"] += data["Consumo_DAC"]
data["Usuarios_1*"] += data["Usuarios_DAC"]
data.drop(["Consumo_DAC", "Usuarios_DAC"],
    axis = 1, inplace = True)

# Información utilizada para el modelo.
data.head()

Unnamed: 0,CVE_INEGI,NOM_ENT,NOM_MUN,Consumo_1*,Usuarios_1*,lon,lat,Tmean,Pre,CDD_mean,Pre_Tmean,Poblacion,PIB,Densidad_poblacion,PCI,$GLP,Año
0,1001,Aguascalientes,Aguascalientes,302560818.0,235978.0,-102.295872,21.8114,19.460571,-661.522583,-661.522583,400.161505,797010.0,117000000000.0,6.833315,146798.659992,10.151,2010
1,1002,Aguascalientes,Asientos,12805524.0,10624.0,-102.04559,22.126479,18.816061,-678.11322,-678.11322,302.348158,45492.0,2970839000.0,0.837213,65304.649499,10.151,2010
2,1003,Aguascalientes,Calvillo,17578788.0,15496.0,-102.704911,21.90064,19.020189,-624.275757,-624.275757,446.077944,54136.0,3708914000.0,0.586295,68511.043575,10.151,2010
3,1004,Aguascalientes,CosÃ­o,4015852.0,3529.0,-102.297038,22.360619,18.941561,-690.588013,-690.588013,316.695232,15042.0,1233468000.0,1.171645,82001.610624,10.151,2010
4,1005,Aguascalientes,JesÃºs MarÃ­a,31208047.0,26103.0,-102.4457,21.932112,19.160786,-633.72821,-633.72821,378.999951,99590.0,11218820000.0,1.992218,112650.094989,10.151,2010


In [None]:
# Estadísticos de las variables.
data.describe()

Unnamed: 0,Consumo_1*,Usuarios_1*,lon,lat,T_mean,CDD_mean,Pre,Pre_Tmean,Densidad_población,PCI,$GLP,Población,PIB,Año,CVE_INEGI
count,17283.0,17283.0,17283.0,17283.0,17283.0,17283.0,17283.0,17283.0,17283.0,17283.0,17283.0,17283.0,17283.0,17283.0,17283.0
mean,21562700.0,13456.785049,-98.743039,20.022814,22.427123,496.434783,1106.790031,836.905261,2.879387,84641.68,10.993159,47263.42,6765280000.0,2013.0,19324.164844
std,86317400.0,39616.449058,4.384691,3.345834,3.377748,217.887584,633.619129,468.075952,11.834312,71664.18,0.851153,136017.3,26943150000.0,2.000058,7381.610743
min,23980.0,63.0,-116.889017,14.639368,14.419035,125.732559,0.0,0.0,0.001441,12736.97,8.9483,86.0,2373494.0,2010.0,1001.0
25%,1043140.0,1163.0,-100.737771,17.620009,19.967443,358.526184,682.422936,526.375082,0.191171,43039.53,10.238682,4274.0,240301400.0,2011.0,14079.0
50%,3224329.0,3308.0,-98.236805,19.32931,21.914389,434.459412,941.986782,723.67695,0.527785,66532.78,11.104057,13017.0,841635000.0,2013.0,20226.0
75%,10084260.0,8869.0,-96.769306,20.934726,24.924725,545.298798,1387.195159,1019.995059,1.374554,97519.16,11.637004,33620.5,2806443000.0,2015.0,24027.0
max,2173237000.0,537946.0,-86.908934,32.434882,31.648048,1637.347656,5187.519554,3528.052812,176.561449,1234769.0,13.169542,1830284.0,490000000000.0,2016.0,32058.0


In [None]:
# Matriz de correlación de Pearson.
data.corr()

Unnamed: 0,Consumo_1*,Usuarios_1*,lon,lat,T_mean,CDD_mean,Pre,Pre_Tmean,Densidad_población,PCI,$GLP,Población,PIB,Año,CVE_INEGI
Consumo_1*,1.0,0.844769,-0.1517104,0.1966613,0.037609,0.175,-0.108148,-0.093338,0.318539,0.280889,0.005908,0.807671,0.749397,0.0131459,-0.06607402
Usuarios_1*,0.844769,1.0,-0.1204962,0.1351577,-0.047144,0.095912,-0.112452,-0.082853,0.54162,0.309517,0.017101,0.9852,0.889541,0.01865308,-0.1208885
lon,-0.15171,-0.120496,1.0,-0.6648263,0.368563,-0.570965,0.487079,0.412035,-0.000243,-0.270591,-0.013115,-0.111694,-0.08519,5.813482e-18,0.2369749
lat,0.196661,0.135158,-0.6648263,1.0,-0.172404,0.901895,-0.47721,-0.406219,-0.029756,0.368796,0.037059,0.121039,0.110049,1.0782670000000001e-17,-0.01816479
T_mean,0.037609,-0.047144,0.3685626,-0.1724041,1.0,0.002264,0.406738,0.400219,-0.17485,-0.001128,0.025122,-0.066071,-0.048065,0.04720407,0.174989
CDD_mean,0.175,0.095912,-0.5709655,0.9018954,0.002264,1.0,-0.402018,-0.337884,-0.07188,0.331921,0.036149,0.078861,0.075153,0.07924268,-0.04882388
Pre,-0.108148,-0.112452,0.4870794,-0.4772099,0.406738,-0.402018,1.0,0.921505,-0.071052,-0.257785,-0.093505,-0.105271,-0.096163,-0.06036922,0.1105634
Pre_Tmean,-0.093338,-0.082853,0.4120352,-0.4062194,0.400219,-0.337884,0.921505,1.0,-0.049735,-0.196991,-0.037105,-0.075536,-0.076816,-0.001245438,0.1161193
Densidad_población,0.318539,0.54162,-0.0002431198,-0.02975554,-0.17485,-0.07188,-0.071052,-0.049735,1.0,0.229053,0.003081,0.560745,0.58514,0.005724501,-0.07796424
PCI,0.280889,0.309517,-0.2705908,0.3687962,-0.001128,0.331921,-0.257785,-0.196991,0.229053,1.0,0.066342,0.283659,0.473212,0.0460554,-0.1489635


In [12]:
# Predicción de usuarios.

# Escogemos el conjunto de features y de variables a predecir.
X, Y = data.iloc[:,6:], data.iloc[:,3]

# Quitamos algunas features.
X.drop(["Pre", "PCI", "Densidad_población"],
    axis = 1, inplace = True)

# Separamos en conjuntos de entrenamiento y de prueba.
X_train, X_test, Y_train, Y_test = train_test_split(
    X, Y, test_size = 0.3 )

# Separamos en conjunto de prueba y de validación.
X_train, X_val, Y_train, Y_val = train_test_split(
    X, Y, test_size = 0.5 )

In [9]:
# Features a utilizar.
X.head()

Unnamed: 0,T_mean,CDD_mean,Pre_Tmean,$GLP,Poblacion,PIB,Año,CVE_INEGI
0,19.460571,517.162109,400.161505,10.151,797010.0,117000000000.0,2010,1001
1,18.816061,562.153564,302.348158,10.151,45492.0,2970839000.0,2010,1002
2,19.020189,464.14624,446.077944,10.151,54136.0,3708914000.0,2010,1003
3,18.941561,577.571777,316.695232,10.151,15042.0,1233468000.0,2010,1004
4,19.160786,487.516479,378.999951,10.151,99590.0,11218820000.0,2010,1005


In [10]:
# Variable a predecir.
Y.head()

0    235978.0
1     10624.0
2     15496.0
3      3529.0
4     26103.0
Name: Usuarios_1*, dtype: float64

In [13]:
# Regresión lineal.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Creamos el regresor.
lin_reg = LinearRegression()

# Entrenamos el modelo.
lin_reg.fit(X_reg, Y_reg)

# Probamos la regresión en el set de entrenamiento.
preds = lin_reg.predict(X_reg)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

Entrenamiento
RMSE: 6.995E+03
R^2:  0.9718247


In [14]:
# Probamos la regresión en el set de validación.
preds = lin_reg.predict(X_reg_val)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_0 = lin_reg.predict(X_reg_test)

Validación
RMSE: 5.910E+03
R^2:  0.9750823


In [17]:
# Calculamos el error de prueba.
rmse = np.sqrt(mean_squared_error(Y_test, test_0))
r2 = r2_score(Y_test, test_0)

print("Prueba")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Guardamos el modelo entrenado.
dump(lin_reg, path_drive + "reg_model_usuarios.joblib")

Prueba
RMSE: 6.965E+03
R^2:  0.9703591


['/content/drive/MyDrive/Colab/Subsidio_electricidad/reg_model_usuarios.joblib']

In [None]:
# Predicción de consumo.
# Escogemos el conjunto de features y de variables a predecir.
X, Y = data.iloc[:,6:], data.iloc[:,2]

# Quitamos algunas features.
X.drop(["Pre", "PCI", "Densidad_población"],
    axis = 1, inplace = True)

# Separamos en conjuntos de entrenamiento y de prueba.
X_train, X_test, Y_train, Y_test = train_test_split(
    X, Y, test_size = 0.3 )

# Separamos en conjunto de prueba y de validación.
X_train, X_val, Y_train, Y_val = train_test_split(
    X, Y, test_size = 0.5 )

In [None]:
# Variable a predecir.
Y.head()

0    302560818.0
1     12805524.0
2     17578788.0
3      4015852.0
4     31208047.0
Name: Consumo_1*, dtype: float64

In [None]:
# Método 1.
# Regresión lineal.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Creamos el regresor.
lin_reg_1 = LinearRegression()

# Entrenamos el modelo.
lin_reg_1.fit(X_reg, Y_reg)

# Probamos la regresión en el set de entrenamiento.
preds = lin_reg_1.predict(X_reg)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

Entrenamiento
RMSE: 4.933E+07
R^2:  0.6552070


In [None]:
# Probamos la regresión en el set de validación.
preds = lin_reg_1.predict(X_reg_val)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_1 = lin_reg_1.predict(X_reg_test)

test.append(test_1)
reg_model.append(lin_reg_1)

Validación
RMSE: 4.821E+07
R^2:  0.7036956


In [None]:
# Método 2.
# Regresión lineal con transformación logarítmica.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X.copy()
Y_reg = Y.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Sacamos el logaritmo.
X_reg[["Poblacion", "PIB"]] = np.log(
    X_reg[["Poblacion", "PIB"]])
Y_reg = np.log(Y_reg)
X_reg_val[["Poblacion", "PIB"]] = np.log(
    X_reg_val[["Poblacion", "PIB"]])
X_reg_test[["Poblacion", "PIB"]] = np.log(
    X_reg_test[["Poblacion", "PIB"]])

# Creamos el regresor.
lin_reg_2 = LinearRegression()

# Entrenamos el modelo.
lin_reg_2.fit(X_reg, Y_reg)

# Probamos la regresión en el set de entrenamiento.
preds = lin_reg_2.predict(X_reg)

# Quitamos el logaritmo para evaluar el error.
Y_reg = np.exp(Y_reg)
preds = np.exp(preds)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

Entrenamiento
RMSE: 3.819E+07
R^2:  0.8042005


In [None]:
# Probamos la regresión en el set de validación.
preds = lin_reg_2.predict(X_reg_val)

# Quitamos el logaritmo para evaluar el error.
preds = np.exp(preds)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_2 = lin_reg_2.predict(X_reg_test)
test_2 = np.exp(test_2)

test.append(test_2)
reg_model.append(lin_reg_2)

Validación
RMSE: 3.757E+07
R^2:  0.8200393


In [None]:
# Método 3.
# Entrenamiento simple.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Hiperparámetros.
params = {
    "objective": "reg:squarederror",
    "colsample_bytree": 0.3,
    "learning_rate": 0.1,
    "max_depth": 50,
    "min_child_weight" : 25,
    "min_split_loss": 0.3,
    "n_estimators": 100
    }

# Creamos el regresor con los hiperparámetros.
xg_reg_3 = xgb.XGBRegressor( **params )

# Entrenamos el modelo.
xg_reg_3.fit(X_reg, Y_reg, verbose = True)

# Probamos la regresión en el set de entrenamiento.
preds = xg_reg_3.predict(X_reg)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

Entrenamiento
RMSE: 1.880E+07
R^2:  0.9499345


In [None]:
# Probamos la regresión en el set de validación.
preds = xg_reg_3.predict(X_reg_val)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_3 = xg_reg_3.predict(X_reg_test)

test.append(test_3)
reg_model.append(xg_reg_3)

Validación
RMSE: 2.850E+07
R^2:  0.8964479


In [None]:
# Método 4.
# Entrenamiento simple con
# transformación logarítmica.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Sacamos el logaritmo.
X_reg[["Poblacion", "PIB"]] = np.log(
    X_reg[["Poblacion", "PIB"]])
Y_reg = np.log(Y_reg)
X_reg_val[["Poblacion", "PIB"]] = np.log(
    X_reg_val[["Poblacion", "PIB"]])
X_reg_test[["Poblacion", "PIB"]] = np.log(
    X_reg_test[["Poblacion", "PIB"]])

# Hiperparámetros.
params = {
    "objective": "reg:squarederror",
    "colsample_bytree": 0.3,
    "learning_rate": 0.1,
    "max_depth": 50,
    "min_child_weight" : 25,
    "min_split_loss": 0.3,
    "n_estimators": 100
    }

# Creamos el regresor con los hiperparámetros.
xg_reg_4 = xgb.XGBRegressor( **params )

# Entrenamos el modelo.
xg_reg_4.fit(X_reg, Y_reg, verbose = True)

# Probamos la regresión en el set de entrenamiento.
preds = xg_reg_4.predict(X_reg)

# Quitamos el logaritmo para evaluar el error.
Y_reg = np.exp(Y_reg)
preds = np.exp(preds)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

Entrenamiento
RMSE: 1.709E+07
R^2:  0.9586014


In [None]:
# Probamos la regresión en el set de validación.
preds = xg_reg_4.predict(X_reg_val)

# Quitamos el logaritmo para evaluar el error.
preds = np.exp(preds)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_4 = xg_reg_4.predict(X_reg_test)
test_4 = np.exp(test_4)

test.append(test_4)
reg_model.append(xg_reg_4)

Validación
RMSE: 2.391E+07
R^2:  0.9271308


In [None]:
# Método 5.
# Cross-Validation.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Sacamos el logaritmo.
X_reg[["Poblacion", "PIB"]] = np.log(
    X_reg[["Poblacion", "PIB"]])
Y_reg = np.log(Y_reg)
X_reg_val[["Poblacion", "PIB"]] = np.log(
    X_reg_val[["Poblacion", "PIB"]])
X_reg_test[["Poblacion", "PIB"]] = np.log(
    X_reg_test[["Poblacion", "PIB"]])

# Hiperparámetros.
params = {
    "colsample_bytree": [ 0.3 ],
    "learning_rate": [ 0.1 ],
    "max_depth": [ 50 ],
    "min_child_weight" : [ 25 ],
    "min_split_loss": [ 0.3 ],
    "n_estimators": [ 100 ]
    }

# Creamos el regresor.
xg_reg = xgb.XGBRegressor(
    objective = "reg:squarederror"
    )

# Ajustador de hiperparámetros con Cross Validation.
grid_5 = GridSearchCV(xg_reg, params,
    n_jobs = -1, verbose = 2,
    scoring = "neg_mean_absolute_error")

# Entrenamos el modelo.
grid_5.fit(X_reg, Y_reg)

# Probamos la regresión en el set de entrenamiento.
preds = grid_5.predict(X_reg)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

Fitting 5 folds for each of 1 candidates, totalling 5 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    5.2s remaining:    0.0s
[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    5.2s finished


Entrenamiento
RMSE: 2.166E-01
R^2:  0.9854706


In [None]:
# Probamos la regresión en el set de validación.
preds = grid_5.predict(X_reg_val)

# Quitamos el logaritmo para evaluar el error.
preds = np.exp(preds)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_5 = grid_5.predict(X_reg_test)
test_5 = np.exp(test_5)

test.append(test_5)
reg_model.append(grid_5)

Validación
RMSE: 2.391E+07
R^2:  0.9271308


In [None]:
# Método 6.
# Ajuste de hiperparámetros.

# Tarda bastante en ejecutar, usar
# como base para los hiperparámetros
# en otros métodos.
'''
# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Sacamos el logaritmo.
X_reg[["Poblacion", "PIB"]] = np.log(
    X_reg[["Poblacion", "PIB"]])
Y_reg = np.log(Y_reg)
X_reg_val[["Poblacion", "PIB"]] = np.log(
    X_reg_val[["Poblacion", "PIB"]])
X_reg_test[["Poblacion", "PIB"]] = np.log(
    X_reg_test[["Poblacion", "PIB"]])

# Hiperparámetros
params = {
    "colsample_bytree": [ 0.3 ],
    "learning_rate": [ 0.1 ],
    "learning_rate": [ 0.1, 0.2, 0.3, 0.4, 0.5 ],
    "max_depth": [ 50 ],
    "min_child_weight" : [ 0, 10, 15, 20, 25 ],
    "min_split_loss": [ 0.0, 0.3, 0.6, 0.9, 1.2 ],
    #"alpha": [ 0, 3, 6, 9, 12 ],
    #"lambda": [ 0, 3, 6, 9, 12 ],
    "n_estimators": [ 100 ],
    }

# Creamos el regresor.
xg_reg = xgb.XGBRegressor(
    objective = "reg:squarederror")

# Ajustador de hiperparámetros con Cross Validation.
grid_6 = GridSearchCV(xg_reg, params,
    n_jobs = -1, cv = 2, verbose = 2,
    scoring = "neg_mean_absolute_error")

# Entrenamos el modelo.
grid_6.fit(X_reg, Y_reg)

# Probamos la regresión en el set de entrenamiento.
preds = grid_6.predict(X_reg)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")
print("Mejores parámetros")
print(grid_6.best_params_)
'''

Fitting 2 folds for each of 125 candidates, totalling 250 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=-1)]: Done  37 tasks      | elapsed:   20.9s
[Parallel(n_jobs=-1)]: Done 158 tasks      | elapsed:  1.6min
[Parallel(n_jobs=-1)]: Done 250 out of 250 | elapsed:  2.7min finished


Entrenamiento
RMSE: 2.166E-01
R^2:  0.9854706
Mejores parámetros
{'colsample_bytree': 0.3, 'learning_rate': 0.1, 'max_depth': 50, 'min_child_weight': 25, 'min_split_loss': 0.3, 'n_estimators': 100}


In [None]:
# Probamos la regresión en el set de validación.
preds = grid_6.predict(X_reg_val)

# Quitamos el logaritmo para evaluar el error.
preds = np.exp(preds)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_6 = grid_6.predict(X_reg_test)
test_6 = np.exp(test_6)

test.append(test_6)
reg_model.append(grid_6)

Validación
RMSE: 2.391E+07
R^2:  0.9271308


In [None]:
i = 4

# Calculamos el error de prueba.
rmse = np.sqrt(mean_squared_error(Y_test, test[i - 1]))
r2 = r2_score(Y_test, test[i - 1])

print("Prueba")
print(f"Método {i}")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Guardamos el modelo entrenado.
dump(reg_model[i - 1], path_drive + "reg_model_consumo.joblib")

Prueba
Método 4
RMSE: 1.927E+07
R^2:  0.9408597


['/content/drive/MyDrive/Colab/reg_model.joblib']