In [1]:
# Entrena un modelo de Gradient Boosted Trees
# para predecir el consumo eléctrico
# y la cantidad de usuarios.

# Tomado y modificado a partir de:
# https://www.datacamp.com/community/tutorials/xgboost-in-python
# https://towardsdatascience.com/a-beginners-guide-to-xgboost-87f5d4c30ed7

import pandas as pd
import numpy as np

import xgboost as xgb

from joblib import dump

from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

In [2]:
path_drive = "/content/drive/MyDrive/Colab/Subsidio_electricidad/" 
path_data = path_drive + "data/Actual/"
fname = "data.csv"

test = []
reg_model = []

data = pd.read_csv(path_data + fname)

# Unimos las tarifas 1 y DAC.
data["Consumo_1*"] += data["Consumo_DAC"]
data["Usuarios_1*"] += data["Usuarios_DAC"]
data.drop(["Consumo_DAC", "Usuarios_DAC"],
    axis = 1, inplace = True)

# Escogemos las variables relevantes.
data.drop(["Area", "CVE_ENT", "CVE_MUN",
    "Tmax", "Tmin", "HDD_mean", "HDD_p10",
    "CDD_p90", "$luz", "Tmean_max_2",
    "M_verano", "Tarifa", "Verano"],
    axis = 1, inplace = True)

# Información utilizada para el modelo.
data.head()

Unnamed: 0,CVE_INEGI,NOM_ENT,NOM_MUN,Consumo_1*,Usuarios_1*,lon,lat,Tmean,Pre,CDD_mean,Pre_Tmean,Poblacion,PIB,Densidad_poblacion,PCI,$GLP,Año,Mes
0,1001,Aguascalientes,Aguascalientes,22971120.0,235978.0,-102.295872,21.8114,19.43787,453.183668,470.864685,395.32407,797010.0,117000000000.0,6.833315,146798.659992,10.151,2010,1
1,1001,Aguascalientes,Aguascalientes,21081220.0,235978.0,-102.295872,21.8114,19.43787,453.183668,470.864685,395.32407,797010.0,117000000000.0,6.833315,146798.659992,10.151,2010,2
2,1001,Aguascalientes,Aguascalientes,23778940.0,235978.0,-102.295872,21.8114,19.43787,453.183668,470.864685,395.32407,797010.0,117000000000.0,6.833315,146798.659992,10.151,2010,3
3,1001,Aguascalientes,Aguascalientes,25917310.0,235978.0,-102.295872,21.8114,19.43787,453.183668,470.864685,395.32407,797010.0,117000000000.0,6.833315,146798.659992,10.151,2010,4
4,1001,Aguascalientes,Aguascalientes,26761200.0,235978.0,-102.295872,21.8114,19.43787,453.183668,470.864685,395.32407,797010.0,117000000000.0,6.833315,146798.659992,10.151,2010,5


In [None]:
# Estadísticos de las variables.
data.describe()

Unnamed: 0,CVE_INEGI,Consumo_1*,Usuarios_1*,lon,lat,Tmean,Pre,CDD_mean,Pre_Tmean,Poblacion,PIB,Densidad_poblacion,PCI,$GLP,Año,Mes
count,207396.0,207396.0,207396.0,207396.0,207396.0,207396.0,207396.0,207396.0,207396.0,207396.0,207396.0,207396.0,207396.0,207396.0,207396.0,207396.0
mean,19324.164844,1796892.0,13456.785049,-98.743039,20.022814,22.416142,1107.679647,463.361091,735.349114,47263.42,6765280000.0,2.879387,84641.68,10.993159,2013.0,6.5
std,7381.414984,7318148.0,39615.398438,4.384575,3.345745,3.372105,632.327674,230.627291,417.929539,136013.7,26942440000.0,11.833998,71662.28,0.851131,2.000005,3.452061
min,1001.0,1859.828,63.0,-116.889018,14.639368,14.38306,42.102733,100.55986,4.444268,86.0,2373494.0,0.001441,12736.97,8.9483,2010.0,1.0
25%,14079.0,86000.11,1163.0,-100.737771,17.620009,19.961367,683.74609,316.327515,458.327859,4273.0,240280900.0,0.191168,43032.95,10.238682,2011.0,3.75
50%,20226.0,267775.3,3308.0,-98.236805,19.32931,21.908438,942.293395,387.747345,630.656156,13017.0,841635000.0,0.527785,66532.78,11.104057,2013.0,6.5
75%,24027.0,834841.0,8872.0,-96.769306,20.934726,24.913317,1386.331986,514.920044,860.038963,33621.0,2806882000.0,1.37468,97531.69,11.637004,2015.0,9.25
max,32058.0,249233100.0,537946.0,-86.908934,32.434882,31.64212,5177.363803,1673.21582,3466.317648,1830284.0,490000000000.0,176.561449,1234769.0,13.169542,2016.0,12.0


In [None]:
# Matriz de correlación de Pearson.
data.corr()

Unnamed: 0,CVE_INEGI,Consumo_1*,Usuarios_1*,lon,lat,Tmean,Pre,CDD_mean,Pre_Tmean,Poblacion,PIB,Densidad_poblacion,PCI,$GLP,Año,Mes
CVE_INEGI,1.0,-0.064943,-0.1208885,0.2369749,-0.01816479,0.1745513,0.1117758,-0.02076234,0.1609565,-0.1299527,-0.1309971,-0.07796424,-0.1489635,0.01802796,-2.21006e-18,-1.382317e-18
Consumo_1*,-0.06494341,1.0,0.8303143,-0.1491145,0.1932962,0.03583667,-0.1070076,0.1662545,-0.08165565,0.7938506,0.7365735,0.3130887,0.2760829,0.005806551,0.01292096,0.01080547
Usuarios_1*,-0.1208885,0.830314,1.0,-0.1204962,0.1351577,-0.04781972,-0.1133698,0.09330694,-0.07166021,0.9851998,0.8895408,0.5416195,0.3095174,0.01710064,0.01865308,-1.200591e-18
lon,0.2369749,-0.149114,-0.1204962,1.0,-0.6648263,0.3696091,0.4892779,-0.5273486,0.3573798,-0.111694,-0.08518956,-0.0002431198,-0.2705908,-0.01311473,2.430098e-18,-2.6256929999999996e-19
lat,-0.01816479,0.193296,0.1351577,-0.6648263,1.0,-0.1749343,-0.47795,0.8773878,-0.3229349,0.1210389,0.1100495,-0.02975554,0.3687962,0.03705866,-4.2495809999999997e-19,3.322298e-19
Tmean,0.1745513,0.035837,-0.04781972,0.3696091,-0.1749343,1.0,0.4087463,0.004886755,0.3691762,-0.06665472,-0.04864783,-0.1749675,-0.002200428,0.02547081,0.04760363,-1.2949859999999998e-19
Pre,0.1117758,-0.107008,-0.1133698,0.4892779,-0.47795,0.4087463,1.0,-0.3584966,0.8658793,-0.106256,-0.0974496,-0.07160257,-0.2594466,-0.09365618,-0.06075581,-2.3103569999999998e-19
CDD_mean,-0.02076234,0.166254,0.09330694,-0.5273486,0.8773878,0.004886755,-0.3584966,1.0,-0.2126383,0.07867954,0.07625974,-0.0587668,0.3043082,0.006555297,0.06599417,-9.419088e-19
Pre_Tmean,0.1609565,-0.081656,-0.07166021,0.3573798,-0.3229349,0.3691762,0.8658793,-0.2126383,1.0,-0.06574448,-0.0684039,-0.02461911,-0.1707235,-0.005260716,0.03705194,-1.06387e-19
Poblacion,-0.1299527,0.793851,0.9851998,-0.111694,0.1210389,-0.06665472,-0.106256,0.07867954,-0.06574448,1.0,0.8821186,0.5607455,0.283659,0.009278487,0.00864186,6.694819e-19


In [12]:
# Predicción de usuarios.

# Escogemos el conjunto de features y de variables a predecir.
X, Y = data.iloc[:,5:], data.iloc[:,4]

# Quitamos algunas features.
#X.drop(["Pre", "PCI", "Densidad_poblacion"],#, "Año"],
#    axis = 1, inplace = True)
X = data[["Poblacion", "PIB"]]


# Separamos en conjuntos de entrenamiento y de prueba.
X_train, X_test, Y_train, Y_test = train_test_split(
    X, Y, test_size = 0.3 )

# Separamos en conjunto de prueba y de validación.
X_train, X_val, Y_train, Y_val = train_test_split(
    X, Y, test_size = 0.5 )

In [13]:
# Features a utilizar.
X.head()

Unnamed: 0,Poblacion,PIB
0,797010.0,117000000000.0
1,797010.0,117000000000.0
2,797010.0,117000000000.0
3,797010.0,117000000000.0
4,797010.0,117000000000.0


In [14]:
# Variable a predecir.
Y.head()

0    235978.0
1    235978.0
2    235978.0
3    235978.0
4    235978.0
Name: Usuarios_1*, dtype: float64

In [15]:
# Regresión lineal.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Creamos el regresor.
lin_reg = LinearRegression()

# Entrenamos el modelo.
lin_reg.fit(X_reg, Y_reg)

# Probamos la regresión en el set de entrenamiento.
preds = lin_reg.predict(X_reg)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

Entrenamiento
RMSE: 6.598E+03
R^2:  0.9730322


In [16]:
# Probamos la regresión en el set de validación.
preds = lin_reg.predict(X_reg_val)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_0 = lin_reg.predict(X_reg_test)

Validación
RMSE: 6.540E+03
R^2:  0.9719435


In [17]:
# Calculamos el error de prueba.
rmse = np.sqrt(mean_squared_error(Y_test, test_0))
r2 = r2_score(Y_test, test_0)

print("Prueba")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Guardamos el modelo entrenado.
dump(lin_reg, path_drive + "reg_model_usuarios.joblib")

Prueba
RMSE: 6.676E+03
R^2:  0.9717092


['/content/drive/MyDrive/Colab/Subsidio_electricidad/reg_model_usuarios.joblib']

In [None]:
# Predicción de consumo.
# Escogemos el conjunto de features y de variables a predecir.
X, Y = data.iloc[:,5:], data.iloc[:,3]

# Quitamos algunas features.
X.drop(["Pre", "PCI", "Densidad_poblacion"],#, "Año"],
    axis = 1, inplace = True)

# Separamos en conjuntos de entrenamiento y de prueba.
X_train, X_test, Y_train, Y_test = train_test_split(
    X, Y, test_size = 0.3 )

# Separamos en conjunto de prueba y de validación.
X_train, X_val, Y_train, Y_val = train_test_split(
    X, Y, test_size = 0.5 )

In [None]:
# Variable a predecir.
Y.head()

0    2.297112e+07
1    2.108122e+07
2    2.377894e+07
3    2.591731e+07
4    2.676120e+07
Name: Consumo_1*, dtype: float64

In [None]:
# Método 1.
# Regresión lineal.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Creamos el regresor.
lin_reg_1 = LinearRegression()

# Entrenamos el modelo.
lin_reg_1.fit(X_reg, Y_reg)

# Probamos la regresión en el set de entrenamiento.
preds = lin_reg_1.predict(X_reg)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

Entrenamiento
RMSE: 4.425E+06
R^2:  0.6508099


In [None]:
# Probamos la regresión en el set de validación.
preds = lin_reg_1.predict(X_reg_val)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_1 = lin_reg_1.predict(X_reg_test)

test.append(test_1)
reg_model.append(lin_reg_1)

Validación
RMSE: 4.110E+06
R^2:  0.6689419


In [None]:
# Método 2.
# Regresión lineal con transformación logarítmica.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X.copy()
Y_reg = Y.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Sacamos el logaritmo.
X_reg[["Poblacion", "PIB"]] = np.log(
    X_reg[["Poblacion", "PIB"]])
Y_reg = np.log(Y_reg)
X_reg_val[["Poblacion", "PIB"]] = np.log(
    X_reg_val[["Poblacion", "PIB"]])
X_reg_test[["Poblacion", "PIB"]] = np.log(
    X_reg_test[["Poblacion", "PIB"]])

# Creamos el regresor.
lin_reg_2 = LinearRegression()

# Entrenamos el modelo.
lin_reg_2.fit(X_reg, Y_reg)

# Probamos la regresión en el set de entrenamiento.
preds = lin_reg_2.predict(X_reg)

# Quitamos el logaritmo para evaluar el error.
Y_reg = np.exp(Y_reg)
preds = np.exp(preds)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

Entrenamiento
RMSE: 3.390E+06
R^2:  0.7854343


In [None]:
# Probamos la regresión en el set de validación.
preds = lin_reg_2.predict(X_reg_val)

# Quitamos el logaritmo para evaluar el error.
preds = np.exp(preds)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_2 = lin_reg_2.predict(X_reg_test)
test_2 = np.exp(test_2)

test.append(test_2)
reg_model.append(lin_reg_2)

Validación
RMSE: 3.222E+06
R^2:  0.7965504


In [None]:
# Método 3.
# Entrenamiento simple.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Hiperparámetros.
params = {
    "objective": "reg:squarederror",
    "colsample_bytree": 0.3,
    "learning_rate": 0.1,
    "max_depth": 50,
    "min_child_weight" : 25,
    "min_split_loss": 0.3,
    "n_estimators": 100
    }

# Creamos el regresor con los hiperparámetros.
xg_reg_3 = xgb.XGBRegressor( **params )

# Entrenamos el modelo.
xg_reg_3.fit(X_reg, Y_reg, verbose = True)

# Probamos la regresión en el set de entrenamiento.
preds = xg_reg_3.predict(X_reg)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

Entrenamiento
RMSE: 5.739E+05
R^2:  0.9941254


In [None]:
# Probamos la regresión en el set de validación.
preds = xg_reg_3.predict(X_reg_val)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_3 = xg_reg_3.predict(X_reg_test)

test.append(test_3)
reg_model.append(xg_reg_3)

Validación
RMSE: 7.130E+05
R^2:  0.9900400


In [None]:
# Método 4.
# Entrenamiento simple con
# transformación logarítmica.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Sacamos el logaritmo.
X_reg[["Poblacion", "PIB"]] = np.log(
    X_reg[["Poblacion", "PIB"]])
Y_reg = np.log(Y_reg)
X_reg_val[["Poblacion", "PIB"]] = np.log(
    X_reg_val[["Poblacion", "PIB"]])
X_reg_test[["Poblacion", "PIB"]] = np.log(
    X_reg_test[["Poblacion", "PIB"]])

# Hiperparámetros.
params = {
    "objective": "reg:squarederror",
    "colsample_bytree": 0.3,
    "learning_rate": 0.1,
    "max_depth": 50,
    "min_child_weight" : 25,
    "min_split_loss": 0.3,
    "n_estimators": 100
    }

# Creamos el regresor con los hiperparámetros.
xg_reg_4 = xgb.XGBRegressor( **params )

# Entrenamos el modelo.
xg_reg_4.fit(X_reg, Y_reg, verbose = True)

# Probamos la regresión en el set de entrenamiento.
preds = xg_reg_4.predict(X_reg)

# Quitamos el logaritmo para evaluar el error.
Y_reg = np.exp(Y_reg)
preds = np.exp(preds)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

Entrenamiento
RMSE: 7.205E+05
R^2:  0.9907412


In [None]:
# Probamos la regresión en el set de validación.
preds = xg_reg_4.predict(X_reg_val)

# Quitamos el logaritmo para evaluar el error.
preds = np.exp(preds)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_4 = xg_reg_4.predict(X_reg_test)
test_4 = np.exp(test_4)

test.append(test_4)
reg_model.append(xg_reg_4)

Validación
RMSE: 7.959E+05
R^2:  0.9875896


In [None]:
'''
# Método 5.
# Cross-Validation.

# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Sacamos el logaritmo.
X_reg[["Poblacion", "PIB"]] = np.log(
    X_reg[["Poblacion", "PIB"]])
Y_reg = np.log(Y_reg)
X_reg_val[["Poblacion", "PIB"]] = np.log(
    X_reg_val[["Poblacion", "PIB"]])
X_reg_test[["Poblacion", "PIB"]] = np.log(
    X_reg_test[["Poblacion", "PIB"]])

# Hiperparámetros.
params = {
    "colsample_bytree": [ 0.3 ],
    "learning_rate": [ 0.1 ],
    "max_depth": [ 50 ],
    "min_child_weight" : [ 25 ],
    "min_split_loss": [ 0.3 ],
    "n_estimators": [ 100 ]
    }

# Creamos el regresor.
xg_reg = xgb.XGBRegressor(
    objective = "reg:squarederror"
    )

# Ajustador de hiperparámetros con Cross Validation.
grid_5 = GridSearchCV(xg_reg, params,
    n_jobs = -1, verbose = 2,
    scoring = "neg_mean_absolute_error")

# Entrenamos el modelo.
grid_5.fit(X_reg, Y_reg)

# Probamos la regresión en el set de entrenamiento.
preds = grid_5.predict(X_reg)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")
'''

'\n# Método 5.\n# Cross-Validation.\n\n# Copiamos las variables para poder\n# transformarlas en caso de ser necesario.\nX_reg = X_train.copy()\nY_reg = Y_train.copy()\nX_reg_val = X_val.copy()\nX_reg_test = X_test.copy()\n\n# Sacamos el logaritmo.\nX_reg[["Poblacion", "PIB"]] = np.log(\n    X_reg[["Poblacion", "PIB"]])\nY_reg = np.log(Y_reg)\nX_reg_val[["Poblacion", "PIB"]] = np.log(\n    X_reg_val[["Poblacion", "PIB"]])\nX_reg_test[["Poblacion", "PIB"]] = np.log(\n    X_reg_test[["Poblacion", "PIB"]])\n\n# Hiperparámetros.\nparams = {\n    "colsample_bytree": [ 0.3 ],\n    "learning_rate": [ 0.1 ],\n    "max_depth": [ 50 ],\n    "min_child_weight" : [ 25 ],\n    "min_split_loss": [ 0.3 ],\n    "n_estimators": [ 100 ]\n    }\n\n# Creamos el regresor.\nxg_reg = xgb.XGBRegressor(\n    objective = "reg:squarederror"\n    )\n\n# Ajustador de hiperparámetros con Cross Validation.\ngrid_5 = GridSearchCV(xg_reg, params,\n    n_jobs = -1, verbose = 2,\n    scoring = "neg_mean_absolute_error")\

In [None]:
'''
# Probamos la regresión en el set de validación.
preds = grid_5.predict(X_reg_val)

# Quitamos el logaritmo para evaluar el error.
preds = np.exp(preds)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_5 = grid_5.predict(X_reg_test)
test_5 = np.exp(test_5)

test.append(test_5)
reg_model.append(grid_5)
'''

'\n# Probamos la regresión en el set de validación.\npreds = grid_5.predict(X_reg_val)\n\n# Quitamos el logaritmo para evaluar el error.\npreds = np.exp(preds)\n\n# Calculamos el error de validación.\nrmse = np.sqrt(mean_squared_error(Y_val, preds))\nr2 = r2_score(Y_val, preds)\n\nprint("Validación")\nprint(f"RMSE: {rmse:.3E}")\nprint(f"R^2:  {r2:.7f}")\n\n# Probamos la regresión en el set de prueba\n# y guardamos el resultado para su evaluación final.\ntest_5 = grid_5.predict(X_reg_test)\ntest_5 = np.exp(test_5)\n\ntest.append(test_5)\nreg_model.append(grid_5)\n'

In [None]:
# Método 6.
# Ajuste de hiperparámetros.

# Tarda bastante en ejecutar, usar
# como base para los hiperparámetros
# en otros métodos.
'''
# Copiamos las variables para poder
# transformarlas en caso de ser necesario.
X_reg = X_train.copy()
Y_reg = Y_train.copy()
X_reg_val = X_val.copy()
X_reg_test = X_test.copy()

# Sacamos el logaritmo.
X_reg[["Poblacion", "PIB"]] = np.log(
    X_reg[["Poblacion", "PIB"]])
Y_reg = np.log(Y_reg)
X_reg_val[["Poblacion", "PIB"]] = np.log(
    X_reg_val[["Poblacion", "PIB"]])
X_reg_test[["Poblacion", "PIB"]] = np.log(
    X_reg_test[["Poblacion", "PIB"]])

# Hiperparámetros
params = {
    "colsample_bytree": [ 0.3 ],
    "learning_rate": [ 0.1 ],
    "learning_rate": [ 0.1, 0.2, 0.3, 0.4, 0.5 ],
    "max_depth": [ 50 ],
    "min_child_weight" : [ 0, 10, 15, 20, 25 ],
    "min_split_loss": [ 0.0, 0.3, 0.6, 0.9, 1.2 ],
    #"alpha": [ 0, 3, 6, 9, 12 ],
    #"lambda": [ 0, 3, 6, 9, 12 ],
    "n_estimators": [ 100 ],
    }

# Creamos el regresor.
xg_reg = xgb.XGBRegressor(
    objective = "reg:squarederror")

# Ajustador de hiperparámetros con Cross Validation.
grid_6 = GridSearchCV(xg_reg, params,
    n_jobs = -1, cv = 2, verbose = 2,
    scoring = "neg_mean_absolute_error")

# Entrenamos el modelo.
grid_6.fit(X_reg, Y_reg)

# Probamos la regresión en el set de entrenamiento.
preds = grid_6.predict(X_reg)

# Calculamos el error de entrenamiento.
rmse = np.sqrt(mean_squared_error(Y_reg, preds))
r2 = r2_score(Y_reg, preds)

print("Entrenamiento")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")
print("Mejores parámetros")
print(grid_6.best_params_)
'''

'\n# Copiamos las variables para poder\n# transformarlas en caso de ser necesario.\nX_reg = X_train.copy()\nY_reg = Y_train.copy()\nX_reg_val = X_val.copy()\nX_reg_test = X_test.copy()\n\n# Sacamos el logaritmo.\nX_reg[["Poblacion", "PIB"]] = np.log(\n    X_reg[["Poblacion", "PIB"]])\nY_reg = np.log(Y_reg)\nX_reg_val[["Poblacion", "PIB"]] = np.log(\n    X_reg_val[["Poblacion", "PIB"]])\nX_reg_test[["Poblacion", "PIB"]] = np.log(\n    X_reg_test[["Poblacion", "PIB"]])\n\n# Hiperparámetros\nparams = {\n    "colsample_bytree": [ 0.3 ],\n    "learning_rate": [ 0.1 ],\n    "learning_rate": [ 0.1, 0.2, 0.3, 0.4, 0.5 ],\n    "max_depth": [ 50 ],\n    "min_child_weight" : [ 0, 10, 15, 20, 25 ],\n    "min_split_loss": [ 0.0, 0.3, 0.6, 0.9, 1.2 ],\n    #"alpha": [ 0, 3, 6, 9, 12 ],\n    #"lambda": [ 0, 3, 6, 9, 12 ],\n    "n_estimators": [ 100 ],\n    }\n\n# Creamos el regresor.\nxg_reg = xgb.XGBRegressor(\n    objective = "reg:squarederror")\n\n# Ajustador de hiperparámetros con Cross Validatio

In [None]:
'''
# Probamos la regresión en el set de validación.
preds = grid_6.predict(X_reg_val)

# Quitamos el logaritmo para evaluar el error.
preds = np.exp(preds)

# Calculamos el error de validación.
rmse = np.sqrt(mean_squared_error(Y_val, preds))
r2 = r2_score(Y_val, preds)

print("Validación")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Probamos la regresión en el set de prueba
# y guardamos el resultado para su evaluación final.
test_6 = grid_6.predict(X_reg_test)
test_6 = np.exp(test_6)

test.append(test_6)
reg_model.append(grid_6)
'''

'\n# Probamos la regresión en el set de validación.\npreds = grid_6.predict(X_reg_val)\n\n# Quitamos el logaritmo para evaluar el error.\npreds = np.exp(preds)\n\n# Calculamos el error de validación.\nrmse = np.sqrt(mean_squared_error(Y_val, preds))\nr2 = r2_score(Y_val, preds)\n\nprint("Validación")\nprint(f"RMSE: {rmse:.3E}")\nprint(f"R^2:  {r2:.7f}")\n\n# Probamos la regresión en el set de prueba\n# y guardamos el resultado para su evaluación final.\ntest_6 = grid_6.predict(X_reg_test)\ntest_6 = np.exp(test_6)\n\ntest.append(test_6)\nreg_model.append(grid_6)\n'

In [None]:
i = 4

# Calculamos el error de prueba.
rmse = np.sqrt(mean_squared_error(Y_test, test[i - 1]))
r2 = r2_score(Y_test, test[i - 1])

print("Prueba")
print(f"Método {i}")
print(f"RMSE: {rmse:.3E}")
print(f"R^2:  {r2:.7f}")

# Guardamos el modelo entrenado.
dump(reg_model[i - 1], path_drive + "reg_model_consumo.joblib")

Prueba
Método 4
RMSE: 7.609E+05
R^2:  0.9889496


['/content/drive/MyDrive/Colab/Subsidio_electricidad/reg_model_consumo.joblib']