#Cargar Datos

In [None]:
# Importamos las librerias necesarias

## Remove Warnings
import warnings
warnings.filterwarnings("ignore")

# procesamiento
import pandas as pd
import numpy as np

# visualización
import matplotlib.pyplot as plt
import plotly.express as px
from plotly.subplots import make_subplots
import seaborn as sns

# modelos
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score,confusion_matrix, ConfusionMatrixDisplay, f1_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from matplotlib.pyplot import figure
import joblib
from matplotlib import style

In [None]:
urlcal = "https://raw.githubusercontent.com/EstebanCaroP/Proyecto-de-Aula/main/calculo_diferencial.csv"

In [None]:
#Utilizamos pandas para leer el dataset importado desde Github
dfcd = pd.read_csv(urlcal, index_col=[0])
dfcd.head(3)

Unnamed: 0,departamento,sexo,edad,direccion,t_familia,padres_status,madre_edu,padre_edu,madre_trab,padre_trab,...,relacion_fam,tiempo_libre,salir_amigos,cons_alcohol_sem,cons_alcohol_finde,salud,ausencias,nota_01,nota_02,nota_03
0,II,M,18,U,mayor_3,S,4,4,en_casa,profesor,...,4,3,4,1,1,3,6,5,6,6
1,II,M,17,U,mayor_3,J,1,1,en_casa,otro,...,5,3,3,1,1,3,4,5,5,6
2,II,M,15,U,menor_e3,J,1,1,en_casa,otro,...,4,3,2,2,3,3,10,7,8,10


In [None]:
dfcd.columns.values

array(['departamento', 'sexo', 'edad', 'direccion', 't_familia',
       'padres_status', 'madre_edu', 'padre_edu', 'madre_trab',
       'padre_trab', 'razon', 'guardian', 't_examen', 't_estudio',
       'faltas', 'soporte_edu_extra', 'soporte_edu_fam', 'monitores',
       'actividades_extra', 'preuniversitario', 'postgrado', 'internet',
       'relacion_sen', 'relacion_fam', 'tiempo_libre', 'salir_amigos',
       'cons_alcohol_sem', 'cons_alcohol_finde', 'salud', 'ausencias',
       'nota_01', 'nota_02', 'nota_03'], dtype=object)

Cargamos los datos que están almacenados en un repositorio de Github y visualizamos las variables que componen el dataset.

Separación de la variable dependiente de las variables independientes

In [None]:
X_features = dfcd.drop(['nota_03'],axis=1)
y = pd.DataFrame(dfcd['nota_03'])
X_features

Unnamed: 0,departamento,sexo,edad,direccion,t_familia,padres_status,madre_edu,padre_edu,madre_trab,padre_trab,...,relacion_sen,relacion_fam,tiempo_libre,salir_amigos,cons_alcohol_sem,cons_alcohol_finde,salud,ausencias,nota_01,nota_02
0,II,M,18,U,mayor_3,S,4,4,en_casa,profesor,...,no,4,3,4,1,1,3,6,5,6
1,II,M,17,U,mayor_3,J,1,1,en_casa,otro,...,no,5,3,3,1,1,3,4,5,5
2,II,M,15,U,menor_e3,J,1,1,en_casa,otro,...,no,4,3,2,2,3,3,10,7,8
3,II,M,15,U,mayor_3,J,4,2,salud,servicios,...,yes,3,2,2,1,1,5,2,15,14
4,II,M,16,U,mayor_3,J,3,3,otro,otro,...,no,4,3,2,1,2,5,4,6,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
392,MS,H,21,R,mayor_3,J,1,1,otro,otro,...,no,5,5,3,3,3,3,3,10,8
393,MS,H,18,R,menor_e3,J,3,2,servicios,otro,...,no,4,4,1,3,4,5,0,11,12
394,MS,H,19,U,menor_e3,J,1,1,otro,en_casa,...,no,3,2,3,3,3,5,5,8,9
395,II,M,18,U,mayor_3,S,4,4,en_casa,profesor,...,no,4,3,4,1,1,3,6,5,6


# Tranformaciones

Transformación de las variables Nota 01 y Nota 02, dado que por analísis realizados en la primera entrega estas dos variables tienen problemas de multicolinealidad.

In [None]:
# Promedio acumulado nota 1 y nota 2
X_features['promedio_acumulado'] = (X_features['nota_01'] + X_features['nota_02']) / 2

Eliminamos las variables de Nota 01 y Nota 02 dado que la nueva variable 'promedio acumulado' las representa y así evitamos efectos negativos en el modelo por problemas de multicolinealidad.

In [None]:
X_features.drop(['nota_01','nota_02'], inplace = True, axis = 1)

#Normalización y escalado de variables#

En primer lugar, separamos las variables numéricas de las variables categóricas mediante el siguiente código para realizar el escalado de variables.

**Normalización variables numéricas**

In [None]:
X_Numeric = X_features._get_numeric_data()
X_Numeric

Unnamed: 0,edad,madre_edu,padre_edu,t_examen,t_estudio,faltas,relacion_fam,tiempo_libre,salir_amigos,cons_alcohol_sem,cons_alcohol_finde,salud,ausencias,promedio_acumulado
0,18,4,4,2,2,0,4,3,4,1,1,3,6,5.5
1,17,1,1,1,2,0,5,3,3,1,1,3,4,5.0
2,15,1,1,1,2,3,4,3,2,2,3,3,10,7.5
3,15,4,2,1,3,0,3,2,2,1,1,5,2,14.5
4,16,3,3,1,2,0,4,3,2,1,2,5,4,8.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
392,21,1,1,1,1,3,5,5,3,3,3,3,3,9.0
393,18,3,2,3,1,0,4,4,1,3,4,5,0,11.5
394,19,1,1,1,1,0,3,2,3,3,3,5,5,8.5
395,18,4,4,2,2,0,4,3,4,1,1,3,6,5.5


El escalado de las variables numéricas se realiza por medio de la técnica de restar al dato actual el mínimo de la columna y dividir entre el rango para cada variable (Min - Max).

In [None]:
scaler = MinMaxScaler()
sv = scaler.fit_transform(X_Numeric.iloc[:,:])
X_Numeric.iloc[:,:] = sv
X_Numeric

Unnamed: 0,edad,madre_edu,padre_edu,t_examen,t_estudio,faltas,relacion_fam,tiempo_libre,salir_amigos,cons_alcohol_sem,cons_alcohol_finde,salud,ausencias,promedio_acumulado
0,0.428571,1.00,1.00,0.333333,0.333333,0.000000,0.75,0.50,0.75,0.00,0.00,0.5,0.080000,0.205882
1,0.285714,0.25,0.25,0.000000,0.333333,0.000000,1.00,0.50,0.50,0.00,0.00,0.5,0.053333,0.176471
2,0.000000,0.25,0.25,0.000000,0.333333,1.000000,0.75,0.50,0.25,0.25,0.50,0.5,0.133333,0.323529
3,0.000000,1.00,0.50,0.000000,0.666667,0.000000,0.50,0.25,0.25,0.00,0.00,1.0,0.026667,0.735294
4,0.142857,0.75,0.75,0.000000,0.333333,0.000000,0.75,0.50,0.25,0.00,0.25,1.0,0.053333,0.352941
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
392,0.857143,0.25,0.25,0.000000,0.000000,1.000000,1.00,1.00,0.50,0.50,0.50,0.5,0.040000,0.411765
393,0.428571,0.75,0.50,0.666667,0.000000,0.000000,0.75,0.75,0.00,0.50,0.75,1.0,0.000000,0.558824
394,0.571429,0.25,0.25,0.000000,0.000000,0.000000,0.50,0.25,0.50,0.50,0.50,1.0,0.066667,0.382353
395,0.428571,1.00,1.00,0.333333,0.333333,0.000000,0.75,0.50,0.75,0.00,0.00,0.5,0.080000,0.205882


**Tratamiento categóricas**

Primero vamos a realizar una binarización de aquellas variables categóricas que solo tienen **dos** valores para que cuando llamemos el método `pd.get_dummies` no nos genere más columnas de las que realmente necesitamos.

In [None]:
X_Categoricas = X_features.select_dtypes(include=['category', 'object'])
X_Categoricas

binarias = {}

# Identificamos las binarias mediante este bloque de código y las agregamos a un diccionario.
for columna in X_Categoricas.columns:
  valores_unicos = list(X_Categoricas[columna].unique())
  if len(valores_unicos) == 2:
    binarias[columna] = valores_unicos

display((binarias))

{'departamento': ['II', 'MS'],
 'sexo': ['M', 'H'],
 'direccion': ['U', 'R'],
 't_familia': ['mayor_3', 'menor_e3'],
 'padres_status': ['S', 'J'],
 'soporte_edu_extra': ['si', 'no'],
 'soporte_edu_fam': ['no', 'si'],
 'monitores': ['no', 'si'],
 'actividades_extra': ['no', 'si'],
 'preuniversitario': ['si', 'no'],
 'postgrado': ['si', 'no'],
 'internet': ['no', 'yes'],
 'relacion_sen': ['no', 'yes']}

Para mejorar la intepretación y estandarización de las asiganciones entre las variables que tiene valores de 'si' y 'no', se ordenana en cada una de las variables categóricas

In [None]:
binarias = {'departamento': ['II', 'MS'],
 'sexo': ['M', 'H'],
 'direccion': ['U', 'R'],
 't_familia': ['mayor_3', 'menor_e3'],
 'padres_status': ['S', 'J'],
 'soporte_edu_extra': ['si', 'no'],
 'soporte_edu_fam': ['si', 'no'],
 'monitores': ['si', 'no'],
 'actividades_extra': ['si', 'no'],
 'preuniversitario': ['si', 'no'],
 'postgrado': ['si', 'no'],
 'internet': ['yes', 'no'],
 'relacion_sen': ['yes', 'no']}

binarias

{'departamento': ['II', 'MS'],
 'sexo': ['M', 'H'],
 'direccion': ['U', 'R'],
 't_familia': ['mayor_3', 'menor_e3'],
 'padres_status': ['S', 'J'],
 'soporte_edu_extra': ['si', 'no'],
 'soporte_edu_fam': ['si', 'no'],
 'monitores': ['si', 'no'],
 'actividades_extra': ['si', 'no'],
 'preuniversitario': ['si', 'no'],
 'postgrado': ['si', 'no'],
 'internet': ['yes', 'no'],
 'relacion_sen': ['yes', 'no']}

Creamos diccionarios para cada columna dándole valores de 1 a los que están en la primera posición y 0 a los que están la segunda posición. Adicionalmente se realiza la validación de las variables que necesitan ser codificadas y se itera sobre cada una asignandolas al dataset de categóricas para realizar el reemplazo.

In [None]:
for key,values in binarias.items():
  dic = {values[0]:1,values[1]:0}
  X_Categoricas[key + "-encoded"] = X_Categoricas[key].replace(dic)
  X_Categoricas.drop(key,axis=1,inplace=True)
  print(dic)
print(pd.DataFrame(X_Categoricas.columns))

{'II': 1, 'MS': 0}
{'M': 1, 'H': 0}
{'U': 1, 'R': 0}
{'mayor_3': 1, 'menor_e3': 0}
{'S': 1, 'J': 0}
{'si': 1, 'no': 0}
{'si': 1, 'no': 0}
{'si': 1, 'no': 0}
{'si': 1, 'no': 0}
{'si': 1, 'no': 0}
{'si': 1, 'no': 0}
{'yes': 1, 'no': 0}
{'yes': 1, 'no': 0}
                            0
0                  madre_trab
1                  padre_trab
2                       razon
3                    guardian
4        departamento-encoded
5                sexo-encoded
6           direccion-encoded
7           t_familia-encoded
8       padres_status-encoded
9   soporte_edu_extra-encoded
10    soporte_edu_fam-encoded
11          monitores-encoded
12  actividades_extra-encoded
13   preuniversitario-encoded
14          postgrado-encoded
15           internet-encoded
16       relacion_sen-encoded


Se observa que hay algunas variables que tienen más de dos categorías por lo que la codificación binaria no sería adecuada de aplicar, para ajustar estas variables se realiza el método dummies

In [None]:
X_Categoricas = pd.get_dummies(X_Categoricas)
X_Categoricas

Unnamed: 0,departamento-encoded,sexo-encoded,direccion-encoded,t_familia-encoded,padres_status-encoded,soporte_edu_extra-encoded,soporte_edu_fam-encoded,monitores-encoded,actividades_extra-encoded,preuniversitario-encoded,...,padre_trab_profesor,padre_trab_salud,padre_trab_servicios,razon_habilidad,razon_otro,razon_recomendacion,razon_reputacion,guardian_madre,guardian_otro,guardian_padre
0,1,1,1,1,1,1,0,0,0,1,...,1,0,0,1,0,0,0,1,0,0
1,1,1,1,1,0,0,1,0,0,0,...,0,0,0,1,0,0,0,0,0,1
2,1,1,1,0,0,1,0,1,0,1,...,0,0,0,0,1,0,0,1,0,0
3,1,1,1,1,0,0,1,1,1,1,...,0,0,1,0,0,1,0,1,0,0
4,1,1,1,1,0,0,1,1,0,1,...,0,0,0,0,0,1,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
392,0,0,0,1,0,0,0,0,0,0,...,0,0,0,1,0,0,0,0,1,0
393,0,0,0,0,0,0,0,0,0,0,...,0,0,0,1,0,0,0,1,0,0
394,0,0,1,0,0,0,0,0,0,1,...,0,0,0,1,0,0,0,0,0,1
395,1,1,1,1,1,1,0,0,0,1,...,1,0,0,1,0,0,0,1,0,0


Una vez se hayan normalizados las variables numéricas y se hayan tratado las variables categóricas, unimos en un solo DataFrame los dos tipos de variables ya escalados

In [None]:
X_features = pd.concat([X_Numeric, X_Categoricas], axis = 1)
X_features

Unnamed: 0,edad,madre_edu,padre_edu,t_examen,t_estudio,faltas,relacion_fam,tiempo_libre,salir_amigos,cons_alcohol_sem,...,padre_trab_profesor,padre_trab_salud,padre_trab_servicios,razon_habilidad,razon_otro,razon_recomendacion,razon_reputacion,guardian_madre,guardian_otro,guardian_padre
0,0.428571,1.00,1.00,0.333333,0.333333,0.000000,0.75,0.50,0.75,0.00,...,1,0,0,1,0,0,0,1,0,0
1,0.285714,0.25,0.25,0.000000,0.333333,0.000000,1.00,0.50,0.50,0.00,...,0,0,0,1,0,0,0,0,0,1
2,0.000000,0.25,0.25,0.000000,0.333333,1.000000,0.75,0.50,0.25,0.25,...,0,0,0,0,1,0,0,1,0,0
3,0.000000,1.00,0.50,0.000000,0.666667,0.000000,0.50,0.25,0.25,0.00,...,0,0,1,0,0,1,0,1,0,0
4,0.142857,0.75,0.75,0.000000,0.333333,0.000000,0.75,0.50,0.25,0.00,...,0,0,0,0,0,1,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
392,0.857143,0.25,0.25,0.000000,0.000000,1.000000,1.00,1.00,0.50,0.50,...,0,0,0,1,0,0,0,0,1,0
393,0.428571,0.75,0.50,0.666667,0.000000,0.000000,0.75,0.75,0.00,0.50,...,0,0,0,1,0,0,0,1,0,0
394,0.571429,0.25,0.25,0.000000,0.000000,0.000000,0.50,0.25,0.50,0.50,...,0,0,0,1,0,0,0,0,0,1
395,0.428571,1.00,1.00,0.333333,0.333333,0.000000,0.75,0.50,0.75,0.00,...,1,0,0,1,0,0,0,1,0,0


# Selección de variables #

Librerias necesarias

In [None]:
from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.linear_model import LinearRegression, LogisticRegressionCV
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import Lasso, Ridge

En la primera entrega se realizó una selección de variables por el método de filtrado. Sin embargo, vamos aplicar dos métodos de selección de variables diferentes sobre el dataset original para contrastar las variables seleccionadas por los métodos y el desempeño de cada uno de estos.

## Métodos Wrapper

Para la selección de variables se implementará el método Wrapper utilizando Sequential Feature Selector, para contrastar dos resultados la dirección de selección será Forward y Backward.

**Dirección Forward**

In [None]:
# Selector secuencias utilizando regresión lineal
sfs = SequentialFeatureSelector(LinearRegression(),
                                direction = "forward",
                                scoring ='r2')

# Obtener variable seleccionadas
sfs = sfs.fit(X_features, y)
X_new = sfs.support_
df_new = X_features.iloc[:,X_new]
df_new.head()

Unnamed: 0,edad,t_examen,t_estudio,relacion_fam,tiempo_libre,cons_alcohol_sem,cons_alcohol_finde,ausencias,promedio_acumulado,padres_status-encoded,...,actividades_extra-encoded,postgrado-encoded,internet-encoded,relacion_sen-encoded,madre_trab_en_casa,padre_trab_en_casa,padre_trab_otro,razon_otro,razon_reputacion,guardian_padre
0,0.428571,0.333333,0.333333,0.75,0.5,0.0,0.0,0.08,0.205882,1,...,0,1,0,0,1,0,0,0,0,0
1,0.285714,0.0,0.333333,1.0,0.5,0.0,0.0,0.053333,0.176471,0,...,0,1,1,0,1,0,1,0,0,1
2,0.0,0.0,0.333333,0.75,0.5,0.25,0.5,0.133333,0.323529,0,...,0,1,1,0,1,0,1,1,0,0
3,0.0,0.0,0.666667,0.5,0.25,0.0,0.0,0.026667,0.735294,0,...,1,1,1,1,0,0,0,0,0,0
4,0.142857,0.0,0.333333,0.75,0.5,0.0,0.25,0.053333,0.352941,0,...,0,1,0,0,0,0,1,0,0,1


Al utilizar la dirección Forward con un número de selección de variables automático y evaluando la métrica de desempeño del r2, el resultado fueron las siguientes variables:



In [None]:
print(df_new.columns.values) #Variables seleccionadas en la dirección forward

['edad' 't_examen' 't_estudio' 'relacion_fam' 'tiempo_libre'
 'cons_alcohol_sem' 'cons_alcohol_finde' 'ausencias' 'promedio_acumulado'
 'padres_status-encoded' 'soporte_edu_extra-encoded'
 'soporte_edu_fam-encoded' 'actividades_extra-encoded' 'postgrado-encoded'
 'internet-encoded' 'relacion_sen-encoded' 'madre_trab_en_casa'
 'padre_trab_en_casa' 'padre_trab_otro' 'razon_otro' 'razon_reputacion'
 'guardian_padre']


**Dirección Backward**

In [None]:
# Selector secuencias utilizando regresión lineal
sfs = SequentialFeatureSelector(LinearRegression(),
                                direction = "backward",
                                scoring ='r2')

# Obtener variable seleccionadas
sfs = sfs.fit(X_features, y)
X_new = sfs.support_
df_new_two = X_features.iloc[:,X_new]
df_new_two.head()

Unnamed: 0,edad,madre_edu,padre_edu,t_examen,t_estudio,relacion_fam,ausencias,promedio_acumulado,padres_status-encoded,soporte_edu_extra-encoded,...,internet-encoded,relacion_sen-encoded,madre_trab_profesor,madre_trab_salud,padre_trab_en_casa,padre_trab_otro,razon_habilidad,razon_otro,razon_recomendacion,razon_reputacion
0,0.428571,1.0,1.0,0.333333,0.333333,0.75,0.08,0.205882,1,1,...,0,0,0,0,0,0,1,0,0,0
1,0.285714,0.25,0.25,0.0,0.333333,1.0,0.053333,0.176471,0,0,...,1,0,0,0,0,1,1,0,0,0
2,0.0,0.25,0.25,0.0,0.333333,0.75,0.133333,0.323529,0,1,...,1,0,0,0,0,1,0,1,0,0
3,0.0,1.0,0.5,0.0,0.666667,0.5,0.026667,0.735294,0,0,...,1,1,0,1,0,0,0,0,1,0
4,0.142857,0.75,0.75,0.0,0.333333,0.75,0.053333,0.352941,0,0,...,0,0,0,0,0,1,0,0,1,0


Al utilizar la dirección Backward con un número de selección de variables automático y evaluando la métrica de desempeño del r2, el resultado fueron las siguientes variables:


In [None]:
print(df_new_two.columns.values) #Variables seleccionadas en la dirección backward

['edad' 'madre_edu' 'padre_edu' 't_examen' 't_estudio' 'relacion_fam'
 'ausencias' 'promedio_acumulado' 'padres_status-encoded'
 'soporte_edu_extra-encoded' 'soporte_edu_fam-encoded' 'postgrado-encoded'
 'internet-encoded' 'relacion_sen-encoded' 'madre_trab_profesor'
 'madre_trab_salud' 'padre_trab_en_casa' 'padre_trab_otro'
 'razon_habilidad' 'razon_otro' 'razon_recomendacion' 'razon_reputacion']


Ahora, veamos las variables en común que se obtuvieron en las dos direcciones

In [None]:
# Convetir las listas en conjuntos
set1 = set(df_new.columns.values)
set2 = set(df_new_two.columns.values)

# Encontrar elementos comunes
elementos_comunes = set1.intersection(set2)

# Convertir el resultado de nuevo en una lista (si es necesario)
elementos_comunes_lista = list(elementos_comunes)

# Mostrar los elementos en común
print("Elementos en común:", elementos_comunes_lista)
display(len(elementos_comunes_lista))

Elementos en común: ['internet-encoded', 'ausencias', 'relacion_sen-encoded', 'promedio_acumulado', 'padres_status-encoded', 'razon_reputacion', 't_estudio', 'razon_otro', 'edad', 'padre_trab_otro', 'padre_trab_en_casa', 'postgrado-encoded', 'relacion_fam', 'soporte_edu_extra-encoded', 't_examen', 'soporte_edu_fam-encoded']


16

Las variables en común para las dos direcciones serán el dataset a considerar para evluar los modelos con la selección de variables por el método Wrapper.

In [None]:
#Dataset para el método wrapper
df_wrapper = X_features[elementos_comunes_lista]
df_wrapper

Unnamed: 0,internet-encoded,ausencias,relacion_sen-encoded,promedio_acumulado,padres_status-encoded,razon_reputacion,t_estudio,razon_otro,edad,padre_trab_otro,padre_trab_en_casa,postgrado-encoded,relacion_fam,soporte_edu_extra-encoded,t_examen,soporte_edu_fam-encoded
0,0,0.080000,0,0.205882,1,0,0.333333,0,0.428571,0,0,1,0.75,1,0.333333,0
1,1,0.053333,0,0.176471,0,0,0.333333,0,0.285714,1,0,1,1.00,0,0.000000,1
2,1,0.133333,0,0.323529,0,0,0.333333,1,0.000000,1,0,1,0.75,1,0.000000,0
3,1,0.026667,1,0.735294,0,0,0.666667,0,0.000000,0,0,1,0.50,0,0.000000,1
4,0,0.053333,0,0.352941,0,0,0.333333,0,0.142857,1,0,1,0.75,0,0.000000,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
392,0,0.040000,0,0.411765,0,0,0.000000,0,0.857143,1,0,1,1.00,0,0.000000,0
393,1,0.000000,0,0.558824,0,0,0.000000,0,0.428571,1,0,1,0.75,0,0.666667,0
394,1,0.066667,0,0.382353,0,0,0.000000,0,0.571429,0,1,1,0.50,0,0.000000,0
395,0,0.080000,0,0.205882,1,0,0.333333,0,0.428571,0,0,1,0.75,1,0.333333,0


In [None]:
df_wrapper.columns.values

array(['internet-encoded', 'ausencias', 'relacion_sen-encoded',
       'promedio_acumulado', 'padres_status-encoded', 'razon_reputacion',
       't_estudio', 'razon_otro', 'edad', 'padre_trab_otro',
       'padre_trab_en_casa', 'postgrado-encoded', 'relacion_fam',
       'soporte_edu_extra-encoded', 't_examen', 'soporte_edu_fam-encoded'],
      dtype=object)

##Método Integrado

In [None]:
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import Lasso, Ridge

**Lasso**

In [None]:
# Con una penalización de las variables del 0.03
sel_ = SelectFromModel(Lasso(alpha = 0.03, max_iter = 10000), max_features = 23)
sel_.fit(X_features, y)
print(sel_.estimator_.coef_)

#Obtener variables seleccionadas
X_new = sel_.get_support()#descarta los coeficientes mas cercanos a 0

df_new_l1 = X_features.iloc[:,X_new]
df_new_l1.head()

[-4.51056940e-01  1.82985393e-02 -0.00000000e+00 -0.00000000e+00
 -4.31519080e-02 -1.41998904e-01  4.70775516e-01  0.00000000e+00
  0.00000000e+00  0.00000000e+00  3.32712820e-01  0.00000000e+00
  2.35716799e-01  1.97015714e+01  0.00000000e+00 -1.32891975e-02
  1.85002734e-02 -0.00000000e+00  1.38824828e-01  5.76468970e-01
  3.95063349e-02  1.69178219e-01 -1.72403250e-01 -0.00000000e+00
  0.00000000e+00  0.00000000e+00 -3.56145961e-01 -1.56881090e-01
  0.00000000e+00 -0.00000000e+00  0.00000000e+00  0.00000000e+00
 -0.00000000e+00  1.97577588e-01 -0.00000000e+00  0.00000000e+00
 -0.00000000e+00 -0.00000000e+00  1.19556244e-01 -1.78465250e-02
  0.00000000e+00  9.57357724e-02 -0.00000000e+00 -0.00000000e+00]


Unnamed: 0,edad,madre_edu,t_estudio,faltas,relacion_fam,cons_alcohol_finde,ausencias,promedio_acumulado,sexo-encoded,direccion-encoded,...,soporte_edu_extra-encoded,soporte_edu_fam-encoded,monitores-encoded,actividades_extra-encoded,relacion_sen-encoded,madre_trab_en_casa,padre_trab_otro,razon_otro,razon_recomendacion,guardian_madre
0,0.428571,1.0,0.333333,0.0,0.75,0.0,0.08,0.205882,1,1,...,1,0,0,0,0,1,0,0,0,1
1,0.285714,0.25,0.333333,0.0,1.0,0.0,0.053333,0.176471,1,1,...,0,1,0,0,0,1,1,0,0,0
2,0.0,0.25,0.333333,1.0,0.75,0.5,0.133333,0.323529,1,1,...,1,0,1,0,0,1,1,1,0,1
3,0.0,1.0,0.666667,0.0,0.5,0.0,0.026667,0.735294,1,1,...,0,1,1,1,1,0,0,0,1,1
4,0.142857,0.75,0.333333,0.0,0.75,0.25,0.053333,0.352941,1,1,...,0,1,1,0,0,0,1,0,1,0


Para la regularización L1, definiendo un valor para la activación y desactivación de las varaibles del 3% (Valor del Alpha), selecciona veintiún variables a considerar significativas según el valor de su coeficiente.

**Ridge**

In [None]:
# Con una penalización de las variables del 0.03
sel_ = SelectFromModel(Ridge(alpha = 0.03, max_iter = 10000), max_features = 23)
sel_.fit(X_features, y)
print(sel_.estimator_.coef_)

#Obtener variables seleccionadas
X_new = sel_.get_support()#descarta los coeficientes mas cercanos a 0

df_new_l2 = X_features.iloc[:,X_new]
df_new_l2.head()

[[-1.53202528e+00  8.38543973e-01 -7.47530476e-01 -3.26305067e-02
  -4.53276730e-01 -3.36122860e-01  1.19124732e+00  7.61598196e-02
   1.57882450e-02 -6.06276654e-01  8.02885598e-01  1.97797943e-01
   3.30177706e+00  2.05563630e+01 -5.05517896e-01 -1.08767206e-01
   2.23361138e-01 -8.32400992e-02  3.15342969e-01  8.61051367e-01
   2.45556768e-01  2.40199615e-01 -3.01068596e-01 -2.48297167e-01
   1.48371516e-02 -1.07961136e-02 -4.62987899e-01  3.10948148e-02
   2.30427778e-01 -8.17833296e-02 -1.98574391e-01  1.88351280e-02
  -1.81367465e-01  1.17348252e-01 -2.69705963e-01  4.25245245e-01
  -9.15200690e-02 -7.40815846e-02  3.50482345e-01 -2.71994633e-01
  -4.40612711e-03  1.12875439e-01 -1.27835813e-01  1.49603738e-02]]


Unnamed: 0,edad,relacion_fam,ausencias,promedio_acumulado,soporte_edu_extra-encoded
0,0.428571,0.75,0.08,0.205882,1
1,0.285714,1.0,0.053333,0.176471,0
2,0.0,0.75,0.133333,0.323529,1
3,0.0,0.5,0.026667,0.735294,0
4,0.142857,0.75,0.053333,0.352941,0


Para la regularización L2, se realizaron varias corridas iterando el valor de penalización entre 1% y 10%, a pesar de hacer las corridas con varios valores del alpha las variables a considerar por la técnica fueron muy pocas, por lo que no será pertinente tener en cuenta la regresión Rigde para la selección de variables.

Para los métodos integrados, se tomará en cuenta solo la regresión Lasso así que creamos un dataset con las variables seleccionadas por este método para su evaluación con los modelos

In [None]:
#Dataset Métodos integrados lasso
df_integrados = X_features[df_new_l1.columns.values]
df_integrados

Unnamed: 0,edad,madre_edu,t_estudio,faltas,relacion_fam,cons_alcohol_finde,ausencias,promedio_acumulado,sexo-encoded,direccion-encoded,...,soporte_edu_extra-encoded,soporte_edu_fam-encoded,monitores-encoded,actividades_extra-encoded,relacion_sen-encoded,madre_trab_en_casa,padre_trab_otro,razon_otro,razon_recomendacion,guardian_madre
0,0.428571,1.00,0.333333,0.000000,0.75,0.00,0.080000,0.205882,1,1,...,1,0,0,0,0,1,0,0,0,1
1,0.285714,0.25,0.333333,0.000000,1.00,0.00,0.053333,0.176471,1,1,...,0,1,0,0,0,1,1,0,0,0
2,0.000000,0.25,0.333333,1.000000,0.75,0.50,0.133333,0.323529,1,1,...,1,0,1,0,0,1,1,1,0,1
3,0.000000,1.00,0.666667,0.000000,0.50,0.00,0.026667,0.735294,1,1,...,0,1,1,1,1,0,0,0,1,1
4,0.142857,0.75,0.333333,0.000000,0.75,0.25,0.053333,0.352941,1,1,...,0,1,1,0,0,0,1,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
392,0.857143,0.25,0.000000,1.000000,1.00,0.50,0.040000,0.411765,0,0,...,0,0,0,0,0,0,1,0,0,0
393,0.428571,0.75,0.000000,0.000000,0.75,0.75,0.000000,0.558824,0,0,...,0,0,0,0,0,0,1,0,0,1
394,0.571429,0.25,0.000000,0.000000,0.50,0.50,0.066667,0.382353,0,1,...,0,0,0,0,0,0,0,0,0,0
395,0.428571,1.00,0.333333,0.000000,0.75,0.00,0.080000,0.205882,1,1,...,1,0,0,0,0,1,0,0,0,1


In [None]:
df_integrados.columns.values

array(['edad', 'madre_edu', 't_estudio', 'faltas', 'relacion_fam',
       'cons_alcohol_finde', 'ausencias', 'promedio_acumulado',
       'sexo-encoded', 'direccion-encoded', 'padres_status-encoded',
       'soporte_edu_extra-encoded', 'soporte_edu_fam-encoded',
       'monitores-encoded', 'actividades_extra-encoded',
       'relacion_sen-encoded', 'madre_trab_en_casa', 'padre_trab_otro',
       'razon_otro', 'razon_recomendacion', 'guardian_madre'],
      dtype=object)

# Random forest

In [None]:
#Librerias necesarias
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import make_scorer, mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
import time
from scipy.stats import uniform, poisson
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, mean_squared_error, mean_absolute_error
import numpy as np

## Modelo con las variables con el método Wrapper

Inicialmente ponemos en ejecución el modelo con los valores arbitrarios de los hiper-parámetros para ver su desempeño

In [None]:
#Modelo de bosques aleatorios
model_forest = RandomForestRegressor(n_estimators = 100,
                               criterion = 'squared_error',
                               max_depth = 5,
                               max_leaf_nodes = 10,
                               max_features = None,
                               oob_score = False,
                               n_jobs = -1,
                               random_state = 123)

#Metricas
scoring = {
    'MSE': make_scorer(mean_squared_error),
    'MAE': make_scorer(mean_absolute_error),
    'R^2': make_scorer(r2_score)
}

# Realizar la validación cruzada
scores = cross_validate(model_forest, df_wrapper, y, cv = 10, scoring = scoring)

# Imprimir los resultados
for metric, score in scores.items():
    print(f'{metric}: {np.mean(score):.4f}')

fit_time: 0.1832
score_time: 0.0247
test_MSE: 3.1379
test_MAE: 1.1569
test_R^2: 0.8407


###Optimización de hiperpárametros

Para encontrar unos valores optimos para los hiper-parámetros se evaluarán por medio de las técnicas de ajuste de Grid search y Random search

Los valores de los parametros a evaluar son los siguientes:

1. **Criterion:** Utilizamos la métrica de *squared_error (MSE)* ya que primeramente es una métrica es muy utilizada para problemas de regresión lineal, en segunda instacia penaliza los errores al elevarlos al cuadrado y es adecuado cuando se realizan predicciones numéricas y reducir la varianza de las predicciones. Tambien se pone a prueba la métrica *absolute_error* (MAE) ya que evalua el impacto de los datos atípicos en el rendimiento del modelo.

2. **Max_depth:** Es necesario definir un valor máximo de ramificación porque de lo contrario no se controlará la profundidad del arbol lo que conlleva a problemas de sobre ajuste. Para la evaluación de los modelos en la industria se utiliza una ramificación hasta 10 hasta ajustar otras cantidades, para este caso serán ramificaciones desde 1 hasta 20 con saltos de dos.

3. **Min_samples_split:** Este parámetro evita que la muestra se divida en muchas partes de manera incontrolable para poder predecir el valor de la nota para cada estudiante, al hacer una búsqueda en la literatura se recomienda que para una mayor cantidad de datos se utilicen valores hasta 20, por lo que se evaluará el parametro desde 5 hasta 22 en saltos de dos.

4. **Max_leaf_nodes:** Este parámetro controla la complejidad de los árboles, para evitar que los nodos hojas crezcan indefinidamente, utilizaremos la cantidad de notos desde 3 hastas 26 en saltos de dos.

**Grid Search**

In [None]:
# Separación de datos para entrenamientoy test
X_train_wrapper, X_test_wrapper, y_train_wrapper, y_test_wrapper = train_test_split(df_wrapper, y, test_size = 0.3, random_state = 42)

En el siguiente bloque de código, se busca la combinación optima de hiper-parámetros para el algortimo de Random Forest

In [None]:
# setup parameter space
parameters = {'criterion':['squared_error','absolute_error'],
              'max_depth':np.arange(1,21).tolist()[0::2],
              'min_samples_split':np.arange(2,11).tolist()[0::2],
              'max_leaf_nodes':np.arange(3,26).tolist()[0::2]}

# create an instance of the grid search object
g2 = GridSearchCV(DecisionTreeRegressor(), parameters, cv = 10, n_jobs = -1)

# conduct grid search over the parameter space
start_time = time.time()
g2.fit(X_train_wrapper, y_train_wrapper)
duration_gs = time.time() - start_time

# show best parameter configuration found for regressor
rgr_params1 = g2.best_params_
rgr_params1

{'criterion': 'squared_error',
 'max_depth': 9,
 'max_leaf_nodes': 17,
 'min_samples_split': 8}

Una vez obtenido la mejor combinación de hiper-parámetros, se evalua el desempeño del modelo con este nuevo ajuste. Los nuevos valores de las métricas de interés son las siguientes:

In [None]:
# compute performance on test set
model = g2.best_estimator_
y_pred = model.predict(X_test_wrapper)

mse_gw = mean_squared_error(y_test_wrapper, y_pred)
mae_gw = mean_absolute_error(y_test_wrapper, y_pred)
r2_gw = r2_score(y_test_wrapper, y_pred)

print("R² Score:", r2_gw)
print('mse score: %.2f' % mse_gw)
print('mae score: %.2f' % mae_gw)
print('computation time: %.2f' % duration_gs)

R² Score: 0.8105752260997192
mse score: 3.61
mae score: 1.10
computation time: 92.29


**Random Search**

In [None]:
# setup parameter space
parameters = {'criterion':['squared_error','absolute_error'],
              'max_depth':poisson(mu=8,loc=3),
              'min_samples_split':uniform(),
              'max_leaf_nodes':poisson(mu=15,loc=5)}

# create an instance of the randomized search object
r2 = RandomizedSearchCV(DecisionTreeRegressor(), parameters, cv = 10, n_iter=100, random_state=42, n_jobs=-1)

# conduct randomized search over the parameter space
start_time = time.time()
r2.fit(X_train_wrapper,y_train_wrapper)
duration_rw = time.time() - start_time

# show best parameter configuration found for regressor
rgr_params2 = r2.best_params_
rgr_params2['min_samples_split'] = np.ceil(rgr_params2['min_samples_split']*X_train_wrapper.shape[0])
rgr_params2

{'criterion': 'squared_error',
 'max_depth': 12,
 'max_leaf_nodes': 21,
 'min_samples_split': 10.0}

Una vez obtenido la mejor combinación de hiper-parámetros, se evalua el desempeño del modelo con este nuevo ajuste. Los nuevos valores de las métricas de interés son las siguientes:

In [None]:
# compute performance on test set
model = r2.best_estimator_
y_pred = model.predict(X_test_wrapper)

mse_rw = mean_squared_error(y_test_wrapper,y_pred)
mae_rw = mean_absolute_error(y_test_wrapper,y_pred)
r2_rw = r2_score(y_test_wrapper, y_pred)

print("R² Score:", r2_rw)
print('mse score: %.2f' % mse_rw)
print('mae score: %.2f' % mae_rw)
print('computation time: %.2f' % duration_rw)

R² Score: 0.8369422635869602
mse score: 3.11
mae score: 1.08
computation time: 6.91


## Modelo con las variables con el método integrado

Inicialmente ponemos en ejecución el modelo con los valores arbitrarios de los hiper-parámetros para ver su desempeño

In [None]:
#Modelo de bosques aleatorios
model_forest = RandomForestRegressor(n_estimators = 100,
                               criterion = 'squared_error',
                               max_depth = 5,
                               max_leaf_nodes = 10,
                               max_features = None,
                               oob_score = False,
                               n_jobs = -1,
                               random_state = 123)

#Metricas
scoring = {
    'MSE': make_scorer(mean_squared_error),
    'MAE': make_scorer(mean_absolute_error),
    'R^2': make_scorer(r2_score)
}

# Realizar la validación cruzada
scores = cross_validate(model_forest, df_integrados, y, cv = 10, scoring = scoring)

# Imprimir los resultados
for metric, score in scores.items():
    print(f'{metric}: {np.mean(score):.4f}')

fit_time: 0.1808
score_time: 0.0240
test_MSE: 3.2331
test_MAE: 1.1819
test_R^2: 0.8351


### Optimización de hiperparámetros

Para encontrar unos valores optimos para los hiper-parámetros se evaluarán por medio de las técnicas de ajuste de Grid search y Random search

Los valores de los parametros a evaluar son los siguientes:

1. **Criterion:** Utilizamos la métrica de *squared_error (MSE)* ya que primeramente es una métrica es muy utilizada para problemas de regresión lineal, en segunda instacia penaliza los errores al elevarlos al cuadrado y es adecuado cuando se realizan predicciones numéricas y reducir la varianza de las predicciones. Tambien se pone a prueba la métrica *absolute_error* (MAE) ya que evalua el impacto de los datos atípicos en el rendimiento del modelo.

2. **Max_depth:** Es necesario definir un valor máximo de ramificación porque de lo contrario no se controlará la profundidad del arbol lo que conlleva a problemas de sobre ajuste. Para la evaluación de los modelos en la industria se utiliza una ramificación hasta 10 hasta ajustar otras cantidades, para este caso serán ramificaciones desde 1 hasta 20 con saltos de dos.

3. **Min_samples_split:** Este parámetro evita que la muestra se divida en muchas partes de manera incontrolable para poder predecir el valor de la nota para cada estudiante, al hacer una búsqueda en la literatura se recomienda que para una mayor cantidad de datos se utilicen valores hasta 20, por lo que se evaluará el parametro desde 5 hasta 22 en saltos de dos.

4. **Max_leaf_nodes:** Este parámetro controla la complejidad de los árboles, para evitar que los nodos hojas crezcan indefinidamente, utilizaremos la cantidad de notos desde 3 hastas 26 en saltos de dos.

**Grid Search**

In [None]:
# Separación de los datos de entrenamiento y de test
X_train_integrado, X_test_integrado, y_train_integrado, y_test_integrado = train_test_split(df_integrados, y, test_size = 0.3, random_state = 42)

In [None]:
# setup parameter space
parameters = {'criterion':['squared_error','absolute_error'],
              'max_depth':np.arange(1,21).tolist()[0::2],
              'min_samples_split':np.arange(2,11).tolist()[0::2],
              'max_leaf_nodes':np.arange(3,26).tolist()[0::2]}

# create an instance of the grid search object
g2 = GridSearchCV(DecisionTreeRegressor(), parameters, cv = 10, n_jobs = -1)

# conduct grid search over the parameter space
start_time = time.time()
g2.fit(X_train_integrado, y_train_integrado)
duration_gi1 = time.time() - start_time

# show best parameter configuration found for regressor
rgr_params1 = g2.best_params_
rgr_params1

{'criterion': 'squared_error',
 'max_depth': 7,
 'max_leaf_nodes': 11,
 'min_samples_split': 4}

Una vez obtenido la mejor combinación de hiper-parámetros, se evalua el desempeño del modelo con este nuevo ajuste. Los nuevos valores de las métricas de interés son las siguientes:

In [None]:
# compute performance on test set
model = g2.best_estimator_
y_pred = model.predict(X_test_integrado)

mse_gi = mean_squared_error(y_test_integrado, y_pred)
mae_gi = mean_absolute_error(y_test_integrado, y_pred)
r2_gi = r2_score(y_test_integrado, y_pred)

print("R² Score:", r2_gi)
print('mse score: %.2f' % mse_gi)
print('mae score: %.2f' % mae_gi)
print('computation time: %.2f' % duration_gi1)

R² Score: 0.8091284132472354
mse score: 3.64
mae score: 1.13
computation time: 103.26


**Random Search**

In [None]:
# setup parameter space
parameters = {'criterion':['squared_error','absolute_error'],
              'max_depth':poisson(mu=8,loc=3),
              'min_samples_split':uniform(),
              'max_leaf_nodes':poisson(mu=15,loc=5)}

# create an instance of the randomized search object
r2 = RandomizedSearchCV(DecisionTreeRegressor(), parameters, cv = 10, n_iter=100, random_state=42, n_jobs=-1)

# conduct randomized search over the parameter space
start_time = time.time()
r2.fit(X_train_integrado,y_train_integrado)
duration_ri = time.time() - start_time

# show best parameter configuration found for regressor
rgr_params2 = r2.best_params_
rgr_params2['min_samples_split'] = np.ceil(rgr_params2['min_samples_split']*X_train_integrado.shape[0])
rgr_params2

{'criterion': 'squared_error',
 'max_depth': 7,
 'max_leaf_nodes': 17,
 'min_samples_split': 25.0}

Una vez obtenido la mejor combinación de hiper-parámetros, se evalua el desempeño del modelo con este nuevo ajuste. Los nuevos valores de las métricas de interés son las siguientes:

In [None]:
# compute performance on test set
model = r2.best_estimator_
y_pred = model.predict(X_test_integrado)

mse_ri = mean_squared_error(y_test_integrado,y_pred)
mae_ri = mean_absolute_error(y_test_integrado,y_pred)
r2_ri = r2_score(y_test_integrado, y_pred)

print("R² Score:", r2_ri)
print('mse score: %.2f' % mse_ri)
print('mae score: %.2f' % mae_ri)
print('computation time: %.2f' % duration_ri)

R² Score: 0.8302617805100312
mse score: 3.24
mae score: 1.11
computation time: 5.88


## Comparación de modelos

Finalmente, realizamos una tabla para cada modelo con sus respectivas métricas de desempeño.

In [None]:
# guardar resultados
results_reg = pd.DataFrame([['base model', 2.54, 0.97, 0.75, np.nan],
 ['grid search wrapper', mse_gw, mae_gw, r2_gw, duration_gs],
 ['grid search integrados', mse_gi, mae_gi, r2_gi, duration_gi1],
 ['random search wrapper', mse_rw, mae_rw, r2_rw, duration_rw],
 ['random search integrado', mse_ri, mae_ri, r2_ri, duration_ri]],
             columns = ['type','mse','mae', 'r2','duration'])
results_reg

Unnamed: 0,type,mse,mae,r2,duration
0,base model,2.54,0.97,0.75,
1,grid search wrapper,3.611054,1.09797,0.810575,92.294844
2,grid search integrados,3.638635,1.132644,0.809128,103.255258
3,random search wrapper,3.108413,1.077078,0.836942,6.909879
4,random search integrado,3.235764,1.110733,0.830262,5.879693


A partir de las métricas de desempeño, el mejor es el **modelo de regresión con la optimzación de hiperpametros de grid search y selección de variables por el método integrado.** Para el algoritmo de Random Forest, estas configuraciones minimizan el mse y el mae y a su vez maximizan el r2. El modelo base tiene métricas de mse y mae más bajas, sin embargo la diferencia de r2 con el moddelo de grid search integrados es muy distantes, por lo que en esta ocasión se le dará más peso a la métrica del r2

# XGBoost - Extreme Grandient Boosting

## Modelo XGBoost con las variables con el metodo wrapper

In [None]:
# Librerias necesarias
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error as MSE
from sklearn.metrics import r2_score

Inicialmente ponemos en ejecución el modelo con los valores arbitrarios de los hiper-parámetros para ver su desempeño

In [None]:
# Separación de los datos
X_train_wrapper, X_test_wrapper, y_train_wrapper, y_test_wrapper = train_test_split(df_wrapper, y, test_size = 0.3, random_state = 42)

# create model instance
bst = XGBRegressor(n_estimators=2, max_depth=2, learning_rate=1, objective='reg:linear')

# fit model
bst.fit(X_train_wrapper, y_train_wrapper)

# make predictions
preds = bst.predict(X_test_wrapper)

msewr = MSE(y_test_wrapper, preds)
maewr = mean_absolute_error(y_test_wrapper, preds)
r2wr = r2_score(y_test_wrapper, preds)

print("R² Score:", r2wr)
print("MAE:", maewr)
print("MSE : % f" %(msewr))

R² Score: 0.8231007928907814
MAE: 1.3520914574464162
MSE :  3.372276


### Optimización de hiperametros

Para la optimización de hiperparámetros se realizan evaluaciones en la cantidad de árboles de ensamble



**Numero de arboles para hacer el ensamble**

In [None]:
# Librerias necesarias
from sklearn.datasets import load_iris
import xgboost as xgb
import xgboost as xgb
from sklearn.model_selection import GridSearchCV

Se itera con la cantidad de árboles de 10, 50, 100, 500, 1000 y 5000 y se obtiene las métricas de desempeño para la mejor combinación de los hiperparámetros. Se decidieron escoger estos valores para tener un equilibrio entre el rendimiento deseado, los recursos disponibles y la cantidad de datos. Sin embargo utilizar una gran cantidad de árboles llevará al modelo a caer en problemas de sobre ajuste, por lo que se utiliza una validación cruzada para evitar este posible problema.

In [None]:
model = xgb.XGBRegressor(
    objective='reg:squarederror',
    learning_rate=0.1,
    max_depth=5,
    min_child_weight=1,
    subsample=0.8,
    colsample_bytree=0.8,
)

param_grid = {
    'n_estimators': [10, 50, 100, 500, 1000, 5000],
}

grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search.fit(X_train_wrapper, y_train_wrapper)

best_n_estimators = grid_search.best_params_['n_estimators']
best_model = grid_search.best_estimator_

best_n_estimators

#Entrenamos el modelo luego de la optimizacion de hiperparametros

best_model.fit(X_train_wrapper, y_train_wrapper)

# make predictions
preds = best_model.predict(X_test_wrapper)

msewrh = MSE(y_test_wrapper, preds)
maewrh = mean_absolute_error(y_test_wrapper, preds)
r2wrh = r2_score(y_test_wrapper, preds)

print("R² Score:", r2wrh)
print("MAE:", maewrh)
print("MSE : % f" %(msewrh))

R² Score: 0.8584889996304161
MAE: 1.104007081935803
MSE :  2.697662


## Modelo XGBoost con las variables con el metodo integrado

Inicialmente ponemos en ejecución el modelo con los valores arbitrarios de los hiper-parámetros para ver su desempeño

In [None]:
X_train_integrado, X_test_integrado, y_train_integrado, y_test_integrado = train_test_split(df_integrados, y, test_size = 0.3, random_state = 42)

# create model instance
bst = XGBRegressor(n_estimators=2, max_depth=2, learning_rate=1, objective='reg:linear')

# fit model
bst.fit(X_train_integrado, y_train_integrado)

# make predictions
preds = bst.predict(X_test_integrado)

msein = MSE(y_test_integrado, preds)
maein = mean_absolute_error(y_test_integrado, preds)
r2in = r2_score(y_test_integrado, preds)

print("R² Score:", r2in)
print("MAE:", maein)
print("MSE : % f" %(msein))

R² Score: 0.8231007928907814
MAE: 1.3520914574464162
MSE :  3.372276


### Optimizacion de hiperparametros

**Numero de arboles para hacer el ensamble**

In [None]:
model = xgb.XGBRegressor(
    objective='reg:squarederror',
    learning_rate=0.1,
    max_depth=5,
    min_child_weight=1,
    subsample=0.8,
    colsample_bytree=0.8,
)

param_grid = {
    'n_estimators': [10, 50, 100, 500, 1000, 5000],
}

grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
grid_search.fit(X_train_integrado, y_train_integrado)

best_n_estimators = grid_search.best_params_['n_estimators']
best_model = grid_search.best_estimator_

#Entrenamos el modelo luego de la optimizacion de hiperparametros

best_model.fit(X_train_integrado, y_train_integrado)

# make predictions
preds = best_model.predict(X_test_integrado)

mseinh = MSE(y_test_integrado, preds)
maeinh = mean_absolute_error(y_test_integrado, preds)
r2inh = r2_score(y_test_integrado, preds)

print("R² Score:", r2inh)
print("MAE:", maeinh)
print("MSE : % f" %(mseinh))

R² Score: 0.8399569086285301
MAE: 1.1629876895497242
MSE :  3.050944


## Comparacion de modelos

In [None]:
# guardar resultados
results_reg = pd.DataFrame([['base model', 5.39, 1.56, 0.76],
 ['XGBoost grid wrapper', msewrh, maewrh, r2wrh],
 ['XGBoost NA integrados', mseinh, maeinh, r2inh]],
             columns = ['type','mse','mae','r2'])
results_reg

Unnamed: 0,type,mse,mae,r2
0,base model,5.39,1.56,0.76
1,XGBoost grid wrapper,2.697662,1.104007,0.858489
2,XGBoost NA integrados,3.050944,1.162988,0.839957


A partir de las métricas de desempeño, el **mejor es el modelo de regresión con la optimzación de hiperpametros del número de árboles y selección de variables por el método wrapper**. Para el algoritmo de XGBoost, estas configuraciones se le dan prioridad al mse y el r2