# Prueba de hiperparametros con modelo XGBoost

<hr>

En este notebook se realiza la prueba de hiperparametros con el modelo XGBoost A través de las métricas obtenidas en el notebook de busqueda de hiperparametros con XGBoost.


Se importan las librerias y herramientas necesarias

In [47]:
import pandas as pd
import numpy as np 
import matplotlib
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn import metrics
%matplotlib inline 

Importamos los datos

In [48]:
df = pd.read_pickle("data/data.pkl")

- A continuación se definen la variable objetivo y las variables independientes
- Se definen las columnas numéricas y no numéricas
- Se definen las columnas ordinales y categoricas

In [49]:
variable_objetivo = 'naturaleza'
variables_independientes = df.drop(variable_objetivo,axis=1).columns

datos_numericos = df[variables_independientes].select_dtypes([int, float])
col_no_numericas = df[variables_independientes].select_dtypes(include=['category']).columns
col_numericas = datos_numericos.columns

dict_var_ordinales = {
    'grupo_edad': ['0 a 6', '12 a 17', '18 a 28', '29 a 59', '60 y mas', '7  a 11'],
    'ciclo_de_vida':['Primera infancia', 'Infancia', 'Jovenes','Adolescencia','Adultez','Persona Mayor'],
}

col_ordinales = list(dict_var_ordinales.keys())
datos_ordinales = df[col_ordinales]
col_categoricas = list(set(col_no_numericas) - set(col_ordinales))
datos_categoricos = df[col_categoricas]

Se importan las librerias necesarias para la creacion del pipeline

In [50]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OrdinalEncoder
from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.impute import SimpleImputer

Se mappean los valores de `grupo_edad` y `ciclo_de_vida` y se crea el pipeline_ordinal y posteriormente el pipeline_procesado con las variables categoricas, el pipeline_ordinal y las columnas ordinales

In [51]:
mapping = [{'col': 'grupo_edad', 'mapping': {'0 a 6': 0,'7  a 11':1 ,'12 a 17': 2, '18 a 28': 3,'29 a 59':4,'60 y mas':5}},    {'col': 'ciclo_de_vida', 'mapping': {'Primera infancia': 0,  'Infancia': 1, 'Jovenes':2 ,'Adolescencia':3,'Adultez':4, 'Persona Mayor':5 }}]
from category_encoders import OrdinalEncoder
import category_encoders
encoder = OrdinalEncoder(mapping=mapping)

pipeline_ordinal = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('transformador_ordinal', category_encoders.ordinal.OrdinalEncoder(mapping=mapping))
])

pipeline_procesado = ColumnTransformer(
                   [('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False), col_categoricas),
                    ('ordinal', pipeline_ordinal, col_ordinales)
                   ],
                remainder = 'passthrough',
                verbose_feature_names_out = False
               ).set_output(transform="pandas")

 Se establecen los datos de entrenamiento y de prueba para los modelos

In [52]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.drop(variable_objetivo, axis=1), df[variable_objetivo], test_size=0.2, random_state=42)

In [53]:
X_train_prep = pipeline_procesado.fit_transform(X_train)
X_test_prep  = pipeline_procesado.transform(X_train)


In [54]:
from sklearn.decomposition import PCA, TruncatedSVD
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone

### Se define la funcion `evaluar_modelo`, que se encarga de evaluar los diferentes modelos a partir de las metricas obtenidas

In [55]:
def evaluar_modelo(clases_reales, predicciones, probabilidades):
    exactitudes = []
    precisiones = []
    sensibilidades = []
    f1_scores = []
    
    skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    
    for train_index, test_index in skf.split(X_train, y_train):
        # Se crea una copia del estimador del pipeline
        pipeline_estimador_copy = clone(pipeline_estimador)
        
        # Division de los datos en conjuntos de entrenamiento y prueba
        X_train_fold, X_test_fold = X_train.iloc[train_index], X_train.iloc[test_index]
        y_train_fold, y_test_fold = y_train.iloc[train_index], y_train.iloc[test_index]
        
        # Entrenamiento del modelo en el conjunto de entrenamiento actual
        pipeline_estimador_copy.fit(X_train_fold, y_train_fold)
        
        # Se obtienen las predicciones en el conjunto de prueba
        predicciones_fold = pipeline_estimador_copy.predict(X_test_fold)
        probabilidades_fold = pipeline_estimador_copy.predict_proba(X_test_fold)
        
        # Calculo de metricas
        exactitud = metrics.accuracy_score(y_test_fold, predicciones_fold)
        precision = metrics.precision_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        sensibilidad = metrics.recall_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        f1 = metrics.f1_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        
        # Se guardan las metricas
        exactitudes.append(exactitud)
        precisiones.append(precision)
        sensibilidades.append(sensibilidad)
        f1_scores.append(f1)
    
    # Calculo de promedios para cada metrica
    exactitud_promedio = np.mean(exactitudes)
    precision_promedio = np.mean(precisiones)
    sensibilidad_promedio = np.mean(sensibilidades)
    f1_promedio = np.mean(f1_scores)
    
    print("""
    Exactitud promedio: {:.3f}
    Precisión promedio: {:.3f}
    Sensibilidad promedio: {:.3f}
    Puntuación F1 promedio: {:.3f}
    """.format(
        exactitud_promedio, 
        precision_promedio,
        sensibilidad_promedio,
        f1_promedio
    ))

<hr> 

# SEGUNDA PARTE

<hr> 

### Evaluación de parametros


A continuacion se presentan los mejores hiperparametros obtenidos del notebook de busqueda de hiperparametros para el modelo XGBoost

In [10]:
import xgboost as xgb

In [11]:
# Exactitud promedio: 0.856

hiperparametros = {
    'learning_rate': 0.030958241241393895,
    'max_depth': 7, 
    'colsample_bytree': 0.5330554532179588, 
    'n_estimators': 568, 
    'reg_alpha': 4.1084086686936143e-08,
    'reg_lambda': 0.00024280802318611656,
    'min_child_weight': 1, 
    'gamma': 0.23340955083195258, 
    'subsample': 0.8458562164387711
}

In [17]:
# Exactitud promedio: 0.856

hiperparametros = {
    'learning_rate': 0.019502919020196508, 
    'max_depth': 7,
    'colsample_bytree': 0.5359755043663036,
    'n_estimators': 889, 
    'reg_alpha': 4.5769997160546754e-07,
    'reg_lambda': 0.0008024537176185966, 
    'min_child_weight': 1, 
    'gamma': 0.26635568488365735,
    'subsample': 0.836658436011697
}

In [110]:
# Exactitud promedio: 0.855

hiperparametros = {
    'subsample': 0.6,
    'n_estimators': 100,
    'max_depth': 9,
    'learning_rate': 0.1,
    'colsample_bytree': 0.6
}

In [23]:
# Exactitud promedio: 0.854

hiperparametros = {
    'learning_rate': 0.06223362642651399,
    'max_depth': 10, 
    'colsample_bytree': 0.43647471109946273,
    'n_estimators': 363,
    'reg_alpha': 0.5601315011270463,
    'reg_lambda': 0.05445159550791859, 
    'min_child_weight': 1, 
    'gamma': 0.643238494538452, 
    'subsample': 0.9047512569336327,
    'colsample_bylevel': 0.5088157757755716
}

In [29]:
# Exactitud promedio: 0.854

hiperparametros = {
    'subsample': 0.8,
    'reg_lambda': 0,
    'reg_alpha': 0.5,
    'n_estimators': 200,
    'max_depth': 3,
    'learning_rate': 0.1,
    'colsample_bytree': 0.6
}

In [56]:
# Exactitud promedio: 0.854

hiperparametros = {
    'learning_rate': 0.02598871856723336, 
    'max_depth': 5, 
    'colsample_bytree': 0.7995956811280615,
    'n_estimators': 801,
    'reg_alpha': 0.0003846344365287301,
    'reg_lambda': 0.16055023352269962,
    'min_child_weight': 2, 
    'gamma': 6.227977417426079e-08, 
    'subsample': 0.5855520974928337
}

In [62]:
# Exactitud promedio: 0.854
hiperparametros = {
    'learning_rate': 0.04428108856591791, 
    'max_depth': 4, 
    'colsample_bytree': 0.7226349496641976, 
    'n_estimators': 646, 
    'reg_alpha': 7.661529391554665e-06, 
    'reg_lambda': 0.23675588280032342,
    'min_child_weight': 3, 
    'gamma': 1.292268795320074e-10,
    'subsample': 0.6881789557023068
}

In [68]:
# Exactitud promedio: 0.854
hiperparametros = {
    'learning_rate': 0.02960979601900507, 
    'max_depth': 7, 
    'colsample_bytree': 0.5456792316195744, 
    'n_estimators': 998, 
    'reg_alpha': 1.409520212018922e-07, 
    'reg_lambda': 0.0008161572993519646,
    'min_child_weight': 2, 
    'gamma': 0.22490105013940945,
    'subsample': 0.8418410424162996
}

In [74]:
# Exactitud promedio: 0.854

hiperparametros = {
    'learning_rate': 0.028478907593346002,
    'max_depth': 5,
    'colsample_bytree': 0.7889179697330267, 
    'n_estimators': 994,
    'reg_alpha': 8.287868985533723e-06, 
    'reg_lambda': 0.9748197999986147, 
    'min_child_weight': 3, 
    'gamma': 7.884438093404615e-07, 
    'subsample': 0.6808288822283086
}

In [92]:
# Exactitud promedio: 0.854
hiperparametros = {
    'learning_rate': 0.016951568933621472,
    'max_depth': 7, 
    'colsample_bytree': 0.5954988480447891, 
    'n_estimators': 972, 
    'reg_alpha': 1.8721084537933326e-08,
    'reg_lambda': 0.0002344955542435387, 
    'min_child_weight': 5, 
    'gamma': 8.251699970197526e-05,
    'subsample': 0.8577198024143824
}

In [86]:
# Exactitud promedio: 0.853
hiperparametros = {
    'learning_rate': 0.034150582881769316, 
    'max_depth': 5,
    'colsample_bytree': 0.8018559269448844,
    'n_estimators': 777, 
    'reg_alpha': 7.132435689698663e-06, 
    'reg_lambda': 0.9687941320272302,
    'min_child_weight': 2, 
    'gamma': 1.028344709701708e-10, 
    'subsample': 0.5944640494146579
}

In [80]:
# Exactitud promedio: 0.852

hiperparametros = {
    'learning_rate': 0.044978141622494895, 
    'max_depth': 5, 
    'colsample_bytree': 0.6612006182149313, 
    'n_estimators': 740, 
    'reg_alpha': 3.462106562185482e-05,
    'reg_lambda': 2.5206355109283938e-08,
    'min_child_weight': 3,
    'gamma': 0.000219351881425621, 
    'subsample': 0.704807956180106
}

In [104]:
# Exactitud promedio: 0.851

hiperparametros = {
    'booster': 'dart',
    'lambda': 0.001785213834394288,
    'alpha': 3.4019556971203074e-08,
    'max_depth': 9,
    'eta': 0.10206736089336924,
    'gamma': 0.0615855194115282,
    'colsample_bytree': 0.6410241592952468,
    'min_child_weight': 10,
    'objective': 'multi:softmax',
    'num_class': 4
}


In [98]:
# Exactitud promedio: 0.849
hiperparametros = {
    'learning_rate': 0.040991799932675266, 
    'max_depth': 7, 
    'colsample_bytree': 0.5575101985738888,
    'n_estimators': 910,
    'reg_alpha': 4.542210549121433e-06,
    'reg_lambda': 5.131416072817396e-05,
    'min_child_weight': 2, 
    'gamma': 0.05321008989304913,
    'subsample': 0.8940500721590932
}

In [116]:
# Exactitud promedio: 0.849

hiperparametros = {
    'learning_rate': 0.06223362642651399, 
    'max_depth': 10, 
    'subsample': 0.7618196742286072, 
    'colsample_bylevel': 0.5088157757755716,
    'reg_alpha': 9.42497182761038e-10, 
    'reg_lambda': 4.113952515880599e-06, 
    'n_estimators': 383, 
    'min_child_weight': 7, 
    'gamma': 1.02939441947255e-06, 
}

In [128]:
# Exactitud promedio: 0.849

hiperparametros = {
    'learning_rate': 0.08003193943477299,
    'max_leaves': 26,
    'max_depth': 7,
    'min_child_weight': 62,
    'subsample': 0.7722705717445381,
    'colsample_bytree': 0.7755706849496782,
    'reg_alpha': 0.050399191180643475,
    'reg_lambda': 0.004030996952647398,
    'n_estimators': 411,
    'objective': 'multi:softmax',
    'num_class': 4,
}

In [134]:
# Exactitud promedio: 0.849

hiperparametros = {
    'learning_rate': 0.08003193943477299,
    'max_leaves': 26,
    'max_depth': 7,
    'min_child_weight': 62,
    'subsample': 0.7722705717445381,
    'colsample_bytree': 0.7755706849496782,
    'reg_alpha': 0.050399191180643475,
    'reg_lambda': 0.004030996952647398,
    'n_estimators': 411,
    'objective': 'multi:softprob',
    'num_class': 4,
}

In [122]:
# Exactitud promedio: 0.845

hiperparametros = {
    'learning_rate': 0.088091866580574, 
    'max_depth': 5, 
    'colsample_bytree': 0.6849397017010377, 
    'n_estimators': 742, 
    'reg_alpha': 2.6697091220011362e-08, 
    'reg_lambda': 0.0003334114789701961,
    'min_child_weight': 4, 
    'gamma': 8.758986216578691e-09, 
    'subsample': 0.5025204821998336
}

In [146]:
# Exactitud promedio: 0.845

hiperparametros = {
    'learning_rate': 0.030768939207374894, 
     'max_depth': 3, 
     'subsample': 0.803237155984073, 
     'colsample_bytree': 0.5420392975871227, 
     'reg_alpha': 7.448803696942681e-05, 
     'reg_lambda': 2.358730852235791e-10, 
     'n_estimators': 176, 
     'min_child_weight': 10
}

In [140]:
# Exactitud promedio: 0.844

hiperparametros = {
    'learning_rate': 0.04862941704863358,
    'max_leaves': 26,
    'max_depth': 6,
    'min_child_weight': 62,
    'subsample': 0.6513733390083617,
    'colsample_bytree': 0.6644980369982753,
    'reg_alpha': 0.008090495442375395,
    'reg_lambda': 0.0057345876493414254,
    'n_estimators': 386,
    'scale_pos_weight': 0.5842230278735413,
    'objective': 'multi:softmax',
    'num_class': 4
}

In [152]:
# Exactitud promedio: 0.840

hiperparametros = {
    'learning_rate': 0.004718086191579359, 
    'max_depth': 5, 
    'subsample': 0.9749530177544793, 
     'colsample_bytree': 0.8918419868536179, 
     'reg_alpha': 0.0014902526858010525, 
     'reg_lambda': 0.00010806691888237761, 
     'n_estimators': 361, 
     'min_child_weight': 9
}

In [159]:
pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", xgb.XGBClassifier(**hiperparametros))
])

In [160]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [161]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [162]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.857
    Precisión promedio: 0.849
    Sensibilidad promedio: 0.847
    Puntuación F1 promedio: 0.847
    


In [163]:
from sklearn.metrics import accuracy_score
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.9463753723932473
Accuracy en datos de prueba: 0.8548102383053839
