# Busqueda de parametros para el modelo XGBoost
<hr>

En este notebook se realiza la busqueda de hiperparametros para mejorar las métricas del modelo XGBoost. Para ello se emplean tecnicas de busqueda de hiperparametros como **Optuna** y **RandomizedSearchCV**

Se importan las librerias y herramientas necesarias

In [1]:
import pandas as pd
import numpy as np 
import matplotlib
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn import metrics
%matplotlib inline 

Importamos los datos

In [2]:
df = pd.read_pickle("data/data.pkl")

- A continuación se definen la variable objetivo y las variables independientes
- Se definen las columnas numéricas y no numéricas
- Se definen las columnas ordinales y categoricas

In [3]:
variable_objetivo = 'naturaleza'
variables_independientes = df.drop(variable_objetivo,axis=1).columns

datos_numericos = df[variables_independientes].select_dtypes([int, float])
col_no_numericas = df[variables_independientes].select_dtypes(include=['category']).columns
col_numericas = datos_numericos.columns

dict_var_ordinales = {
    'grupo_edad': ['0 a 6', '12 a 17', '18 a 28', '29 a 59', '60 y mas', '7  a 11'],
    'ciclo_de_vida':['Primera infancia', 'Infancia', 'Jovenes','Adolescencia','Adultez','Persona Mayor'],
}

col_ordinales = list(dict_var_ordinales.keys())
datos_ordinales = df[col_ordinales]
col_categoricas = list(set(col_no_numericas) - set(col_ordinales))
datos_categoricos = df[col_categoricas]

Se importan las librerias necesarias para la creacion del pipeline

In [4]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OrdinalEncoder
from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.impute import SimpleImputer

Se mappean los valores de `grupo_edad` y `ciclo_de_vida` y se crea el pipeline_ordinal y posteriormente el pipeline_procesado con las variables categoricas, el pipeline_ordinal y las columnas ordinales

In [5]:
mapping = [{'col': 'grupo_edad', 'mapping': {'0 a 6': 0,'7  a 11':1 ,'12 a 17': 2, '18 a 28': 3,'29 a 59':4,'60 y mas':5}},    {'col': 'ciclo_de_vida', 'mapping': {'Primera infancia': 0,  'Infancia': 1, 'Jovenes':2 ,'Adolescencia':3,'Adultez':4, 'Persona Mayor':5 }}]
from category_encoders import OrdinalEncoder
import category_encoders
encoder = OrdinalEncoder(mapping=mapping)

pipeline_ordinal = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('transformador_ordinal', category_encoders.ordinal.OrdinalEncoder(mapping=mapping))
])

pipeline_procesado = ColumnTransformer(
                   [('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False), col_categoricas),
                    ('ordinal', pipeline_ordinal, col_ordinales)
                   ],
                remainder = 'passthrough',
                verbose_feature_names_out = False
               ).set_output(transform="pandas")



Se establecen los datos de entrenamiento y de prueba para los modelos

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.drop(variable_objetivo, axis=1), df[variable_objetivo], test_size=0.2, random_state=42)

In [7]:
X_train_prep = pipeline_procesado.fit_transform(X_train)
X_test_prep  = pipeline_procesado.transform(X_train)


In [8]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.datasets import load_digits
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone

### Se define la funcion `evaluar_modelo`, que se encarga de evaluar los diferentes modelos a partir de las metricas obtenidas


In [9]:
def evaluar_modelo(clases_reales, predicciones, probabilidades):
    exactitudes = []
    precisiones = []
    sensibilidades = []
    f1_scores = []
    
    # Create StratifiedKFold object with a fixed random_state
    skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    
    # Perform cross-validation
    for train_index, test_index in skf.split(X_train, y_train):
        # Create a copy of the pipeline estimator
        pipeline_estimador_copy = clone(pipeline_estimador)
        
        # Split the data into train and test sets based on the indices
        X_train_fold, X_test_fold = X_train.iloc[train_index], X_train.iloc[test_index]
        y_train_fold, y_test_fold = y_train.iloc[train_index], y_train.iloc[test_index]
        
        # Train the model on the current fold
        pipeline_estimador_copy.fit(X_train_fold, y_train_fold)
        
        # Get predictions in the test set of the current fold
        predicciones_fold = pipeline_estimador_copy.predict(X_test_fold)
        probabilidades_fold = pipeline_estimador_copy.predict_proba(X_test_fold)
        
        # Calculate metrics on the current fold
        exactitud = metrics.accuracy_score(y_test_fold, predicciones_fold)
        precision = metrics.precision_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        sensibilidad = metrics.recall_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        f1 = metrics.f1_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        
        # Store metrics of the current fold
        exactitudes.append(exactitud)
        precisiones.append(precision)
        sensibilidades.append(sensibilidad)
        f1_scores.append(f1)
    
    # Calculate averaged metrics
    exactitud_promedio = np.mean(exactitudes)
    precision_promedio = np.mean(precisiones)
    sensibilidad_promedio = np.mean(sensibilidades)
    f1_promedio = np.mean(f1_scores)
    
    # Print averaged metrics
    print("""
    Exactitud promedio: {:.3f}
    Precisión promedio: {:.3f}
    Sensibilidad promedio: {:.3f}
    Puntuación F1 promedio: {:.3f}
    """.format(
        exactitud_promedio, 
        precision_promedio,
        sensibilidad_promedio,
        f1_promedio
    ))

# LIGHT
<hr>

### Estado Base: Sin hiperparametros 
A continuación lo primero que se hace es probar las metricas del modelo en su estado base, es decir, sin configuración de hiperparametros

In [10]:
import lightgbm as lgb

In [11]:
raise SystemExit("Detener ejecución")

SystemExit: Detener ejecución

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


In [12]:
pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", lgb.LGBMClassifier())  
])

In [13]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [14]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [15]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.824
    Precisión promedio: 0.718
    Sensibilidad promedio: 0.677
    Puntuación F1 promedio: 0.685
    


In [16]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.9305777574788765
Accuracy en datos de prueba: 0.8273972602739726


<hr> 

# SEGUNDA PARTE: Busqueda de hiperparametros

<hr> 

A continuación se presentan las configuraciones de hiperparametros que se probaron para obtener los mejores hiperparametros para el modelo LightGBM. Después de encontrar los hiperparametros, estos eran evaluados a traves de las metricas obtenidas

In [None]:
import optuna

In [None]:
from sklearn.model_selection import RandomizedSearchCV

In [None]:
def objetivo(trial):
    # Definir los rangos de los hiperparámetros a buscar
    params = {
        'boosting_type': trial.suggest_categorical('boosting_type', ['gbdt', 'dart', 'goss']),
        'num_leaves': trial.suggest_int('num_leaves', 10, 1000),
        'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.2, log=True),
        'n_estimators': trial.suggest_int('n_estimators', 100, 1000),
        'max_depth': trial.suggest_int('max_depth', 3, 10),
        'min_child_samples': trial.suggest_int('min_child_samples', 1, 20),
        'subsample': trial.suggest_float('subsample', 0.8, 1.0),
        'colsample_bytree': trial.suggest_float('colsample_bytree', 0.6, 0.8),
        'reg_alpha': trial.suggest_float('reg_alpha', 0.001, 1.0, log=True),
        'reg_lambda': trial.suggest_float('reg_lambda', 0.001, 1.0, log=True),
        'objective': 'multiclass',
        'num_class': 4,
        'is_unbalance': True,
    }

    # Crear el modelo con los hiperparámetros propuestos
    estimador = lgb.LGBMClassifier(**params)
    
    pipeline = Pipeline([
        ("procesado_variables", pipeline_procesado),
        ("estimador", estimador)
    ])

    # Entrenar y evaluar el modelo con validación cruzada
    score = cross_val_score(pipeline, X_train, y_train, scoring='accuracy', cv=5).mean()

    return score

# Crear el estudio de Optuna
estudio = optuna.create_study(direction='maximize')

# Ejecutar la búsqueda de hiperparámetros
estudio.optimize(objetivo, n_trials=100)

# Obtener los mejores hiperparámetros encontrados
mejores_hiperparametros = estudio.best_params

# Imprimir los mejores hiperparámetros encontrados
print("Mejores hiperparámetros encontrados:", mejores_hiperparametros)

In [None]:
def buscar_mejores_hiperparametros(pipeline, X_train, y_train):
    # Definir los posibles valores de los hiperparámetros a buscar
    parametros = {
        'estimador__boosting_type': ['gbdt', 'dart', 'goss'],
        'estimador__num_leaves': [20, 30, 40, 50],
        'estimador__learning_rate': [0.01, 0.05, 0.1, 0.2],
        'estimador__n_estimators': [100, 200, 300, 400],
        'estimador__max_depth': [3, 5, 7, 9],
        'estimador__min_child_samples': [10, 20, 30, 40],
        'estimador__subsample': [0.8, 0.9, 1.0],
        'estimador__colsample_bytree': [0.6, 0.7, 0.8]
    }
    # Crear el objeto RandomizedSearchCV
    busqueda = RandomizedSearchCV(pipeline, parametros, scoring='accuracy', n_iter=10, cv=5)

    # Realizar la búsqueda de hiperparámetros
    busqueda.fit(X_train, y_train)

    # Obtener los mejores hiperparámetros encontrados
    mejores_hiperparametros = busqueda.best_params_

    # Crear un nuevo pipeline con los mejores hiperparámetros encontrados
    nuevo_pipeline = Pipeline([
        ("procesado_variables", pipeline.named_steps['procesado_variables']),
        ("estimador", lgb.LGBMClassifier(objective='multiclass', num_class=4, **mejores_hiperparametros))
    ])

    # Entrenar el nuevo pipeline con el conjunto de datos de entrenamiento
    nuevo_pipeline.fit(X_train, y_train)

    # Calcular la exactitud obtenida con los mejores hiperparámetros
    exactitud = nuevo_pipeline.score(X_train, y_train)

    # Imprimir los mejores hiperparámetros encontrados y la exactitud obtenida
    print("Mejores hiperparámetros encontrados:", mejores_hiperparametros)
    print("Exactitud obtenida:", exactitud)

    # Devolver el nuevo pipeline entrenado
    return nuevo_pipeline


In [None]:
nuevo_pipeline = buscar_mejores_hiperparametros(pipeline_estimador, X_train, y_train)


In [None]:
predicciones =  nuevo_pipeline.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =nuevo_pipeline.predict_proba(X_test)

In [None]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)

In [None]:
train_accuracy = accuracy_score(y_train, nuevo_pipeline.predict(X_train))
test_accuracy = accuracy_score(y_test, nuevo_pipeline.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

In [None]:
pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", lgb.LGBMClassifier(**hiperparametros))  
])

In [None]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [None]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [None]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)

In [None]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

In [None]:
def objective(trial):
    # Definir los rangos de búsqueda de los hiperparámetros
    params = {
        'estimador__learning_rate': trial.suggest_float('estimador__learning_rate', 0.01, 0.1, log=True),
        'estimador__reg_alpha': trial.suggest_float('estimador__reg_alpha', 1e-10, 1.0, log=True),
        'estimador__reg_lambda': trial.suggest_float('estimador__reg_lambda', 1e-10, 1.0, log=True),
        'estimador__num_leaves': trial.suggest_int('estimador__num_leaves', 20, 200),
        'estimador__max_depth': trial.suggest_int('estimador__max_depth', 3, 10),
        'estimador__min_child_samples': trial.suggest_int('estimador__min_child_samples', 1, 20),
        'estimador__subsample': trial.suggest_float('estimador__subsample', 0.5, 1.0),
        'estimador__colsample_bytree': trial.suggest_float('estimador__colsample_bytree', 0.5, 1.0),
        'estimador__n_estimators': trial.suggest_int('estimador__n_estimators', 100, 1000),
        'estimador__scale_pos_weight': trial.suggest_float('estimador__scale_pos_weight', 0.1, 10.0)
    }

    # Crear el pipeline con los hiperparámetros sugeridos por Optuna
    pipeline_estimador = Pipeline([
        ("procesado_variables", pipeline_procesado),
        ("estimador", lgb.LGBMClassifier(**params))
    ])

    # Ajustar el pipeline al conjunto de entrenamiento
    pipeline_estimador.fit(X_train, y_train)

    # Realizar predicciones en los datos de entrenamiento
    predicciones_entrenamiento = pipeline_estimador.predict(X_train)

    # Calcular las métricas de evaluación en los datos de entrenamiento
    accuracy_entrenamiento = accuracy_score(y_train, predicciones_entrenamiento)
    precision_entrenamiento = precision_score(y_train, predicciones_entrenamiento, average='macro')
    recall_entrenamiento = recall_score(y_train, predicciones_entrenamiento, average='macro')
    f1_entrenamiento = f1_score(y_train, predicciones_entrenamiento, average='macro')

    # Realizar predicciones en los datos de prueba
    predicciones_prueba = pipeline_estimador.predict(X_test)

    # Calcular las métricas de evaluación en los datos de prueba
    accuracy_prueba = accuracy_score(y_test, predicciones_prueba)
    precision_prueba = precision_score(y_test, predicciones_prueba, average='macro')
    recall_prueba = recall_score(y_test, predicciones_prueba, average='macro')
    f1_prueba = f1_score(y_test, predicciones_prueba, average='macro')

    # Imprimir las métricas de evaluación en los datos de entrenamiento y de prueba
    print("Accuracy en datos de entrenamiento:", accuracy_entrenamiento)
    print("Precision en datos de entrenamiento:", precision_entrenamiento)
    print("Recall en datos de entrenamiento:", recall_entrenamiento)
    print("F1-score en datos de entrenamiento:", f1_entrenamiento)
    print("Accuracy en datos de prueba:", accuracy_prueba)
    print("Precision en datos de prueba:", precision_prueba)
    print("Recall en datos de prueba:", recall_prueba)
    print("F1-score en datos de prueba:", f1_prueba)

    # Calcular la métrica a optimizar utilizando validación cruzada
    metrica = cross_val_score(pipeline_estimador, X_train, y_train, scoring='accuracy', cv=5).mean()

    # Devolver la métrica para ser maximizada por Optuna
    return metrica

# Crear el estudio de Optuna
study = optuna.create_study(direction='maximize')

# Realizar la optimización de hiperparámetros
study.optimize(objective, n_trials=100)

# Obtener los mejores hiperparámetros encontrados
mejores_hiperparametros = study.best_params

# Crear el pipeline con los mejores hiperparámetros encontrados
pipeline_mejor = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", lgb.LGBMClassifier(**mejores_hiperparametros))
])

# Ajustar el pipeline al conjunto de entrenamiento
pipeline_mejor.fit(X_train, y_train)

# Calcular la exactitud obtenida con los mejores hiperparámetros en los datos de prueba
exactitud_mejor = pipeline_mejor.score(X_test, y_test)

# Imprimir los mejores hiperparámetros encontrados y la exactitud obtenida
print("Mejores hiperparámetros encontrados:", mejores_hiperparametros)
print("Exactitud obtenida:", exactitud_mejor)


In [None]:
def objective(trial):
    # Definir los rangos de búsqueda de los hiperparámetros
    params = {
        'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.1, log=True),
        'reg_alpha': trial.suggest_float('reg_alpha', 1e-10, 1.0, log=True),
        'reg_lambda': trial.suggest_float('reg_lambda', 1e-10, 1.0, log=True),
        'num_leaves': trial.suggest_int('num_leaves', 10, 100),
        'max_depth': trial.suggest_int('max_depth', 3, 10),
        'min_child_samples': trial.suggest_int('min_child_samples', 1, 20),
        'subsample': trial.suggest_float('subsample', 0.5, 1.0),
        'scale_pos_weight': trial.suggest_float('scale_pos_weight', 0.1, 10.0),
        'colsample_bytree': trial.suggest_float('colsample_bytree', 0.5, 1.0),
        'n_estimators': trial.suggest_int('n_estimators', 100, 1000)
    }

    # Crear el pipeline con los hiperparámetros sugeridos por Optuna
    pipeline_estimador = Pipeline([
        ("procesado_variables", pipeline_procesado),
        ("estimador", lgb.LGBMClassifier(**params))
    ])

    # Ajustar el pipeline al conjunto de entrenamiento
    pipeline_estimador.fit(X_train, y_train)

    # Realizar predicciones en los datos de entrenamiento
    predicciones_entrenamiento = pipeline_estimador.predict(X_train)

    # Calcular las métricas de evaluación en los datos de entrenamiento
    accuracy_entrenamiento = accuracy_score(y_train, predicciones_entrenamiento)
    precision_entrenamiento = precision_score(y_train, predicciones_entrenamiento, average='macro')
    recall_entrenamiento = recall_score(y_train, predicciones_entrenamiento, average='macro')
    f1_entrenamiento = f1_score(y_train, predicciones_entrenamiento, average='macro')

    # Realizar predicciones en los datos de prueba
    predicciones_prueba = pipeline_estimador.predict(X_test)

    # Calcular las métricas de evaluación en los datos de prueba
    accuracy_prueba = accuracy_score(y_test, predicciones_prueba)
    precision_prueba = precision_score(y_test, predicciones_prueba, average='macro')
    recall_prueba = recall_score(y_test, predicciones_prueba, average='macro')
    f1_prueba = f1_score(y_test, predicciones_prueba, average='macro')

    # Imprimir las métricas de evaluación en los datos de entrenamiento y de prueba
    print("Accuracy en datos de entrenamiento:", accuracy_entrenamiento)
    print("Precision en datos de entrenamiento:", precision_entrenamiento)
    print("Recall en datos de entrenamiento:", recall_entrenamiento)
    print("F1-score en datos de entrenamiento:", f1_entrenamiento)
    print("Accuracy en datos de prueba:", accuracy_prueba)
    print("Precision en datos de prueba:", precision_prueba)
    print("Recall en datos de prueba:", recall_prueba)
    print("F1-score en datos de prueba:", f1_prueba)

    # Calcular la métrica a optimizar utilizando validación cruzada
    metrica = cross_val_score(pipeline_estimador, X_train, y_train, scoring='accuracy', cv=5).mean()

    # Devolver la métrica para ser maximizada por Optuna
    return metrica

# Crear el estudio de Optuna
study = optuna.create_study(direction='maximize')

# Realizar la optimización de hiperparámetros
study.optimize(objective, n_trials=100)

# Obtener los mejores hiperparámetros encontrados
mejores_hiperparametros = study.best_params

# Crear el pipeline con los mejores hiperparámetros encontrados
pipeline_mejor = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", lgb.LGBMClassifier(**mejores_hiperparametros))
])

# Ajustar el pipeline al conjunto de entrenamiento
pipeline_mejor.fit(X_train, y_train)

# Calcular la exactitud obtenida con los mejores hiperparámetros en los datos de prueba
exactitud_mejor = pipeline_mejor.score(X_test, y_test)

# Imprimir los mejores hiperparámetros encontrados y la exactitud obtenida
print("Mejores hiperparámetros encontrados:", mejores_hiperparametros)
print("Exactitud obtenida:", exactitud_mejor)


### Finalmente, los mejores hiperparametros obtenidos son guardados en otro notebook donde se almacenan y ordenan para encontrar la mejor configuración de hiperparametros para el modelo LightGBM