# Busqueda de parametros para el modelo XGBoost
<hr>

En este notebook se realiza la busqueda de hiperparametros para mejorar las métricas del modelo XGBoost. Para ello se emplean tecnicas de busqueda de hiperparametros como **Optuna** y **RandomizedSearchCV**

Se importan las librerias y herramientas necesarias

In [1]:
import pandas as pd
import numpy as np 
import matplotlib
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn import metrics
%matplotlib inline 

Importamos los datos

In [2]:
df = pd.read_pickle("data/data.pkl")

- A continuación se definen la variable objetivo y las variables independientes
- Se definen las columnas numéricas y no numéricas
- Se definen las columnas ordinales y categoricas

In [3]:
variable_objetivo = 'naturaleza'
variables_independientes = df.drop(variable_objetivo,axis=1).columns

datos_numericos = df[variables_independientes].select_dtypes([int, float])
col_no_numericas = df[variables_independientes].select_dtypes(include=['category']).columns
col_numericas = datos_numericos.columns

dict_var_ordinales = {
    'grupo_edad': ['0 a 6', '12 a 17', '18 a 28', '29 a 59', '60 y mas', '7  a 11'],
    'ciclo_de_vida':['Primera infancia', 'Infancia', 'Jovenes','Adolescencia','Adultez','Persona Mayor'],
}

col_ordinales = list(dict_var_ordinales.keys())
datos_ordinales = df[col_ordinales]
col_categoricas = list(set(col_no_numericas) - set(col_ordinales))
datos_categoricos = df[col_categoricas]

Se importan las librerias necesarias para la creacion del pipeline

In [4]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OrdinalEncoder
from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.impute import SimpleImputer

Se mappean los valores de `grupo_edad` y `ciclo_de_vida` y se crea el pipeline_ordinal y posteriormente el pipeline_procesado con las variables categoricas, el pipeline_ordinal y las columnas ordinales

In [5]:
mapping = [{'col': 'grupo_edad', 'mapping': {'0 a 6': 0,'7  a 11':1 ,'12 a 17': 2, '18 a 28': 3,'29 a 59':4,'60 y mas':5}},    {'col': 'ciclo_de_vida', 'mapping': {'Primera infancia': 0,  'Infancia': 1, 'Jovenes':2 ,'Adolescencia':3,'Adultez':4, 'Persona Mayor':5 }}]
from category_encoders import OrdinalEncoder
import category_encoders
encoder = OrdinalEncoder(mapping=mapping)

pipeline_ordinal = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('transformador_ordinal', category_encoders.ordinal.OrdinalEncoder(mapping=mapping))
])

pipeline_procesado = ColumnTransformer(
                   [('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False), col_categoricas),
                    ('ordinal', pipeline_ordinal, col_ordinales)
                   ],
                remainder = 'passthrough',
                verbose_feature_names_out = False
               ).set_output(transform="pandas")



 Se establecen los datos de entrenamiento y de prueba para los modelos

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df.drop(variable_objetivo, axis=1), df[variable_objetivo], test_size=0.2, random_state=42)

In [7]:
X_train_prep = pipeline_procesado.fit_transform(X_train)
X_test_prep  = pipeline_procesado.transform(X_train)


In [8]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.datasets import load_digits
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.base import clone

### Se define la funcion `evaluar_modelo`, que se encarga de evaluar los diferentes modelos a partir de las metricas obtenidas

In [9]:
def evaluar_modelo(clases_reales, predicciones, probabilidades):
    exactitudes = []
    precisiones = []
    sensibilidades = []
    f1_scores = []
    
    skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
    
    for train_index, test_index in skf.split(X_train, y_train):
        # Se crea una copia del estimador del pipeline
        pipeline_estimador_copy = clone(pipeline_estimador)
        
        # Division de los datos en conjuntos de entrenamiento y prueba
        X_train_fold, X_test_fold = X_train.iloc[train_index], X_train.iloc[test_index]
        y_train_fold, y_test_fold = y_train.iloc[train_index], y_train.iloc[test_index]
        
        # Entrenamiento del modelo en el conjunto de entrenamiento actual
        pipeline_estimador_copy.fit(X_train_fold, y_train_fold)
        
        # Se obtienen las predicciones en el conjunto de prueba
        predicciones_fold = pipeline_estimador_copy.predict(X_test_fold)
        probabilidades_fold = pipeline_estimador_copy.predict_proba(X_test_fold)
        
        # Calculo de metricas
        exactitud = metrics.accuracy_score(y_test_fold, predicciones_fold)
        precision = metrics.precision_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        sensibilidad = metrics.recall_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        f1 = metrics.f1_score(y_test_fold, predicciones_fold, average='macro', zero_division=0)
        
        # Se guardan las metricas
        exactitudes.append(exactitud)
        precisiones.append(precision)
        sensibilidades.append(sensibilidad)
        f1_scores.append(f1)
    
    # Calculo de promedios para cada metrica
    exactitud_promedio = np.mean(exactitudes)
    precision_promedio = np.mean(precisiones)
    sensibilidad_promedio = np.mean(sensibilidades)
    f1_promedio = np.mean(f1_scores)
    
    print("""
    Exactitud promedio: {:.3f}
    Precisión promedio: {:.3f}
    Sensibilidad promedio: {:.3f}
    Puntuación F1 promedio: {:.3f}
    """.format(
        exactitud_promedio, 
        precision_promedio,
        sensibilidad_promedio,
        f1_promedio
    ))

# XGBoost 
<hr>

### Estado Base: Sin hiperparametros 
A continuación lo primero que se hace es probar las metricas del modelo en su estado base, es decir, sin configuración de hiperparametros

In [10]:
# pip install xgboost

In [11]:
import xgboost as xgb

In [13]:
pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", xgb.XGBClassifier(objective='multi:softmax', num_class=4))
])

In [14]:
pipeline_estimador.fit(X=X_train, y=y_train)

In [15]:
predicciones =  pipeline_estimador.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =pipeline_estimador.predict_proba(X_test)

In [16]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.850
    Precisión promedio: 0.841
    Sensibilidad promedio: 0.839
    Puntuación F1 promedio: 0.840
    


In [17]:
train_accuracy = accuracy_score(y_train, pipeline_estimador.predict(X_train))
test_accuracy = accuracy_score(y_test, pipeline_estimador.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.9587333112655854
Accuracy en datos de prueba: 0.8468667255075022


<hr> 

# SEGUNDA PARTE: Busqueda de hiperparametros

<hr> 

A continuación se presentan las configuraciones de hiperparametros que se probaron para obtener los mejores hiperparametros para el modelo XGBoost. Después de encontrar los hiperparametros, estos eran evaluados a traves de las metricas obtenidas

In [18]:
import optuna

In [None]:
def objective(trial):
    # Se define un conjunto de hiperparametros con su rango
    params = {
        'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.1),
        'max_depth': trial.suggest_int('max_depth', 3, 8),
        'min_child_weight': trial.suggest_float('min_child_weight', 0.1, 10.0),
        'subsample': trial.suggest_float('subsample', 0.5, 0.8),
        'colsample_bytree': trial.suggest_float('colsample_bytree', 0.5, 0.8),
        'reg_alpha': trial.suggest_float('reg_alpha', 0.001, 0.1),
        'reg_lambda': trial.suggest_float('reg_lambda', 0.001, 0.1),
        'gamma': trial.suggest_float('gamma', 0.1, 1.0),
        'n_estimators': trial.suggest_int('n_estimators', 100, 500),
        'objective': 'multi:softmax',
        'num_class': 4
    }

    # Crear un objeto XGBClassifier con los hiperparámetros sugeridos por Optuna
    estimator = xgb.XGBClassifier(**params)

    # Crear un nuevo pipeline que incluya el pipeline_procesado y el estimador 
    pipeline = Pipeline([
        ("procesado_variables", pipeline_procesado),
        ("estimador", estimator)
    ])

    # Entrenar el pipeline con los datos de entrenamiento
    pipeline.fit(X_train, y_train)

    # Calcular el puntaje de precisión en el conjunto de prueba
    y_pred = pipeline.predict(X_test)
    score = accuracy_score(y_test, y_pred)

    return score

# Crear el estudio de Optuna y ejecutar la optimización
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)

# Obtener los mejores hiperparámetros encontrados
best_params = study.best_trial.params
print("Mejores hiperparámetros encontrados:", best_params)

# Crear un nuevo objeto XGBClassifier con los mejores hiperparámetros
best_estimator = xgb.XGBClassifier(**best_params)

# Crear un nuevo pipeline que incluya el preprocesamiento y el estimador con los mejores hiperparámetros
new_pipeline = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", best_estimator)
])

# Entrenar y evaluar el nuevo pipeline con los mejores hiperparámetros
new_pipeline.fit(X_train, y_train)
score = new_pipeline.score(X_test, y_test)
print("Exactitud del modelo con los mejores hiperparámetros:", score)


In [20]:
predicciones =  new_pipeline.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =new_pipeline.predict_proba(X_test)

In [21]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.849
    Precisión promedio: 0.841
    Sensibilidad promedio: 0.839
    Puntuación F1 promedio: 0.840
    


In [22]:
train_accuracy = accuracy_score(y_train, new_pipeline.predict(X_train))
test_accuracy = accuracy_score(y_test, new_pipeline.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.9452719849939314
Accuracy en datos de prueba: 0.8578993821712269


In [None]:
def objective(trial):
    params = {
        'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.05),
        'max_depth': trial.suggest_int('max_depth', 3, 6),
        'min_child_weight': trial.suggest_float('min_child_weight', 0.5, 5.0),
        'subsample': trial.suggest_float('subsample', 0.6, 0.8),
        'colsample_bytree': trial.suggest_float('colsample_bytree', 0.6, 0.8),
        'reg_alpha': trial.suggest_float('reg_alpha', 0.001, 0.01),
        'reg_lambda': trial.suggest_float('reg_lambda', 0.001, 0.01),
        'gamma': trial.suggest_float('gamma', 0.1, 0.5),
        'n_estimators': trial.suggest_int('n_estimators', 200, 500),
        'objective': 'multi:softmax',
        'num_class': 4
    }

    # Crear un objeto XGBClassifier con los hiperparámetros sugeridos por Optuna
    estimator = xgb.XGBClassifier(**params)

    # Crear un nuevo pipeline que incluya el pipeline_procesado y el estimador
    pipeline = Pipeline([
        ("procesado_variables", pipeline_procesado),
        ("estimador", estimator)
    ])

    # Entrenar el pipeline con los datos de entrenamiento
    pipeline.fit(X_train, y_train)

    # Calcular el puntaje de precisión en el conjunto de prueba
    y_pred = pipeline.predict(X_test)
    score = accuracy_score(y_test, y_pred)

    return score

# Crear el estudio de Optuna y ejecutar la optimización
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)

# Obtener los mejores hiperparámetros encontrados
best_params = study.best_trial.params
print("Mejores hiperparámetros encontrados:", best_params)

# Crear un nuevo objeto XGBClassifier con los mejores hiperparámetros
best_estimator = xgb.XGBClassifier(**best_params)

# Crear un nuevo pipeline que incluya el pipeline_procesado y el estimador con los mejores hiperparámetros
new_pipeline = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", best_estimator)
])

# Entrenar y evaluar el nuevo pipeline con los mejores hiperparámetros
new_pipeline.fit(X_train, y_train)
score = new_pipeline.score(X_test, y_test)
print("Exactitud del modelo con los mejores hiperparámetros:", score)


In [24]:
predicciones =  new_pipeline.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =new_pipeline.predict_proba(X_test)

In [25]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.849
    Precisión promedio: 0.841
    Sensibilidad promedio: 0.839
    Puntuación F1 promedio: 0.840
    


In [26]:
train_accuracy = accuracy_score(y_train, new_pipeline.predict(X_train))
test_accuracy = accuracy_score(y_test, new_pipeline.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.9171356063113759
Accuracy en datos de prueba: 0.8583406884377758


In [None]:
def objective(trial):
    params = {
        'objective': 'multi:softmax',
        'num_class': 4,
        'verbosity': 0,
        'eval_metric': 'mlogloss',
        'booster': trial.suggest_categorical('booster', ['gbtree', 'gblinear', 'dart']),
        'lambda': trial.suggest_float('lambda', 1e-8, 1.0, log=True),
        'alpha': trial.suggest_float('alpha', 1e-8, 1.0, log=True),
        'max_depth': trial.suggest_int('max_depth', 3, 9),
        'eta': trial.suggest_float('eta', 0.01, 1.0, log=True),
        'gamma': trial.suggest_float('gamma', 1e-8, 1.0, log=True),
        'colsample_bytree': trial.suggest_float('colsample_bytree', 0.1, 1.0),
        'min_child_weight': trial.suggest_int('min_child_weight', 1, 10),
    }

    # Crear un objeto XGBClassifier con los hiperparámetros sugeridos por Optuna
    estimator = xgb.XGBClassifier(**params)

    # Crear un nuevo pipeline que incluya el pipeline_procesado y el estimador
    pipeline = Pipeline([
        ("procesado_variables", pipeline_procesado),
        ("estimador", estimator)
    ])

    # Entrenar el pipeline con los datos de entrenamiento
    pipeline.fit(X_train, y_train)

    # Calcular el puntaje de precisión en el conjunto de prueba
    y_pred = pipeline.predict(X_test)
    score = accuracy_score(y_test, y_pred)

    return score

# Crear el estudio de Optuna y ejecutar la optimización
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)

# Obtener los mejores hiperparámetros encontrados
best_params = study.best_trial.params
print("Mejores hiperparámetros encontrados:", best_params)

# Crear un nuevo objeto XGBClassifier con los mejores hiperparámetros
best_estimator = xgb.XGBClassifier(**best_params)

# Crear un nuevo pipeline que incluya el pipeline_procesado y el estimador con los mejores hiperparámetros
new_pipeline = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", best_estimator)
])

# Entrenar y evaluar el nuevo pipeline con los mejores hiperparámetros
new_pipeline.fit(X_train, y_train)
score = new_pipeline.score(X_test, y_test)
print("Exactitud del modelo con los mejores hiperparámetros:", score)


In [28]:
predicciones =  new_pipeline.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =new_pipeline.predict_proba(X_test)

In [29]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.849
    Precisión promedio: 0.841
    Sensibilidad promedio: 0.839
    Puntuación F1 promedio: 0.840
    


In [30]:
train_accuracy = accuracy_score(y_train, new_pipeline.predict(X_train))
test_accuracy = accuracy_score(y_test, new_pipeline.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.9308176100628931
Accuracy en datos de prueba: 0.8592233009708737


In [31]:
from sklearn.model_selection import RandomizedSearchCV

def buscar_mejores_hiperparametros(pipeline, X_train, y_train):
    parametros = {
        'estimador__learning_rate': [0.1, 0.05, 0.01],
        'estimador__max_depth': [3, 4, 5],
        'estimador__min_child_weight': [1, 2, 3],
        'estimador__gamma': [0, 0.1, 0.2],
        'estimador__subsample': [0.8, 0.9, 1.0],
        'estimador__colsample_bytree': [0.6, 0.7, 0.8],
        'estimador__reg_alpha': [0, 0.1, 0.5],
        'estimador__reg_lambda': [0, 0.1, 0.5],
        'estimador__scale_pos_weight': [1, 2, 3]
    }
    # Crear el objeto RandomizedSearchCV
    busqueda = RandomizedSearchCV(pipeline, parametros, scoring='accuracy', n_iter=10, cv=5)

    # Realizar la búsqueda de hiperparámetros
    busqueda.fit(X_train, y_train)

    # Obtener los mejores hiperparámetros encontrados
    mejores_hiperparametros = busqueda.best_params_

    # Crear un nuevo pipeline con los mejores hiperparámetros encontrados
    nuevo_pipeline = Pipeline([
        ("procesado_variables", pipeline.named_steps['procesado_variables']),
        ("estimador", xgb.XGBClassifier(objective='multi:softmax', num_class=4, **mejores_hiperparametros))
    ])

    # Entrenar el nuevo pipeline con el conjunto de datos de entrenamiento
    nuevo_pipeline.fit(X_train, y_train)

    # Calcular la exactitud obtenida con los mejores hiperparámetros
    exactitud = nuevo_pipeline.score(X_train, y_train)

    # Imprimir los mejores hiperparámetros encontrados y la exactitud obtenida
    print("Mejores hiperparámetros encontrados:", mejores_hiperparametros)
    print("Exactitud obtenida:", exactitud)

    # Devolver el nuevo pipeline entrenado
    return nuevo_pipeline


In [32]:
pipeline_estimador = Pipeline([
    ("procesado_variables", pipeline_procesado),
    ("estimador", xgb.XGBClassifier(objective='multi:softmax', num_class=4))
])

In [None]:
nuevo_pipeline = buscar_mejores_hiperparametros(pipeline_estimador, X_train, y_train)


In [34]:
predicciones =  nuevo_pipeline.predict(X=X_test)
clases_reales = y_test
predicciones_probabilidades =nuevo_pipeline.predict_proba(X_test)

In [35]:
evaluar_modelo(clases_reales, predicciones, predicciones_probabilidades)


    Exactitud promedio: 0.849
    Precisión promedio: 0.841
    Sensibilidad promedio: 0.839
    Puntuación F1 promedio: 0.840
    


In [36]:
train_accuracy = accuracy_score(y_train, nuevo_pipeline.predict(X_train))
test_accuracy = accuracy_score(y_test, nuevo_pipeline.predict(X_test))
print("Accuracy en datos de entrenamiento:", train_accuracy)
print("Accuracy en datos de prueba:", test_accuracy)

Accuracy en datos de entrenamiento: 0.9579609400860642
Accuracy en datos de prueba: 0.8442188879082083


In [None]:
def objective(trial):
    params = {
        'estimador__learning_rate': trial.suggest_loguniform('estimador__learning_rate', 0.001, 0.1),
        'estimador__max_depth': trial.suggest_int('estimador__max_depth', 3, 10),
        'estimador__subsample': trial.suggest_uniform('estimador__subsample', 0.5, 1.0),
        'estimador__colsample_bytree': trial.suggest_uniform('estimador__colsample_bytree', 0.5, 1.0),
        'estimador__reg_alpha': trial.suggest_loguniform('estimador__reg_alpha', 1e-10, 1.0),
        'estimador__reg_lambda': trial.suggest_loguniform('estimador__reg_lambda', 1e-10, 1.0),
        'estimador__n_estimators': trial.suggest_int('estimador__n_estimators', 100, 1000),
        'estimador__min_child_weight': trial.suggest_int('estimador__min_child_weight', 1, 10),
    }

    # Crear el pipeline con los hiperparámetros sugeridos por Optuna
    pipeline_estimador = Pipeline([
        ("procesado_variables", pipeline_procesado),
        ("estimador", xgb.XGBClassifier(**params))
    ])

    # Ajustar el pipeline al conjunto de entrenamiento
    pipeline_estimador.fit(X_train, y_train)

    # Realizar predicciones en los datos de entrenamiento
    predicciones_entrenamiento = pipeline_estimador.predict(X_train)

    # Calcular las métricas de evaluación en los datos de entrenamiento
    accuracy_entrenamiento = accuracy_score(y_train, predicciones_entrenamiento)
    precision_entrenamiento = precision_score(y_train, predicciones_entrenamiento, average='macro')
    recall_entrenamiento = recall_score(y_train, predicciones_entrenamiento, average='macro')
    f1_entrenamiento = f1_score(y_train, predicciones_entrenamiento, average='macro')

    # Realizar predicciones en los datos de prueba
    predicciones_prueba = pipeline_estimador.predict(X_test)

    # Calcular las métricas de evaluación en los datos de prueba
    accuracy_prueba = accuracy_score(y_test, predicciones_prueba)
    precision_prueba = precision_score(y_test, predicciones_prueba, average='macro')
    recall_prueba = recall_score(y_test, predicciones_prueba, average='macro')
    f1_prueba = f1_score(y_test, predicciones_prueba, average='macro')

    # Imprimir las métricas de evaluación en los datos de entrenamiento y de prueba
    print("ENTRENAMIENTO")
    print("Accuracy en datos de entrenamiento:", accuracy_entrenamiento)
    print("Precision en datos de entrenamiento:", precision_entrenamiento)
    print("Recall en datos de entrenamiento:", recall_entrenamiento)
    print("F1-score en datos de entrenamiento:", f1_entrenamiento)
    print("PRUEBA")
    print("Accuracy en datos de prueba:", accuracy_prueba)
    print("Precision en datos de prueba:", precision_prueba)
    print("Recall en datos de prueba:", recall_prueba)
    print("F1-score en datos de prueba:", f1_prueba)

    # Calcular la métrica a optimizar utilizando validación cruzada
    metrica = cross_val_score(pipeline_estimador, X_train, y_train, scoring='accuracy', cv=5).mean()

    # Devolver la métrica para ser maximizada por Optuna
    return metrica

# Crear un estudio de Optuna
study = optuna.create_study(direction='maximize')

# Ejecutar la optimización de hiperparámetros
study.optimize(objective, n_trials=100)

# Obtener los mejores hiperparámetros encontrados
mejores_hiperparametros = study.best_params
metrica_maxima = study.best_value

# Imprimir los mejores hiperparámetros y la métrica máxima obtenida
print("Mejores hiperparámetros encontrados:", mejores_hiperparametros)
print("Métrica máxima obtenida:", metrica_maxima)


In [None]:
def objective(trial):
    params = {
        'learning_rate': trial.suggest_float('learning_rate', 0.0001, 0.1, log=True),
        'max_depth': trial.suggest_int('max_depth', 3, 10),
        'colsample_bytree': trial.suggest_float('colsample_bytree', 0.5, 1.0),
        'n_estimators': trial.suggest_int('n_estimators', 100, 1000),
        'reg_alpha': trial.suggest_float('reg_alpha', 1e-10, 1.0, log=True),
        'reg_lambda': trial.suggest_float('reg_lambda', 1e-10, 1.0, log=True),
        'min_child_weight': trial.suggest_int('min_child_weight', 1, 10),
        'gamma': trial.suggest_float('gamma', 1e-10, 1.0, log=True),
        'subsample': trial.suggest_float('subsample', 0.5, 1.0)
    }


    # Crear el pipeline con los hiperparámetros sugeridos por Optuna
    pipeline_estimador = Pipeline([
        ("procesado_variables", pipeline_procesado),
        ("estimador", xgb.XGBClassifier(**params))
    ])

    # Ajustar el pipeline al conjunto de entrenamiento
    pipeline_estimador.fit(X_train, y_train)

    # Realizar predicciones en los datos de entrenamiento
    predicciones_entrenamiento = pipeline_estimador.predict(X_train)

    # Calcular las métricas de evaluación en los datos de entrenamiento
    accuracy_entrenamiento = accuracy_score(y_train, predicciones_entrenamiento)
    precision_entrenamiento = precision_score(y_train, predicciones_entrenamiento, average='macro')
    recall_entrenamiento = recall_score(y_train, predicciones_entrenamiento, average='macro')
    f1_entrenamiento = f1_score(y_train, predicciones_entrenamiento, average='macro')

    # Realizar predicciones en los datos de prueba
    predicciones_prueba = pipeline_estimador.predict(X_test)

    # Calcular las métricas de evaluación en los datos de prueba
    accuracy_prueba = accuracy_score(y_test, predicciones_prueba)
    precision_prueba = precision_score(y_test, predicciones_prueba, average='macro')
    recall_prueba = recall_score(y_test, predicciones_prueba, average='macro')
    f1_prueba = f1_score(y_test, predicciones_prueba, average='macro')

    # Imprimir las métricas de evaluación en los datos de entrenamiento y de prueba
    print("ENTRENAMIENTO")
    print("Accuracy en datos de entrenamiento:", accuracy_entrenamiento)
    print("Precision en datos de entrenamiento:", precision_entrenamiento)
    print("Recall en datos de entrenamiento:", recall_entrenamiento)
    print("F1-score en datos de entrenamiento:", f1_entrenamiento)
    print("PRUEBA")
    print("Accuracy en datos de prueba:", accuracy_prueba)
    print("Precision en datos de prueba:", precision_prueba)
    print("Recall en datos de prueba:", recall_prueba)
    print("F1-score en datos de prueba:", f1_prueba)

    # Calcular la métrica a optimizar utilizando validación cruzada
    metrica = cross_val_score(pipeline_estimador, X_train, y_train, scoring='accuracy', cv=5).mean()

    # Devolver la métrica para ser maximizada por Optuna
    return metrica

# Crear un estudio de Optuna
study = optuna.create_study(direction='maximize')

# Ejecutar la optimización de hiperparámetros
study.optimize(objective, n_trials=100)

# Obtener los mejores hiperparámetros encontrados
mejores_hiperparametros = study.best_params
metrica_maxima = study.best_value

# Imprimir los mejores hiperparámetros y la métrica máxima obtenida
print("Mejores hiperparámetros encontrados:", mejores_hiperparametros)
print("Métrica máxima obtenida:", metrica_maxima)


### Finalmente, los mejores hiperparametros obtenidos son guardados en otro notebook donde se almacenan y ordenan para encontrar la mejor configuración de hiperparametros para el modelo XGBoost