# La optimización de hiperparámetros

Es un paso crítico en el proceso de construcción de modelos de aprendizaje automático. Los hiperparámetros son variables que afectan el rendimiento del modelo pero que no se aprenden directamente a partir de los datos. Algunos ejemplos de hiperparámetros comunes son la tasa de aprendizaje en algoritmos de aprendizaje profundo, la profundidad máxima en árboles de decisión y el parámetro C en SVM.

El proceso de optimización de hiperparámetros implica buscar la combinación óptima de hiperparámetros que maximice el rendimiento del modelo en un conjunto de datos de prueba. Hay varias estrategias que se pueden utilizar para la optimización de hiperparámetros, incluyendo la búsqueda de cuadrícula, la búsqueda aleatoria y la optimización bayesiana.

La búsqueda de cuadrícula es una estrategia de optimización de hiperparámetros exhaustiva que implica probar todas las combinaciones posibles de hiperparámetros en una cuadrícula predefinida. La búsqueda aleatoria, por otro lado, implica seleccionar aleatoriamente combinaciones de hiperparámetros dentro de un rango predefinido.

La optimización bayesiana es una estrategia de optimización de hiperparámetros más avanzada que utiliza un modelo probabilístico para modelar la relación entre los hiperparámetros y el rendimiento del modelo. En lugar de probar todas las combinaciones de hiperparámetros, la optimización bayesiana utiliza la información recopilada en iteraciones anteriores para guiar la selección de hiperparámetros en iteraciones futuras.

En Python, hay varias bibliotecas que pueden ayudar con la optimización de hiperparámetros, incluyendo Scikit-Learn, Keras-Tuner y Optuna. Scikit-Learn proporciona varias herramientas de búsqueda de cuadrícula y búsqueda aleatoria, mientras que Keras-Tuner y Optuna proporcionan herramientas más avanzadas de optimización de hiperparámetros, incluyendo la optimización bayesiana.

En general, la optimización de hiperparámetros es un paso crítico en el proceso de construcción de modelos de aprendizaje automático. Las estrategias de optimización de hiperparámetros pueden variar desde enfoques simples de búsqueda de cuadrícula hasta técnicas más avanzadas de optimización bayesiana. Al elegir una estrategia de optimización de hiperparámetros, es importante tener en cuenta el tiempo de procesamiento, la complejidad del modelo y el tamaño de los datos.

## Búsqueda en cuadrícula (grid search):
La búsqueda en cuadrícula es una técnica de optimización de hiperparámetros que implica la exploración sistemática de todas las combinaciones posibles de valores de hiperparámetros en una cuadrícula predefinida. Por ejemplo, si estamos ajustando un modelo SVM, podemos querer ajustar los valores de los parámetros "C" y "gamma". Podemos definir una cuadrícula de valores para cada hiperparámetro y probar todas las combinaciones posibles para encontrar los mejores valores. Aquí hay un ejemplo de cómo hacer una búsqueda en cuadrícula en Scikit-Learn:


In [6]:

from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC
from sklearn.datasets import load_iris

# Cargamos el dataset de iris
iris = load_iris()

# Definimos los parámetros que queremos optimizar
param_grid = {'C': [0.1, 1, 10], 'gamma': [0.1, 1, 10]}

# Creamos un objeto de clasificador SVM
svc = SVC()

# Realizamos la búsqueda en cuadrícula con validación cruzada de 5-fold
grid_search = GridSearchCV(svc, param_grid, cv=5, verbose=True)

# Entrenamos el modelo con los datos de entrenamiento
grid_search.fit(iris.data, iris.target)

# Imprimimos los mejores parámetros y el mejor puntaje
print("Mejores parámetros: ", grid_search.best_params_)
print("Mejor puntaje: ", grid_search.best_score_)

Fitting 5 folds for each of 9 candidates, totalling 45 fits
Mejores parámetros:  {'C': 1, 'gamma': 0.1}
Mejor puntaje:  0.9800000000000001


## Búsqueda aleatoria (random search):
La búsqueda aleatoria es una técnica de optimización de hiperparámetros que implica la exploración aleatoria de valores de hiperparámetros dentro de un rango predefinido. A diferencia de la búsqueda en cuadrícula, la búsqueda aleatoria no examina todas las combinaciones posibles de valores de hiperparámetros. En su lugar, selecciona aleatoriamente combinaciones de hiperparámetros para evaluar. Aquí hay un ejemplo de cómo hacer una búsqueda aleatoria en Scikit-Learn:

In [10]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import numpy as np

# Cargamos el dataset de iris
iris = load_iris()

# Definimos los parámetros que queremos optimizar
param_distributions = {'n_estimators': np.arange(100, 1000, 100),
                       'max_depth': [3, 5, 7, 9]}

# Creamos un objeto de clasificador de bosque aleatorio
rf = RandomForestClassifier()

# Realizamos la búsqueda aleatoria con validación cruzada de 5-fold
random_search = RandomizedSearchCV(rf, param_distributions, cv=5, verbose=True, n_iter=3)

# Entrenamos el modelo con los datos de entrenamiento
random_search.fit(iris.data, iris.target)

# Imprimimos los mejores parámetros y el mejor puntaje
print("Mejores parámetros: ", random_search.best_params_)
print("Mejor puntaje: ", random_search.best_score_)

Fitting 5 folds for each of 3 candidates, totalling 15 fits
Mejores parámetros:  {'n_estimators': 200, 'max_depth': 9}
Mejor puntaje:  0.9666666666666668


## Optimización bayesiana:
La optimización bayesiana es una técnica de optimización de hiperparámetros más avanzada que utiliza un modelo probabilístico para modelar a relación entre los hiperparámetros y el rendimiento del modelo y determinar qué combinaciones de hiperparámetros son más prometedoras para explorar. En lugar de evaluar todas las combinaciones posibles de valores de hiperparámetros, la optimización bayesiana se centra en las combinaciones que son más probables de mejorar el rendimiento del modelo.

Aquí hay un ejemplo de cómo realizar una optimización bayesiana de hiperparámetros en Python utilizando la biblioteca de optimización bayesiana BayesianOptimization:

In [None]:
!pip install bayesian-optimization

In [11]:
from bayes_opt import BayesianOptimization
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
# Cargamos el dataset de iris
iris = load_iris()

# Definimos la función objetivo que queremos maximizar
def rf_cv(n_estimators, max_depth, min_samples_split, max_features):
    """
    Función para optimizar los hiperparámetros de un clasificador de bosque aleatorio
    utilizando validación cruzada.
    """
    clf = RandomForestClassifier(
        n_estimators=int(n_estimators),
        max_depth=int(max_depth),
        min_samples_split=int(min_samples_split),
        max_features=max(min(max_features, 0.999), 1e-3),
        random_state=42,
    )
    return cross_val_score(clf, iris.data, iris.target, cv=5).mean()

# Definimos los rangos de valores para los hiperparámetros que queremos optimizar
pbounds = {
    'n_estimators': (100, 1000),
    'max_depth': (3, 10),
    'min_samples_split': (2, 10),
    'max_features': (0.1, 0.999),
}

# Creamos un objeto de optimización bayesiana
optimizer = BayesianOptimization(
    f=rf_cv,
    pbounds=pbounds,
    random_state=42,
)

# Realizamos la optimización bayesiana durante 20 iteraciones
optimizer.maximize(init_points=5, n_iter=15)

# Imprimimos los mejores parámetros y el mejor puntaje
print("Mejores parámetros: ", optimizer.max["params"])
print("Mejor puntaje: ", optimizer.max["target"])

|   iter    |  target   | max_depth | max_fe... | min_sa... | n_esti... |
-------------------------------------------------------------------------
| [0m1        [0m | [0m0.96     [0m | [0m5.622    [0m | [0m0.9547   [0m | [0m7.856    [0m | [0m638.8    [0m |
| [95m2        [0m | [95m0.9667   [0m | [95m4.092    [0m | [95m0.2402   [0m | [95m2.465    [0m | [95m879.6    [0m |
| [0m3        [0m | [0m0.96     [0m | [0m7.208    [0m | [0m0.7366   [0m | [0m2.165    [0m | [0m972.9    [0m |
| [0m4        [0m | [0m0.96     [0m | [0m8.827    [0m | [0m0.2909   [0m | [0m3.455    [0m | [0m265.1    [0m |
| [0m5        [0m | [0m0.96     [0m | [0m5.13     [0m | [0m0.5718   [0m | [0m5.456    [0m | [0m362.1    [0m |
| [0m6        [0m | [0m0.9667   [0m | [0m4.09     [0m | [0m0.3423   [0m | [0m2.799    [0m | [0m878.6    [0m |
| [0m7        [0m | [0m0.96     [0m | [0m9.93     [0m | [0m0.3652   [0m | [0m2.056    [0m | [0m790.9   

In [12]:
!pip install optuna




[notice] A new release of pip available: 22.3.1 -> 23.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


### Ejemplo de ajuste de hiperparámetros con Optuna para un problema de clasificación


In [13]:
import optuna
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Generar datos sintéticos para clasificación
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, n_classes=2, random_state=42)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Definir la función objetivo para optimizar
def objective(trial):
    # Definir los rangos de búsqueda de los hiperparámetros
    n_estimators = trial.suggest_int('n_estimators', 10, 100)
    max_depth = trial.suggest_int('max_depth', 2, 10)
    min_samples_split = trial.suggest_int('min_samples_split', 2, 10)
    min_samples_leaf = trial.suggest_int('min_samples_leaf', 1, 10)
    
    # Crear un clasificador Random Forest con los hiperparámetros seleccionados
    clf = RandomForestClassifier(n_estimators=n_estimators,
                                  max_depth=max_depth,
                                  min_samples_split=min_samples_split,
                                  min_samples_leaf=min_samples_leaf,
                                  random_state=42)
    
    # Entrenar y evaluar el modelo
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    
    return accuracy

# Crear un objeto de estudio Optuna
study = optuna.create_study(direction='maximize')

# Ejecutar la optimización de hiperparámetros
study.optimize(objective, n_trials=50)

# Obtener los hiperparámetros óptimos
best_params = study.best_params
print(f'Hiperparámetros óptimos: {best_params}')

[32m[I 2023-03-29 20:39:20,299][0m A new study created in memory with name: no-name-f153fced-194b-4c19-afb9-80437c598922[0m
[32m[I 2023-03-29 20:39:21,086][0m Trial 0 finished with value: 0.8866666666666667 and parameters: {'n_estimators': 93, 'max_depth': 4, 'min_samples_split': 3, 'min_samples_leaf': 5}. Best is trial 0 with value: 0.8866666666666667.[0m
[32m[I 2023-03-29 20:39:21,350][0m Trial 1 finished with value: 0.9 and parameters: {'n_estimators': 20, 'max_depth': 10, 'min_samples_split': 10, 'min_samples_leaf': 4}. Best is trial 1 with value: 0.9.[0m
[32m[I 2023-03-29 20:39:22,151][0m Trial 2 finished with value: 0.91 and parameters: {'n_estimators': 72, 'max_depth': 6, 'min_samples_split': 5, 'min_samples_leaf': 5}. Best is trial 2 with value: 0.91.[0m
[32m[I 2023-03-29 20:39:22,354][0m Trial 3 finished with value: 0.89 and parameters: {'n_estimators': 12, 'max_depth': 8, 'min_samples_split': 7, 'min_samples_leaf': 4}. Best is trial 2 with value: 0.91.[0m
[32m

[32m[I 2023-03-29 20:39:50,265][0m Trial 37 finished with value: 0.9133333333333333 and parameters: {'n_estimators': 79, 'max_depth': 9, 'min_samples_split': 3, 'min_samples_leaf': 3}. Best is trial 19 with value: 0.93.[0m
[32m[I 2023-03-29 20:39:51,330][0m Trial 38 finished with value: 0.9066666666666666 and parameters: {'n_estimators': 88, 'max_depth': 8, 'min_samples_split': 4, 'min_samples_leaf': 6}. Best is trial 19 with value: 0.93.[0m
[32m[I 2023-03-29 20:39:52,033][0m Trial 39 finished with value: 0.9066666666666666 and parameters: {'n_estimators': 51, 'max_depth': 7, 'min_samples_split': 5, 'min_samples_leaf': 1}. Best is trial 19 with value: 0.93.[0m
[32m[I 2023-03-29 20:39:52,819][0m Trial 40 finished with value: 0.8933333333333333 and parameters: {'n_estimators': 66, 'max_depth': 5, 'min_samples_split': 2, 'min_samples_leaf': 8}. Best is trial 19 with value: 0.93.[0m
[32m[I 2023-03-29 20:39:54,020][0m Trial 41 finished with value: 0.9133333333333333 and parame

Hiperparámetros óptimos: {'n_estimators': 85, 'max_depth': 9, 'min_samples_split': 4, 'min_samples_leaf': 2}


In [17]:
import optuna
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error

# Generar datos sintéticos para regresión
X, y = make_regression(n_samples=1000, n_features=20, n_informative=10, random_state=42)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Definir la función objetivo para optimizar
def objective(trial):
     #metros
    alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
    max_iter = trial.suggest_int('max_iter', 100, 1000)
    tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
    
    # Crear un modelo de regresión Ridge con los hiperparámetros seleccionados
    reg = Ridge(alpha=alpha, max_iter=max_iter, tol=tol, random_state=42)
    
    # Entrenar y evaluar el modelo
    reg.fit(X_train, y_train)
    y_pred = reg.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    
    return mse

# Crear un objeto de estudio Optuna
study = optuna.create_study(direction='minimize')

# Ejecutar la optimización de hiperparámetros
study.optimize(objective, n_trials=50)

# Obtener los hiperparámetros óptimos
best_params = study.best_params
print(f'Hiperparámetros óptimos: {best_params}')

[32m[I 2023-03-29 17:21:53,943][0m A new study created in memory with name: no-name-7024258d-4b85-4bbf-979a-84d272b75b09[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:53,953][0m Trial 0 finished with value: 4660.865325519481 and parameters: {'alpha': 317.1199910892221, 'max_iter': 313, 'tol': 2.394393219804691e-05}. Best is trial 0 with value: 4660.865325519481.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:53,959][0m Trial 1 finished with value: 9.963273189550617e-08 and parameters: {'alpha': 0.0009711770666913667, 'max_iter': 349, 'tol': 2.626210392829354e-05}. Best is trial 1 with value: 9.963273189550617e-08.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:53,965][0m Trial 2 finished with value: 1.1671603101400753

  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:53,999][0m Trial 9 finished with value: 10699.408330748842 and parameters: {'alpha': 649.2804220766293, 'max_iter': 143, 'tol': 0.01975950581312955}. Best is trial 2 with value: 1.1671603101400753e-10.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,021][0m Trial 10 finished with value: 1.2555064999858736e-11 and parameters: {'alpha': 1.0902000801239068e-05, 'max_iter': 646, 'tol': 0.0002279619607881251}. Best is trial 10 with value: 1.2555064999858736e-11.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,043][0m Trial 11 finished with value: 2.7287452803573226e-11 and parameters: {'alpha': 1.6072307417018255e-05, 'max_iter': 618, 'tol': 0.00017334725154098652}. Best is trial

  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,185][0m Trial 18 finished with value: 1.454925476880552e-06 and parameters: {'alpha': 0.0037112456160226376, 'max_iter': 974, 'tol': 9.428356056354241e-05}. Best is trial 17 with value: 1.0931674848402104e-11.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,208][0m Trial 19 finished with value: 2.112701369385487e-09 and parameters: {'alpha': 0.00014142164140932767, 'max_iter': 753, 'tol': 0.09830550840219414}. Best is trial 17 with value: 1.0931674848402104e-11.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,233][0m Trial 20 finished with value: 1.9627207776864947e-09 and parameters: {'alpha': 0.00013630948380421632, 'max_iter': 1000, 'tol': 0.0019401071893517603}. Best 

  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,432][0m Trial 27 finished with value: 6.269311080527262e-07 and parameters: {'alpha': 0.0024361741901312963, 'max_iter': 255, 'tol': 0.001103857503895474}. Best is trial 17 with value: 1.0931674848402104e-11.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,452][0m Trial 28 finished with value: 4.436536438002063e-09 and parameters: {'alpha': 0.00020493629833895753, 'max_iter': 851, 'tol': 5.708735012674368e-05}. Best is trial 17 with value: 1.0931674848402104e-11.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,477][0m Trial 29 finished with value: 1.7359156423639314e-10 and parameters: {'alpha': 4.053788214080279e-05, 'max_iter': 264, 'tol': 0.00023817790684427354}. Best 

  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,673][0m Trial 36 finished with value: 3.8880953088443614e-10 and parameters: {'alpha': 6.066877292001321e-05, 'max_iter': 780, 'tol': 0.00011400432823180055}. Best is trial 31 with value: 1.0896796479941902e-11.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,705][0m Trial 37 finished with value: 1.2579209468355111e-11 and parameters: {'alpha': 1.0912478461029031e-05, 'max_iter': 375, 'tol': 1.0506509457846422e-05}. Best is trial 31 with value: 1.0896796479941902e-11.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,728][0m Trial 38 finished with value: 1.832151897192062e-08 and parameters: {'alpha': 0.0004164642702453203, 'max_iter': 283, 'tol': 1.2113012173295367e-05}. B

  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,938][0m Trial 45 finished with value: 1.4306028496843873e-11 and parameters: {'alpha': 1.1637408404838784e-05, 'max_iter': 922, 'tol': 1.4618449921627616e-05}. Best is trial 31 with value: 1.0896796479941902e-11.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:54,971][0m Trial 46 finished with value: 1.3683206922630806e-09 and parameters: {'alpha': 0.00011381270461681599, 'max_iter': 102, 'tol': 1.765161962572602e-05}. Best is trial 31 with value: 1.0896796479941902e-11.[0m
  alpha = trial.suggest_loguniform('alpha', 1e-5, 1e3)
  tol = trial.suggest_loguniform('tol', 1e-5, 1e-1)
[32m[I 2023-03-29 17:21:55,008][0m Trial 47 finished with value: 5.281984160749174e-11 and parameters: {'alpha': 2.2361209025042028e-05, 'max_iter': 315, 'tol': 1.0387217493210923e-05}. 

Hiperparámetros óptimos: {'alpha': 1.015654845458343e-05, 'max_iter': 547, 'tol': 0.0004327224190628553}


## ACTIVIDAD

Optimicemos los modelos de la claseanterior utilizando el codigo de hyperparameter tuning

1. Recolectar y preparar los datos: Es importante recopilar los datos relevantes y prepararlos adecuadamente antes de poder comenzar a entrenar un modelo de machine learning. Esto puede incluir la limpieza de los datos, la normalización, la selección de características y la división de los datos en conjuntos de entrenamiento y prueba.

2. Seleccionar un algoritmo de aprendizaje automático: Hay muchos tipos diferentes de algoritmos de aprendizaje automático, cada uno de los cuales se adapta mejor a diferentes tipos de datos y problemas. Por lo tanto, es importante elegir el algoritmo adecuado para el problema específico que estás tratando de resolver.

3. Entrenar el modelo: Una vez que hayas seleccionado el algoritmo de aprendizaje automático, es hora de entrenar el modelo. Esto implica alimentar los datos de entrenamiento al modelo y ajustar los parámetros para que el modelo pueda hacer predicciones precisas.

4. Evaluar el modelo: Después de entrenar el modelo, es importante evaluar su rendimiento en los datos de prueba. Esto puede implicar el cálculo de métricas como la precisión, la sensibilidad y la especificidad.
    
5. Ajustar los hiperparámetros: Una vez que hayas seleccionado el algoritmo de aprendizaje automático, es posible que necesites ajustar los hiperparámetros del modelo para obtener el mejor rendimiento posible. Los hiperparámetros son valores que se establecen antes de entrenar el modelo y afectan cómo se ajusta el modelo a los datos. Puedes ajustar los hiperparámetros mediante la búsqueda de cuadrícula, la búsqueda aleatoria, la optimización bayesiana u otros métodos.

6. Evaluar el modelo con los datos de validación: Después de ajustar los hiperparámetros, es importante evaluar el rendimiento del modelo utilizando un conjunto de datos de validación que no se haya utilizado en el entrenamiento ni en la evaluación. Esto puede ayudarte a seleccionar los mejores hiperparámetros y a evitar el sobreajuste.

7. Entrenar el modelo final: Después de ajustar los hiperparámetros y evaluar el modelo con los datos de validación, es hora de entrenar el modelo final utilizando todos los datos de entrenamiento disponibles.

8. Desplegar el modelo: Una vez que hayas entrenado el modelo final, es posible que desees desplegarlo en un entorno de producción para hacer predicciones en tiempo real. Esto puede implicar la creación de una API, un servicio web o una aplicación móvil que pueda conectarse con el modelo y hacer predicciones en función de los nuevos datos que se ingresen.

9. Monitorear y mantener el modelo: Una vez que el modelo se ha desplegado, es importante monitorear su rendimiento y realizar mantenimiento periódico. Esto puede implicar la actualización del modelo con nuevos datos o ajustes de hiperparámetros para mantener el rendimiento óptimo del modelo.

In [16]:
# CARGAR la Data
import pandas as pd
df=pd.read_csv("heart.csv",usecols =['age', 'sex', 'cp', 'trtbps', 'chol', 'fbs', 'restecg', 'thalachh',
       'exng', 'oldpeak', 'slp',  'output'] )
df.head()



Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,output
0,63,1,3,145,233,1,0,150,0,2.3,0,1
1,37,1,2,130,250,0,1,187,0,3.5,0,1
2,41,0,1,130,204,0,0,172,0,1.4,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,1


In [17]:
import os
import numpy as np 
import pandas as pd 
import warnings
#import seaborn as sns
import matplotlib.pyplot as plt
#import plotly.express as px
warnings.filterwarnings("ignore")
pd.set_option("display.max_rows",None)
from sklearn import preprocessing
import matplotlib 
matplotlib.style.use('ggplot')
from sklearn.preprocessing import LabelEncoder

In [18]:
df_tree = df.apply(LabelEncoder().fit_transform)
df_tree.head()

Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,output
0,29,1,3,31,64,1,0,49,0,22,0,1
1,3,1,2,22,80,0,1,84,0,32,0,1
2,7,0,1,22,35,0,0,71,0,14,2,1
3,22,1,1,14,67,0,1,76,0,8,2,1
4,23,0,0,14,145,0,1,62,1,6,2,1


In [19]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier
import xgboost as xgb
import lightgbm as lgb
import shap

# Carga los datos
data = df_tree.copy()
X = data[['age', 'sex', 'cp', 'trtbps', 'chol', 'fbs', 'restecg', 'thalachh',
       'exng', 'oldpeak', 'slp']]
y = data["output"]

# División de los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

# Entrenamiento y evaluación de los modelos
models = {
    "Logistic Regression": LogisticRegression(),
    "Decision Tree": DecisionTreeClassifier(),
    "Random Forest": RandomForestClassifier(),
    "Gradient Boosting": GradientBoostingClassifier(),
    "AdaBoost": AdaBoostClassifier(),
    "XGBoost": xgb.XGBClassifier(),
    "LightGBM": lgb.LGBMClassifier()
}

results = pd.DataFrame(columns=["Accuracy", "Precision", "Recall", "F1 Score", "ROC AUC"])

for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    roc_auc = roc_auc_score(y_test, y_pred)
    results.loc[name] = [accuracy, precision, recall, f1, roc_auc]

# Muestra los resultados
print(results)

                     Accuracy  Precision    Recall  F1 Score   ROC AUC
Logistic Regression  0.791209   0.750000  0.893617  0.815534  0.787718
Decision Tree        0.593407   0.596154  0.659574  0.626263  0.591151
Random Forest        0.758242   0.727273  0.851064  0.784314  0.755077
Gradient Boosting    0.714286   0.705882  0.765957  0.734694  0.712524
AdaBoost             0.714286   0.698113  0.787234  0.740000  0.711799
XGBoost              0.725275   0.720000  0.765957  0.742268  0.723888
LightGBM             0.747253   0.722222  0.829787  0.772277  0.744439


In [20]:

from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris



# Definimos los parámetros que queremos optimizar
param_grid = {'C': [0.1, 1, 10], 'penalty': ["l1","l2"]}

# Creamos un objeto de clasificador Logistic Regression
model = LogisticRegression()

# Realizamos la búsqueda en cuadrícula con validación cruzada de 5-fold
grid_search = GridSearchCV(model, param_grid, cv=5)

# Entrenamos el modelo con los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Imprimimos los mejores parámetros y el mejor puntaje
print("Mejores parámetros: ", grid_search.best_params_)
print("Mejor puntaje: ", grid_search.best_score_)

Mejores parámetros:  {'C': 1, 'penalty': 'l2'}
Mejor puntaje:  0.7925802879291252


In [21]:
#Optimizando el random
import optuna
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score



# Definir la función objetivo para optimizar
def objective(trial):
    # Definir los rangos de búsqueda de los hiperparámetros
    n_estimators = trial.suggest_int('n_estimators', 10, 100)
    max_depth = trial.suggest_int('max_depth', 2, 10)
    min_samples_split = trial.suggest_int('min_samples_split', 2, 10)
    min_samples_leaf = trial.suggest_int('min_samples_leaf', 1, 10)
    
    # Crear un clasificador Random Forest con los hiperparámetros seleccionados
    clf = RandomForestClassifier(n_estimators=n_estimators,
                                  max_depth=max_depth,
                                  min_samples_split=min_samples_split,
                                  min_samples_leaf=min_samples_leaf,
                                  random_state=42)
    
    # Entrenar y evaluar el modelo
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    
    return accuracy

# Crear un objeto de estudio Optuna
study = optuna.create_study(direction='maximize')

# Ejecutar la optimización de hiperparámetros
study.optimize(objective, n_trials=50)

# Obtener los hiperparámetros óptimos
best_params = study.best_params
print(f'Hiperparámetros óptimos: {best_params}')

[32m[I 2023-03-29 22:30:57,822][0m A new study created in memory with name: no-name-21e71153-f0f6-40f9-a2d0-8cc8ff1b129f[0m
[32m[I 2023-03-29 22:30:57,860][0m Trial 0 finished with value: 0.8021978021978022 and parameters: {'n_estimators': 37, 'max_depth': 3, 'min_samples_split': 5, 'min_samples_leaf': 2}. Best is trial 0 with value: 0.8021978021978022.[0m
[32m[I 2023-03-29 22:30:57,892][0m Trial 1 finished with value: 0.7692307692307693 and parameters: {'n_estimators': 33, 'max_depth': 7, 'min_samples_split': 10, 'min_samples_leaf': 8}. Best is trial 0 with value: 0.8021978021978022.[0m
[32m[I 2023-03-29 22:30:57,944][0m Trial 2 finished with value: 0.7802197802197802 and parameters: {'n_estimators': 49, 'max_depth': 2, 'min_samples_split': 10, 'min_samples_leaf': 5}. Best is trial 0 with value: 0.8021978021978022.[0m
[32m[I 2023-03-29 22:30:57,960][0m Trial 3 finished with value: 0.7692307692307693 and parameters: {'n_estimators': 12, 'max_depth': 4, 'min_samples_split'

[32m[I 2023-03-29 22:30:59,379][0m Trial 34 finished with value: 0.8131868131868132 and parameters: {'n_estimators': 16, 'max_depth': 4, 'min_samples_split': 5, 'min_samples_leaf': 6}. Best is trial 14 with value: 0.8131868131868132.[0m
[32m[I 2023-03-29 22:30:59,425][0m Trial 35 finished with value: 0.7472527472527473 and parameters: {'n_estimators': 36, 'max_depth': 8, 'min_samples_split': 6, 'min_samples_leaf': 5}. Best is trial 14 with value: 0.8131868131868132.[0m
[32m[I 2023-03-29 22:30:59,460][0m Trial 36 finished with value: 0.8021978021978022 and parameters: {'n_estimators': 24, 'max_depth': 6, 'min_samples_split': 8, 'min_samples_leaf': 9}. Best is trial 14 with value: 0.8131868131868132.[0m
[32m[I 2023-03-29 22:30:59,544][0m Trial 37 finished with value: 0.7912087912087912 and parameters: {'n_estimators': 77, 'max_depth': 5, 'min_samples_split': 3, 'min_samples_leaf': 8}. Best is trial 14 with value: 0.8131868131868132.[0m
[32m[I 2023-03-29 22:30:59,612][0m Tri

Hiperparámetros óptimos: {'n_estimators': 21, 'max_depth': 3, 'min_samples_split': 4, 'min_samples_leaf': 4}


In [22]:
model_rf = RandomForestClassifier()
model_rf.fit(X_train,y_train)

In [24]:
model_rf_tun = RandomForestClassifier(n_estimators = 12, max_depth = 16, min_samples_split = 6, min_samples_leaf = 10)
model_rf_tun.fit(X_train,y_train)

In [25]:
y_pred = model_rf.predict(X_test)
accuracy_rf = accuracy_score(y_test, y_pred)

In [26]:
y_pred = model_rf_tun.predict(X_test)
accuracy_rf_tun = accuracy_score(y_test, y_pred)

In [27]:
print(accuracy_rf,accuracy_rf_tun)

0.7472527472527473 0.7802197802197802


In [28]:
model_lg = LogisticRegression()
model_lg.fit(X_train,y_train)

In [29]:
model_lg_tun = LogisticRegression(C = 1, penalty = 'l2')
model_lg_tun.fit(X_train,y_train)

In [30]:
y_pred = model_lg.predict(X_test)
accuracy_lg = accuracy_score(y_test, y_pred)

In [31]:
y_pred = model_lg_tun.predict(X_test)
accuracy_lg_tun = accuracy_score(y_test, y_pred)

In [32]:
print(accuracy_lg,accuracy_lg_tun)

0.7912087912087912 0.7912087912087912


In [33]:
print(accuracy_rf,accuracy_rf_tun)

0.7472527472527473 0.7802197802197802


In [34]:
#LIGHTGBM
# Definir la función objetivo para optimizar.
#cuidado: a mas parametros de tuneo en train pero es malo en test
def objective(trial):
    # Definir los rangos de búsqueda de los hiperparámetros
    n_estimators = trial.suggest_int('n_estimators', 10, 100)# se sugieren valores desde el 10 al 100
    max_depth = trial.suggest_int('max_depth', 2, 10)
    min_child_samples = trial.suggest_int('min_child_samples', 2, 10)
    
    # Crear un clasificador Random Forest con los hiperparámetros seleccionados
    clf = lgb.LGBMClassifier(n_estimators=n_estimators,
                                  max_depth=max_depth,
                                  min_child_samples=min_child_samples,
                                  random_state=42)
    
    # Entrenar y evaluar el modelo
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    
    return accuracy

# Crear un objeto de estudio Optuna
study = optuna.create_study(direction='maximize')

# Ejecutar la optimización de hiperparámetros
study.optimize(objective, n_trials=50)

# Obtener los hiperparámetros óptimos
best_params = study.best_params
print(f'Hiperparámetros óptimos: {best_params}')

[32m[I 2023-03-29 22:32:32,554][0m A new study created in memory with name: no-name-80840fb4-1254-40cb-a7b1-60efc5ee7020[0m
[32m[I 2023-03-29 22:32:32,576][0m Trial 0 finished with value: 0.7142857142857143 and parameters: {'n_estimators': 13, 'max_depth': 6, 'min_child_samples': 5}. Best is trial 0 with value: 0.7142857142857143.[0m
[32m[I 2023-03-29 22:32:32,609][0m Trial 1 finished with value: 0.7692307692307693 and parameters: {'n_estimators': 75, 'max_depth': 3, 'min_child_samples': 3}. Best is trial 1 with value: 0.7692307692307693.[0m
[32m[I 2023-03-29 22:32:32,632][0m Trial 2 finished with value: 0.6923076923076923 and parameters: {'n_estimators': 25, 'max_depth': 7, 'min_child_samples': 10}. Best is trial 1 with value: 0.7692307692307693.[0m
[32m[I 2023-03-29 22:32:32,649][0m Trial 3 finished with value: 0.7582417582417582 and parameters: {'n_estimators': 33, 'max_depth': 4, 'min_child_samples': 10}. Best is trial 1 with value: 0.7692307692307693.[0m
[32m[I 202

[32m[I 2023-03-29 22:32:33,840][0m Trial 38 finished with value: 0.7582417582417582 and parameters: {'n_estimators': 74, 'max_depth': 4, 'min_child_samples': 2}. Best is trial 12 with value: 0.8131868131868132.[0m
[32m[I 2023-03-29 22:32:33,867][0m Trial 39 finished with value: 0.7362637362637363 and parameters: {'n_estimators': 32, 'max_depth': 3, 'min_child_samples': 3}. Best is trial 12 with value: 0.8131868131868132.[0m
[32m[I 2023-03-29 22:32:33,909][0m Trial 40 finished with value: 0.7362637362637363 and parameters: {'n_estimators': 81, 'max_depth': 5, 'min_child_samples': 9}. Best is trial 12 with value: 0.8131868131868132.[0m
[32m[I 2023-03-29 22:32:33,946][0m Trial 41 finished with value: 0.8021978021978022 and parameters: {'n_estimators': 53, 'max_depth': 2, 'min_child_samples': 2}. Best is trial 12 with value: 0.8131868131868132.[0m
[32m[I 2023-03-29 22:32:33,975][0m Trial 42 finished with value: 0.8021978021978022 and parameters: {'n_estimators': 55, 'max_dept

Hiperparámetros óptimos: {'n_estimators': 57, 'max_depth': 2, 'min_child_samples': 2}


In [35]:
lg_model_tuneado =  lgb.LGBMClassifier(n_estimators=57, max_depth=2,min_child_samples=2)
lg_model_tuneado.fit(X_train, y_train)
y_pred = lg_model_tuneado.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(accuracy)

0.8131868131868132


In [36]:
lg_model =  lgb.LGBMClassifier()
lg_model.fit(X_train, y_train)
y_pred = lg_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(accuracy)

0.7472527472527473


## Tarea

#tarea hallar el mejor modelo para la prediccion de la diabetes utilizando nuestros codigos anterior



In [1]:
import sklearn.datasets
 
data = sklearn.datasets.fetch_openml("diabetes", version=1, as_frame=True, return_X_y=False)
data = data["frame"]

  warn(
