| **Inicio** | **atrás 15** | **Siguiente 17** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./15.DBSCAN_Clustering.ipynb)| [⏩](./17.Bagging%20_Machine_learning.ipynb)|

# **16. Ajuste de Hiperparámetros de Modelos de Machine Learning**

## **Introducción**

El ajuste de hiperparámetros en el contexto de modelos de Machine Learning se refiere al proceso de encontrar la combinación óptima de valores para los parámetros que no se aprenden directamente del conjunto de datos durante el entrenamiento del modelo.

Los hiperparámetros son valores que se definen antes del entrenamiento del modelo y que afectan su capacidad para ajustarse al conjunto de datos. Algunos ejemplos comunes de hiperparámetros son la tasa de aprendizaje, el número de capas en una red neuronal, la cantidad de árboles en un bosque aleatorio, entre otros.

El ajuste de hiperparámetros implica probar diferentes combinaciones de valores de los hiperparámetros y evaluar el desempeño del modelo en un conjunto de validación. El objetivo es encontrar la combinación óptima que maximice la precisión del modelo en el conjunto de datos de prueba.

Este proceso puede ser muy laborioso y a menudo se utilizan técnicas como la búsqueda de cuadrícula, la búsqueda aleatoria y la optimización bayesiana para encontrar la combinación óptima de hiperparámetros. Una vez que se ha encontrado la combinación óptima, se puede utilizar para entrenar el modelo final que se utilizará en la producción.

## **Datos y técnica a utilizar**

Aquí te presento algunos ejemplos de datos y técnicas que se pueden utilizar para el ajuste de hiperparámetros en modelos de Machine Learning:

**1. Datos:**

Conjunto de datos de reconocimiento de imágenes de dígitos escritos a mano `(MNIST)`.

**Técnica:** Búsqueda de cuadrícula para ajustar los hiperparámetros de un modelo de red neuronal convolucional, como el número de capas ocultas, el número de filtros en cada capa, el tamaño del kernel, etc.

**2. Datos:**

 Conjunto de datos de precios de viviendas.

**Técnica:** Búsqueda aleatoria para ajustar los hiperparámetros de un modelo de regresión, como el tamaño del conjunto de entrenamiento, el número de variables de entrada, el tipo de modelo (regresión lineal, regresión de bosque aleatorio, etc.), y otros hiperparámetros específicos del modelo.

**3. Datos:**

 Conjunto de datos de detección de fraude de tarjetas de crédito.

**Técnica:** Optimización bayesiana para ajustar los hiperparámetros de un modelo de clasificación, como el número de árboles en un bosque aleatorio, el número máximo de profundidad, la tasa de aprendizaje, la regularización y otros hiperparámetros específicos del modelo.

Estos son solo algunos ejemplos de datos y técnicas que se pueden utilizar para el ajuste de hiperparámetros en modelos de Machine Learning. La elección de la técnica y los hiperparámetros específicos dependerá del problema y los datos que se estén utilizando.

## **Explicación de bosques aleatorios**

Los bosques aleatorios son un tipo de modelo de Machine Learning que se utilizan para problemas de clasificación y regresión. Son una combinación de múltiples árboles de decisión, en los cuales cada árbol es entrenado con una muestra aleatoria de datos y una selección aleatoria de características.

La idea principal detrás de los bosques aleatorios es que la combinación de múltiples modelos débiles y altamente correlacionados puede producir un modelo fuerte y robusto. Cada árbol en el bosque se entrena en una muestra aleatoria de los datos, lo que significa que cada árbol verá una parte diferente del conjunto de datos y será entrenado con una perspectiva diferente. Además, cada árbol se entrena con una selección aleatoria de características, lo que significa que cada árbol se enfoca en diferentes aspectos de los datos.

A continuación se muestra un ejemplo de código en Python para implementar un modelo de bosque aleatorio utilizando el conjunto de datos de `Iris`:

In [1]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# cargar el conjunto de datos de iris
iris = load_iris()

# dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=42)

# crear un modelo de bosque aleatorio con 100 árboles
rfc = RandomForestClassifier(n_estimators=100, random_state=42)

# ajustar el modelo a los datos de entrenamiento
rfc.fit(X_train, y_train)

# evaluar la precisión del modelo en los datos de prueba
print('Precisión del modelo:', rfc.score(X_test, y_test))


Precisión del modelo: 1.0


En este ejemplo, se utiliza la biblioteca `Scikit-Learn` para cargar el conjunto de datos de `Iris` y dividirlo en un conjunto de datos de entrenamiento y prueba. Luego se crea un modelo de bosque aleatorio con `100` árboles utilizando la clase ```RandomForestClassifier```. Se ajusta el modelo a los datos de entrenamiento y se evalúa la precisión del modelo en los datos de prueba. La precisión del modelo se imprime en la consola.

## **Hiperparámetros de los bosques**

Los hiperparámetros son valores que se establecen antes del entrenamiento de un modelo de Machine Learning y que influyen en su rendimiento. Para los bosques aleatorios, algunos ejemplos de hiperparámetros incluyen el número de árboles en el bosque, la profundidad máxima de los árboles, el número mínimo de muestras requeridas para dividir un nodo, la fracción de características que se seleccionan al azar para cada árbol, entre otros.

A continuación, se muestra un ejemplo de código en Python que utiliza la biblioteca `Scikit-Learn` para entrenar un modelo de bosque aleatorio en el conjunto de datos de `Iris`, ajustando algunos de sus hiperparámetros:

In [2]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV, train_test_split

# cargar el conjunto de datos de iris
iris = load_iris()

# dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=42)

# crear un modelo de bosque aleatorio
rfc = RandomForestClassifier(random_state=42)

# definir una cuadrícula de hiperparámetros para buscar
param_grid = {'n_estimators': [50, 100, 200],
              'max_depth': [3, 5, None],
              'min_samples_split': [2, 5, 10],
              'max_features': ['sqrt', 'log2']}

# realizar la búsqueda de cuadrícula para encontrar los mejores hiperparámetros
grid_search = GridSearchCV(rfc, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# imprimir los mejores hiperparámetros y la precisión del modelo en los datos de prueba
print('Mejores hiperparámetros:', grid_search.best_params_)
print('Precisión del modelo:', grid_search.score(X_test, y_test))


Mejores hiperparámetros: {'max_depth': 3, 'max_features': 'sqrt', 'min_samples_split': 10, 'n_estimators': 100}
Precisión del modelo: 1.0


En este ejemplo, se crea un modelo de bosque aleatorio sin establecer valores para algunos de sus hiperparámetros, para que puedan ser ajustados más tarde mediante la búsqueda de cuadrícula. Se define una cuadrícula de hiperparámetros utilizando la clase ```GridSearchCV``` de Scikit-Learn, que realiza una búsqueda exhaustiva de combinaciones de hiperparámetros para encontrar los valores que producen el mejor rendimiento. En este caso, se ajustan los hiperparámetros ```n_estimators```, ```max_depth```, ```min_samples_split``` y ```max_features```. Luego, se ajusta el modelo a los datos de entrenamiento utilizando la función ```fit``` de la clase ```GridSearchCV``` y se evalúa la precisión del modelo en los datos de prueba. Finalmente, se imprimen los mejores hiperparámetros encontrados y la precisión del modelo en los datos de prueba.

## **Búsqueda en Rejilla (GridSearch)**

La búsqueda en rejilla, o `GridSearch`, es una técnica de ajuste de hiperparámetros que implica la evaluación exhaustiva de todas las combinaciones posibles de valores de hiperparámetros en un rango predefinido. A continuación, se presenta un ejemplo de código en Python que utiliza la biblioteca `Scikit-Learn` para realizar una búsqueda en rejilla en un modelo de regresión logística:

In [4]:
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, train_test_split

# cargar el conjunto de datos de iris
iris = load_iris()

# dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=42)

# crear un modelo de regresión logística
logreg = LogisticRegression(random_state=42, max_iter=1000)

# definir una cuadrícula de hiperparámetros para buscar
param_grid = {'C': [0.1, 1, 10],
              'penalty': ['l1', 'l2'],
              'solver': ['liblinear', 'saga']}

# realizar la búsqueda de cuadrícula para encontrar los mejores hiperparámetros
grid_search = GridSearchCV(logreg, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# imprimir los mejores hiperparámetros y la precisión del modelo en los datos de prueba
print('Mejores hiperparámetros:', grid_search.best_params_)
print('Precisión del modelo:', grid_search.score(X_test, y_test))




Mejores hiperparámetros: {'C': 10, 'penalty': 'l1', 'solver': 'saga'}
Precisión del modelo: 1.0




En este ejemplo, se define una cuadrícula de hiperparámetros utilizando la clase ```GridSearchCV``` de Scikit-Learn. La cuadrícula contiene diferentes valores para los hiperparámetros ```C```, ```penalty``` y ```solver``` del modelo de regresión logística. Luego, se realiza una búsqueda de cuadrícula para evaluar todas las posibles combinaciones de hiperparámetros y encontrar los que producen el mejor rendimiento en términos de precisión en los datos de entrenamiento. La función ```fit``` de la clase ```GridSearchCV``` ajusta el modelo a los datos de entrenamiento utilizando cada combinación de valores de hiperparámetros y evalúa el rendimiento utilizando una validación cruzada con 5 divisiones. Finalmente, se imprimen los mejores hiperparámetros encontrados y la precisión del modelo en los datos de prueba.

## **Información de la Rejilla**

La Información de la Rejilla `(GridSearchCV)` es una técnica de ajuste de hiperparámetros que utiliza una búsqueda exhaustiva sobre una grilla de valores posibles de hiperparámetros para encontrar la mejor combinación de hiperparámetros para un modelo de machine learning. En lugar de ajustar manualmente los hiperparámetros, `GridSearchCV` prueba todas las posibles combinaciones de hiperparámetros y devuelve la mejor combinación.

Aquí hay un ejemplo de código que muestra cómo utilizar `GridSearchCV` con `SVM` para encontrar la mejor combinación de valores de hiperparámetros:

In [5]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC

# cargar el conjunto de datos de iris
iris = load_iris()

# dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)

# crear un modelo SVM
svm = SVC()

# definir una cuadrícula de hiperparámetros para buscar
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf'], 'gamma': ['scale', 'auto']}

# realizar la búsqueda de cuadrícula para encontrar los mejores hiperparámetros
grid_search = GridSearchCV(svm, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# imprimir los mejores hiperparámetros y la precisión del modelo en los datos de prueba
print('Mejores hiperparámetros:', grid_search.best_params_)
print('Precisión del modelo:', grid_search.score(X_test, y_test))


Mejores hiperparámetros: {'C': 1, 'gamma': 'scale', 'kernel': 'linear'}
Precisión del modelo: 0.9736842105263158


En este ejemplo, se utiliza ```GridSearchCV``` para buscar la mejor combinación de valores de hiperparámetros para el modelo `SVM`. La cuadrícula de hiperparámetros a probar se define en el diccionario ```param_grid```. ```GridSearchCV``` ajusta el modelo `SVM` a cada combinación posible de valores de hiperparámetros y evalúa su rendimiento utilizando la validación cruzada de 5 pliegues. Finalmente, imprime los mejores hiperparámetros encontrados y la precisión del modelo en los datos de prueba.

## **Validación cruzada y Rejilla**

La Validación Cruzada `(Cross Validation)` es una técnica utilizada para evaluar el rendimiento de un modelo de Machine Learning. La idea principal es dividir el conjunto de datos en subconjuntos de entrenamiento y prueba, entrenar el modelo en el subconjunto de entrenamiento y evaluar su rendimiento en el subconjunto de prueba. Esta técnica es útil para evitar el sobreajuste y para obtener una mejor estimación del rendimiento del modelo.

La Búsqueda en Rejilla `(GridSearchCV)` es una técnica de ajuste de hiperparámetros que utiliza una búsqueda exhaustiva sobre una grilla de valores posibles de hiperparámetros para encontrar la mejor combinación de hiperparámetros para un modelo de Machine Learning.

Aquí hay un ejemplo de código que muestra cómo utilizar la Validación Cruzada y la Búsqueda en Rejilla con `SVM` para encontrar la mejor combinación de valores de hiperparámetros:

In [6]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.svm import SVC

# cargar el conjunto de datos de iris
iris = load_iris()

# dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)

# crear un modelo SVM
svm = SVC()

# definir una cuadrícula de hiperparámetros para buscar
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf'], 'gamma': ['scale', 'auto']}

# realizar la búsqueda de cuadrícula con validación cruzada para encontrar los mejores hiperparámetros
grid_search = GridSearchCV(svm, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# imprimir los mejores hiperparámetros y la precisión del modelo en los datos de prueba
print('Mejores hiperparámetros:', grid_search.best_params_)
print('Precisión del modelo en los datos de prueba:', grid_search.score(X_test, y_test))

# realizar la validación cruzada para evaluar el rendimiento del modelo
scores = cross_val_score(grid_search, iris.data, iris.target, cv=5)
print('Precisión media de la validación cruzada:', scores.mean())


Mejores hiperparámetros: {'C': 1, 'gamma': 'scale', 'kernel': 'linear'}
Precisión del modelo en los datos de prueba: 0.9736842105263158
Precisión media de la validación cruzada: 0.9666666666666668


En este ejemplo, se utiliza la Validación Cruzada con Búsqueda en Rejilla para encontrar la mejor combinación de valores de hiperparámetros para el modelo `SVM`. La cuadrícula de hiperparámetros a probar se define en el diccionario ```param_grid```. `GridSearchCV` ajusta el modelo `SVM` a cada combinación posible de valores de hiperparámetros y evalúa su rendimiento utilizando la validación cruzada de `5` pliegues. Finalmente, imprime los mejores hiperparámetros encontrados y la precisión del modelo en los datos de prueba, así como la precisión media de la validación cruzada.

## **Conjuntos de hiperparámetros explorados**

En el contexto de la Búsqueda en Rejilla `(GridSearchCV)`, los conjuntos de hiperparámetros explorados son todas las combinaciones de valores de hiperparámetros que se prueban para encontrar la mejor combinación que produce el mejor rendimiento del modelo. Estos conjuntos pueden ser bastante grandes y pueden ser un desafío para la optimización del modelo.

Aquí hay un ejemplo de código que muestra cómo utilizar la Búsqueda en Rejilla con `SVM` para explorar conjuntos de hiperparámetros:

In [7]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.svm import SVC

# cargar el conjunto de datos de iris
iris = load_iris()

# dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)

# crear un modelo SVM
svm = SVC()

# definir una cuadrícula de hiperparámetros para buscar
param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf'], 'gamma': ['scale', 'auto']}

# realizar la búsqueda de cuadrícula para encontrar los mejores hiperparámetros
grid_search = GridSearchCV(svm, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# imprimir los conjuntos de hiperparámetros explorados y su rendimiento
print('Conjuntos de hiperparámetros explorados:', grid_search.cv_results_['params'])
print('Rendimiento de cada conjunto de hiperparámetros:', grid_search.cv_results_['mean_test_score'])


Conjuntos de hiperparámetros explorados: [{'C': 0.1, 'gamma': 'scale', 'kernel': 'linear'}, {'C': 0.1, 'gamma': 'scale', 'kernel': 'rbf'}, {'C': 0.1, 'gamma': 'auto', 'kernel': 'linear'}, {'C': 0.1, 'gamma': 'auto', 'kernel': 'rbf'}, {'C': 1, 'gamma': 'scale', 'kernel': 'linear'}, {'C': 1, 'gamma': 'scale', 'kernel': 'rbf'}, {'C': 1, 'gamma': 'auto', 'kernel': 'linear'}, {'C': 1, 'gamma': 'auto', 'kernel': 'rbf'}, {'C': 10, 'gamma': 'scale', 'kernel': 'linear'}, {'C': 10, 'gamma': 'scale', 'kernel': 'rbf'}, {'C': 10, 'gamma': 'auto', 'kernel': 'linear'}, {'C': 10, 'gamma': 'auto', 'kernel': 'rbf'}]
Rendimiento de cada conjunto de hiperparámetros: [0.95533597 0.82094862 0.95533597 0.94703557 0.97312253 0.96403162
 0.97312253 0.96403162 0.97272727 0.97312253 0.97272727 0.97272727]


En este ejemplo, se utiliza la Búsqueda en Rejilla con `SVM` para explorar conjuntos de hiperparámetros definidos en el diccionario ```param_grid```. `GridSearchCV` ajusta el modelo `SVM` a cada combinación posible de valores de hiperparámetros y evalúa su rendimiento utilizando la validación cruzada de `5` pliegues. Luego, imprime los conjuntos de hiperparámetros explorados y su rendimiento.

## **Ranking de los mejores modelos**

El ranking de los mejores modelos es una lista ordenada de los modelos entrenados según su rendimiento. Esta lista puede ser útil para seleccionar el modelo final para su uso en la producción. Los modelos se ordenan según alguna métrica de rendimiento, como la precisión, la puntuación `F1`, el `AUC`, etc.

Aquí hay un ejemplo de código que muestra cómo utilizar `GridSearchCV` para entrenar varios modelos y ordenarlos según su precisión:

In [8]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier

# cargar el conjunto de datos de iris
iris = load_iris()

# dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)

# definir una lista de modelos para entrenar
models = [
    ('Logistic Regression', LogisticRegression()),
    ('Decision Tree', DecisionTreeClassifier())
]

# definir una cuadrícula de hiperparámetros para buscar
param_grid = {
    'Logistic Regression': {'C': [0.1, 1, 10], 'penalty': ['l1', 'l2']},
    'Decision Tree': {'max_depth': [3, 5, 7]}
}

# entrenar los modelos utilizando la búsqueda de cuadrícula y la validación cruzada de 5 pliegues
results = {}
for name, model in models:
    grid_search = GridSearchCV(model, param_grid[name], cv=5)
    grid_search.fit(X_train, y_train)
    results[name] = {'best_params': grid_search.best_params_, 'score': grid_search.score(X_test, y_test)}

# ordenar los modelos según su precisión
ranked_models = sorted(results.items(), key=lambda x: x[1]['score'], reverse=True)

# imprimir el ranking de los modelos
for i, (name, result) in enumerate(ranked_models):
    print(f'{i+1}. Modelo: {name}, Precisión: {result["score"]}, Mejores Hiperparámetros: {result["best_params"]}')


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

1. Modelo: Logistic Regression, Precisión: 0.9736842105263158, Mejores Hiperparámetros: {'C': 10, 'penalty': 'l2'}
2. Modelo: Decision Tree, Precisión: 0.9736842105263158, Mejores Hiperparámetros: {'max_depth': 3}


En este ejemplo, se definen dos modelos diferentes para entrenar (regresión logística y árbol de decisión) y se define una cuadrícula de hiperparámetros diferente para cada modelo. `GridSearchCV` se utiliza para entrenar los modelos utilizando la búsqueda de cuadrícula y la validación cruzada de 5 pliegues. Luego, los modelos se ordenan según su precisión y se imprimen en orden de mejor a peor rendimiento.

## **Los mejores hiperparámetros**

Los mejores hiperparámetros son aquellos que producen el mejor rendimiento en el modelo de machine learning. En la búsqueda de hiperparámetros, se exploran diferentes combinaciones de hiperparámetros para encontrar los que producen el mejor resultado. El mejor conjunto de hiperparámetros se selecciona según una métrica de evaluación específica, como la precisión, el `AUC`, la `F1-score`, entre otros.

Aquí hay un ejemplo de cómo obtener los mejores hiperparámetros utilizando la búsqueda en rejilla y la validación cruzada en `Scikit-learn`:

In [9]:
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV, train_test_split

# cargar el conjunto de datos de iris
iris = load_iris()

# dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=42)

# crear un modelo de bosque aleatorio
rfc = RandomForestClassifier(random_state=42)

# definir una cuadrícula de hiperparámetros para buscar
param_grid = {'n_estimators': [50, 100, 200],
              'max_depth': [None, 5, 10],
              'max_features': ['auto', 'sqrt', 'log2']}

# realizar la búsqueda de cuadrícula para encontrar los mejores hiperparámetros
grid_search = GridSearchCV(rfc, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# imprimir los mejores hiperparámetros y la precisión del modelo en los datos de prueba
print('Mejores hiperparámetros:', grid_search.best_params_)
print('Precisión del modelo:', grid_search.score(X_test, y_test))


  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(
  warn(


Mejores hiperparámetros: {'max_depth': None, 'max_features': 'auto', 'n_estimators': 100}
Precisión del modelo: 1.0


En este ejemplo, estamos buscando los mejores hiperparámetros para un modelo de bosque aleatorio. Hacemos uso de la búsqueda en rejilla para explorar diferentes combinaciones de hiperparámetros y usamos la validación cruzada con 5 pliegues para evaluar el rendimiento de cada combinación de hiperparámetros. Finalmente, imprimimos los mejores hiperparámetros encontrados y la precisión del modelo en los datos de prueba.

## **Usando el mejor modelo**

Una vez que hemos obtenido los mejores hiperparámetros y hemos ajustado nuestro modelo usando la validación cruzada, podemos utilizar el modelo resultante para hacer predicciones en nuevos datos. Aquí hay un ejemplo de cómo hacer esto usando un modelo de regresión logística ajustado a través de la validación cruzada:

In [10]:
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, train_test_split

# cargar el conjunto de datos de iris
iris = load_iris()

# dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=42)

# definir una cuadrícula de hiperparámetros para buscar
param_grid = {'C': [0.1, 1, 10],
              'penalty': ['l1', 'l2'],
              'solver': ['liblinear', 'saga']}

# crear un modelo de regresión logística con los mejores hiperparámetros
best_logreg = LogisticRegression(C=1, penalty='l1', solver='saga', random_state=42)

# ajustar el modelo a los datos de entrenamiento
best_logreg.fit(X_train, y_train)

# hacer predicciones en los datos de prueba
y_pred = best_logreg.predict(X_test)

# evaluar la precisión del modelo en los datos de prueba
accuracy = best_logreg.score(X_test, y_test)
print('Precisión del modelo en los datos de prueba:', accuracy)


Precisión del modelo en los datos de prueba: 1.0




En este ejemplo, después de ajustar el modelo con los mejores hiperparámetros encontrados mediante la validación cruzada, utilizamos el método ```predict``` para hacer predicciones en los datos de prueba. Luego, evaluamos la precisión del modelo en los datos de prueba utilizando el método ```score```.

## **Búsqueda aleatoria (RandomizedSearch)**

La búsqueda aleatoria `(RandomizedSearch)` es una técnica de optimización de hiperparámetros que consiste en buscar los valores óptimos de los parámetros de un modelo de forma aleatoria en un rango de valores especificado. En lugar de probar todas las combinaciones posibles de parámetros, lo que puede ser computacionalmente costoso, se seleccionan valores aleatorios dentro de un rango predefinido para cada parámetro y se evalúa su desempeño en el modelo.

Un ejemplo de cómo se puede implementar `RandomizedSearch` utilizando la biblioteca de aprendizaje automático `Scikit-learn` en Python es el siguiente:

In [16]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# Define el modelo
model = RandomForestClassifier()

# Define el espacio de búsqueda de los hiperparámetros
param_dist = {'n_estimators': randint(10, 100),
              'max_depth': randint(1, 10),
              'min_samples_split': randint(2, 20),
              'min_samples_leaf': randint(1, 20)}

# Ejecuta la búsqueda aleatoria
random_search = RandomizedSearchCV(model, param_distributions=param_dist,
                                   n_iter=10, cv=5, n_jobs=-1)

# Ajusta el modelo utilizando los mejores parámetros encontrados
random_search.fit(X_train, y_train)

# Muestra los mejores parámetros encontrados
print(random_search.best_params_)


{'max_depth': 5, 'min_samples_leaf': 13, 'min_samples_split': 12, 'n_estimators': 16}


En este ejemplo, se define un modelo `RandomForestClassifier` y se define un espacio de búsqueda de los hiperparámetros a través del diccionario `param_dist`. Los valores de los hiperparámetros se seleccionan de forma aleatoria dentro de los rangos especificados usando la función `randint` de `scipy.stats`.

Se ejecuta la búsqueda aleatoria utilizando `RandomizedSearchCV` de `Scikit-learn`, que realiza una validación cruzada de `5` veces y prueba `10` combinaciones aleatorias de valores de hiperparámetros.

Finalmente, se ajusta el modelo utilizando los mejores parámetros encontrados y se imprimen los valores de los mejores parámetros encontrados.

## **Hiperparámetros explorados aleatoriamente**

Los hiperparámetros explorados aleatoriamente se refieren a los valores de los hiperparámetros que son seleccionados de forma aleatoria dentro de un rango predefinido durante el proceso de búsqueda aleatoria. Estos hiperparámetros son los que se evalúan para determinar cuál combinación de valores da lugar al mejor desempeño del modelo.

A continuación, se presenta un ejemplo de código que muestra cómo se pueden definir los hiperparámetros a ser explorados aleatoriamente en la búsqueda de un modelo `RandomForestClassifier` utilizando la biblioteca de aprendizaje automático `Scikit-learn` en Python:

In [17]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# Define el modelo
model = RandomForestClassifier()

# Define el espacio de búsqueda de los hiperparámetros
param_dist = {'n_estimators': randint(10, 100),
              'max_depth': randint(1, 10),
              'min_samples_split': randint(2, 20),
              'min_samples_leaf': randint(1, 20)}

# Ejecuta la búsqueda aleatoria
random_search = RandomizedSearchCV(model, param_distributions=param_dist,
                                   n_iter=10, cv=5, n_jobs=-1)

# Ajusta el modelo utilizando los mejores parámetros encontrados
random_search.fit(X_train, y_train)

# Muestra los mejores parámetros encontrados
print(random_search.best_params_)




{'max_depth': 3, 'min_samples_leaf': 2, 'min_samples_split': 7, 'n_estimators': 46}


En este ejemplo, los hiperparámetros explorados aleatoriamente son:

* **n_estimators:** número de árboles en el modelo `RandomForestClassifier`, seleccionado aleatoriamente entre 10 y 100.
* **max_depth:** profundidad máxima de los árboles en el modelo `RandomForestClassifier`, seleccionado aleatoriamente entre 1 y 10.
* **min_samples_split:** número mínimo de muestras requeridas para dividir un nodo interno en el modelo `RandomForestClassifier`, seleccionado aleatoriamente entre 2 y 20.
* **min_samples_leaf:** número mínimo de muestras requeridas para ser una hoja en el modelo `RandomForestClassifier`, seleccionado aleatoriamente entre 1 y 20.

Estos hiperparámetros son definidos en el diccionario ```param_dist```, que es pasado como parámetro a la función `RandomizedSearchCV`. Durante la búsqueda aleatoria, se seleccionan aleatoriamente 10 combinaciones de valores de los hiperparámetros definidos en ```param_dist```, y se evalúa el desempeño del modelo para cada combinación. Al final, el mejor conjunto de valores de hiperparámetros se selecciona y se utiliza para ajustar el modelo.

| **Inicio** | **atrás 15** | **Siguiente 17** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./15.DBSCAN_Clustering.ipynb)| [⏩](./17.Bagging%20_Machine_learning.ipynb)|