## Optimización de Hiperparámetros

<p style='text-align: justify'>El autoajuste u optimización de hiperparámetros, también conocido como búsqueda de hiperparámetros, se refiere al proceso de encontrar la mejor combinación de configuraciones para un modelo de aprendizaje automático. Los hiperparámetros son configuraciones ajustables que no se aprenden directamente del conjunto de datos, como la profundidad de un árbol de decisión, la tasa de aprendizaje en una red neuronal o la regularización en un modelo de regresión.</p>

<p style='text-align: justify'>El objetivo es optimizar estas configuraciones para mejorar el rendimiento del modelo en términos de una métrica específica, como Accuracy, F1-Score, R<sup>2</sup>, entre otros. Este proceso implica probar diferentes combinaciones de hiperparámetros y evaluar el rendimiento del modelo utilizando validación cruzada u otros métodos de evaluación para determinar cuáles configuraciones proporcionan el mejor rendimiento.</p>

<p style='text-align: justify'>Se utilizan técnicas como la búsqueda aleatoria, búsqueda en cuadrícula (grid search), optimización bayesiana, entre otros, para explorar el espacio de hiperparámetros y encontrar la combinación óptima que maximice el rendimiento del modelo en el conjunto de datos. El autoajuste de hiperparámetros es crucial para mejorar la capacidad de generalización y el rendimiento predictivo del modelo.</p>

https://scikit-learn.org/stable/modules/grid_search.html

https://optuna.org

#### Otras ténicas para la Optimización de Hiperparámetros
1. <b>Optimización Bayesiana</b>: Utiliza métodos bayesianos para encontrar la combinación óptima de hiperparámetros al seleccionar de manera iterativa las configuraciones más prometedoras para evaluar. Métodos como Gaussian Process-based Optimization (GPO) o Tree-structured Parzen Estimator (TPE) son populares en esta área.

2. <b>Optimización Evolutiva</b>: Se inspira en conceptos evolutivos y utiliza algoritmos genéticos, estrategias de evolución diferencial u otros métodos similares para buscar eficientemente en el espacio de hiperparámetros en busca de la mejor configuración.

3. <b>Optimización basada en gradiente</b>: En lugar de explorar aleatoriamente o mediante una búsqueda sistemática, utiliza la información del gradiente de una métrica de evaluación para ajustar los hiperparámetros de manera iterativa, siguiendo una dirección que maximice o minimice esta métrica.

4. <b>Optimización de Hyperband</b>: Esta técnica combina la exploración aleatoria con la eliminación temprana de configuraciones ineficaces. Se ejecutan múltiples configuraciones de forma aleatoria, pero se descartan rápidamente aquellas que no ofrecen buenos resultados, lo que permite enfocarse en las configuraciones prometedoras.

Cada una de estas técnicas tiene sus propias ventajas y desventajas, y la elección de la técnica de búsqueda de hiperparámetros depende del conjunto de datos, el tiempo de cómputo disponible y las características del problema que se esté abordando.

### Importar librerías

In [None]:
import pandas as pd

# Cargar los conjuntos de datos desde sklearn
from sklearn.datasets import load_iris, load_diabetes

# Dividir datos y realizar búsquedas de hiperparámetros
from sklearn.model_selection import train_test_split, RandomizedSearchCV, GridSearchCV

# Clasificador RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier

# Algoritmo de regresión Support Vector Regressor
from sklearn.svm import SVR

# Funciones de distribución aleatoria de scipy.stats
# randint: genera números enteros aleatorios dentro de un rango (distribución uniforme discreta).
# uniform: genera números aleatorios con distribución uniforme continua.
from scipy.stats import randint, uniform

# Ignorar las advertencias
# import warnings
# warnings.filterwarnings("ignore")

### Modelo de clasificación usando Random Forest

<p style='text-align: justify'>Random Forest (Bosque Aleatorio) es un algoritmo de aprendizaje automático que se utiliza para tareas de clasificación y regresión. Se basa en la construcción de múltiples árboles de decisión y combina sus resultados para mejorar la precisión y la robustez de las predicciones.</p>

<p style='text-align: justify'>La idea central detrás es crear un conjunto de árboles de decisión en lugar de depender de un solo árbol. Cada árbol se construye utilizando una muestra aleatoria de los datos de entrenamiento y utilizando una técnica llamada "bagging". En este proceso:</p>

* Se toma una muestra aleatoria (con reemplazo) de los datos de entrenamiento.
* Se construye un árbol de decisión utilizando la muestra seleccionada.
* Se repiten los pasos 1 y 2 para construir múltiples árboles.

<p style='text-align: justify'>Luego, cuando se hace una predicción, cada árbol en el conjunto emite su propia predicción y la predicción final se determina por votación (en el caso de clasificación) o promedio (en el caso de regresión) de las predicciones de todos los árboles.</p>

Las ventajas de Random Forest incluyen:

* <b>Reducción del sobreajuste (overfitting)</b>: El ensamblaje de múltiples árboles reduce el riesgo de sobreajuste en comparación con un solo árbol.
* <b>Mayor estabilidad</b>: Los errores en la predicción de un solo árbol pueden ser compensados por otros árboles en el conjunto.
* Capacidad para manejar conjuntos de datos grandes y dimensiones altas.
* Buena capacidad de manejar características categóricas y numéricas sin mucho preprocesamiento.

<p style='text-align: justify'>Random Forest se utiliza ampliamente en aplicaciones del mundo real, como clasificación de imágenes, detección de fraudes, análisis de mercado y más. Es una técnica versátil y efectiva para mejorar la precisión y la generalización de los modelos de aprendizaje automático.</p>

<p style='text-align: justify'>En este ejemplo se muestra  cómo realizar la búsqueda de hiperparámetros utilizando la búsqueda aleatoria (RandomizedSearchCV) y la búsqueda en cuadrícula (GridSearchCV) con un clasificador de Bosques Aleatorios (RandomForestClassifier).</p>

In [None]:
# Cargamos un conjunto de datos de ejemplo (Iris)
iris = load_iris()
X = iris.data
y = iris.target

# Dividimos los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#### Conjunto de datos Iris
<p style='text-align: justify'>Es un conjunto clásico y comúnmente utilizado en la comunidad de Machine Learning. Fue introducido por el biólogo y estadístico británico Ronald Fisher en 1936. Contiene información sobre tres especies de iris: Setosa, Versicolor y Virginica.</p>

<p style='text-align: justify'>Consta de 150 muestras, donde cada especie de iris se representa con 50 muestras. Cada muestra tiene cuatro características: longitud y ancho del sépalo, y longitud y ancho del pétalo, todas en centímetros. Estas características se utilizan para predecir la especie de iris.</p>

<p style='text-align: justify'>Se utiliza en problemas de clasificación, ya que es pequeño, fácil de entender y tiene características numéricas bien definidas para predecir la especie de flor de iris basándose en sus características morfológicas.</p>

In [None]:
print(iris.DESCR)

### Convertir a DataFrame para visualizar el conjunto de datos

In [None]:
df = pd.DataFrame(iris.data, columns=iris.feature_names)

# Agregar la columna de etiquetas
df['target'] = iris.target

# Mostrar las primeras 5 filas
df.head()

### Dimensiones del dataset

In [None]:
print(df.shape)
print('Cantidad de registros:', df.shape[0])
print('Cantidad de variables:', df.shape[1])

### Búsqueda aleatoria o Randomized Search
<p style='text-align: justify'>Es una técnica de optimización en la que se exploran diferentes combinaciones de hiperparámetros seleccionadas aleatoriamente dentro de un rango definido. En contraste con la Búsqueda en Cuadrícula (Grid Search), que evalúa todas las combinaciones posibles dentro de un conjunto predefinido de valores, la Búsqueda Aleatoria selecciona muestras aleatorias de un espacio de búsqueda.</p>

<p style='text-align: justify'>Esta estrategia es útil cuando el espacio de búsqueda de hiperparámetros es grande y no es factible evaluar todas las combinaciones posibles. En lugar de examinar exhaustivamente todas las combinaciones, la Búsqueda Aleatoria selecciona de manera aleatoria un número determinado de configuraciones de hiperparámetros para evaluar. Esta técnica puede resultar más eficiente en tiempo y recursos, especialmente en conjuntos de datos grandes o con modelos complejos.</p>

<p style='text-align: justify'>Al probar combinaciones aleatorias de hiperparámetros, la Búsqueda Aleatoria permite explorar el espacio de búsqueda de manera más rápida y, en muchos casos, puede encontrar combinaciones que conduzcan a buenos resultados sin necesidad de probar todas las opciones.</p>

In [None]:
%%time

# Definir los hiperparámetros para la búsqueda aleatoria
param_dist = {
    'n_estimators': randint(100, 150), # Número de árboles en el bosque aleatorio
    'max_depth': randint(3, 10), # Profundidad máxima de cada árbol en el bosque
    'min_samples_split': randint(2, 10), # Número mínimo de muestras requeridas para dividir un nodo interno
    'min_samples_leaf': randint(1, 5), # Número mínimo de muestras necesarias para que un nodo sea considerado hoja
    'bootstrap': [True, False] # Parámetro booleano que indica si se debe usar o no, el muestreo con reemplazo
}

# Clasificador de Bosques Aleatorios
rf = RandomForestClassifier()

# Búsqueda aleatoria
random_search = RandomizedSearchCV(
    rf,                    # Modelo a optimizar.
    param_distributions=param_dist,  # Diccionario con los hiperparámetros y sus posibles valores.
    n_iter=15,             # Número de combinaciones aleatorias de hiperparámetros a probar.
    cv=5,                  # Validación cruzada con 5 particiones (para evaluar la calidad de cada combinación).
    # scoring="f1_weighted", # Definición de la métrica: F1 Score → "f1" (para binario) o "f1_macro", "f1_micro", "f1_weighted" (para multiclase).
    random_state=42        # Semilla para reproducibilidad de los resultados (los mismos aleatorios en cada ejecución).
)

# Entrenamiento del modelo y búsqueda de los mejores hiperparámetros.
random_search.fit(X_train, y_train)

### Evaluación del modelo

In [None]:
# Muestra los mejores hiperparámetros encontrados por la búsqueda aleatoria
print("Mejores hiperparámetros de Random Search:\n{}\n".format(random_search.best_params_))

# Evalua los modelos en el conjunto de prueba
random_search_score = random_search.score(X_test, y_test)

print("Precisión (accuracy) en el conjunto de prueba:", random_search_score)
# print("Presición (F1 Score) en el conjunto de prueba:", random_search_score)

### Búsqueda en cuadrícula o Grid Search
<p style='text-align: justify'>Es una técnica de optimización que evalúa exhaustivamente un conjunto predefinido de combinaciones de hiperparámetros para determinar la configuración óptima que maximiza el rendimiento del modelo.</p>

<p style='text-align: justify'>En esta estrategia, se define un conjunto de valores posibles para cada hiperparámetro que se desea ajustar y se genera un "grid" o cuadrícula con todas las posibles combinaciones de estos valores. Luego, se entrena y evalúa el modelo utilizando cada combinación de hiperparámetros dentro de esta cuadrícula, y se selecciona aquella configuración que ofrezca el mejor rendimiento de acuerdo con una métrica de evaluación específica, como precisión, F1-score, AUC, entre otras.</p>

<p style='text-align: justify'>Aunque la Búsqueda en Cuadrícula es exhaustiva y garantiza evaluar todas las combinaciones posibles dentro del espacio definido, puede resultar costosa computacionalmente en comparación con otras técnicas, especialmente cuando el espacio de búsqueda es grande o cuando se tienen conjuntos de datos extensos. Sin embargo, proporciona una manera sistemática de encontrar la mejor combinación de hiperparámetros para un modelo.</p>

In [None]:
%%time

param_grid = {
    'n_estimators': [100, 110, 120],
    'max_depth': [3, 5, 7],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2],
    'bootstrap': [True, False]
}

grid_search = GridSearchCV(
    rf,
    param_grid=param_grid,
    cv=5,
    # scoring="f1_macro",
)

grid_search.fit(X_train, y_train)

### Evaluación del modelo

In [None]:
print("Mejores hiperparámetros de Grid Search:\n{}\n".format(grid_search.best_params_))
grid_search_score = grid_search.score(X_test, y_test)
print("Precisión (accuracy) en el conjunto de prueba:", random_search_score)
# print("Presición (F1 Score) en el conjunto de prueba:", random_search_score)

<p style='text-align: justify'>En ambos tipos de búsqueda, ya sea con RandomizedSearchCV o GridSearchCV, la métrica predeterminada que se utiliza para evaluar la calidad del modelo en cada combinación de hiperparámetros es la precisión (accuracy) en el caso de problemas de clasificación.</p>

<p style='text-align: justify'>La precisión es una métrica comúnmente utilizada en problemas de clasificación y representa la proporción de predicciones correctas realizadas por el modelo sobre el total de predicciones realizadas.</p>

### Conclusión
<p style='text-align: justify'>El conjunto de datos Iris es conocido por ser un conjunto de datos relativamente pequeño y limpio, con clases bien separadas, lo que puede resultar en una alta precisión para varios algoritmos de clasificación. En el ejemplo se obtuvo una precisión de 1.0 (o 100%) durante la búsqueda de hiperparámetros, eso es justificable debido a la naturaleza de este conjunto de datos.</p>

<p style='text-align: justify'>Consta de tres clases de plantas que son distinguibles mediante características específicas como longitud y ancho del sépalo y pétalo. Dado que estas clases son altamente separables y los modelos de clasificación pueden aprender fácilmente a distinguirlas, es posible lograr una alta precisión, especialmente con algoritmos como Random Forest, que tienden a funcionar bien en conjuntos de datos pequeños y limpios.</p>

<p style='text-align: justify'>Por lo tanto, en el contexto del conjunto de datos Iris, es posible obtener resultados de precisión altos sin que necesariamente indiquen sobreajuste o errores en el modelo.</p>

### Modelo de regresión usando Support Vector Regressor (SVR)

<p style='text-align: justify'>SVR es una técnica de regresión que se basa en el concepto de Máquinas de soporte vectorial (SVM) empleado en problemas de clasificación.</p>

<p style='text-align: justify'>SVR busca encontrar una función de regresión en un espacio de alta dimensión, donde los puntos de datos, representados como vectores, están separados por un margen con el objetivo de minimizar el error de predicción. Funciona encontrando el hiperplano que maximiza el margen alrededor de los puntos de datos más cercanos, denominados vectores de soporte. A diferencia de la regresión lineal, SVR puede manejar relaciones no lineales mediante el uso de funciones de kernel, permitiendo la transformación de los datos a un espacio de mayor dimensión donde los datos puedan ser linealmente separables.</p>

<p style='text-align: justify'>El objetivo principal de SVR es minimizar la cantidad de errores, permitiendo cierto grado de error tolerable. SVR intenta ajustar una función que se ajuste a la mayoría de los puntos de datos dentro del margen tolerable, al mismo tiempo que minimiza las desviaciones de los puntos de datos más cercanos. Esto lo logra mediante la optimización de una función de costo que equilibra la precisión del modelo y la amplitud del margen, controlada por parámetros como C (parámetro de regularización) y la elección del kernel.</p>

In [None]:
# Cargar el conjunto de datos
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

#### Conjunto de datos diabetes
<p style='text-align: justify'>El conjunto de datos diabetes es un conjunto de datos clásico que contiene información médica relevante para el estudio de la diabetes. Este conjunto de datos incluye diez variables fisiológicas (edad, sexo, índice de masa corporal, presión arterial y seis mediciones de suero sanguíneo) y una medida cuantitativa de la progresión de la enfermedad un año después del inicio del estudio.</p>

<p style='text-align: justify'>Las variables son todos valores continuos y representan características médicas relevantes, mientras que el objetivo es una medida cuantitativa de la progresión de la enfermedad.</p>

<p style='text-align: justify'>Este conjunto de datos se utiliza comúnmente para tareas de regresión donde el objetivo es predecir la progresión de la enfermedad basándose en las características médicas proporcionadas.</p>

In [None]:
print(diabetes.DESCR)

### Búsqueda aleatoria

In [None]:
%%time

# Definir los hiperparámetros para la búsqueda aleatoria
param_dist = {
    'kernel': ['linear', 'poly', 'rbf', 'sigmoid'], # Tipos de kernel que definen la función de transformación de datos.
    'C': uniform(loc=0, scale=100),                 # Parámetro de regularización (controla la penalización de errores). Se muestrea entre 0 y 100
    'gamma': ['scale', 'auto'],                     # Parámetro que controla la influencia de cada punto de entrenamiento en kernels no lineales
    'epsilon': uniform(loc=0, scale=1)              # Margen de tolerancia para el error en SVR. Se muestrea de una distribución uniforme entre 0 y 1
}

# Crear el modelo de regresión
svr = SVR()

# Búsqueda aleatoria
random_search = RandomizedSearchCV(
    svr,
    param_distributions=param_dist,
    n_iter=100,
    cv=5,
    # scoring="neg_mean_squared_error",   # MSE (negativo)
    random_state=42
)

# Entrenamiento del modelo y búsqueda de los mejores hiperparámetros.
random_search.fit(X_train, y_train)

### Evaluación del modelo

In [None]:
# Mejores hiperparámetros encontrados mediante búsqueda aleatoria
print("\nMejores hiperparámetros encontrados mediante búsqueda aleatoria:")
print(random_search.best_params_)

# R² en entrenamiento y prueba con los mejores hiperparámetros
print("\nR² en entrenamiento:", random_search.score(X_train, y_train))
print("R² en prueba:", random_search.score(X_test, y_test))

# MSE en entrenamiento y prueba con los mejores hiperparámetros
# print("\nMSE en entrenamiento:", -random_search.score(X_train, y_train))
# print("MSE en prueba:", -random_search.score(X_test, y_test))

### Búsqueda en cuadrícula

In [None]:
%%time

# Búsqueda en cuadrícula alrededor de los mejores hiperparámetros encontrados
param_grid = {
    'kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
    'C': [0.1, 1, 10, 100],
    'gamma': ['scale', 'auto'],
    'epsilon': list(uniform(loc=0, scale=1).rvs(10)) # rvs(n) (Random Variates Sample) genera n muestras aleatorias de esa distribución.
                                                     # En este caso: 10 valores aleatorios uniformes en el rango [0,1].
}

# Búsqueda en cuadrícula
grid_search = GridSearchCV(
    svr,
    param_grid=param_grid,
    cv=5,
    # scoring="neg_mean_squared_error"   # MSE (negativo)
)

grid_search.fit(X_train, y_train)

### Evaluación del modelo

In [None]:
# Mejores hiperparámetros encontrados mediante búsqueda en cuadrícula
print("\nMejores hiperparámetros encontrados mediante búsqueda en cuadrícula:")
print(grid_search.best_params_)

# R² en entrenamiento y prueba con los mejores hiperparámetros
print("\nR² en entrenamiento:", grid_search.score(X_train, y_train))
print("R² en prueba:", grid_search.score(X_test, y_test))

# MSE en entrenamiento y prueba con los mejores hiperparámetros
# print("\nMSE en entrenamiento:", -grid_search.score(X_train, y_train))
# print("MSE en prueba:", -grid_search.score(X_test, y_test))

#### Conclusión
<p style='text-align: justify'>El coeficiente de determinación (R²) es una medida que indica la proporción de la varianza en la variable dependiente que es predecible a partir de las variables independientes en un modelo de regresión. Un valor R² cercano a 1 indica un buen ajuste del modelo a los datos, donde el modelo explica una gran parte de la variabilidad de la variable dependiente. Un valor cercano a 0.5 sugiere que el modelo está capturando una parte significativa, pero no toda, de la variabilidad de los datos.</p>

<p style='text-align: justify'>En el caso específico de SVR (Support Vector Regression), el R² alrededor de 0.5 puede significar que el modelo está capturando parte de la variabilidad en el conjunto de datos diabetes. Sin embargo, es importante tener en cuenta que diferentes conjuntos de datos pueden mostrar diferentes niveles de predictibilidad debido a su naturaleza.</p>

<p style='text-align: justify'>Un R² de 0.5 también podría indicar que el modelo no puede explicar completamente la variabilidad de la variable dependiente con las características proporcionadas, lo que puede ser común en conjuntos de datos complejos o en problemas donde hay múltiples factores influyentes que no están siendo considerados por el modelo. En algunos casos, un R-cuadrado de 0.5 puede considerarse aceptable dependiendo del contexto del problema y las expectativas del rendimiento del modelo.</p>