# HIPERPARÁMETROS - AJUSTE (I) 
## K-FOLD CV, GRIDSEARCH CV, RANDOMSEARCH CV

## Introducción   
¿Alguna vez te has preguntado cómo lograr sin esfuerzo un rendimiento impresionante de los modelos? ¡El secreto está en el ajuste inteligente de los hiperparámetros! Prepárate para descubrir el intrigante enfrentamiento entre RandomSearchCV y GridSearchCV, que allana el camino para revolucionar tus flujos de trabajo de aprendizaje automático.

## ¿Qué es la validación cruzada?
Se trata de un método estadístico que se utiliza para evaluar la capacidad de un modelo de aprendizaje automático para generalizar a datos nuevos y desconocidos. El objetivo de la validación cruzada es estimar el rendimiento de un modelo en un conjunto de datos independiente, en lugar de limitarse a evaluar el modelo en el conjunto de datos de entrenamiento. En este blog, analizaremos el concepto de validación cruzada, su importancia en el aprendizaje automático y cómo funciona.      

El término «validación cruzada» se refiere a un conjunto de técnicas utilizadas para evaluar el rendimiento de un modelo predictivo. El concepto fundamental consiste en dividir los datos en dos o más subconjuntos, utilizando uno de ellos para entrenar el modelo y el otro para comprobar su precisión.     

La validación cruzada K-folds es el tipo más habitual de validación cruzada. Los datos se dividen aleatoriamente en k subgrupos iguales, o «pliegues», para la validación cruzada K-folds. El modelo se prueba en el último pliegue después de haber sido probado en k-1 pliegues. Este proceso se repite k veces, de modo que cada pliegue se utiliza como prueba.    
A continuación, se promedian los resultados de cada pliegue para obtener una estimación del rendimiento global.

<img src="./img/crossval.png">

-----------

### El método K-Folds   

La validación cruzada K-Folds es una técnica robusta que se utiliza para evaluar el rendimiento de los modelos de aprendizaje automático. Ayuda a garantizar que el modelo generaliza bien a los datos no vistos, utilizando diferentes porciones del conjunto de datos para el entrenamiento y la prueba en múltiples iteraciones. 

Mientras que la validación cruzada K-Fold divide el conjunto de datos en varios subconjuntos para entrenar y probar iterativamente el modelo, el método de división *"train-test"* divide el conjunto de datos en sólo dos partes: una para entrenar y otra para probar. El método de división *"train-test"*  es sencillo y rápido de aplicar, pero la estimación del rendimiento puede depender mucho de la división concreta, lo que provoca una gran variación en los resultados.

La técnica K-Folds es fácil de comprender y es particularmente conocida. Respecto a otros enfoques de Cross-Validation, suele resultar un modelo menos sesgado.

Justamente, permite garantizar que todas las observaciones de la serie de datos original tengan la oportunidad de aparecer en la serie de entrenamiento y en la serie de prueba. En caso de datos de entrada limitados, resulta uno de los mejores enfoques.

1. Primero se empieza separando la serie de datos de manera aleatoria en K folds. El procedimiento tiene un parámetro único llamado “K” que hace referencia al número de grupos en el se dividirá la muestra. El valor de K no debe ser ni demasiado bajo ni demasiado alto y, por lo general, se elige un valor comprendido entre 5 y 10 en función de la envergadura de la serie de datos. Por ejemplo, si K=10, la serie de datos se dividirá en 10 partes. Un valor K más alto lleva a un modelo con menos sesgo, pero una varianza demasiado amplia puede llevar a un ajuste excesivo. Un valor más bajo es prácticamente lo mismo que utilizar el método Train-Test Split.

2. Después se ajusta el modelo utilizando los folds K-1 (K menos 1). El modelo se valida usando el K-fold restante. Las puntuaciones y los errores se deben anotar.

El proceso se repite hasta que cada K-fold sirva dentro de la serie de entrenamiento. La media de las puntuaciones registradas es la métrica de rendimiento del modelo.

Este proceso se puede realizar de manera manual o con ayuda de las funciones ```cross_val_score```  y ```cross_val-predict``` de la librería Python de *Scikit-Learn*. La función ```cross_val_score``` indica la puntuación de cada fold de prueba, mientras que la función ```cross_val_predict``` indica la puntuación predicha para cada observación de la serie de datos de entrada cuando formaba parte de la serie de prueba.

En el caso de que el modelo (estimador) sea un clasificador y la variable objetivo (y) binaria o multiclase, se utiliza por defecto la técnica «StratifiedKfold». Este método presenta pliegues estratificados, por ejemplo, manteniendo el porcentaje de muestras de cada clase en todos los folds. De este modo, los datos de los folds de entrenamiento y de prueba se distribuyen de manera equitativa.

En los demás casos, se usa por defecto la técnica K_Fold para dividir y entrenar el modelo. Los folds se pueden utilizar como iteradores o en un bucle para entrenar en un marco de datos de Pandas.    

Ejemplo en python:

1. Carga de datos

In [None]:
from sklearn.datasets import fetch_california_housing # cargamos el dataset de california housing
data = fetch_california_housing()

2. Preparación de datos

In [6]:
import pandas as pd 
X = pd.DataFrame(data.data, columns=data.feature_names) 
y = data.target

Las columnas del DataFrame se etiquetan utilizando ```data.feature_names```. La variable objetivo, que representa los valores medios de las viviendas, se almacena por separado en **y**. 

3. Configuración de la validación cruzada K-Fold   

Ahora se configura nuestro modelo, incluida la selección de un valor para K. Elegir el valor correcto para K es un paso importante que trataremos en detalle más adelante. 

In [7]:
from sklearn.model_selection import KFold
k = 5 
kf = KFold(n_splits=k, shuffle=True, random_state=42)

Este código inicializa la validación cruzada K-Fold utilizando la clase KFold de sklearn.model_selection. Configuramos la instancia kf con 5 divisiones. La opción shuffle=True aleatoriza el orden de los puntos de datos, y random_state=42 garantiza que este barajado sea coherente en varias ejecuciones. Esta configuración suele ser suficiente para empezar a evaluar el rendimiento de un modelo con validación cruzada.      

### Inicializar el modelo
Con nuestros datos preparados y la validación cruzada establecida, el siguiente paso es elegir e inicializar el modelo. 

In [8]:
from sklearn.linear_model import LinearRegression 
model = LinearRegression()

### Realizar la validación cruzada
Ahora que el modelo está inicializado, podemos pasar a la parte interesante y realizar una validación cruzada para evaluar su rendimiento en diferentes subconjuntos de datos.

In [9]:
from sklearn.model_selection import cross_val_score 
scores = cross_val_score(model, X, y, cv=kf, scoring='r2')

Esta línea utiliza la función ```cross_val_score``` para evaluar el modelo utilizando el conjunto de datos X y el objetivo y. La validación cruzada se realiza utilizando la instancia Kfold kf , y el rendimiento del modelo se mide utilizando la puntuación R².    

### Cálculo de la puntuación media R²   

Podemos utilizar la R² como métrica para evaluar la proporción de varianza de la variable dependiente que es predecible a partir de las variables independientes, lo que proporciona una idea de la bondad del ajuste del modelo de regresión.

In [10]:
import numpy as np 

average_r2 = np.mean(scores) 

print(f"R² Score para cada pliegue (fold): {[round(score, 4) for score in scores]}")
print(f"Media R² usando {k} pliegues (folds): {average_r2:.2f}")

R² Score para cada pliegue (fold): [np.float64(0.5758), np.float64(0.6137), np.float64(0.6086), np.float64(0.6213), np.float64(0.5875)]
Media R² usando 5 pliegues (folds): 0.60


Esta parte calcula la puntuación R² media de todos los pliegues. Las puntuaciones de cada pliegue se imprimen primero, seguidas de la puntuación media. El uso de np.mean() calcula la media de las puntuaciones recogidas durante la validación cruzada.     

La puntuación media de R² proporciona una única métrica que indica la eficacia del modelo. 

### Consideraciones sobre K-Fold CV   

En la validación cruzada de K pliegues, "K" representa el número de grupos en que se divide el conjunto de datos. Este número determina cuántas rondas de pruebas se someten al modelo, asegurándose de que cada segmento se utiliza como conjunto de pruebas una vez. 

Mostramos una heurística: 

- K = 2 ó 3: Estas opciones pueden ser beneficiosas cuando los recursos computacionales son limitados o cuando se necesita una evaluación más rápida. Reducen el número de ciclos de entrenamiento, con lo que ahorran tiempo y potencia de cálculo, al tiempo que proporcionan una estimación razonable del rendimiento del modelo. 
- K = 5 ó 10: Elegir K = 5 o K = 10 son opciones populares porque proporcionan un buen equilibrio entre la eficiencia computacional y la estimación del rendimiento del modelo. 
- K = 20: Utilizar un valor mayor de K puede proporcionar una evaluación más detallada del rendimiento. Sin embargo, aumenta la carga computacional y puede dar lugar a una mayor varianza si los subconjuntos son demasiado pequeños.

### El impacto de "K" en la K-Fold CV   

El número de pliegues, o "K", en la validación cruzada de pliegues K afecta tanto a la granularidad del proceso de validación como a la carga computacional.    
Una K más pequeña (por ejemplo, 3-5) podría ser más rápida, pero podría dar lugar a estimaciones menos fiables, ya que cada pliegue representa una porción mayor del conjunto de datos, con lo que podrían perderse diversos escenarios de datos.    
Una K mayor (por ejemplo, 10) proporciona una evaluación más detallada a costa de un mayor cálculo.     

Un punto de partida habitual es K=5 o K=10, que suelen ser suficientes para obtener una estimación fiable sin cálculos excesivos.   

### Barajar datos en K-Fold CV   

Barajar los datos en la Validación Cruzada K-Fold es muy recomendable para mejorar la validez de la evaluación del modelo. Al establecer *barajar=Verdadero* (```shuffle=True```), se baraja y se rompe cualquier orden inherente al conjunto de datos que pudiera introducir sesgos durante el proceso de validación.    
Esto garantiza que cada pliegue sea representativo de todo el conjunto de datos, lo que es crucial para evaluar lo bien que generaliza el modelo a los nuevos datos. Sin embargo, es importante evitar el barajado en los casos en que la secuencia de puntos de datos sea significativa, como ocurre con los datos de series temporales, para preservar la integridad del proceso de aprendizaje.    

### Reproducibilidad en K-Fold CV    

Garantizar que los resultados de la validación cruzada K-Fold sean reproducibles es crucial para verificar la estabilidad y el rendimiento del modelo. Esto se puede conseguir configurando el parámetro ```random_state=42```, que garantiza un barajado coherente de los datos en diferentes ejecuciones, lo que permite obtener divisiones de datos idénticas y, por tanto, resultados reproducibles.  

----------

### Grid Search CV (Cross Validation)
La validación cruzada mediante búsqueda por cuadrícula (GridSearchCV) es una técnica que busca los hiperparámetros óptimos de un modelo evaluando el rendimiento del modelo en diferentes combinaciones de valores de hiperparámetros.    
La idea es definir un conjunto de hiperparámetros y un rango de valores para cada hiperparámetro, y luego buscar la combinación óptima de hiperparámetros que produzca el mejor rendimiento en un conjunto de validación. Este proceso se denomina búsqueda por cuadrícula porque busca en una cuadrícula de hiperparámetros.    

La técnica de validación cruzada de búsqueda por cuadrícula se puede implementar utilizando la clase ```GridSearchCV``` de la biblioteca ```scikit-learn``` en Python. La clase ```GridSearchCV``` toma como entrada un modelo de aprendizaje automático, un diccionario de hiperparámetros y una estrategia de validación cruzada. El diccionario de hiperparámetros contiene el nombre de cada hiperparámetro y una lista de valores que se van a buscar. La estrategia de validación cruzada especifica cómo dividir los datos en conjuntos de entrenamiento y validación.

La validación cruzada por búsqueda en cuadrícula (GridSearchCV) es un método eficaz para mejorar los hiperparámetros de un modelo de aprendizaje automático. Los hiperparámetros son parámetros del modelo que no se pueden aprender a partir de los datos, como la tasa de aprendizaje, la fuerza de regularización o el número de árboles en un bosque aleatorio. Estos parámetros pueden tener un impacto significativo en el rendimiento de un modelo, y encontrar los valores óptimos para ellos puede ser una tarea difícil. En este blog, analizaremos el concepto de validación cruzada de búsqueda por cuadrículas y proporcionaremos un ejemplo de código en Python.    

Ejemplo de código:    

Supongamos que tenemos un conjunto de datos X y las etiquetas correspondientes y, y queremos utilizar un clasificador Random Forest como nuestro modelo de aprendizaje automático. Realizaremos una búsqueda aleatoria para encontrar la mejor combinación de hiperparámetros para el clasificador.

En primer lugar, se debe tener instalado Scikit-learn. Se puede instalar utilizando pip:    

```
pip install scikit-learn    
```   

El código python es el siguiente:

In [None]:
import numpy as np  
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

# Load dataset
data = load_iris()
X, y = data.data, data.target

# Define the parameter grid for the RandomForestClassifier

param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Create a RandomForestClassifier instance
rf = RandomForestClassifier()

# Create a GridSearchCV instance
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid,
                           cv=5, n_jobs=-1, verbose=2) # Los parametros cv, n_jobs y verbose son opcionales y controlan la validacion cruzada, 
                                                       # el uso de multiples nucleos y el nivel de detalle en la salida respectivamente. 
                                                       # CV=5 significa que se usara validacion cruzada de 5 pliegues.
                                                       # n_jobs=-1 permite usar todos los nucleos disponibles para acelerar el proceso.
                                                       # verbose=2 proporciona informacion detallada sobre el progreso del grid search.

# Perform the grid search
grid_search.fit(X, y)

# Print the best parameters and the best score
print("Best Parameters:", grid_search.best_params_)
print("Best Score:", grid_search.best_score_)


Fitting 5 folds for each of 108 candidates, totalling 540 fits
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.3s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.3s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.2s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.6s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.5s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.5s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.6s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=5, n_estimators=50; total time=   0.2s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=5, n_estimators=50; total time=   0.3s
[CV] END max_de

```GridSearchCV``` realizará una búsqueda exhaustiva de todas las combinaciones de hiperparámetros especificadas en ```param_grid```. Seleccionará la mejor combinación basándose en el rendimiento de la validación cruzada.

----------

### Random Search CV (Cross Validation)   

La validación cruzada de búsqueda aleatoria es una técnica que busca los hiperparámetros óptimos de un modelo evaluando el rendimiento del modelo en combinaciones aleatorias de valores de hiperparámetros. La idea es definir un conjunto de hiperparámetros y un rango de valores para cada hiperparámetro, y luego muestrear aleatoriamente valores de estos rangos para crear diferentes combinaciones de hiperparámetros. Este proceso se repite un número determinado de veces y se selecciona la mejor combinación de hiperparámetros que produce el mejor rendimiento en un conjunto de validación.

La técnica de validación cruzada de búsqueda aleatoria se puede implementar utilizando la clase ```RandomizedSearchCV``` de la biblioteca ```scikit-learn``` en Python. La clase ```RandomizedSearchCV``` toma como entrada un modelo de aprendizaje automático, una distribución de hiperparámetros y una estrategia de validación cruzada. La distribución de hiperparámetros especifica cómo muestrear valores de cada rango de hiperparámetros.

La validación cruzada de búsqueda aleatoria (```RandomizedSearchCV```) es otra técnica potente para optimizar los hiperparámetros de un modelo de aprendizaje automático. Funciona de manera similar a la validación cruzada de búsqueda por cuadrícula, pero en lugar de buscar en una cuadrícula predefinida de hiperparámetros, los muestrea aleatoriamente a partir de una distribución.     

Ahora se analizará el concepto de validación cruzada de búsqueda aleatoria a través un ejemplo de código en Python.   


#### Ejemplo en python    

Supongamos que tenemos un conjunto de datos **X** y las etiquetas correspondientes **y**, y queremos utilizar un clasificador **Random Forest** como nuestro modelo de aprendizaje automático. Realizaremos una búsqueda aleatoria para encontrar la mejor combinación de hiperparámetros para el clasificador.   

El código es el siguiente:

In [4]:
import numpy as np  
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris

# Load dataset
data = load_iris()
X, y = data.data, data.target

# Define the parameter grid for the RandomForestClassifier

param_grid = {
    'n_estimators': [50, 100, 200],  # Numero de arboles en el bosque
    'max_depth': [None, 10, 20, 30], # Profundidad maxima de cada arbol
    'min_samples_split': [2, 5, 10], # Numero minimo de muestras necesarias para dividir un nodo
    'min_samples_leaf': [1, 2, 4] # Numero minimo de muestras necesarias en una hoja
}

# Create a RandomForestClassifier instance
rf = RandomForestClassifier()

# Create a GridSearchCV instance
random_search = RandomizedSearchCV(estimator=rf, 
                                   param_distributions=param_grid,
                                   cv=5, 
                                   n_iter=10,
                                   verbose=0)       # Los parametros cv, n_iter y verbose son opcionales y controlan la validacion cruzada, 
                                                    # el numero de combinaciones a probar y el nivel de detalle en la salida respectivamente.
                                                    # CV=5 significa que se usara validacion cruzada de 5 pliegues.
                                                    # n_iter=10 indica que se probaran 10 combinaciones aleatorias de los parametros.
                                                    # verbose=0 significa que no se mostrara informacion detallada sobre el progreso del random search.
                                                       

# Perform the grid search
random_search.fit(X, y)

# Print the best parameters and the best score
print("Best Parameters:", random_search.best_params_)
print("Best Score:", random_search.best_score_)

Best Parameters: {'n_estimators': 50, 'min_samples_split': 10, 'min_samples_leaf': 1, 'max_depth': 20}
Best Score: 0.9666666666666668


El parámetro ```n_iter``` controla cuántas combinaciones aleatorias de hiperparámetros se probarán durante la búsqueda.    
El número de pliegues de validación cruzada se especifica mediante la opción ```cv```. Después de llamar a ```fit()``` con el conjunto de datos, ```RandomizedSearchCV``` realizará la búsqueda y seleccionará los mejores hiperparámetros basándose en el rendimiento de la validación cruzada.     

Los mejores hiperparámetros se imprimen al final del script.

## Comparación entre GridSearch CV y RandomSearch CV   

<img src="./img/comparativaCV.png">    

Tanto Grid Search CV como Random Search CV son técnicas potentes para optimizar los hiperparámetros de un modelo de aprendizaje automático. Funcionan evaluando el rendimiento del modelo en diferentes combinaciones de hiperparámetros para encontrar la mejor combinación que produzca el mayor rendimiento en un conjunto de validación.    

Sin embargo, estos dos enfoques varían en varios aspectos significativos.

- Una de las principales diferencias entre la búsqueda aleatoria (Random Search CV) y la búsqueda en cuadrícula (Grid Search CV) es la forma en que buscan en el espacio de hiperparámetros:     
    - La búsqueda por cuadrícula evalúa el rendimiento del modelo en una cuadrícula predefinida de hiperparámetros, mientras que la búsqueda aleatoria toma muestras de hiperparámetros al azar de una distribución.    
    - La búsqueda por cuadrícula puede ser más eficiente en los casos en que los hiperparámetros están altamente correlacionados y tienen un fuerte efecto de interacción, pero puede ser computacionalmente costosa cuando el espacio de hiperparámetros es grande.    
    - Por otro lado, la búsqueda aleatoria puede ser más eficiente cuando el espacio de hiperparámetros es grande y los hiperparámetros óptimos no están altamente correlacionados.    
- Otra diferencia entre la búsqueda aleatoria y la búsqueda por cuadrícula es el número de hiperparámetros que pueden buscar:    
    - La búsqueda por cuadrícula puede buscar un gran número de hiperparámetros, pero puede resultar computacionalmente costosa a medida que aumenta el número de hiperparámetros.    
    - La búsqueda aleatoria, por otro lado, puede buscar un mayor número de hiperparámetros sin resultar demasiado costosa computacionalmente, ya que toma muestras de hiperparámetros de forma aleatoria.