> La "Optimización Paramétrica con Validación Cruzada" es un proceso en el que se busca encontrar los mejores hiperparámetros para un modelo de aprendizaje automático utilizando validación cruzada (CV) como parte del proceso de evaluación. Este enfoque es fundamental para mejorar el rendimiento de un modelo y evitar problemas de sobreajuste. A continuación, se explica este concepto en detalle y se proporciona un ejemplo:

### Conceptos Clave:

####Hiperparámetros: 
- Son configuraciones del modelo que no se ajustan automáticamente durante el entrenamiento, como la tasa de aprendizaje en redes neuronales o el número de árboles en un bosque aleatorio.

#### Validación Cruzada (CV): 
- Es una técnica para evaluar el rendimiento de un modelo mediante la división del conjunto de datos en múltiples subconjuntos (llamados pliegues) y realizando evaluaciones iterativas. El CV ayuda a obtener una estimación más precisa del rendimiento del modelo y evitar problemas de sesgo en la evaluación.

#### Optimización de Hiperparámetros: 
- Es el proceso de buscar los mejores valores para los hiperparámetros del modelo con el objetivo de mejorar su rendimiento.

##### Ejemplo:

- Supongamos que estamos trabajando con un conjunto de datos de clasificación y queremos encontrar los mejores hiperparámetros para un modelo de Bosque Aleatorio (Random Forest). Aquí está cómo se realiza la "Optimización Paramétrica con Validación Cruzada":

In [4]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

# Cargar el conjunto de datos
data = pd.read_csv('/home/jhonfypy/CursoML_Scikit_learni_jf/heart.csv')

# Separar características (X) y etiquetas (y)
X = data.drop(columns=['target'])
y = data['target']

# Definir los hiperparámetros que queremos optimizar
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Crear el modelo de Bosque Aleatorio
rf_model = RandomForestClassifier(random_state=42)

# Realizar una búsqueda en cuadrícula con validación cruzada
grid_search = GridSearchCV(estimator=rf_model, param_grid=param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Ajustar el modelo a los datos
grid_search.fit(X, y)

# Imprimir los mejores hiperparámetros y el mejor puntaje
print("Mejores hiperparámetros encontrados:")
print(grid_search.best_params_)
print("Mejor puntaje de precisión encontrado:")
print(grid_search.best_score_)


#### En este ejemplo:

- Importamos los datos y separamos las características y las etiquetas.
- Definimos una cuadrícula de hiperparámetros que queremos optimizar.
- Creamos un modelo de Bosque Aleatorio.
- Utilizamos GridSearchCVpara realizar una búsqueda exhaustiva de los mejores hiperparámetros utilizando validación cruzada de 5 pliegues.
- Ajustamos el modelo a los datos y obtenemos los mejores hiperparámetros y el mejor puntaje de precisión.
- Este proceso nos permite encontrar la configuración de hiperparámetros que proporciona el mejor rendimiento para nuestro modelo de Bosque Aleatorio en función de la métrica de precisión, y todo esto con una evaluación más robusta gracias a la validación cruzada.

## Optimización de hiperparametros | Hyperparameter Optimization

- Familiarizados con el concepto de Cross Validation vamos a utilizar este mismo principio de fondo para lograr automatizar un poco la selección y optimización de nuestros modelos.

### Problema: 
- Parece que encontramos un modelo de aprendizaje que parece funcionar, pero esto puede implicar que ahora tenemos que encontrar la optimización de cada uno de los parámetros de este modelo, encontrar el que mejor se ajuste y el que mejor resultado nos de.

- Es facil perderse entre los conceptos de tantos parámetros. Tenemos flexibilidad para algoritmos básicos de Machine Learning, pero facil perderse.
- Es difícil medir la sensibilidad de los mismos manualmente.
- Es COSTOSO, en tiempo humano y computacionalmente.
- Scikit Learn nos ofrece enfoques para automatizar el proceso de optimización paramétrica. Existen 3 enfoques principales, estos son:

### Optimización manual

- Optimizacion por grilla de parámetros | GridSearchCV

- Optimizacion por búsqueda aleatorizada |
.
.
- Optimización manual

- Escoger el modelo que queremos ajustar.

- Buscar en la documentación de Scikit-Learn

- Identificar parámetros y ajustes. Parámetros que vamos a necesitar y cuáles son los posibles ajustes que vamos a requerir para cada uno de estos parámetros.

- Probar combinaciones una por una iterando a través de listas.
.
.
### Optimizacion por grilla de parámetros | GridSearchCV

Es una forma organizada, exhaustiva y sistematica de probar todos los parametros que le digamos que tenga que probar, con los respectivos rangos de valores que le aportemos.

- Definir una o varias métricas que queremos optimizar.
- Identificar los posibles valores que pueden tener los parámetros.
- Crear un diccionario de parámetros.
- Usar Cross Validation.
- Entrenar el modelo (e ir por un café)
La grilla de parámetros nos define GRUPOS DE PARÁMETROS que serán probados en todas sus combinaciones (Un grupo a la vez)

### Ejemplo:
![Alt text](image.png)
#### svm-gridsearch-optimized
.
.

## Optimizacion por búsqueda aleatorizada | RandomizedSearchCV

- Si no tenemos tanto tiempo para una prueba tan exhaustiva o queremos combinaciones aleatorias usaremos este metodo. Es lo mismo que el caso anterior, pero busca de forma aleatoria los parametros y Scikit Learn selecciona los mejores de las combinaciones aleatorias que se hicieron.

- En este método, definimos escalas de valores para cada uno de los parámetros seleccionados, el sistema probará varias iteraciones (Configurables según los recursos) y mostrará la mejor combinación encontrada.

### Ejemplo:
![Alt text](image-1.png)
#### svm-randomized-search-optimized
.
.

## GridSearchCV vs RandomizedSearchCV

#### GridSearchCV

- Cuando se quiera realizar un estudio a fondo sobre las implicaciones de los parámetros.
Se tenga tiempo.
Se tenga poder de procesamiento.
RandomizedSearchCV
![Alt text](image-2.png)
- Cuando se quiera explorar posibles optimizaciones.
Haya poco tiempo.
Haya poco poder de procesamiento.
GridSearch-vs-RandomizedSearch