### Optimización de hiperparámetros

- Regresión de Ridge/Lasso: Elección de alfa
- KNN: Elección de n_vecinos
- Hiperparámetros: Parámetros que especificamos antes de ajustar el modelo, como alfa y n_vecinos

### Elección de los hiperparámetros correctos

1. Probar varios valores de hiperparámetros diferentes.
2. Ajustar todo por separado.
3. Observar su rendimiento.
4. Elegir los valores con mejor rendimiento.
5. Se retiene el conjunto de pruebas para la evaluación final.

Es fundamental utilizar la validación cruzada para evitar el sobreajuste al conjunto de prueba.

Aún se pueden dividir los datos y realizar la validación cruzada en el conjunto de entrenamiento.

### Validación cruzada de búsqueda en cuadrícula

Sirve para encontrar los mejores hiperparámetros de un modelo de forma sistemática y robusta.

Es una técnica que

- Define un espacio de búsqueda de combinaciones de hiperparámetros (ej: C, gamma, max_depth, n_neighbors, etc.).
- Evalúa cada combinación usando validación cruzada (por ejemplo, K-Fold CV).
- Selecciona la mejor combinación basada en la métrica de rendimiento (accuracy, f1, etc.).

### ¿Para qué sirve?

- **Optimizar el modelo:** elige los hiperparámetros que mejor generalizan a datos nuevos.
- **Evitar overfitting/underfitting:** al probar varias combinaciones, se encuentra un buen balance.
- **Evaluar de forma consistente:** cada combinación se valida en múltiples particiones de los datos.

### GridSearchCV

`GridSearchCV` es una herramienta de scikit-learn que permite encontrar automáticamente los mejores hiperparámetros para un modelo de Machine Learning utilizando una búsqueda en cuadrícula combinada con validación cruzada.

```python
# Importa GridSearchCV para búsqueda en cuadrícula y KFold para validación cruzada
from sklearn.model_selection import GridSearchCV, KFold

# Crea una validación cruzada K-Fold con 5 particiones, con barajado y semilla fija para reproducibilidad
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Define el espacio de búsqueda de hiperparámetros:
# - "alpha": valores de regularización (aunque np.arange(0.0001, 1, 10) solo genera [0.0001], revisar paso)
# - "solver": métodos numéricos disponibles para resolver la regresión Ridge
param_grid = {
    "alpha": np.arange(0.0001, 1, 10),  # Genera un solo valor: [0.0001] debido al paso de 10
    "solver": ["sag", "lsqr"]
}

# Instancia el modelo Ridge (regresión lineal con regularización L2)
ridge = Ridge()

# Configura la búsqueda en cuadrícula usando el modelo, el grid de parámetros y la validación cruzada definida
ridge_cv = GridSearchCV(ridge, param_grid, cv=kf)

# Entrena (ajusta) el modelo con validación cruzada sobre los datos de entrenamiento
ridge_cv.fit(X_train, y_train)

# Imprime los mejores hiperparámetros encontrados y el mejor puntaje de validación
print(ridge_cv.best_params_, ridge_cv.best_score_)
```

#### Limitaciones y un enfoque alternativo

- Validación cruzada triple, 1 hiperparámetro, 10 valores totales = 30 ajustes
- Validación cruzada de 10, 3 hiperparámetros, 30 valores totales = 900 ajustes

### RandomizeSearchCV

`RandomizedSearchCV` es una técnica de búsqueda de hiperparámetros aleatoria utilizada en aprendizaje automático para encontrar la mejor combinación de hiperparámetros de un modelo.

```python
from sklearn.model_selection import RandomizeSearchCV, KFold

# Crea una validación cruzada K-Fold con 5 particiones, con barajado y semilla fija para reproducibilidad
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# Define el espacio de búsqueda de hiperparámetros:
# - "alpha": valores de regularización (aunque np.arange(0.0001, 1, 10) solo genera [0.0001], revisar paso)
# - "solver": métodos numéricos disponibles para resolver la regresión Ridge
param_grid = {
    "alpha": np.arange(0.0001, 1, 10),  # Genera un solo valor: [0.0001] debido al paso de 10
    "solver": ["sag", "lsqr"]
}

# Instancia el modelo Ridge (regresión lineal con regularización L2)
ridge = Ridge()

# Configura la búsqueda en cuadrícula usando el modelo, el grid de parámetros y la validación cruzada definida
ridge_cv = RandomizeSearchCV(ridge, param_grid, cv=kf, n_iter=2)

# Entrena (ajusta) el modelo con validación cruzada sobre los datos de entrenamiento
ridge_cv.fit(X_train, y_train)

# Imprime los mejores hiperparámetros encontrados y el mejor puntaje de validación
print(ridge_cv.score(X_test, y_test))