<a href="https://colab.research.google.com/github/SarahChalup/PetFinder/blob/main/Explicacion_de_optimizacio%CC%81n_de_hiperpara%CC%81metros.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install optuna > /dev/null 2>&1

# üß† Optimizaci√≥n de Hiperpar√°metros en Modelos de Machine Learning

## üéØ Objetivo de la clase

En esta pr√°ctica aprenderemos a **ajustar los hiperpar√°metros** de un modelo para mejorar su rendimiento.
Exploraremos tres enfoques diferentes:

1. **Grid Search** ‚Äî b√∫squeda exhaustiva de combinaciones.
2. **Random Search** ‚Äî b√∫squeda aleatoria eficiente.
3. **Bayesian Optimization (Optuna)** ‚Äî b√∫squeda inteligente guiada por resultados previos.
---

## üß© ¬øQu√© son los hiperpar√°metros?

Los **par√°metros** son los valores que el modelo aprende autom√°ticamente durante el entrenamiento (por ejemplo, los pesos de una regresi√≥n lineal).
Los **hiperpar√°metros**, en cambio, los definimos nosotros antes del entrenamiento, y controlan el comportamiento del modelo.

Ejemplos de hiperpar√°metros comunes:
- N√∫mero de √°rboles (`n_estimators`) en un Random Forest
- Profundidad m√°xima (`max_depth`)
- Tasa de aprendizaje (`learning_rate`)
- Regularizaci√≥n (`C`, `alpha`, `lambda`)

Optimizar hiperpar√°metros busca **maximizar una m√©trica de rendimiento** (accuracy, F1, RMSE, etc.) mediante pruebas sistem√°ticas o guiadas.

---

In [None]:
import json
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.datasets import load_iris
import time
import matplotlib.pyplot as plt
import seaborn as sns


from sklearn.model_selection import train_test_split, StratifiedKFold, ParameterGrid, ParameterSampler, cross_val_score
from sklearn import tree
from sklearn.metrics import roc_auc_score
from tqdm.notebook import tqdm

import optuna


from sklearn.datasets import make_classification
X, y = make_classification(
    n_samples=2000, n_features=20,
    n_informative=8, n_redundant=4,
    n_clusters_per_class=2,
    class_sep=1.2, flip_y=0.05,
    random_state=42
)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

## üîç 1. Grid Search

**Grid Search** explora **todas las combinaciones posibles** de hiperpar√°metros dentro de un rango definido.

Es el m√©todo m√°s simple y garantiza encontrar el mejor modelo **si la grilla es suficientemente densa**, pero tiene un costo computacional alto.

üß© **Ventajas**
- F√°cil de entender e implementar.
- Eval√∫a todas las combinaciones posibles.

‚ö†Ô∏è **Desventajas**
- Escala mal con el n√∫mero de hiperpar√°metros.
- Puede ser muy costoso en tiempo.

üìà **Ejemplo:** probamos diferentes combinaciones de `n_estimators`, `max_depth` y `min_samples_split`.

### Ejecucion de Grid Search

In [None]:
def auc_safe(y_true, proba):
    """
    Si es binario: usa proba de clase positiva.
    Si es multiclase: usa OVR macro.
    """
    if proba.ndim == 1 or proba.shape[1] == 1:
        return np.nan
    if proba.shape[1] == 2:
        return roc_auc_score(y_true, proba[:, 1])
    else:
        return roc_auc_score(y_true, proba, multi_class="ovr", average="macro")

In [None]:
# definimos hiperparametros
hyperparameters = {
    "criterion": ["gini", "entropy"],
    "max_depth": [None, 3, 5, 8, 12],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 5],
    "max_features": [None, "sqrt"],
}

# semilla de aleatoriedad
RANDOM_STATE = 42
splits = 5
cv = StratifiedKFold(n_splits=splits, shuffle=True, random_state=RANDOM_STATE)

# GRID SEARCH
learners = []
records = []
grid = ParameterGrid(hyperparameters)

for params in tqdm(grid, total = len(list(grid))):
    fold_scores = []
    fold_idx = 0
    for tr_idx, va_idx in cv.split(X_train, y_train):
        X_tr, X_va = X_train[tr_idx], X_train[va_idx]
        y_tr, y_va = y_train[tr_idx], y_train[va_idx]

        clf = tree.DecisionTreeClassifier(**params, random_state=RANDOM_STATE)
        clf.fit(X_tr, y_tr)

        va_proba = clf.predict_proba(X_va)
        fold_auc = auc_safe(y_va, va_proba)
        fold_scores.append(float(fold_auc))
        fold_idx += 1

    # tomo la media y desvio estandar de los fold de validacion
    cv_mean = float(np.mean(fold_scores))
    cv_std  = float(np.std(fold_scores))

    # Modelo de arbol de decision y clasificacion
    learner = tree.DecisionTreeClassifier(**params, random_state=RANDOM_STATE).fit(X_train, y_train)
    test_proba = learner.predict_proba(X_test)
    test_auc = float(auc_safe(y_test, test_proba))

    learners.append(learner)

    params_json = json.dumps(params, sort_keys=True)
    records.append({
        "params_json": params_json,           # hiperpar√°metros como string
        "cv_mean_auc": cv_mean,               # promedio AUC CV (5 folds)
        "cv_std_auc": cv_std,                 # desv√≠o AUC CV
        "test_auc": test_auc,                 # AUC en test (hold-out 33%)
        "n_leaves": getattr(learner.tree_, "node_count", None),
        "max_depth_model": learner.get_depth(),
        "fold_scores": json.dumps(fold_scores)  # lista de AUC por fold como string (opcional)
    })

  0%|          | 0/180 [00:00<?, ?it/s]

In [None]:
results_df = pd.DataFrame(records)

results_df = results_df.sort_values(["cv_mean_auc", "test_auc"], ascending=False).reset_index(drop=True)

print("Top 10 por CV_mean_auc:")
display(results_df.head(10))

best_by_cv = results_df.iloc[0]
print("\nMejor por CV_mean_auc:")
print(best_by_cv)

best_by_test = results_df.sort_values("test_auc", ascending=False).iloc[0]
print("\nMejor por TEST_auc:")
print(best_by_test)

Top 10 por CV_mean_auc:


Unnamed: 0,params_json,cv_mean_auc,cv_std_auc,test_auc,n_leaves,max_depth_model,fold_scores
0,"{""criterion"": ""gini"", ""max_depth"": 5, ""max_fea...",0.828536,0.024804,0.819278,55,5,"[0.8040671565625639, 0.8382322923045519, 0.800..."
1,"{""criterion"": ""gini"", ""max_depth"": 5, ""max_fea...",0.828536,0.024804,0.819278,55,5,"[0.8040671565625639, 0.8382322923045519, 0.800..."
2,"{""criterion"": ""gini"", ""max_depth"": 5, ""max_fea...",0.828536,0.024804,0.819278,55,5,"[0.8040671565625639, 0.8382322923045519, 0.800..."
3,"{""criterion"": ""gini"", ""max_depth"": 5, ""max_fea...",0.826429,0.023801,0.817366,55,5,"[0.8048836497244335, 0.8317003470095938, 0.808..."
4,"{""criterion"": ""gini"", ""max_depth"": 8, ""max_fea...",0.825975,0.01946,0.82398,153,8,"[0.795596040008165, 0.8315472545417433, 0.8137..."
5,"{""criterion"": ""gini"", ""max_depth"": 8, ""max_fea...",0.825975,0.01946,0.82398,153,8,"[0.795596040008165, 0.8315472545417433, 0.8137..."
6,"{""criterion"": ""gini"", ""max_depth"": 8, ""max_fea...",0.825975,0.01946,0.82398,153,8,"[0.795596040008165, 0.8315472545417433, 0.8137..."
7,"{""criterion"": ""gini"", ""max_depth"": 5, ""max_fea...",0.825847,0.025274,0.817822,59,5,"[0.8048836497244335, 0.8330016329863238, 0.802..."
8,"{""criterion"": ""gini"", ""max_depth"": 5, ""max_fea...",0.825771,0.025136,0.817822,59,5,"[0.8048836497244335, 0.8330016329863238, 0.802..."
9,"{""criterion"": ""entropy"", ""max_depth"": 5, ""max_...",0.82473,0.024162,0.804366,55,5,"[0.7956981016533986, 0.8593845682792407, 0.804..."



Mejor por CV_mean_auc:
params_json        {"criterion": "gini", "max_depth": 5, "max_fea...
cv_mean_auc                                                 0.828536
cv_std_auc                                                  0.024804
test_auc                                                    0.819278
n_leaves                                                          55
max_depth_model                                                    5
fold_scores        [0.8040671565625639, 0.8382322923045519, 0.800...
Name: 0, dtype: object

Mejor por TEST_auc:
params_json        {"criterion": "entropy", "max_depth": 5, "max_...
cv_mean_auc                                                 0.780486
cv_std_auc                                                  0.053065
test_auc                                                     0.84127
n_leaves                                                          61
max_depth_model                                                    5
fold_scores        [0.7140998162890

### Otra forma de ejecutar un grid search

In [None]:
clf = tree.DecisionTreeClassifier(**params, random_state=RANDOM_STATE)

grid_search = GridSearchCV(clf, hyperparameters, cv=3, scoring='roc_auc', n_jobs=-1)
start = time.time()
grid_search.fit(X_train, y_train)
end = time.time()

print(f"‚è±Ô∏è Tiempo total: {end - start:.2f} s")
print(f"Mejores par√°metros: {grid_search.best_params_}")
print(f"Mejor accuracy CV: {grid_search.best_score_:.3f}")

‚è±Ô∏è Tiempo total: 15.28 s
Mejores par√°metros: {'criterion': 'entropy', 'max_depth': 8, 'max_features': None, 'min_samples_leaf': 5, 'min_samples_split': 2}
Mejor accuracy CV: 0.822


### Ejecucion de Random Search

In [None]:
hyperparameters = {
    "criterion": ["gini", "entropy"],
    "max_depth": [None, 3, 5, 8, 12],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 5],
    "max_features": [None, "sqrt"],
}

RANDOM_STATE = 42
splits = 5
cv = StratifiedKFold(n_splits=splits, shuffle=True, random_state=RANDOM_STATE)

learners = []
records = []
random = ParameterSampler(hyperparameters, n_iter = 38)
# random search en la maxima es igual a grid search, en la minima es mucho mas rapido


for params in tqdm(random, total = len(list(random))):
    fold_scores = []
    fold_idx = 0
    for tr_idx, va_idx in cv.split(X_train, y_train):
        X_tr, X_va = X_train[tr_idx], X_train[va_idx]
        y_tr, y_va = y_train[tr_idx], y_train[va_idx]

        clf = tree.DecisionTreeClassifier(**params, random_state=RANDOM_STATE)
        clf.fit(X_tr, y_tr)

        va_proba = clf.predict_proba(X_va)
        fold_auc = auc_safe(y_va, va_proba)
        fold_scores.append(float(fold_auc))
        fold_idx += 1

    cv_mean = float(np.mean(fold_scores))
    cv_std  = float(np.std(fold_scores))

    learner = tree.DecisionTreeClassifier(**params, random_state=RANDOM_STATE).fit(X_train, y_train)
    test_proba = learner.predict_proba(X_test)
    test_auc = float(auc_safe(y_test, test_proba))

    learners.append(learner)

    params_json = json.dumps(params, sort_keys=True)
    records.append({
        "params_json": params_json,           # hiperpar√°metros como string
        "cv_mean_auc": cv_mean,               # promedio AUC CV (5 folds)
        "cv_std_auc": cv_std,                 # desv√≠o AUC CV
        "test_auc": test_auc,                 # AUC en test (hold-out 33%)
        "n_leaves": getattr(learner.tree_, "node_count", None),
        "max_depth_model": learner.get_depth(),
        "fold_scores": json.dumps(fold_scores)  # lista de AUC por fold como string (opcional)
    })

  0%|          | 0/38 [00:00<?, ?it/s]

In [None]:
results_df = pd.DataFrame(records)

results_df = results_df.sort_values(["cv_mean_auc", "test_auc"], ascending=False).reset_index(drop=True)

print("Top 10 por CV_mean_auc:")
display(results_df.head(10))

best_by_cv = results_df.iloc[0]
print("\nMejor por CV_mean_auc:")
print(best_by_cv)

best_by_test = results_df.sort_values("test_auc", ascending=False).iloc[0]
print("\nMejor por TEST_auc:")
print(best_by_test)

Top 10 por CV_mean_auc:


Unnamed: 0,params_json,cv_mean_auc,cv_std_auc,test_auc,n_leaves,max_depth_model,fold_scores
0,"{""criterion"": ""gini"", ""max_depth"": 5, ""max_fea...",0.828536,0.024804,0.819278,55,5,"[0.8040671565625639, 0.8382322923045519, 0.800..."
1,"{""criterion"": ""gini"", ""max_depth"": 5, ""max_fea...",0.825771,0.025136,0.817822,59,5,"[0.8048836497244335, 0.8330016329863238, 0.802..."
2,"{""criterion"": ""entropy"", ""max_depth"": 8, ""max_...",0.806986,0.015192,0.824085,143,8,"[0.7907225964482547, 0.8332312716880996, 0.797..."
3,"{""criterion"": ""gini"", ""max_depth"": 8, ""max_fea...",0.805869,0.01949,0.832639,151,8,"[0.7853898754847928, 0.7975096958562972, 0.794..."
4,"{""criterion"": ""gini"", ""max_depth"": 3, ""max_fea...",0.803582,0.04258,0.756086,15,3,"[0.7513268013880383, 0.815753214941825, 0.7608..."
5,"{""criterion"": ""gini"", ""max_depth"": 3, ""max_fea...",0.803582,0.04258,0.756086,15,3,"[0.7513268013880383, 0.815753214941825, 0.7608..."
6,"{""criterion"": ""entropy"", ""max_depth"": 8, ""max_...",0.787492,0.014938,0.806228,155,8,"[0.7986068585425596, 0.8065931822820983, 0.772..."
7,"{""criterion"": ""gini"", ""max_depth"": 12, ""max_fe...",0.785497,0.026158,0.780295,263,12,"[0.7744182486221678, 0.8138905899163094, 0.752..."
8,"{""criterion"": ""entropy"", ""max_depth"": 5, ""max_...",0.78293,0.048652,0.834701,61,5,"[0.7362216778934477, 0.8187385180649112, 0.712..."
9,"{""criterion"": ""gini"", ""max_depth"": 5, ""max_fea...",0.782685,0.028416,0.770653,59,5,"[0.7681159420289855, 0.7457134109001836, 0.769..."



Mejor por CV_mean_auc:
params_json        {"criterion": "gini", "max_depth": 5, "max_fea...
cv_mean_auc                                                 0.828536
cv_std_auc                                                  0.024804
test_auc                                                    0.819278
n_leaves                                                          55
max_depth_model                                                    5
fold_scores        [0.8040671565625639, 0.8382322923045519, 0.800...
Name: 0, dtype: object

Mejor por TEST_auc:
params_json        {"criterion": "entropy", "max_depth": 5, "max_...
cv_mean_auc                                                  0.78293
cv_std_auc                                                  0.048652
test_auc                                                    0.834701
n_leaves                                                          61
max_depth_model                                                    5
fold_scores        [0.7362216778934

## üîÆ El Surrogate Model en la Optimizaci√≥n Bayesiana

La **optimizaci√≥n bayesiana** se basa en la idea de **aprender una representaci√≥n aproximada** de la funci√≥n que queremos optimizar.  
Esa representaci√≥n se llama **surrogate model** (modelo sustituto o aproximador).

---

### üéØ ¬øQu√© problema resuelve?

Cada vez que entrenamos un modelo para probar una combinaci√≥n de hiperpar√°metros, el costo puede ser **muy alto** (minutos u horas).  
La idea del surrogate es **evitar probar todo**, aprendiendo una **versi√≥n barata** de la funci√≥n objetivo.

\[
f(\text{hiperpar√°metros}) = \text{m√©trica del modelo (por ejemplo, F1 o AUC)}
\]

El surrogate intenta aproximar esta funci√≥n \( f(x) \) a partir de los puntos que ya conocemos.

---

### üß† ¬øQu√© hace el surrogate model?

1. **Aprende** una relaci√≥n entre los hiperpar√°metros (`x`) y el resultado (`f(x)`).
2. **Predice** qu√© combinaciones podr√≠an dar buenos resultados.
3. **Informa a la funci√≥n de adquisici√≥n** (acquisition function) d√≥nde conviene probar despu√©s.

üí¨ En otras palabras:
> El surrogate model es como un ‚Äúmapa‚Äù aproximado del rendimiento del modelo en funci√≥n de los hiperpar√°metros.

---

### üß© ¬øC√≥mo funciona el proceso completo?

1. **Exploraci√≥n inicial:**  
   Se prueban algunas combinaciones aleatorias para tener puntos de referencia.

2. **Ajuste del surrogate model:**  
   Con esos puntos (hiperpar√°metros ‚Üí score), el surrogate aprende a estimar:
   - El valor esperado del score (media).  
   - La incertidumbre de esa predicci√≥n (varianza).

3. **Selecci√≥n de nuevos puntos:**  
   Una *acquisition function* (como *Expected Improvement*) elige nuevos hiperpar√°metros balanceando:
   - **Exploraci√≥n:** probar zonas donde el surrogate no tiene datos.  
   - **Explotaci√≥n:** concentrarse en las zonas donde predice alto rendimiento.

4. **Actualizaci√≥n:**  
   Se entrena el modelo real en ese nuevo punto ‚Üí se obtiene un nuevo score ‚Üí se actualiza el surrogate.

---

### ‚öôÔ∏è Tipos comunes de surrogate models

| Modelo | Descripci√≥n | Cu√°ndo se usa |
|---------|--------------|----------------|
| **Gaussian Process (GP)** | Modela la funci√≥n objetivo como una distribuci√≥n gaussiana sobre funciones posibles. Proporciona media y varianza. | Problemas peque√±os y continuos. |
| **Tree-structured Parzen Estimator (TPE)** | Modela distribuciones de probabilidad sobre los par√°metros buenos y malos. | Es el que usa **Optuna** y **Hyperopt**, eficiente en espacios grandes. |
| **Random Forest surrogate** | Usa un bosque aleatorio para aproximar el comportamiento de la funci√≥n. | Casos con mucho ruido o hiperpar√°metros mixtos. |

---

### üßÆ C√≥mo trabaja TPE (usado por Optuna)

Optuna implementa el m√©todo **Tree-structured Parzen Estimator (TPE)**, que:

1. Divide las observaciones en dos grupos:
   - **Buenos resultados** (por encima de un umbral de score).
   - **Malos resultados** (por debajo de ese umbral).

2. Aprende dos distribuciones:
   - \( l(x) \): probabilidad de que una combinaci√≥n provenga del grupo ‚Äúbueno‚Äù.
   - \( g(x) \): probabilidad de que provenga del grupo ‚Äúmalo‚Äù.

3. Elige nuevas combinaciones maximizando la raz√≥n \( l(x) / g(x) \),  
   es decir, **donde es m√°s probable encontrar mejoras**.

üí¨ En criollo:
> ‚ÄúAprende c√≥mo se ven los hiperpar√°metros que funcionaron bien,  
> y busca combinaciones parecidas, pero sin dejar de explorar nuevas zonas.‚Äù

---

### üó∫Ô∏è Intuici√≥n visual

Imagin√° que quer√©s escalar una monta√±a üèîÔ∏è, pero solo pod√©s medir la altura en unos pocos puntos:

- **Grid Search** ‚Üí mide la altura en todos los puntos del mapa (caro).  
- **Random Search** ‚Üí mide en puntos al azar (barato, pero sin direcci√≥n).  
- **Bayesiana (con surrogate)** ‚Üí usa las mediciones anteriores para construir un **mapa de alturas estimadas**  
  y luego decide d√≥nde conviene medir la pr√≥xima vez (m√°s cerca de la cima esperada).

---

### üîÑ Ciclo completo de la optimizaci√≥n bayesiana

| Paso | Qu√© hace | Qui√©n lo hace |
|------|-----------|---------------|
| 1Ô∏è‚É£ Probar combinaciones iniciales | Entrena y eval√∫a modelos reales | `objective()` |
| 2Ô∏è‚É£ Aprender la relaci√≥n entre hiperpar√°metros y score | Ajusta el surrogate model | Optuna |
| 3Ô∏è‚É£ Elegir nuevas combinaciones prometedoras | Usa una funci√≥n de adquisici√≥n | Optuna |
| 4Ô∏è‚É£ Reentrenar y actualizar | Registra el nuevo punto (x, f(x)) | Optuna |

---

### üí¨ C√≥mo explicarlo en clase

Pod√©s usar esta analog√≠a:
> ‚ÄúEl surrogate model es como un mapa que se va completando a medida que tomamos mediciones.  
> Al principio el mapa es difuso, pero con cada nueva medici√≥n el modelo entiende mejor  
> d√≥nde est√°n las zonas altas (buenas combinaciones).‚Äù

---

### üß≠ En resumen

| Concepto | Rol |
|-----------|-----|
| **Surrogate model** | Aprende una versi√≥n aproximada de la funci√≥n objetivo (score). |
| **Objective function** | Eval√∫a el rendimiento real del modelo (costoso). |
| **Acquisition function** | Decide d√≥nde probar despu√©s (balance exploraci√≥n/explotaci√≥n). |
| **Optuna (TPE)** | Implementa todo el ciclo de forma autom√°tica y eficiente. |

---

### üí° Frase para recordar
> ‚ÄúEl surrogate model no entrena el modelo final,  
> entrena una **intuici√≥n estad√≠stica** de qu√© combinaciones de hiperpar√°metros pueden rendir mejor.‚Äù

---

### üéØ ¬øQu√© hace la funci√≥n `objective`?

Cada vez que Optuna realiza una prueba (*trial*), ejecuta `objective(trial)` con una combinaci√≥n de hiperpar√°metros.  
La funci√≥n:

1. **Recibe** un conjunto de hiperpar√°metros propuestos por Optuna.  
2. **Entrena** un modelo con esos valores.  
3. **Eval√∫a** el modelo (por ejemplo, con cross-validation).  
4. **Devuelve** una m√©trica num√©rica que mide el rendimiento (accuracy, F1, AUC, etc.).

Ese valor num√©rico se conoce como **objective value**, y es lo que Optuna trata de **maximizar o minimizar**.

---

### üß† Ejemplo pr√°ctico

```python
def objective(trial):
    n_estimators = trial.suggest_int("n_estimators", 50, 300)
    max_depth = trial.suggest_int("max_depth", 3, 15)
    min_samples_split = trial.suggest_int("min_samples_split", 2, 10)
    min_samples_leaf = trial.suggest_int("min_samples_leaf", 1, 5)
    max_features = trial.suggest_categorical("max_features", [None, "sqrt", "log2"])

    model = RandomForestClassifier(
        n_estimators=n_estimators,
        max_depth=max_depth,
        min_samples_split=min_samples_split,
        min_samples_leaf=min_samples_leaf,
        max_features=max_features,
        random_state=42
    )

    score = cross_val_score(model, X, y, cv=cv, scoring="f1_macro", n_jobs=-1).mean()
    return score

In [None]:
#SCORING = "f1_macro"
SCORING = "roc_auc"

RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

#primero definimos una funcion objetivo
def objective(trial: optuna.Trial) -> float:
    """
    Optuna probar√° distintas combinaciones de hiperpar√°metros y
    evaluar√° el promedio de F1 macro en CV.
    """
    # üîß Hiperpar√°metros a explorar
    n_estimators = trial.suggest_int("n_estimators", 50, 300)
    max_depth = trial.suggest_int("max_depth", 3, 15)
    min_samples_split = trial.suggest_int("min_samples_split", 2, 10)
    min_samples_leaf = trial.suggest_int("min_samples_leaf", 1, 5)
    max_features = trial.suggest_categorical("max_features", [None, "sqrt", "log2"])

    model = RandomForestClassifier(
        n_estimators=n_estimators,
        max_depth=max_depth,
        min_samples_split=min_samples_split,
        min_samples_leaf=min_samples_leaf,
        max_features=max_features,
        random_state=RANDOM_STATE
    )

    # ‚öôÔ∏è Cross-validation con la misma CV
    score = cross_val_score(model, X_train, y_train, cv=cv, scoring=SCORING, n_jobs=-1).mean()

    return score  # Optuna maximiza este valor





# üß™ Validaci√≥n cruzada fija (para comparaci√≥n justa)
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)



In [None]:
study = optuna.create_study(direction="maximize")
study.optimize(objective, n_trials=30, show_progress_bar=True)

print("üèÜ Mejor F1 CV promedio:", study.best_value)
print("‚ú® Mejores hiperpar√°metros encontrados:")
print(study.best_params)

[I 2025-11-08 00:00:06,354] A new study created in memory with name: no-name-14382b6b-3901-49db-b7b8-cb84500a3036


  0%|          | 0/30 [00:00<?, ?it/s]

[I 2025-11-08 00:00:14,368] Trial 0 finished with value: 0.8975709328434375 and parameters: {'n_estimators': 248, 'max_depth': 5, 'min_samples_split': 9, 'min_samples_leaf': 4, 'max_features': 'sqrt'}. Best is trial 0 with value: 0.8975709328434375.
[I 2025-11-08 00:00:24,933] Trial 1 finished with value: 0.9133394570320472 and parameters: {'n_estimators': 121, 'max_depth': 14, 'min_samples_split': 8, 'min_samples_leaf': 3, 'max_features': None}. Best is trial 1 with value: 0.9133394570320472.
[I 2025-11-08 00:00:28,408] Trial 2 finished with value: 0.8684731577873036 and parameters: {'n_estimators': 211, 'max_depth': 3, 'min_samples_split': 3, 'min_samples_leaf': 4, 'max_features': 'sqrt'}. Best is trial 1 with value: 0.9133394570320472.
[I 2025-11-08 00:00:32,996] Trial 3 finished with value: 0.88601755460298 and parameters: {'n_estimators': 295, 'max_depth': 4, 'min_samples_split': 10, 'min_samples_leaf': 1, 'max_features': 'sqrt'}. Best is trial 1 with value: 0.9133394570320472.
[I

In [None]:
optuna.visualization.plot_optimization_history(study)


In [None]:
optuna.visualization.plot_param_importances(study)