# **Ajuste de Hiperpar√°metros** ‚öôÔ∏èü§ñ

Bienvenidos a esta nueva aventura llena de aprendizajes üöÄ. Como el t√≠tulo lo anuncia, estaremos explorando el fascinante mundo de los **hiperpar√°metros** y c√≥mo ajustarlos adecuadamente. Pero antes de sumergirnos en este viaje, es crucial aclarar una serie de conceptos para que vayas comprendiendo el paso a paso que aqu√≠ estaremos desarrollando üß≠.

## **¬øQu√© son los hiperpar√°metros?** ‚ùì

Esta, sin duda, debe ser la pregunta m√°s importante que te est√©s planteando en este momento ü§î. Pues bien, los hiperpar√°metros son las configuraciones empleadas para estructurar modelos de *Machine Learning*. Podr√≠amos decir que son ajustes por defecto que nosotros mismos aplicamos antes de dar inicio al proceso de entrenamiento; esto nos ayuda a controlar aspectos tanto del entrenamiento como de la estructura del modelo ‚öíÔ∏è.

El *fine tuning* de estos hiperpar√°metros ser√° el enfoque principal de este minicurso üß†, de tal manera que seamos capaces de ajustarlos sistem√°ticamente, lo que posteriormente permitir√° optimizar el rendimiento de nuestros modelos üìà.

### Algunos datos importantes sobre el *fine tuning* de los hiperpar√°metros üõ†Ô∏è:

1. Los ajustes por defecto de los hiperpar√°metros a veces no se adaptan completamente a las caracter√≠sticas de nuestras bases de datos y sus requerimientos üìä; por eso es necesario intervenir manualmente y establecer nuevos par√°metros "por defecto" ‚úçÔ∏è.
2. Un ajuste adecuado puede incrementar de manera significativa la **precisi√≥n**, **eficiencia** y, en t√©rminos generales, el **rendimiento** del modelo üí°.
3. Ayuda a alcanzar un equilibrio entre el **sobreajuste** (*overfitting*) y el **subajuste** (*underfitting*) ‚öñÔ∏è, llevando al modelo a una mejor generalizaci√≥n frente a datos no vistos üîç.
4. Todos los modelos responden de forma diferente a los distintos tipos de ajustes üß™, por lo que es necesario realizar este proceso en cada caso espec√≠fico (es muy dif√≠cil reutilizar el proceso como en los *pipelines*) üîÑ.


Como siempre, nuestros primeros pasos est√°n orientados a la importaci√≥n de nuestras bases de datos üìÇ y, posteriormente, al estudio de la base de datos seleccionada para este ejercicio.

In [103]:
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import (
    train_test_split, cross_val_score,
    GridSearchCV, RandomizedSearchCV,
    RepeatedKFold
)
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import root_mean_squared_error

## **üåå Nuestra Base de Datos**

Como es costumbre, en los recursos de este minicurso te dejar√© la base de datos que voy a estar empleando üìä. En caso de que quieras hacerlo con una base diferente, no hay ning√∫n inconveniente. Sin embargo, si es tu primera vez haciendo ajuste de hiperpar√°metros, te recomiendo usar una base de datos limpia üßº y cuyas variables sean exclusivamente num√©ricas üî¢.

En esta oportunidad estar√© usando la base de datos **Stellar Classification Dataset - SDSS17** ‚ú®, extra√≠da del recurso *Kaggle*. Un poco de contexto sobre esta base de datos:

En astronom√≠a üå†, la clasificaci√≥n estelar consiste en clasificar las estrellas seg√∫n sus caracter√≠sticas espectrales üî≠. El sistema de clasificaci√≥n de galaxias üåå, cu√°sares üåü y estrellas ‚≠ê es uno de los m√°s fundamentales en astronom√≠a. La catalogaci√≥n temprana de las estrellas y su distribuci√≥n en el cielo permiti√≥ comprender que conforman nuestra galaxia üí´. Tras la distinci√≥n de que Andr√≥meda era una galaxia independiente de la nuestra, se comenzaron a estudiar numerosas galaxias a medida que se constru√≠an telescopios m√°s potentes üõ∞Ô∏è. Este conjunto de datos tiene como objetivo clasificar estrellas, galaxias y cu√°sares seg√∫n sus caracter√≠sticas espectrales üìà.

Esta base de datos se compone por **100.000 observaciones del espacio** üöÄ, tomadas del *Sloan Digital Sky Survey*. Cada una de las observaciones se encuentra descrita por **17 variables** y una clase que indica si se trata de una estrella, galaxia o cu√°sar. Las variables son:

- `obj_ID`: üÜî Identificador √∫nico del objeto en el cat√°logo de im√°genes.
- `alpha`: üß≠ √Ångulo de ascensi√≥n recta (√©poca J2000).
- `delta`: üß≠ √Ångulo de declinaci√≥n (√©poca J2000).
- `u`: üåà Filtro ultravioleta.
- `g`: üíö Filtro verde.
- `r`: ‚ù§Ô∏è Filtro rojo.
- `i`: üí° Filtro infrarrojo cercano.
- `z`: üåô Filtro infrarrojo.
- `run_ID`: üîÅ N√∫mero de ejecuci√≥n.
- `rerun_ID`: üîÅ N√∫mero de reejecuci√≥n.
- `cam_col`: üì∑ Columna de c√°mara.
- `field_ID`: üó∫Ô∏è N√∫mero de campo.
- `spec_obj_ID`: üß¨ ID √∫nico para objetos espectrosc√≥picos.
- `class`: üè∑Ô∏è Clase del objeto (galaxia, estrella o cu√°sar).
- `redshift`: üö¶ Valor de corrimiento al rojo.
- `plate`: üíø ID de la placa.
- `MJD`: üóìÔ∏è Fecha Juliana Modificada.
- `fiber_ID`: üîå ID de la fibra √≥ptica usada en la observaci√≥n.

In [104]:
df=pd.read_csv(r".\star_classification.csv", delimiter=",", quotechar='"')
df

Unnamed: 0,obj_ID,alpha,delta,u,g,r,i,z,run_ID,rerun_ID,cam_col,field_ID,spec_obj_ID,class,redshift,plate,MJD,fiber_ID
0,1.237661e+18,135.689107,32.494632,23.87882,22.27530,20.39501,19.16573,18.79371,3606,301,2,79,6.543777e+18,GALAXY,0.634794,5812,56354,171
1,1.237665e+18,144.826101,31.274185,24.77759,22.83188,22.58444,21.16812,21.61427,4518,301,5,119,1.176014e+19,GALAXY,0.779136,10445,58158,427
2,1.237661e+18,142.188790,35.582444,25.26307,22.66389,20.60976,19.34857,18.94827,3606,301,2,120,5.152200e+18,GALAXY,0.644195,4576,55592,299
3,1.237663e+18,338.741038,-0.402828,22.13682,23.77656,21.61162,20.50454,19.25010,4192,301,3,214,1.030107e+19,GALAXY,0.932346,9149,58039,775
4,1.237680e+18,345.282593,21.183866,19.43718,17.58028,16.49747,15.97711,15.54461,8102,301,3,137,6.891865e+18,GALAXY,0.116123,6121,56187,842
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99995,1.237679e+18,39.620709,-2.594074,22.16759,22.97586,21.90404,21.30548,20.73569,7778,301,2,581,1.055431e+19,GALAXY,0.000000,9374,57749,438
99996,1.237679e+18,29.493819,19.798874,22.69118,22.38628,20.45003,19.75759,19.41526,7917,301,1,289,8.586351e+18,GALAXY,0.404895,7626,56934,866
99997,1.237668e+18,224.587407,15.700707,21.16916,19.26997,18.20428,17.69034,17.35221,5314,301,4,308,3.112008e+18,GALAXY,0.143366,2764,54535,74
99998,1.237661e+18,212.268621,46.660365,25.35039,21.63757,19.91386,19.07254,18.62482,3650,301,4,131,7.601080e+18,GALAXY,0.455040,6751,56368,470


In [105]:
df['class'].value_counts()

class
GALAXY    59445
STAR      21594
QSO       18961
Name: count, dtype: int64

## üõ†Ô∏è Preparaci√≥n de la Base de Datos

Antes de continuar, vamos a realizar algunos cambios en nuestra base de datos üîß. 

1. En primer lugar, eliminaremos algunas variables que probablemente pueden generar ruido o provocar fuga de datos üßπ.
2. En segundo lugar, tomaremos como **variable objetivo** `class` üè∑Ô∏è. Sin embargo, como esta es una variable categ√≥rica, ser√° necesario transformarla a un formato num√©rico üî¢ para evitar problemas futuros en el proceso de modelado.
3. Finalmente, realizaremos un peque√±o **An√°lisis Exploratorio de Datos (EDA)** üîç para comprender mejor el comportamiento general de nuestra base de datos y as√≠ tomar decisiones m√°s informadas durante el ajuste de hiperpar√°metros.

¬°Manos a la obra! üöÄ


In [106]:
# Eliminaci√≥n de variables
df = df.drop(['obj_ID', 'spec_obj_ID', 'plate', 
              'fiber_ID', 'run_ID', 
              'rerun_ID','cam_col','field_ID', 'MJD'], axis=1)

In [107]:
# Transformacion de class
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
df['class'] = le.fit_transform(df['class'])
df.head()

# Donde 0 es "GALAXY", 2 es "STAR", 1 es "QSO"

#Definimos la variable objetivo Y e las variables predictoras X:
y=df["class"]
X=df.drop(['class'], axis=1) #debemos eliminar class del resto del conjnto de datos
X.head()

Unnamed: 0,alpha,delta,u,g,r,i,z,redshift
0,135.689107,32.494632,23.87882,22.2753,20.39501,19.16573,18.79371,0.634794
1,144.826101,31.274185,24.77759,22.83188,22.58444,21.16812,21.61427,0.779136
2,142.18879,35.582444,25.26307,22.66389,20.60976,19.34857,18.94827,0.644195
3,338.741038,-0.402828,22.13682,23.77656,21.61162,20.50454,19.2501,0.932346
4,345.282593,21.183866,19.43718,17.58028,16.49747,15.97711,15.54461,0.116123


In [108]:
# EDA
X.isna().sum().reset_index().rename(columns={"index":"Variable", 0:"Valores faltantes"})

Unnamed: 0,Variable,Valores faltantes
0,alpha,0
1,delta,0
2,u,0
3,g,0
4,r,0
5,i,0
6,z,0
7,redshift,0


Como podemos observar nuestra base se encuentra limpia, no tiene datos faltantes. Ahora echemos un vistazo a las estad√≠sticas descriptivas.

In [109]:
df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
alpha,100000.0,177.629117,96.502241,0.005528,127.518222,180.9007,233.895005,359.99981
delta,100000.0,24.135305,19.644665,-18.785328,5.146771,23.645922,39.90155,83.000519
u,100000.0,21.980468,31.769291,-9999.0,20.352353,22.179135,23.68744,32.78139
g,100000.0,20.531387,31.750292,-9999.0,18.96523,21.099835,22.123767,31.60224
r,100000.0,19.645762,1.85476,9.82207,18.135828,20.12529,21.044785,29.57186
i,100000.0,19.084854,1.757895,9.469903,17.732285,19.405145,20.396495,32.14147
z,100000.0,18.66881,31.728152,-9999.0,17.460677,19.004595,19.92112,29.38374
class,100000.0,0.62149,0.816778,0.0,0.0,0.0,1.0,2.0
redshift,100000.0,0.576661,0.730707,-0.009971,0.054517,0.424173,0.704154,7.011245


> ‚ö†Ô∏è Ya que el prop√≥sito de este minicurso no es ahondar en los *insights* que nos arroja el EDA, no estaremos analizando sus resultados en detalle. 

Sin embargo, es **muy importante** que revises con detenimiento la informaci√≥n obtenida üîç, ya que esta puede resultar de gran ayuda m√°s adelante, especialmente durante la selecci√≥n de variables y el ajuste de hiperpar√°metros üß†üìä.


## üî≠ Partici√≥n de los datos

Una vez hemos estudiado nuestra base de datos, vamos a proceder con la **partici√≥n de los datos**, pues como recordar√°s de nuestro curso de aprendizaje supervisado, lo usual es dividir nuestra data en dos conjuntos: un **80% para entrenar el modelo** y un **20% para evaluar su desempe√±o**.

üîÅ Recuerda que estos porcentajes (80-20) son √∫nicamente una gu√≠a, y puedes ajustarlos seg√∫n las dimensiones y caracter√≠sticas de tus datos.




In [110]:
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,      
    random_state=123     
)

Ya que tenemos la partici√≥n de nuestro datos podemos proceder con la ejecuci√≥n del primer modelo un Baseline con cross validation.

## ‚ú® Baseline model

Es importante que comprendas que existen diferentes tipos de modelos de l√≠nea base, principalmente de **clasificaci√≥n** y **regresi√≥n**. Dada la naturaleza de nuestra variable objetivo, emplearemos un modelo de clasificaci√≥n.

Este tipo de modelos cumplen un doble prop√≥sito:  
1. Proporcionan un punto de referencia para medir la eficiencia de modelos m√°s complejos.  
2. Ofrecen una l√≠nea base de desempe√±o contra la cual se pueden comparar los avances obtenidos en el entrenamiento. üòä


In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

# Modelo de linea base
baseline_model = DecisionTreeClassifier(random_state=42)

# Validaci√≥n cruzada
cv_scores = cross_val_score(
    baseline_model,
    X_train, y_train,
    cv=5,
    scoring='roc_auc_ovr'  #estaremos usando el ROC, ya que nuestros datos no se encuentran balanceados
)

# Resultados
baseline_avg_roc = cv_scores.mean()
baseline_std_roc = cv_scores.std()

In [116]:
# Comparaci√≥n de los resultados 
df_performance_comp = pd.DataFrame(columns=["Model", "Avg_ROC", "Std_ROC"])
df_performance_comp.loc[0, :] = ["Baseline", baseline_avg_roc, baseline_std_roc]
df_performance_comp

Unnamed: 0,Model,Avg_ROC,Std_ROC
0,Baseline,0.968542,0.001294


 üìä **¬øQu√© quieren decir estos resultados?**

‚ú® ¬°En t√©rminos generales vamos s√∫per bien! Tener un **ROC promedio de 96.85% (0.9685)** ‚úÖ nos indica que nuestro modelo acert√≥ en ese porcentaje mientras hac√≠a las predicciones de validaci√≥n cruzada üîÅ. Es decir, ¬°el margen de error fue muy peque√±o! üß†üìâ

üìè Por su parte, tener una desviaci√≥n est√°ndar tan bajita (**0.0012**) nos sugiere que el modelo es **relativamente estable y consistente** üßò‚Äç‚ôÇÔ∏èüìä. Esto se traduce como: **nuestro modelo funcionar√° bien sin importar c√≥mo dividamos los datos** üí™‚ú®.


## üå≤ Red de B√∫squeda para el Ajuste de Hiperpar√°metros

En esta etapa ejecutaremos un modelo de **√°rbol de decisi√≥n** üå≥ utilizando **b√∫squeda en malla (Grid Search)** üß© con **validaci√≥n cruzada** üîÅ. El objetivo es identificar los **hiperpar√°metros √≥ptimos** üõ†Ô∏è para mejorar el rendimiento del modelo de clasificaci√≥n que entrenamos previamente üß†üìà.


In [117]:
# Red de par√°metros
red_param = {
    'max_depth': [4, 5, 7, 8], #profundidad m√°xima del √°rbol
    'min_samples_split': [5, 10, 15], #n√∫mero minimo de muestras para dividir un nodo
    'min_samples_leaf': [5, 10, 15] #n√∫mero minimo de muestras por hojas
}

# Initialize Grid Search with Cross-Validation
busqueda_red = GridSearchCV(
    DecisionTreeClassifier(random_state=123),
    param_grid=red_param,
    cv=5, # realiza 5 particiones de validaci√≥n cruzada
   
    scoring='roc_auc_ovr',
    n_jobs=-1, # Emplea todos los n√∫cleso del procesador para hacer el proceso m√°s r√°pido
    verbose=1, # imprime el progreso
    refit=True # cuando encuentra la mejor combinacion, vuelve a estimar todo el modelo
)

# Fit Grid Search
busqueda_red.fit(X_train, y_train)

Fitting 5 folds for each of 36 candidates, totalling 180 fits


Si bien nuestro modelo ya fue ejecutado, no tenemos los resultados a simple vista as√≠ que para poderlos explorar y ver detalladamente a que conslusi√≥n se lleg√≥ ejecutareos el siguiente c√≥digo:

In [118]:
# Exploring the results
resultados_malla = pd.DataFrame(busqueda_red.cv_results_)
resultados_malla = resultados_malla.drop(
    columns=[
        "mean_fit_time", "std_fit_time", "mean_score_time",
        "std_score_time", "params"
    ]
)
resultados_malla.sort_values(by="rank_test_score", ascending=True)

Unnamed: 0,param_max_depth,param_min_samples_leaf,param_min_samples_split,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
34,8,15,10,0.991355,0.992871,0.99325,0.991178,0.991615,0.992054,0.000842,1
35,8,15,15,0.991355,0.992871,0.99325,0.991178,0.991615,0.992054,0.000842,1
33,8,15,5,0.991355,0.992871,0.99325,0.991178,0.991615,0.992054,0.000842,1
23,7,10,15,0.99232,0.992697,0.992793,0.990498,0.991695,0.992001,0.000844,4
22,7,10,10,0.99232,0.992697,0.992793,0.990498,0.991695,0.992001,0.000844,4
21,7,10,5,0.99232,0.992697,0.992793,0.990498,0.991695,0.992001,0.000844,4
26,7,15,15,0.992372,0.992752,0.993042,0.990348,0.991414,0.991986,0.000986,7
24,7,15,5,0.992372,0.992752,0.993042,0.990348,0.991414,0.991986,0.000986,7
25,7,15,10,0.992372,0.992752,0.993042,0.990348,0.991414,0.991986,0.000986,7
20,7,5,15,0.992199,0.992553,0.992818,0.990217,0.991693,0.991896,0.00092,10


üìä‚ú® En este *data frame* podemos ver cada uno de los **modelos que se ejecutaron**, con sus correspondientes caracter√≠sticas: la **profundidad m√°xima alcanzada** üå≥, la **cantidad m√≠nima de hojas por muestra** üçÉ, la **cantidad m√≠nima de particiones** ‚úÇÔ∏è, el **nivel de ROC** obtenido en cada intento üéØ, entre otros.

‚úÖ Ahora, con base en esta informaci√≥n, vamos a solicitar que nos arroje **cu√°l es la mejor combinaci√≥n**, es decir, **aquella que optimiza nuestro modelo** üöÄ.


In [119]:
# ¬øCu√°l es la mejor combinaci√≥n?
mejor_combinacion = busqueda_red.best_params_
print(f'La b√∫squea en malla encuentra que la mejor combinaci√≥n de par√°metros es: {mejor_combinacion}')

# ¬øCual es el mejor estimador?
mejor_modelo = busqueda_red.best_estimator_
print(f'Se determina que el mejor estimador es:{mejor_modelo}')

La b√∫squea en malla encuentra que la mejor combinaci√≥n de par√°metros es: {'max_depth': 8, 'min_samples_leaf': 15, 'min_samples_split': 5}
Se determina que el mejor estimador es:DecisionTreeClassifier(max_depth=8, min_samples_leaf=15, min_samples_split=5,
                       random_state=123)


‚úÖ **Se concluye que la mejor combinaci√≥n de par√°metros fue aquella con:**

- üå≥ **Profundidad m√°xima:** 8  
- üçÉ **Cantidad m√≠nima de hojas por muestra:** 15  
- ‚úÇÔ∏è **Cantidad m√≠nima de particiones por muestra:** 5 


### üìä Comparaci√≥n de los dos modelos que tenemos

En este momento vamos a hacer algo s√∫per importante ü§ì, y es comparar las m√©tricas entre los dos modelos que tenemos hasta el momento: el de l√≠nea base (**Baseline model**) y el optimizado que acabamos de encontrar con ayuda de la b√∫squeda tipo malla üîç.

Estaremos comparando las m√©tricas del **promedio del ROC** y su **desviaci√≥n est√°ndar**, y veremos qu√© tanto var√≠an de uno a otro üìà.


In [121]:
# Evaluacon del modelo de b√∫squeda tipo malla con validaci√≥n cruzada
cv_valores_ajustados = cross_val_score(
    mejor_modelo, X_train, y_train, cv=5,
    scoring='roc_auc_ovr'
)

avg_ajustado_roc = cv_valores_ajustados.mean()
std_ajustado_roc = cv_valores_ajustados.std()

In [122]:
# Comparaci√≥n
df_performance_comp.loc[1, :] = ["B√∫squeda malla ajs", avg_ajustado_roc,std_ajustado_roc ]
df_performance_comp

Unnamed: 0,Model,Avg_ROC,Std_ROC
0,Baseline,0.968542,0.001294
1,B√∫squeda malla ajs,0.992054,0.000842


Podemos observar c√≥mo, efectivamente, la nueva combinaci√≥n encontrada por la b√∫squeda tipo malla ‚öôÔ∏è mejor√≥ significativamente el rendimiento de nuestro modelo, alcanzando un **ROC de 99.20%** üìà y una **desviaci√≥n est√°ndar a√∫n m√°s peque√±a** üìâ. Esto refleja que, con los cambios aplicados, el modelo se volvi√≥ a√∫n m√°s **estable** y **preciso** üí™‚ú®.


## üå≤ B√∫squeda aleatoria para el ajuste de hiperpar√°metro

En esta etapa ejecutaremos un modelo de √°rbol de decisi√≥n üå≥ utilizando b√∫squeda aleatoria (Random Search) üé≤ con validaci√≥n cruzada üîÅ. El objetivo es explorar de manera eficiente un conjunto amplio de hiperpar√°metros üõ†Ô∏è y encontrar aquellos que optimicen el rendimiento del modelo de regresi√≥n que entrenamos previamente üìâüìà. A diferencia de la b√∫squeda en malla, esta t√©cnica permite probar combinaciones al azar, lo que reduce el tiempo de c√≥mputo sin comprometer la calidad de los resultados ‚è±Ô∏è‚ö°.

In [123]:
# Configuramos nuevamente los requerimientos que tendra nuestro √°rbol de desici√≥n
tree_config = {
    'max_depth': range(2, 8),
    'min_samples_split': range(5, 16),
    'min_samples_leaf': range(5, 16)
}

# Damos inicio a nuestra b√∫squeda aleatoria 
busqueda_aleatoria = RandomizedSearchCV(
    DecisionTreeClassifier(random_state=123),
    param_distributions=tree_config,
    n_iter=100, # combinaciones aleatorias de par√°metros
    cv=5,
  
    scoring='roc_auc_ovr',
    n_jobs=-1, 
    verbose=1, 
    random_state=42
)

busqueda_aleatoria.fit(X_train, y_train)

Fitting 5 folds for each of 100 candidates, totalling 500 fits


Si deseas visualizar cada uno de los modelos ejecutados, puedes emplear un c√≥digo similar al que usamos previamente para el modelo de b√∫squeda en malla üîß. 

En este caso, iremos directamente a ver **la mejor combinaci√≥n** que se encontr√≥ en esta oportunidad ü•á y la **comparaci√≥n de los modelos** con los que contamos hasta el momento üìäü§ñ.


In [124]:
# Extraemos los mejores par√°metros
busqueda_aleatoria_params = busqueda_aleatoria.best_params_
print(f'La b√∫squeda aleatoria indica que los mejores par√°metros son: {busqueda_aleatoria_params}')

# Obtenemos el emjor estimador
busqueda_aleatoria_modelo = busqueda_aleatoria.best_estimator_
print(f'La b√∫squeda aleatoria indica que el mejor estimador es: {busqueda_aleatoria_modelo}')

La b√∫squeda aleatoria indica que los mejores par√°metros son: {'min_samples_split': 13, 'min_samples_leaf': 14, 'max_depth': 7}
La b√∫squeda aleatoria indica que el mejor estimador es: DecisionTreeClassifier(max_depth=7, min_samples_leaf=14, min_samples_split=13,
                       random_state=123)


En esta ocasi√≥n, nuestro modelo determin√≥ que la **combinaci√≥n de par√°metros que optimiza el modelo de clasificaci√≥n** es la siguiente:

- üå≤ **Profundidad m√°xima:** 7 
- üçÉ **Cantidad m√≠nima de hojas por muestra:** 14  
- ‚úÇÔ∏è **Cantidad m√≠nima de particiones por muestra:** 13  



### üìä Comparaci√≥n de los tres modelos que tenemos

En este momento vamos a hacer algo s√∫per importante ü§ì, y es comparar las m√©tricas entre los tres modelos que tenemos hasta el momento: el de l√≠nea base (**Baseline model**), la b√∫squeda tipo malla üîç y la b√∫squeda aleatoria.

Estaremos comparando las m√©tricas del **promedio del ROC** y su **desviaci√≥n est√°ndar**, y veremos qu√© tanto var√≠an de uno a otro üìà.

In [125]:
# Evaluaci√≥n del modelo de b√∫squeda a aleatoria con validaci√≥n cruzada
cv_scores_busqueda_a = cross_val_score(
    busqueda_aleatoria_modelo, X_train, y_train, cv=5,
    scoring='roc_auc_ovr'
)

busqueda_a_avg_roc = cv_scores_busqueda_a.mean()
busqueda_a_std_roc = cv_scores_busqueda_a.std()

In [126]:
#Comparaci√≥n actualizada

df_performance_comp.loc[2, :] = ["B√∫squeda Aleatoria Ajs.", busqueda_a_avg_roc, busqueda_a_std_roc ]
df_performance_comp

Unnamed: 0,Model,Avg_ROC,Std_ROC
0,Baseline,0.968542,0.001294
1,B√∫squeda malla ajs,0.992054,0.000842
2,B√∫squeda Aleatoria Ajs.,0.992005,0.000944


Como podemos observar, tras ejecutar esta comparaci√≥n, nos damos cuenta de que la **√∫ltima metodolog√≠a empleada no gener√≥ aportes significativos**. La b√∫squeda tipo malla üîç contin√∫a presentando el **mejor nivel de ROC promedio** üìà as√≠ como la **menor desviaci√≥n est√°ndar** üìâ, lo que reafirma su solidez como t√©cnica de optimizaci√≥n de hiperpar√°metros en este caso.


## üõ†Ô∏è Ajuste de Hiperpar√°metros con Optuna

Pero‚Ä¶ ¬ø**qu√© es Optuna**? ü§î  
Es un **framework de software dise√±ado espec√≠ficamente para la optimizaci√≥n eficiente y autom√°tica de hiperpar√°metros**. üîç‚ú®

### ¬øC√≥mo funciona? üß†

1. üß™ **Definimos una funci√≥n objetivo** con muestreo de hiperpar√°metros.
2. üå≤ **Emplea algoritmos eficientes como TPE**, los cuales guardan bastante similitud con los √°rboles de decisi√≥n.
3. ‚è© **Elimina de forma temprana** aquellos modelos o ensayos que lucen poco prometedores, lo que **aumenta la eficiencia** en el proceso de selecci√≥n.


In [None]:
# En primer lugar y lo m√°s importante debemos instalar Optuna
#!pip install optuna

Collecting optuna
  Downloading optuna-4.3.0-py3-none-any.whl.metadata (17 kB)
Collecting alembic>=1.5.0 (from optuna)
  Downloading alembic-1.15.2-py3-none-any.whl.metadata (7.3 kB)
Collecting colorlog (from optuna)
  Downloading colorlog-6.9.0-py3-none-any.whl.metadata (10 kB)
Collecting sqlalchemy>=1.4.2 (from optuna)
  Downloading sqlalchemy-2.0.40-cp313-cp313-win_amd64.whl.metadata (9.9 kB)
Collecting tqdm (from optuna)
  Downloading tqdm-4.67.1-py3-none-any.whl.metadata (57 kB)
Collecting PyYAML (from optuna)
  Downloading PyYAML-6.0.2-cp313-cp313-win_amd64.whl.metadata (2.1 kB)
Collecting Mako (from alembic>=1.5.0->optuna)
  Downloading mako-1.3.10-py3-none-any.whl.metadata (2.9 kB)
Collecting greenlet>=1 (from sqlalchemy>=1.4.2->optuna)
  Downloading greenlet-3.2.2-cp313-cp313-win_amd64.whl.metadata (4.2 kB)
Collecting MarkupSafe>=0.9.2 (from Mako->alembic>=1.5.0->optuna)
  Downloading MarkupSafe-3.0.2-cp313-cp313-win_amd64.whl.metadata (4.1 kB)
Downloading optuna-4.3.0-py3-non


[notice] A new release of pip is available: 25.0.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [127]:
# El segundo paso ser√°, tal y como indicamos antes, definir la fuci√≥n objetivo 

def objective(intento):
    # Configuramos las carater√≠sticas del √°rbol de desici√≥n
    max_depth = intento.suggest_int('max_depth', 2, 32)
    min_samples_split = intento.suggest_int('min_samples_split', 5, 20)
    min_samples_leaf = intento.suggest_int('min_samples_leaf', 5, 20)
    

    modelo = DecisionTreeClassifier(
        max_depth=max_depth,
        min_samples_split=min_samples_split,
        min_samples_leaf=min_samples_leaf,
        random_state=123
    )
    
    scores = cross_val_score(
        modelo, X_train, y_train, cv=5,
        scoring='roc_auc_ovr'
    )
    

    return scores.mean()
# Este segundo paso no tiene mayores dfirencias con lo que ya hemos hecho en 
# los modelos anteriores

In [128]:
# El segundo paso consiste en correr el estudio de Optuna
import optuna

analisis = optuna.create_study(direction='minimize')
analisis.optimize(
    objective, # Objective function to minimize
    n_trials=100, # Number of trials to run
    n_jobs=-1 # Use all available cores
)

[I 2025-05-09 16:06:25,203] A new study created in memory with name: no-name-2817ef75-e9c1-4b70-9ca3-f5a214334ac7


[I 2025-05-09 16:06:34,357] Trial 2 finished with value: 0.9910215595026195 and parameters: {'max_depth': 9, 'min_samples_split': 8, 'min_samples_leaf': 6}. Best is trial 2 with value: 0.9910215595026195.
[I 2025-05-09 16:06:36,588] Trial 3 finished with value: 0.9867765459297526 and parameters: {'max_depth': 13, 'min_samples_split': 9, 'min_samples_leaf': 7}. Best is trial 3 with value: 0.9867765459297526.
[I 2025-05-09 16:06:37,761] Trial 1 finished with value: 0.9896147169085037 and parameters: {'max_depth': 22, 'min_samples_split': 16, 'min_samples_leaf': 20}. Best is trial 3 with value: 0.9867765459297526.
[I 2025-05-09 16:06:37,946] Trial 0 finished with value: 0.9888792066823717 and parameters: {'max_depth': 19, 'min_samples_split': 12, 'min_samples_leaf': 17}. Best is trial 3 with value: 0.9867765459297526.
[I 2025-05-09 16:06:46,776] Trial 4 finished with value: 0.9861395761230275 and parameters: {'max_depth': 17, 'min_samples_split': 19, 'min_samples_leaf': 8}. Best is trial 

Lo que observamos arriba son todos los **estudios que Optuna ejecut√≥** üß™üîÅ.  
Sin embargo, lo que **realmente nos interesa** es conocer cu√°l fue el **intento que arroj√≥ los mejores resultados** üèÜ, y **cu√°les fueron las caracter√≠sticas de los par√°metros** seleccionados en ese ensayo exitoso. üß¨‚ú®

Con esta informaci√≥n podremos comparar el rendimiento con los modelos anteriores y evaluar si realmente hubo una mejora significativa. üìäü§ì


De acuerdo con el estudio practicado por **Optuna** üß†üîç, el mejor modelo se obtuvo en el **intento n√∫mero 14** ü•á, logrando un **ROC de 95.39%** üìà.

Los **par√°metros √≥ptimos** de ese modelo fueron:

- üå≤ **Profundidad m√°xima:** 2  
- üçÉ **Cantidad m√≠nima de hojas por muestra:** 5  
- ‚úÇÔ∏è **Cantidad m√≠nima de particiones por muestra:** 20  

Aunque este modelo tiene un desempe√±o ligeramente inferior al obtenido con la b√∫squeda tipo malla, es importante destacar la eficiencia del proceso automatizado de Optuna en la exploraci√≥n del espacio de hiperpar√°metros. ‚öôÔ∏è‚ú®

In [129]:
# Resultados del estudio
print("Mejor intento:")
print(f"-Intento n√∫mero: {analisis.best_trial.number}")
print(f"-Valor de ROC: {analisis.best_value:.4f}")
print(f"-Par√°metros: {analisis.best_params}")

Mejor intento:
-Intento n√∫mero: 17
-Valor de ROC: 0.9539
-Par√°metros: {'max_depth': 2, 'min_samples_split': 20, 'min_samples_leaf': 5}


In [144]:
# Entrenamos el modelo con los mejores parametros encontrado por Optuna
opt_mejor_modelo = DecisionTreeClassifier(**analisis.best_params, random_state=42)

### üìä Comparaci√≥n de todos los modelos que tenemos

En este momento vamos a hacer algo s√∫per importante (como lo hemos hecho con todos los modelos previos) ü§ì,  y es comparar las m√©tricas entre los cuatro modelos que tenemos hasta el momento: el de l√≠nea base (**Baseline model**), la b√∫squeda tipo malla üîç,  la b√∫squeda aleatoria y Optuna.

Estaremos comparando las m√©tricas del **promedio del ROC** y su **desviaci√≥n est√°ndar**, y veremos qu√© tanto var√≠an de uno a otro üìà.

In [146]:
op_valores_ajus = cross_val_score(
    opt_mejor_modelo, X_train, y_train,
    cv=5, scoring='roc_auc_ovr'
)

# Calcular el promedio y la desviaci√≥n est√°ndar de los AUC obtenidos
op_tuned_avg_roc = op_valores_ajus.mean()
op_tuned_std_roc = op_valores_ajus.std()


In [147]:
# Comparaci√≥n
df_performance_comp.loc[3, :] = ["Optuna Tuned", op_tuned_avg_roc, op_tuned_std_roc]
df_performance_comp

Unnamed: 0,Model,Avg_ROC,Std_ROC
0,Baseline,0.968542,0.001294
1,B√∫squeda malla ajs,0.992054,0.000842
2,B√∫squeda Aleatoria Ajs.,0.992005,0.000944
3,Optuna Tuned,0.953864,0.000895


üí° **Volvemos a reiterar:** aunque a simple vista el mejor modelo podr√≠a parecer el obtenido con la **b√∫squeda en malla** üîç, de acuerdo con el estudio realizado por **Optuna** üß†, **este √∫ltimo resulta ser el m√°s eficiente** en t√©rminos de recursos y tiempo de c√≥mputo, y tambi√©n **optimiza adecuadamente el rendimiento del modelo**.

‚úÖ Esto significa que, aunque no obtuvo el mayor **ROC**, s√≠ logr√≥ un excelente **balance entre rendimiento y eficiencia computacional**, lo cual es fundamental en proyectos reales donde el tiempo y los recursos son limitados. ‚öôÔ∏è‚è±Ô∏è


## üöÄ ¬°Fase final!

Lo que hemos visto hasta el momento corresponde al desempe√±o de los modelos **prediciendo dentro de la misma muestra** (validaci√≥n cruzada), pero **a√∫n no se han enfrentado a los datos que no les compartimos**: ese 20% reservado para la prueba final. üß™üîí

Vamos a verificar si el desempe√±o **se mantiene** al intentar predecir estos **datos ocultos**, lo cual nos dar√° una idea real de qu√© tan bien generaliza nuestro modelo. üìàü§ñ


In [155]:
#Modelo de linea base

from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import label_binarize


baseline_model = DecisionTreeClassifier(random_state=42)
baseline_model.fit(X_train, y_train)

# ROC AUC (multiclase)
baseline_test_roc = roc_auc_score(
    label_binarize(y_test, classes=baseline_model.classes_),
    baseline_model.predict_proba(X_test),
    average='macro',
    multi_class='ovr'
)

print(f'Linea Base Test ROC AUC: {baseline_test_roc:.4f}')

Linea Base Test ROC AUC: 0.9694


In [156]:
# Modelo busqueda tipo malla
gs_test_roc = roc_auc_score(
    label_binarize(y_test, classes=mejor_modelo.classes_),
    mejor_modelo.predict_proba(X_test),
    average='macro',
    multi_class='ovr'
)

print(f'Mejor modelo b√∫squeda malla Test ROC AUC: {gs_test_roc:.4f}')

Mejor modelo b√∫squeda malla Test ROC AUC: 0.9921


In [157]:
rs_test_roc = roc_auc_score(
    label_binarize(y_test, classes=busqueda_aleatoria_modelo.classes_),
    busqueda_aleatoria_modelo.predict_proba(X_test),
    average='macro',
    multi_class='ovr'
)

print(f'Mejor modelo busqueda aleatoria Test ROC AUC: {gs_test_roc:.4f}')

Mejor modelo busqueda aleatoria Test ROC AUC: 0.9921


In [158]:

opt_mejor_modelo.fit(X_train, y_train)

op_test_roc = roc_auc_score(
    label_binarize(y_test, classes=opt_mejor_modelo.classes_),
    opt_mejor_modelo.predict_proba(X_test),
    average='macro',
    multi_class='ovr'
)

print(f'Modelo Optuna Test ROC AUC: {op_test_roc:.4f}')


Modelo Optuna Test ROC AUC: 0.9563


## üéì **Conclusiones**

Durante este entretenido mini curso nos enfocamos en un tema clave para mejorar modelos de machine learning: **el ajuste de hiperpar√°metros** üîßü§ñ. Exploramos diferentes metodolog√≠as que permiten optimizar el rendimiento de nuestros modelos, comparando sus resultados y entendiendo en qu√© casos cada una brilla m√°s.

Aprendimos a implementar y analizar:

- **Modelos de l√≠nea base**, que nos sirven como punto de referencia inicial üìè.
- **B√∫squeda en malla (Grid Search)**, que explora combinaciones exhaustivas de hiperpar√°metros üß©.
- **Optuna**, un framework moderno que utiliza estrategias inteligentes como el algoritmo TPE y la parada temprana para buscar de manera m√°s eficiente üå≤‚ú®.

Uno de los aprendizajes m√°s valiosos fue entender que **no siempre la tecnica con el ROC m√°s alto es el mejor** ‚öñÔ∏è. En ocasiones, como vimos con **Optuna**, una tecnica que logra un buen balance entre **precisi√≥n, estabilidad y eficiencia computacional** puede ser m√°s recomendable.


‚ú® **¬°Espero que hayas disfrutado mucho este recorrido!**  
Y recuerda: el ajuste de hiperpar√°metros no es solo una tarea t√©cnica, ¬°tambi√©n es una oportunidad para conocer mejor tu modelo y sacarle el m√°ximo provecho! üöÄüîç

Sigue practicando y no dudes en experimentar con nuevos algoritmos y t√©cnicas. ¬°El mundo del aprendizaje autom√°tico siempre tiene algo nuevo por descubrir! üååüí°
