[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/aprendizaje-automatico-dc-uba-ar/material/blob/main/notebooks/notebook_05_seleccion_modelos-published.ipynb)

# Selección de modelos

In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from IPython.display import display


## Cross validation 

Hasta ahora sólo habíamos visto (ver en el [notebook 03](https://github.com/aprendizaje-automatico-dc-uba-ar/material/blob/main/notebooks/notebook_03_arboles_de_decision_sklearn-published.ipynb)) que ibamos a dividir los datos en train y test.


En esta semana vimos la opción de hacer validación cruzada. En esta oportunidad lo que haremos será realizar una exploración de hiperparámetros para árboles incorporando conceptos de la clase de esta semana.
Vamos a experimentar usando k-fold (con k=10) para explorar distintos valores de configuración de `DecisionTreeClassifier` para seleccionar el hiperparámetro que nos parezca el mejor. 
Ensayaremos áltura máxima con valores `[None, 1, 2, 3, 5, 8, 13, 21]`. 

Nos interesará:
- controlar el tiempo de entrenamiento
- generar alguna métrica que elijamos para seleccionar la áltura máxima

Con la mejor configuración obtenida entrenar un clasificador con todos los datos de desarrollo.
    
Evaluar el comportamiento con el set de evaluación
    



In [2]:
import numpy as np
from sklearn.model_selection import train_test_split, KFold
from sklearn.tree import DecisionTreeClassifier
import timeit
import pandas as pd

def cargar_datos():
    df = pd.read_csv('https://github.com/aprendizaje-automatico-dc-uba-ar/material/raw/main/datasets/data_05/seleccion_modelos.csv')
    X = df.drop("Y", axis=1)
    y = df.Y
    return X.to_numpy(), y.to_numpy()

X, y = cargar_datos()
X,y

(array([[ 0.74946762, -1.83875845,  2.31697643, ...,  0.38502105,
          1.15910799,  0.36490854],
        [ 1.36142303,  0.17739336, -1.06308644, ..., -0.00426734,
         -1.63632588, -0.8335227 ],
        [ 0.12238178,  1.03817562, -1.46411856, ...,  1.69000604,
         -0.57898546,  0.34605186],
        ...,
        [ 0.77302083,  0.76832206, -0.36434009, ..., -0.05485574,
         -0.51528272,  0.7993889 ],
        [-0.54238642, -0.87839139,  0.68624112, ...,  0.20799802,
          1.06110671, -0.34658297],
        [-0.03135099,  0.93928815, -1.16413366, ...,  0.73422269,
         -0.37504853, -0.59041732]]),
 array([1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0,
        1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0,
        1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0,
        0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0,
        0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0,
   

Primero separaremos nuestro data set entre **desarrollo** y **evaluación** en un 10%. Para esto podemos usar `train_test_split`

In [3]:
# separamos entre dev y eval
X_dev, X_eval, y_dev, y_eval = train_test_split(
                    X, 
                    y, 
                    random_state=4, 
                    test_size=0.1)
type(y_eval)

numpy.ndarray

Por el momento dejaremos el set de evaluación de lado y nos manejaremos con el de desarrollo.

Pasemos a experimentar los distinos `h_max` posibles.

Usaremos estas dos funciones para entrenar un árbol y para usarlo para predecir respectivamente:

In [4]:
def train_tree(X_tr: np.ndarray, y_tr: np.ndarray, tree_params={}) -> DecisionTreeClassifier:
    arbol = DecisionTreeClassifier(**tree_params)
    arbol.fit(X_tr, y_tr)

    return arbol

def tree_predict(ab: DecisionTreeClassifier, X_test: np.ndarray) -> np.ndarray:
    predictions = ab.predict(X_test)
    return predictions

Y definimos la métrica a usar. A modo de ejemplo figura accuracy.

Cambiar la medida por una nueva vista en clase.

In [5]:
def accuracy(y_predicted: np.ndarray, y_real: np.ndarray) -> float:
    TP_TN = sum([y_i == y_j for (y_i, y_j) in zip(y_predicted, y_real)]) 
    P_N = len(y_real)
    return TP_TN /P_N

def metrica_seleccionada(y_predicted: np.ndarray, y_real: np.ndarray) -> float:
    return accuracy(y_predicted, y_real)

Realización del experimento.

Nota: se inicializa con una semilla para poder reproducir el resultado.

In [6]:
results = []

np.random.seed(44)
for h_max in [None, 1, 2, 3, 5, 8, 13, 21]:
    kf = KFold(n_splits=10)    
    y_pred = np.empty(y_dev.shape)
    y_pred.fill(np.nan)
    
    # generamos para cada fold una predicción
    for train_index, test_index in kf.split(X_dev):
        
        #saco el fold que no uso para entrenar
        kf_X_train, kf_X_test = X_dev[train_index], X_dev[test_index]
        kf_y_train, kf_y_test = y_dev[train_index], y_dev[test_index]

        current_tree = train_tree(kf_X_train, kf_y_train,
                                    tree_params={"max_depth":h_max})
        predictions = tree_predict(current_tree, kf_X_test)
        y_pred[test_index] = predictions
        
    current_score = metrica_seleccionada(y_pred, y_dev)
        
    results.append((h_max,current_score))
    

# Ordenamos los resultados (puede ser que convenga del derecho o del reves)
r = sorted(results, key=lambda x: x[1], reverse=True)

print("Órden obtenido según la métrica elegida")
for idx, (h, sc) in enumerate(r):
    print(f"\t{idx+1}- h_max={h} con {sc:.3f}")

Órden obtenido según la métrica elegida
	1- h_max=1 con 0.881
	2- h_max=3 con 0.874
	3- h_max=2 con 0.867
	4- h_max=5 con 0.859
	5- h_max=8 con 0.830
	6- h_max=None con 0.822
	7- h_max=13 con 0.800
	8- h_max=21 con 0.800


Con los resultados obtenidos podemos elegir la `h_max` que nos parezca mejor. Con eso vamos a reentrenar el modelo con todos los datos. 

¿Qué teníamos que tener en cuenta en estos casos?

In [7]:
# elegimos
h_max = r[0][0]
selection_score = r[0][1]

In [8]:
assert selection_score is not None, "Completar la celda anterior para continuar"

Con el mejor parámetro entrenamos un nuevo clasificador:

In [9]:
print(f"Construimos nuestro clasificador con parámetro 'max_depth'={h_max}. "
     + f"Para seleccionarlo el score que habíamos obtenido era {selection_score:.3f}")

best_tree = train_tree(X_dev, y_dev,
                            tree_params={"max_depth":h_max})


Construimos nuestro clasificador con parámetro 'max_depth'=1. Para seleccionarlo el score que habíamos obtenido era 0.881


Podemos evaluar este árbol en train.

In [10]:
y_pred = tree_predict(best_tree, X_dev)       
best_tree_score = metrica_seleccionada(y_pred, y_dev)
print(f"El score en dev es {best_tree_score:.3f}")

El score en dev es 0.904


¿Qué nos están diciendo estos dos scores?¿Para qué nos sirven? 


Por única vez vemos como funciona nuestro entrenamiento en los datos de **evaluación** que no habíamos mirado.

In [11]:
y_pred_eval = tree_predict(best_tree, X_eval)       
best_tree_score_eval = metrica_seleccionada(y_pred_eval, y_eval)

print(f"Con el árbol entrenado con el parámetro seleccionado tenemos en eval un score de {best_tree_score_eval:.3f}")

Con el árbol entrenado con el parámetro seleccionado tenemos en eval un score de 0.733


*Opcionales*

1. Simular qué hubiese ocurrido si hubieramos elegido un K distinto. ¿La diferencia entre el score en *dev* y el score en *eval* cambia significativamente?
2. Repetir el mismo ejercicio de elegir la mejor combinación de parametros pero esta vez establecer una grilla donde se exploren al menos dos hiperparámetros que no sean la altura máxima. Revisar la documentación de `DecisionTreeClassifier`, por ejemplo pueden elegir la **medida de impureza** y el **mínimo de muestas necesario para realizar un split**. Definir los rangos necesarios para explorar más de un valor de cada hiperparámetro considerado. ¿Este modelo fue mejor que el obtenido en el punto anterior?

**Importante**: en este punto nos tomamos la licencia de usar nuevamente el conjunto de evaluación. El re-uso del conjunto de evaluación sólo lo permitimos en este caso por motivos pedagócios. Pero **NO DEBE** suceder en la práctica.



In [12]:
from sklearn.metrics import accuracy_score

# 1. simulacion de diferentes K
def simulate_different_k(k_values, X_dev, y_dev, X_eval, y_eval):
    results = {}
    for k in k_values:
        kf = KFold(n_splits=k, shuffle=True, random_state=44)
        y_pred_dev = np.empty(y_dev.shape)
        y_pred_dev.fill(np.nan)

        for train_index, test_index in kf.split(X_dev):
            kf_X_train, kf_X_test = X_dev[train_index], X_dev[test_index]
            kf_y_train, kf_y_test = y_dev[train_index], y_dev[test_index]

            current_tree = train_tree(kf_X_train, kf_y_train, tree_params={"max_depth": h_max})
            predictions = tree_predict(current_tree, kf_X_test)
            y_pred_dev[test_index] = predictions

        dev_score = accuracy_score(y_dev, y_pred_dev)
        eval_predictions = tree_predict(current_tree, X_eval)
        eval_score = accuracy_score(y_eval, eval_predictions)

        results[k] = {"dev_score": dev_score, "eval_score": eval_score}

    return results

k_values = [5, 10, 15]
k_results = simulate_different_k(k_values, X_dev, y_dev, X_eval, y_eval)
print("Results for different K values:")
for k, scores in k_results.items():
    print(f"K={k}: Dev Score={scores['dev_score']:.3f}, Eval Score={scores['eval_score']:.3f}")

# 2. grid search
def grid_search_hyperparameters(X_dev, y_dev, X_eval, y_eval):
    impurity_measures = ["gini", "entropy"]
    min_samples_splits = [2, 5, 10]
    best_params = None
    best_eval_score = 0

    for criterion in impurity_measures:
        for min_samples_split in min_samples_splits:
            kf = KFold(n_splits=10, shuffle=True, random_state=44)
            y_pred_dev = np.empty(y_dev.shape)
            y_pred_dev.fill(np.nan)

            for train_index, test_index in kf.split(X_dev):
                kf_X_train, kf_X_test = X_dev[train_index], X_dev[test_index]
                kf_y_train, kf_y_test = y_dev[train_index], y_dev[test_index]

                current_tree = train_tree(
                    kf_X_train, kf_y_train,
                    tree_params={"criterion": criterion, "min_samples_split": min_samples_split}
                )
                predictions = tree_predict(current_tree, kf_X_test)
                y_pred_dev[test_index] = predictions

            dev_score = accuracy_score(y_dev, y_pred_dev)
            eval_predictions = tree_predict(current_tree, X_eval)
            eval_score = accuracy_score(y_eval, eval_predictions)

            if eval_score > best_eval_score:
                best_eval_score = eval_score
                best_params = {"criterion": criterion, "min_samples_split": min_samples_split}

    return best_params, best_eval_score

best_params, best_eval_score = grid_search_hyperparameters(X_dev, y_dev, X_eval, y_eval)
print(f"Best parameters: {best_params}, Best Eval Score: {best_eval_score:.3f}")

Results for different K values:
K=5: Dev Score=0.889, Eval Score=0.733
K=10: Dev Score=0.889, Eval Score=0.733
K=15: Dev Score=0.889, Eval Score=0.733
Best parameters: {'criterion': 'gini', 'min_samples_split': 5}, Best Eval Score: 0.800


## Group K-Fold


Cuando entrenamos modelos de machine learning, nuestro objetivo es evaluar correctamente su capacidad para generalizar a nuevos datos. Para ello, utilizamos técnicas de validación cruzada como K-Fold. Sin embargo, en algunos casos, el uso de K-Fold tradicional puede llevar a una sobreestimación del rendimiento del modelo si no se considera la estructura de los datos.

Por ejemplo, si queremos que nuestro modelo sea capaz de predecir emociones en personas que nunca ha visto, pero en los datos de entrenamiento y prueba aparecen instancias de las mismas personas, estaremos evaluando algo distinto a lo que realmente nos interesa. En este caso, deberíamos agrupar las instancias por el atributo `persona_id`.

Lo mismo ocurre en problemas médicos: si queremos que el modelo generalice a hospitales nuevos, pero en la validación se mezclan datos del mismo hospital entre el entrenamiento y la prueba, el modelo podría estar aprovechando características específicas de cada hospital en lugar de aprender patrones generales. Para evitarlo, debemos agrupar por `hospital_id`.

Utilizar `Group K-Fold` nos permite asegurarnos de que la validación refleje realmente la capacidad del modelo para generalizar, garantizando que los datos de un mismo grupo no aparezcan en ambos conjuntos (entrenamiento y validación). Así, obtenemos una estimación más realista de su desempeño en escenarios del mundo real.

In [13]:
import numpy as np
import pandas as pd

# Simulación de datos médicos
np.random.seed(42)
n_samples = 1000
n_patients = 7

df = pd.DataFrame({
    'biomarker1': np.random.randn(n_samples),
    'biomarker2': np.random.randn(n_samples),
    'patient_id': np.random.randint(0, n_patients, n_samples),  # Cada paciente tiene múltiples muestras
    'disease': np.random.randint(0, 2, n_samples)  # 0 = sano, 1 = enfermo
})

Veamos cuánto es la estimación si usamos K-fold normal

In [14]:
results_kfold = []

X = df[['biomarker1', 'biomarker2', 'patient_id']].values
y = df['disease'].values

np.random.seed(44)
for h_max in [None, 1, 2, 3, 5, 8, 13, 21]:
    kf = KFold(n_splits=5, shuffle=True)    
    y_pred = np.empty(y.shape)
    y_pred.fill(np.nan)

    # generamos para cada fold una predicción
    for train_index, test_index in kf.split(X):
        
        #saco el fold que no uso para entrenar
        kf_X_train, kf_X_test = X[train_index], X[test_index]
        kf_y_train, kf_y_test = y[train_index], y[test_index]

        current_tree = train_tree(kf_X_train, kf_y_train,
                                    tree_params={"max_depth":h_max})
        predictions = tree_predict(current_tree, kf_X_test)
        y_pred[test_index] = predictions
        
    current_score = metrica_seleccionada(y_pred, y)
        
    results_kfold.append((h_max,current_score))

In [15]:
results_kfold

[(None, np.float64(0.498)),
 (1, np.float64(0.511)),
 (2, np.float64(0.513)),
 (3, np.float64(0.51)),
 (5, np.float64(0.493)),
 (8, np.float64(0.506)),
 (13, np.float64(0.496)),
 (21, np.float64(0.471))]

Ahora hagamos el mismo procedimiento pero agrupando por el atributo 'patient_id', considerando que vamos a tener un fold por paciente.

In [16]:
results_group_kfold = []

X = df[['biomarker1', 'biomarker2']].values  # Características sin patient_id
y = df['disease'].values
groups = df['patient_id'].values  # Usamos patient_id como grupo

In [17]:
# TODO: Implementar Group K-Fold manualmente
# 1. Obtener los grupos únicos
unique_groups = np.unique(groups)

# 2. Mezclar los grupos (para aleatorizar)
np.random.shuffle(unique_groups)

# 3. Dividir los grupos en folds (consideramos un grupo por fold)
n_splits = len(unique_groups)
group_folds = np.array_split(unique_groups, n_splits)

# 4. Para cada profundidad máxima del árbol que quieras evaluar:
for h_max in [None, 1, 2, 3, 5, 8, 13, 21]:
    # Inicializa el array para guardar las predicciones
    y_pred = np.empty(y.shape)
    y_pred.fill(np.nan)
    
    # Para cada fold:
    for i in range(n_splits):
        # TODO: Definir qué grupos van a test y cuáles a train
        grupos_test = group_folds[i]
        grupos_train = np.concatenate([group_folds[j] for j in range(n_splits) if j != i])
        
        # TODO: Obtener los índices de las muestras para cada conjunto
        index_test = np.isin(groups, grupos_test)
        index_train = np.isin(groups, grupos_train)
        
        # TODO: Separar los datos según los índices
        gkf_X_train, gkf_y_train = X[index_train], y[index_train]
        gkf_X_test, gkf_y_test = X[index_test], y[index_test]
        
        current_tree = train_tree(gkf_X_train, gkf_y_train,
                                  tree_params={"max_depth": h_max})
        predictions = tree_predict(current_tree, gkf_X_test)
        y_pred[index_test] = predictions
    
    # Evaluamos el rendimiento global
    current_score = metrica_seleccionada(y, y_pred)
    results_group_kfold.append((h_max, current_score))

In [18]:
results_group_kfold

[(None, np.float64(0.506)),
 (1, np.float64(0.519)),
 (2, np.float64(0.511)),
 (3, np.float64(0.509)),
 (5, np.float64(0.512)),
 (8, np.float64(0.519)),
 (13, np.float64(0.517)),
 (21, np.float64(0.505))]

Si utilizamos validación cruzada K-Fold tradicional para seleccionar y evaluar nuestro modelo en un conjunto de datos donde múltiples muestras provienen de los mismos pacientes, ¿qué ocurriría cuando intentemos predecir con ese modelo en datos de un paciente completamente nuevo? ¿Cuál sería la relación entre la performance estimada durante la validación y la performance real observada en la práctica clínica con pacientes nuevos?

Si utilizamos validación cruzada K-Fold tradicional en este caso, el modelo podría sobreestimar su capacidad de generalización, ya que estaría evaluándose con datos de pacientes que ya ha visto durante el entrenamiento. Esto podría llevar a una performance estimada más alta que la observada en la práctica clínica con pacientes completamente nuevos, donde el modelo enfrentará datos verdaderamente desconocidos.