# **Selección de modelos basado en métricas**

Proceso de comparar el rendimiento de distintos modelos o configuraciones de un mismo modelo, evaluándolos según una o más métricas (accuracy, F1-score, AUC, etc.) y eligiendo el que mejor se adapta al objetivo del problema.

La metodología detras de este proceso responde a los siguientes pasos:
1. Entrenar múltiples modelos (o el mismo modelo con distintos hiperparámetros).
2. Evaluar cada uno sobre un conjunto de validación o usando validación cruzada.
3. Compara los resultados según una métrica adecuada al problema:
  - Clasificación balanceada: F1-score
  - Desbalanceo: AUC-ROC o Recall
  - Regresión: MSE, RMSE, MAE
4. Seleccionar el modelo que maximiza o minimiza dicha métrica, según corresponda.

La importancia de esta metodología es preocuparse de ver todas las métricas ya que, por ejemplo, accuracy no siempre es la mejor métrica.


Realicemos un ejemplo de clasificación para ver como se lleva a cabo esta metodología.

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import roc_auc_score, accuracy_score

Dataset

In [None]:
X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Modelos a comparar

In [None]:
models = {
    "Logistic Regression": LogisticRegression(max_iter=5000),
    "Random Forest": RandomForestClassifier(),
    "SVM": SVC(probability=True)
}

Evaluamos los modelos usando las métricas AUC-ROC y accuracy

In [None]:
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred_proba = model.predict_proba(X_test)[:, 1]
    auc = roc_auc_score(y_test, y_pred_proba)
    acc = accuracy_score(y_test, model.predict(X_test))
    print(f"{name}: AUC = {auc:.4f} | Accuracy = {acc:.4f}")

Logistic Regression: AUC = 0.9977 | Accuracy = 0.9561
Random Forest: AUC = 0.9966 | Accuracy = 0.9649
SVM: AUC = 0.9934 | Accuracy = 0.9474
