# 04 ‚Äî Comparativa de Modelos

**Proyecto:** MLY0100 ‚Äî Pipeline Diabetes con Kedro  
**Autor:** Antonio Sep√∫lveda  
**Fecha:** 2025

---
Este notebook eval√∫a **m√∫ltiples modelos de clasificaci√≥n** para determinar cu√°l ofrece el mejor desempe√±o en la predicci√≥n de **diabetes**.

Se realiza la comparaci√≥n usando:
- RandomForest (modelo actual del pipeline)
- Logistic Regression
- Support Vector Machine (SVM)
- KNN
- Gradient Boosting

Finalmente, se elige el **mejor modelo**, validando m√©tricas y visualizaciones adicionales.

# üìö 1. Importaci√≥n de Librer√≠as

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC

# üìÅ 2. Carga del Dataset Limpio

Se cargan los datos ya limpios desde el pipeline Kedro:

In [None]:
df = pd.read_csv("../data/02_intermediate/diabetes_cleaned.csv")
df.head()

# üéØ 3. Preparaci√≥n de Variables

Separaci√≥n entre variables predictoras **X** y variable objetivo **y (Outcome)**.

In [None]:
X = df.drop("Outcome", axis=1)
y = df["Outcome"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

X_train.shape, X_test.shape

# ü§ñ 4. Definici√≥n de Modelos a Comparar

In [None]:
modelos = {
    "RandomForest": RandomForestClassifier(random_state=42),
    "LogisticRegression": LogisticRegression(max_iter=500),
    "SVM": SVC(kernel="rbf", probability=True),
    "KNN": KNeighborsClassifier(n_neighbors=5),
    "GradientBoosting": GradientBoostingClassifier(random_state=42)
}

# üìä 5. Entrenamiento y Evaluaci√≥n

In [None]:
resultados = []

for nombre, modelo in modelos.items():
    modelo.fit(X_train, y_train)
    pred = modelo.predict(X_test)

    resultados.append({
        "Modelo": nombre,
        "Accuracy": accuracy_score(y_test, pred),
        "Precision": precision_score(y_test, pred),
        "Recall": recall_score(y_test, pred),
        "F1-score": f1_score(y_test, pred)
    })

df_resultados = pd.DataFrame(resultados)
df_resultados

# üìä 6. Comparaci√≥n Gr√°fica de M√©tricas

In [None]:
plt.figure(figsize=(10,6))
sns.barplot(data=df_resultados.melt(id_vars="Modelo"), x="variable", y="value", hue="Modelo")
plt.title("Comparaci√≥n de M√©tricas entre Modelos", fontsize=14)
plt.xlabel("M√©trica")
plt.ylabel("Valor")
plt.xticks(rotation=45)
plt.legend()
plt.tight_layout()
plt.show()

# üèÜ 7. Selecci√≥n Autom√°tica del Mejor Modelo

In [None]:
mejor = df_resultados.sort_values(by="Accuracy", ascending=False).iloc[0]
mejor

El **mejor modelo** seg√∫n Accuracy es:

In [None]:
print(f"üèÜ Mejor Modelo: {mejor['Modelo']} con Accuracy = {mejor['Accuracy']:.4f}")

# üîç 8. Matriz de Confusi√≥n del Mejor Modelo

In [None]:
modelo_final = modelos[mejor['Modelo']]
pred_final = modelo_final.predict(X_test)
cm = confusion_matrix(y_test, pred_final)

plt.figure(figsize=(6,5))
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.title(f"Matriz de Confusi√≥n ‚Äî {mejor['Modelo']}")
plt.xlabel("Predicho")
plt.ylabel("Real")
plt.show()

# üìù 9. Conclusiones

- Se compararon 5 modelos de clasificaci√≥n.
- El modelo con mayor rendimiento fue **{mejor['Modelo']}**, con un Accuracy de **{mejor['Accuracy']:.4f}**.
- Este notebook permite validar si el modelo utilizado en Kedro es efectivamente el m√°s √≥ptimo.
- Si un modelo alternativo supera al actual, puede integrarse f√°cilmente al pipeline.
