# 02_Modelado ‚Äî MLY0100
**Tema:** Predicci√≥n y Evaluaci√≥n de Riesgo de Diabetes  
**Autor:** Antonio Sep√∫lveda  
**Fecha:** 2025


# 1. Introducci√≥n

En este notebook realizamos el **modelado supervisado y an√°lisis avanzado** aplicado al **riesgo de diabetes**, utilizando el dataset **preprocesado**.

Este notebook permite realizar:
- Entrenamiento manual del modelo (independiente del pipeline Kedro)
- Evaluaci√≥n del modelo con m√©tricas
- Matrices de confusi√≥n
- Comparaci√≥n entre distintos clasificadores
- Visualizaciones clave del desempe√±o

Este an√°lisis complementa el pipeline automatizado implementado en **Kedro**, funcionando como cuaderno exploratorio para justificar y validar los modelos.


# 2. Carga de datos preprocesados

Aqu√≠ cargamos el dataset previamente **limpiado** y guardado en:
`data/02_intermediate/diabetes_cleaned.csv`  

Este dataset ya est√° procesado seg√∫n el notebook de EDA y el pipeline Kedro.


In [None]:
# Cargar dataset limpio
import pandas as pd

df = pd.read_csv('../data/02_intermediate/diabetes_cleaned.csv')
df.head(), df.shape

# 3. Selecci√≥n de variables

Definimos:
- **X** ‚Üí variables de entrada
- **y** ‚Üí variable objetivo (`Outcome`)

El dataset ya est√° normalizado salvo la columna objetivo, por lo que solo separamos las columnas.


In [None]:
# Separar variables predictoras y objetivo
X = df.drop('Outcome', axis=1)
y = df['Outcome']
X.head()

# 4. Divisi√≥n Train/Test

Se divide el dataset en:
- **80% entrenamiento**
- **20% prueba**

La misma divisi√≥n que usa Kedro, pero aplicada en este notebook.


In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)
len(X_train), len(X_test)

# 5. Modelado Supervisado

Entrenaremos varios clasificadores:

### Modelos incluidos:
- **Regresi√≥n Log√≠stica**
- **Random Forest**
- **Support Vector Machine (SVM)**
- **KNN**

Compararemos su desempe√±o para justificar cu√°l es el mejor candidato.


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report

modelos = {
    'Logistic Regression': LogisticRegression(max_iter=200),
    'Random Forest': RandomForestClassifier(n_estimators=200, random_state=42),
    'SVM (RBF)': SVC(kernel='rbf', probability=True),
    'KNN (k=5)': KNeighborsClassifier(n_neighbors=5)
}

resultados = {}

for nombre, modelo in modelos.items():
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    resultados[nombre] = acc

resultados

## Ranking de modelos por Accuracy


In [None]:
sorted(resultados.items(), key=lambda x: x[1], reverse=True)

# 6. Reporte con el mejor modelo

Obtenemos m√©tricas detalladas del mejor clasificador encontrado.


In [None]:
# Seleccionar mejor modelo
mejor_modelo_nombre = max(resultados, key=resultados.get)
mejor_modelo = modelos[mejor_modelo_nombre]

y_pred = mejor_modelo.predict(X_test)

print(f"üèÜ Mejor Modelo: {mejor_modelo_nombre}")
print(classification_report(y_test, y_pred))

# 7. Matriz de Confusi√≥n

Una matriz de confusi√≥n permite visualizar el rendimiento del modelo por clases.

- TP ‚Üí Verdaderos Positivos
- TN ‚Üí Verdaderos Negativos
- FP ‚Üí Falsos Positivos
- FN ‚Üí Falsos Negativos


In [None]:
from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(5,4))
sns.heatmap(cm, annot=True, cmap='Blues', fmt='d')
plt.title('Matriz de Confusi√≥n ‚Äî Mejor Modelo')
plt.xlabel('Predicci√≥n')
plt.ylabel('Real')
plt.show()

# 8. Curva ROC del mejor modelo

La curva ROC permite evaluar la capacidad del modelo para distinguir clases.
El AUC mide la calidad general del clasificador.


In [None]:
from sklearn.metrics import roc_curve, auc

probs = mejor_modelo.predict_proba(X_test)[:,1]
fpr, tpr, _ = roc_curve(y_test, probs)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(6,5))
plt.plot(fpr, tpr, label=f'AUC = {roc_auc:.3f}')
plt.plot([0,1], [0,1], '--', color='gray')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Curva ROC ‚Äî Mejor Modelo')
plt.legend()
plt.show()

# 9. Guardar el modelo (opcional)

Este archivo **no interfiere con el pipeline Kedro**, es solo para experimentar.
Pero puedes guardarlo con `joblib`.


In [None]:
import joblib

joblib.dump(mejor_modelo, '../data/06_models/best_manual_model.pkl')
print('Modelo guardado en data/06_models/best_manual_model.pkl')