# 1Ô∏è‚É£ Modelo de Clasificaci√≥n ‚Äî Logistic Regression

**Proyecto:** MLY0100 ‚Äî An√°lisis y Predicci√≥n de Diabetes

**Autor:** Antonio Sep√∫lveda

**Fecha:** 2025

---
En este notebook implementamos un modelo de **Regresi√≥n Log√≠stica** para predecir la probabilidad de diabetes usando el dataset procesado en el pipeline Kedro.

## üìö 1. Importaci√≥n de Librer√≠as

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report


## üì• 2. Carga del Dataset Limpio
El archivo fue generado por el pipeline Kedro y se encuentra en `data/02_intermediate/diabetes_cleaned.csv`.

In [None]:
df = pd.read_csv("../../data/02_intermediate/diabetes_cleaned.csv")
df.head()

## üßπ 3. Preparaci√≥n de Datos
Separaci√≥n de variables predictoras (**X**) y la variable objetivo (**y = Outcome**).

In [None]:
X = df.drop("Outcome", axis=1)
y = df["Outcome"]

X.shape, y.shape

## ‚úÇÔ∏è 4. Divisi√≥n Train/Test

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print("Tama√±os:")
print("X_train:", X_train.shape)
print("X_test:", X_test.shape)

## üìè 5. Escalamiento de Variables
La Regresi√≥n Log√≠stica mejora significativamente con variables escaladas.

In [None]:
scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


## ü§ñ 6. Entrenamiento del Modelo Logistic Regression

In [None]:
model = LogisticRegression(max_iter=1000, random_state=42)
model.fit(X_train_scaled, y_train)

y_pred = model.predict(X_test_scaled)
accuracy = accuracy_score(y_test, y_pred)

print(f"üîç Accuracy del modelo: {accuracy:.4f}")

## üìà 7. Reporte de M√©tricas

In [None]:
print("\nüìä Classification Report:\n")
print(classification_report(y_test, y_pred))

## üß© 8. Matriz de Confusi√≥n

In [None]:
cm = confusion_matrix(y_test, y_pred)

plt.figure(figsize=(6,4))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title("Matriz de Confusi√≥n ‚Äî Logistic Regression")
plt.xlabel("Predicci√≥n")
plt.ylabel("Real")
plt.show()

## ‚úÖ 9. Conclusiones

- La Regresi√≥n Log√≠stica ofrece un baseline s√≥lido para clasificaci√≥n binaria.
- El accuracy obtenido muestra un buen desempe√±o inicial.
- La matriz de confusi√≥n ayuda a ver si hay sesgo hacia clases 0 o 1.
- M√°s adelante se comparar√° con modelos m√°s potentes (KNN, √Årboles, Random Forest, XGBoost).