# Modelo de Regresión Logística para Diagnóstico de Diabetes

## Introducción
En este notebook se utiliza un modelo de Regresión Logística para predecir la presencia de diabetes en base a un conjunto de datos médicos. Este modelo se seleccionó como alternativa al modelo de Random Forest, dado que es más interpretable y eficiente para problemas de clasificación binaria.

## Justificación del Algoritmo
La Regresión Logística es un modelo de clasificación ampliamente utilizado debido a su simplicidad, interpretabilidad y eficacia. En este caso, es particularmente útil porque:
- Permite entender cómo cada característica afecta la probabilidad de diagnóstico.
- Es eficiente para conjuntos de datos moderadamente grandes como este.

## Carga y Preprocesamiento de Datos
En esta sección, se cargan los datos, se separan las características y la variable objetivo, y se dividen en conjuntos de entrenamiento y prueba.

In [None]:

# Importar bibliotecas necesarias
import pandas as pd
from sklearn.model_selection import train_test_split

# Cargar el conjunto de datos
data = pd.read_csv('diabetes_indiana.csv')

# Separar características y variable objetivo
X = data.drop(columns=['Outcome'])
y = data['Outcome']

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## Diseño del Modelo
Se entrena un modelo de Regresión Logística con parámetros predeterminados, utilizando el conjunto de entrenamiento dividido previamente. El modelo predice la probabilidad de cada clase (diabetes o no).

In [None]:

from sklearn.linear_model import LogisticRegression

# Entrenar el modelo de Regresión Logística
logistic_model = LogisticRegression(max_iter=1000, random_state=42)
logistic_model.fit(X_train, y_train)

# Realizar predicciones
y_pred = logistic_model.predict(X_test)
y_prob = logistic_model.predict_proba(X_test)[:, 1]


## Evaluación del Modelo
Se evalúa el desempeño del modelo utilizando métricas como precisión global, reporte de clasificación y curva ROC para medir la discriminación entre las clases.

In [None]:

from sklearn.metrics import classification_report, accuracy_score, roc_curve, auc

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
classification_rep = classification_report(y_test, y_pred)
fpr, tpr, _ = roc_curve(y_test, y_prob)
roc_auc = auc(fpr, tpr)

print(f"Precisión del modelo: {accuracy:.2f}")
print("Reporte de Clasificación:")
print(classification_rep)
print(f"AUC-ROC: {roc_auc:.2f}")


## Gráfica Personalizada e Interpretación de Resultados
Se genera la curva ROC para visualizar la capacidad del modelo para discriminar entre las clases (diabetes y no diabetes).

In [None]:

import matplotlib.pyplot as plt

# Graficar la curva ROC
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f'ROC curve (AUC = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], linestyle='--', color='gray', label='Random guess')
plt.title('Curva ROC para el Modelo de Regresión Logística')
plt.xlabel('Tasa de Falsos Positivos (FPR)')
plt.ylabel('Tasa de Verdaderos Positivos (TPR)')
plt.legend(loc='lower right')
plt.grid(True)
plt.show()


## Enlace hacia el Repositorio
El modelo completo y el código fuente se encuentran disponibles en el siguiente repositorio:
[Enlace al repositorio]