# Proyecto Salud - Análisis de Diabetes
Este notebook realiza un análisis exploratorio y un modelo predictivo básico sobre un dataset sintético de diabetes inspirado en el Pima Indians Diabetes Dataset.

El objetivo es mostrar un flujo de trabajo típico de ciencia de datos:
- Exploración de datos (EDA)
- Preprocesamiento
- Modelo predictivo inicial
- Conclusiones

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, roc_curve, auc


In [None]:
# Cargar dataset limpio
df = pd.read_csv('diabetes_clean.csv')
df.head()

In [None]:
df.info()
df.describe()

In [None]:
df[['Glucose', 'BMI', 'Age']].hist(bins=20, figsize=(10,5))
plt.show()

In [None]:
plt.figure(figsize=(8,6))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title('Matriz de correlación')
plt.show()

In [None]:
sns.boxplot(x='Outcome', y='Glucose', data=df)
plt.title('Glucose vs Outcome')
plt.show()

In [None]:
X = df.drop('Outcome', axis=1)
y = df['Outcome']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))

In [None]:
y_prob = model.predict_proba(X_test)[:,1]
fpr, tpr, thresholds = roc_curve(y_test, y_prob)
roc_auc = auc(fpr, tpr)

plt.figure()
plt.plot(fpr, tpr, label=f'ROC curve (area = {roc_auc:.2f})')
plt.plot([0,1], [0,1], 'k--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Curva ROC')
plt.legend(loc='lower right')
plt.show()

## Conclusiones
- Se observaron diferencias claras en glucosa y BMI entre personas con y sin diabetes.
- El modelo de regresión logística ofrece una primera aproximación razonable.
- Mejoras posibles: probar modelos más complejos (árboles, random forest, gradient boosting), ajustar hiperparámetros y explorar más features.

Este notebook ejemplifica un flujo de trabajo típico en proyectos de ciencia de datos en salud.