##### Predicción de Riesgo de Diabetes con **Regresión Logística** 
La diabetes es una enfermedad crónica que afecta a millones de personas en el mundo. El diagnóstico temprano es crucial para evitar complicaciones graves. En este ejercicio trabajaremso con un conjunto de datos de pacientes para predecir la probabilidad de que una persona tenga diabetes utilizando **Regresión Logística**
## **Dataset**
El archivo contien 15000 registros con las siguientes variables.<br>
1. Pregnancies: Número de embarazos (0 si es hombre).
2. PlasmaGlucose: Nivel de glucosa plasmática en ayunas (mg/dL).
3. DiastolicBloodPressure: Presión arterial diastólica (mmHg).
4. TricepsThickness: Espesor del pliegue cutáneo del tríceps (mm).
5. SerumInsulin: Concentración de insulina en suero (µU/mL).
6. BMI: Índice de masa corporal (kg/m²).
7. DiabetesPedigree: Factor hereditario de riesgo de diabetes.
8. Age: Edad del paciente (años).
9. Diabetic: Variable objetivo (0 = No diabético, 1 = Diabético).
# Instrucciones
Desarrolle el ejercicio paso a paso en un notebook de Jupyter siguiendo las indicaciones:<br>
1. **Lectura y exploración inicial del dataset**
    * Importe el archivo diabetes.csv.
    * Muestre dimensiones, nombres de columnas y distribución de clases.
    * Verifique valores nulos o inconsistencias.
2. **Análisis exploratorio de datos (EDA)**
    * Genere estadísticas descriptivas de las variables numéricas.
    * Dibuje histogramas para al menos 3 variables.
    * Construya la matriz de correlación entre las variables predictoras.
3. **Preparación del dataset**
    * Elimine columnas irrelevantes (ejemplo: PatientID).
    * Divida el dataset en entrenamiento (80%) y prueba (20%) de manera estratificada.
4. **Construcción del modelo**
    * Defina un Pipeline con:
        * StandardScaler para normalizar los datos.
        * LogisticRegression con max_iter=500.
    * Realice validación cruzada (k=5) en el conjunto de entrenamiento.
    * Reporte el AUC-ROC y el AUC-PR de la validación cruzada.
5. **Evaluación del modelo en el conjunto de prueba**
    * Calcule las probabilidades de pertenecer a la clase diabético.
    * Genere la matriz de confusión y el reporte de clasificación.
    * Calcule las métricas: AUC-ROC, AUC-PR, Brier Score.
    * Dibuje las curvas ROC, Precision-Recall y de calibración.    
6. **Selección de umbral**
    * Construya una tabla de métricas para diferentes umbrales (de 0.1 a 0.9).
    * Determine el mejor umbral según el índice de Youden J.
    * Discuta cómo cambia la sensibilidad y la especificidad al modificar el umbral.    
7. **Interpretación del modelo**
    * Liste los coeficientes de la regresión logística.
    * Calcule los odds ratios e interprete al menos dos variables clave.
    * Ejemplo: “Un aumento de 1 unidad en PlasmaGlucose incrementa en X veces la probabilidad de diabetes”.
8. **Predicción con nuevos pacientes**
   * Ingrese manualmente los datos de 2 pacientes ficticios.
   * Calcule la probabilidad de diabetes y la clasificación final para cada u

In [None]:
# ==== Importar librerías y configurar entorno ====


## 1. Lectura del dataset

In [None]:
# Intento 1: separador por defecto (',')

# Si todo vino en una sola columna, re-leer con ';'



## 2. Limpieza mínima y verificación de clases

In [None]:
# Comprobamos que la columna objetivo exista


# Eliminamos ID si existe


# Tipos y valores faltantes


# Distribución de clases


## 3. EDA básico

In [None]:
num_cols = [c for c in df.columns if c != TARGET]
display(df[num_cols].describe().T)

# Histograma simple por variable numérica



In [None]:
# Matriz de correlación (sin seaborn)
c


## 4. Partición Train/Test (estratificada)

## 5. Pipeline (Scaler + Regresión Logística) y Validación Cruzada

## 6. Entrenamiento final y evaluación en Test

In [None]:
p


## 7. Curvas ROC y Precision-Recall

In [None]:
# ROC


# PR



## 8. Calibración y Brier score

## 9. Selección de umbral (Youden J y sensibilidad objetivo)

## 10. Interpretación: coeficientes y **odds ratios**

In [None]:
# Recuperar coeficientes de la regresión logística entrenada


## 11. Explicabilidad con SHAP (opcional)

## 12. Guardar modelo y métricas

In [None]:
# Guardar modelo y resumen de métricas



## 13. Verificar el modelo con nuevos datos