**Tema seleccionado: An√°lisis Estad√≠stico de Indicadores de Salud para la Predicci√≥n del Riesgo de Diabetes**

La diabetes mellitus constituye una de las principales causas de morbilidad y mortalidad a nivel mundial, con una prevalencia en constante aumento que la posiciona como un desaf√≠o cr√≠tico para los sistemas de salud p√∫blica. Su etiolog√≠a multifactorial ‚Äîque integra determinantes demogr√°ficos, estilos de vida, antecedentes familiares y marcadores cl√≠nicos‚Äî la convierte en un fen√≥meno complejo cuyo estudio demanda aproximaciones estad√≠sticas rigurosas y multidimensionales. La identificaci√≥n temprana de factores de riesgo y la caracterizaci√≥n de subpoblaciones vulnerables son esenciales para el dise√±o de intervenciones preventivas efectivas y la optimizaci√≥n de recursos sanitarios.

Este proyecto aborda la predicci√≥n y caracterizaci√≥n estad√≠stica del riesgo de diabetes mediante el estudio de registros sint√©ticos pero m√©dicamente realistas, permitiendo aplicar t√©cnicas estad√≠sticas avanzadas del curso en un contexto de alta relevancia cl√≠nica y social.

**Preguntas de investigaci√≥n:**

1. **(...)**
2. **(...)**
3. **(...)**

### Fuente de datos

Los datos fueron obtenidos del repositorio **Kaggle** en el dataset *"Diabetes Health Indicators Dataset"*:

**üîó Enlace**: [https://www.kaggle.com/datasets/mohankrishnathalla/diabetes-health-indicators-dataset](https://www.kaggle.com/datasets/mohankrishnathalla/diabetes-health-indicators-dataset)

**üìä Caracter√≠sticas del dataset**:
- **Filas**: 100,000 registros (1 por paciente)
- **Columnas**: 35+ variables
- **Formato**: CSV limpio y preprocesado

### Categor√≠as de variables disponibles

| Categor√≠a | Variables principales | Ejemplo de rangos |
|-----------|----------------------|------------------|
| **Demogr√°ficas** (6) | `age`, `gender`, `ethnicity`, `education_level`, `income_level`, `employment_status` | 18-90 a√±os, Male/Female/Other |
| **Estilo de vida** (7) | `smoking_status`, `alcohol_consumption_per_week`, `physical_activity_minutes_per_week`, `diet_score` | 0-30 bebidas/semana, 0-10 dieta |
| **Antecedentes m√©dicos** (3) | `family_history_diabetes`, `hypertension_history`, `cardiovascular_history` | 0=No, 1=Yes |
| **Cl√≠nicas** (17) | `bmi`, `systolic_bp`, `glucose_fasting`, `hba1c`, `cholesterol_total` | BMI: 15-45, HbA1c: 4-14% |

**Variable objetivo principal**: `diagnosed_diabetes` (0=No, 1=Yes)

Los datos sint√©ticos preservan la privacidad mientras mantienen validez anal√≠tica, siendo ideales para los requisitos del proyecto acad√©mico.


### 3.2. An√°lisis Exploratorio de Datos (EDA)

Como primer paso del an√°lisis exploratorio, se calcularon estad√≠sticos descriptivos b√°sicos (medidas de tendencia central y dispersi√≥n) para algunas de las variables num√©ricas m√°s relevantes del conjunto de datos. 

Estos res√∫menes permiten caracterizar el perfil general de la poblaci√≥n estudiada, identificar valores t√≠picos y rangos de variaci√≥n, y detectar posibles patrones iniciales relacionados con el riesgo de diabetes antes de aplicar t√©cnicas estad√≠sticas m√°s avanzadas.


In [17]:
import pandas as pd

# Cargar el dataset
df = pd.read_csv('Diabetes_and_LifeStyle_Dataset .csv')

# Variables asociadas al estilo de vida
lifestyle_vars = [
    "alcohol_consumption_per_week",
    "physical_activity_minutes_per_week",
    "diet_score",
    "screen_time_hours_per_day",
    "sleep_hours_per_day"
]

clinical_vars = [
    "bmi",
    "insulin_level",
    "triglycerides",
    "glucose_fasting",
    "hba1c",
    "systolic_bp",
    "diastolic_bp",
    "heart_rate",
    "cholesterol_total"
]

demographic_vars = [
    "Age"]


summary = df[clinical_vars + lifestyle_vars + demographic_vars].select_dtypes(include="number").agg([
    'count',
    'mean',
    'median',
    'std',
    'min',
    lambda x: x.quantile(0.25),
    lambda x: x.quantile(0.50),
    lambda x: x.quantile(0.75),
    'max'
]).T

summary.columns = [
    'count', 'mean', 'median', 'std',
    'min', '25%', '50%', '75%', 'max'
]

summary


Unnamed: 0,count,mean,median,std,min,25%,50%,75%,max
bmi,97297.0,25.615093,25.6,3.588387,15.0,23.2,25.6,28.0,39.2
insulin_level,97297.0,9.063591,8.79,4.956342,2.0,5.09,8.79,12.45,32.22
triglycerides,97297.0,121.466407,121.0,43.393422,30.0,91.0,121.0,151.0,344.0
glucose_fasting,97297.0,111.121792,111.0,13.590382,60.0,102.0,111.0,120.0,172.0
hba1c,97297.0,6.520338,6.52,0.81371,4.0,5.97,6.52,7.07,9.8
systolic_bp,97297.0,115.800127,116.0,14.287977,90.0,106.0,116.0,125.0,179.0
diastolic_bp,97297.0,75.233964,75.0,8.206551,50.0,70.0,75.0,81.0,110.0
heart_rate,97297.0,69.628807,70.0,8.373731,40.0,64.0,70.0,75.0,105.0
cholesterol_total,97297.0,185.984234,186.0,32.013395,100.0,164.0,186.0,208.0,318.0
alcohol_consumption_per_week,97297.0,2.004543,2.0,1.41806,0.0,1.0,2.0,3.0,10.0


El an√°lisis descriptivo se basa en una muestra de 97,297 individuos adultos, con una edad promedio de 50.2 a√±os (rango: 19-90 a√±os). El perfil cl√≠nico de la poblaci√≥n se caracteriza por valores promedio que se sit√∫an en rangos elevados para varios factores de riesgo metab√≥lico y cardiovascular. El √≠ndice de masa corporal (BMI) promedio es de 25.6 kg/m¬≤, ubic√°ndose en la categor√≠a de sobrepeso, con una distribuci√≥n que abarca desde bajo peso (15.0 kg/m¬≤) hasta obesidad grado II (39.2 kg/m¬≤). Los biomarcadores gluc√©micos revelan un estado metab√≥lico comprometido: la glucosa en ayunas presenta una media de 111.1 mg/dL y la hemoglobina glicosilada (HbA1c) de 6.52%, ambos valores en el umbral de diagn√≥stico para diabetes mellitus seg√∫n criterios internacionales. El perfil lip√≠dico muestra niveles promedio de triglic√©ridos de 121.5 mg/dL y colesterol total de 186.0 mg/dL, considerados en el l√≠mite alto de la normalidad.

Los par√°metros cardiovasculares indican una presi√≥n arterial media de 115.8/75.2 mmHg y una frecuencia card√≠aca en reposo de 69.6 lpm, valores generalmente dentro de rangos normales. Sin embargo, se observa una dispersi√≥n significativa, con casos de hipertensi√≥n sist√≥lica (m√°ximo 179 mmHg) e hipertensi√≥n diast√≥lica (m√°ximo 110 mmHg). El nivel de insulina promedio es de 9.06 ŒºU/mL, con una desviaci√≥n est√°ndar considerable (4.96), lo que sugiere una amplia variabilidad en la resistencia a la insulina entre los individuos.

Respecto a los h√°bitos de estilo de vida, se identifica un patr√≥n de actividad f√≠sica insuficiente, con un promedio de 118.9 minutos semanales, por debajo de las recomendaciones de 150 minutos. El tiempo de pantalla diario es elevado (6.0 horas en promedio), mientras que la duraci√≥n del sue√±o se aproxima a lo recomendado (7.0 horas). El consumo de alcohol es moderado (2.0 bebidas/semana) y la calidad de la dieta, evaluada mediante una puntuaci√≥n de 0 a 10, es media (6.0). La distribuci√≥n de estos factores muestra una notable heterogeneidad, con extremos que van desde el sedentarismo absoluto (0 minutos de actividad f√≠sica) hasta una actividad vigorosa (833 minutos/semana), y desde una dieta muy pobre (puntuaci√≥n 0) hasta una excelente (puntuaci√≥n 10).

En conjunto, los datos describen una poblaci√≥n con una carga significativa de factores de riesgo metab√≥lico, particularmente relacionados con la regulaci√≥n de la glucosa y el peso corporal. La coexistencia de estos marcadores cl√≠nicos con estilos de vida sub√≥ptimos, especialmente en actividad f√≠sica y tiempo de pantalla, refuerza la noci√≥n de un perfil de riesgo elevado.