<a href="https://colab.research.google.com/github/sebas-serrano/Diabetes_Health_Indicators/blob/main/notebooks/Diabetes_Health_Indicators.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Indicadores de Salud de la Diabetes

Este proyecto tiene como finalidad tratar el tema de la diabetes en los Estados Unidos.

El data set se saco de la pagina kaggle https://www.kaggle.com/datasets/alexteboul/diabetes-health-indicators-dataset

La diabetes es una de las enfermedades crónicas más comunes en Estados Unidos, afectando a millones de personas y generando un fuerte impacto económico. Se produce cuando el cuerpo pierde la capacidad de regular adecuadamente la glucosa en sangre, ya sea por una producción insuficiente de insulina o por una mala utilización de la misma. Esto puede reducir la calidad y la esperanza de vida.

Los niveles elevados de azúcar en sangre, mantenidos en el tiempo, pueden causar complicaciones graves como enfermedades cardíacas, pérdida de visión, amputaciones y daño renal. Aunque no tiene cura, hábitos saludables, actividad física y tratamientos médicos adecuados pueden reducir significativamente sus efectos. La detección temprana es clave, y por eso los modelos predictivos son herramientas valiosas para la salud pública.

En cuanto a su magnitud, en 2018 se estimaba que 34,2 millones de estadounidenses tenían diabetes y 88 millones presentaban prediabetes, muchos sin saberlo. La diabetes tipo II es la más frecuente y su prevalencia varía según factores como edad, ingresos, educación, raza y condiciones socioeconómicas. Además, esta enfermedad implica un costo económico enorme, superando los 327 mil millones de dólares anuales.

Preguntas de investigación sugeridas

*   ¿Pueden las preguntas de la encuesta BRFSS predecir con precisión si una persona tiene diabetes?
*   ¿Qué factores de riesgo son los más predictivos del desarrollo de diabetes?
*   ¿Podemos usar solo un subconjunto de factores de riesgo para predecir con precisión la presencia de diabetes?
*   ¿Es posible crear una versión reducida del cuestionario BRFSS, seleccionando solo las variables más importantes, que permita predecir si alguien tiene diabetes o está en alto riesgo?


# ETL

## 1- EXTRACT - Carga de Datos

   • Importación de librerías
   • Lectura de archivos

In [1]:
!git clone https://github.com/sebas-serrano/Diabetes_Health_Indicators.git

Cloning into 'Diabetes_Health_Indicators'...
remote: Enumerating objects: 26, done.[K
remote: Counting objects: 100% (26/26), done.[K
remote: Compressing objects: 100% (23/23), done.[K
remote: Total 26 (delta 5), reused 7 (delta 2), pack-reused 0 (from 0)[K
Receiving objects: 100% (26/26), 5.39 MiB | 18.58 MiB/s, done.
Resolving deltas: 100% (5/5), done.


In [3]:
import pandas as pd

df_multi = pd.read_csv("/content/Diabetes_Health_Indicators/data/diabetes_012_health_indicators_BRFSS2015.csv")
df_multi.head()

Unnamed: 0,Diabetes_012,HighBP,HighChol,CholCheck,BMI,Smoker,Stroke,HeartDiseaseorAttack,PhysActivity,Fruits,...,AnyHealthcare,NoDocbcCost,GenHlth,MentHlth,PhysHlth,DiffWalk,Sex,Age,Education,Income
0,0.0,1.0,1.0,1.0,40.0,1.0,0.0,0.0,0.0,0.0,...,1.0,0.0,5.0,18.0,15.0,1.0,0.0,9.0,4.0,3.0
1,0.0,0.0,0.0,0.0,25.0,1.0,0.0,0.0,1.0,0.0,...,0.0,1.0,3.0,0.0,0.0,0.0,0.0,7.0,6.0,1.0
2,0.0,1.0,1.0,1.0,28.0,0.0,0.0,0.0,0.0,1.0,...,1.0,1.0,5.0,30.0,30.0,1.0,0.0,9.0,4.0,8.0
3,0.0,1.0,0.0,1.0,27.0,0.0,0.0,0.0,1.0,1.0,...,1.0,0.0,2.0,0.0,0.0,0.0,0.0,11.0,3.0,6.0
4,0.0,1.0,1.0,1.0,24.0,0.0,0.0,0.0,1.0,1.0,...,1.0,0.0,2.0,3.0,0.0,0.0,0.0,11.0,5.0,4.0


## 2 - TRANSFORM - Limpieza y Preparación de Datos

*  Revisión inicial (shape, info, head)
*  Limpieza de valores (nulos, formatos)
*  Limpieza estructural (columnas nulas, duplicados, eliminar columnas)
*  Feature engineering

In [5]:
df_multi.shape

(253680, 22)

In [6]:
df_multi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 253680 entries, 0 to 253679
Data columns (total 22 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   Diabetes_012          253680 non-null  float64
 1   HighBP                253680 non-null  float64
 2   HighChol              253680 non-null  float64
 3   CholCheck             253680 non-null  float64
 4   BMI                   253680 non-null  float64
 5   Smoker                253680 non-null  float64
 6   Stroke                253680 non-null  float64
 7   HeartDiseaseorAttack  253680 non-null  float64
 8   PhysActivity          253680 non-null  float64
 9   Fruits                253680 non-null  float64
 10  Veggies               253680 non-null  float64
 11  HvyAlcoholConsump     253680 non-null  float64
 12  AnyHealthcare         253680 non-null  float64
 13  NoDocbcCost           253680 non-null  float64
 14  GenHlth               253680 non-null  float64
 15  