# Fase 1 - Análisis Exploratorio de Datos (EDA)

El objetivo de esta fase es explorar y entender los datos disponibles. Describiremos las variables con graficos y estadísticas descriptivas, para identificar patrones, tendencias y posibles problemas en los datos.

In [3]:
# Importar las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pickle

# Customizaciones
sns.set_style('darkgrid')
pd.set_option('display.max_columns', None)

In [7]:
# Cargar los datos en un DataFrame de pandas
df = pd.read_csv('data/diabetes_binary_5050split_health_indicators_BRFSS2015.csv')

# Mostrar las primeras filas del DataFrame
print(df.head())

   Diabetes_binary  HighBP  HighChol  CholCheck   BMI  Smoker  Stroke  \
0              0.0     1.0       0.0        1.0  26.0     0.0     0.0   
1              0.0     1.0       1.0        1.0  26.0     1.0     1.0   
2              0.0     0.0       0.0        1.0  26.0     0.0     0.0   
3              0.0     1.0       1.0        1.0  28.0     1.0     0.0   
4              0.0     0.0       0.0        1.0  29.0     1.0     0.0   

   HeartDiseaseorAttack  PhysActivity  Fruits  Veggies  HvyAlcoholConsump  \
0                   0.0           1.0     0.0      1.0                0.0   
1                   0.0           0.0     1.0      0.0                0.0   
2                   0.0           1.0     1.0      1.0                0.0   
3                   0.0           1.0     1.0      1.0                0.0   
4                   0.0           1.0     1.0      1.0                0.0   

   AnyHealthcare  NoDocbcCost  GenHlth  MentHlth  PhysHlth  DiffWalk  Sex  \
0            1.0     

| Variable               | Descripción                                                                            | Valores posibles                                                                                                                                                                                                                                                                                            |                            |
| ---------------------- | -------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | -------------------------- |
| `Diabetes_binary`      | Indica si el encuestado tiene diabetes o prediabetes.                                  | 0 = No tiene diabetes, 1 = Tiene prediabetes o diabetes                                                                                                                                                                                                                                                     |                            |
| `HighBP`               | Indica si el encuestado tiene hipertensión.                                            | 0 = No tiene hipertensión, 1 = Tiene hipertensión                                                                                                                                                                                                                                                           |                            |
| `HighChol`             | Indica si el encuestado tiene colesterol alto.                                         | 0 = No tiene colesterol alto, 1 = Tiene colesterol alto                                                                                                                                                                                                                                                     |                            |
| `CholCheck`            | Indica si el encuestado ha tenido un chequeo de colesterol en los últimos 5 años.      | 0 = No, 1 = Sí                                                                                                                                                                                                                                                                                              |                            |
| `BMI`                  | Índice de masa corporal del encuestado.                                                | Valor numérico                                                                                                                                                                                                                                                                                              |                            |
| `Smoker`               | Indica si el encuestado es fumador.                                                    | 0 = No fuma, 1 = Fuma                                                                                                                                                                                                                                                                                       |                            |
| `Stroke`               | Indica si el encuestado ha tenido un derrame cerebral.                                 | 0 = No ha tenido, 1 = Ha tenido                                                                                                                                                                                                                                                                             |                            |
| `HeartDiseaseorAttack` | Indica si el encuestado ha tenido una enfermedad cardíaca o ataque al corazón.         | 0 = No ha tenido, 1 = Ha tenido                                                                                                                                                                                                                                                                             |                            |
| `PhysActivity`         | Indica si el encuestado realiza actividad física en su tiempo libre.                   | 0 = No, 1 = Sí                                                                                                                                                                                                                                                                                              |                            |
| `Fruits`               | Indica si el encuestado consume frutas al menos una vez al día.                        | 0 = No, 1 = Sí                                                                                                                                                                                                                                                                                              |                            |
| `Veggies`              | Indica si el encuestado consume verduras al menos una vez al día.                      | 0 = No, 1 = Sí                                                                                                                                                                                                                                                                                              |                            |
| `HvyAlcoholConsump`    | Indica si el encuestado consume alcohol en exceso.                                     | 0 = No, 1 = Sí                                                                                                                                                                                                                                                                                              |                            |
| `AnyHealthcare`        | Indica si el encuestado tiene acceso a atención médica.                                | 0 = No, 1 = Sí                                                                                                                                                                                                                                                                                              |                            |
| `NoDocbcCost`          | Indica si el encuestado no ha visitado al médico debido a costos.                      | 0 = No, 1 = Sí                                                                                                                                                                                                                                                                                              |                            |
| `GenHlth`              | Autoevaluación del estado de salud general del encuestado.                             | 1 = Excelente, 2 = Muy buena, 3 = Buena, 4 = Regular, 5 = Mala                                                                                                                                                                                                                                              |                            |
| `MentHlth`             | Número de días en los últimos 30 días que la salud mental del encuestado no fue buena. | Valor numérico (días)                                                                                                                                                                                                                                                                                       |                            |
| `PhysHlth`             | Número de días en los últimos 30 días que la salud física del encuestado no fue buena. | Valor numérico (días)                                                                                                                                                                                                                                                                                       |                            |
| `DiffWalk`             | Indica si el encuestado tiene dificultad para caminar.                                 | 0 = No, 1 = Sí                                                                                                                                                                                                                                                                                              |                            |
| `Sex`                  | Sexo del encuestado.                                                                   | 0 = Hombre, 1 = Mujer                                                                                                                                                                                                                                                                                       |                            |
| `Age`                  | Rango de edad del encuestado.                                                          | 1 = 18-24, 2 = 25-29, 3 = 30-34, 4 = 35-39, 5 = 40-44, 6 = 45-49, 7 = 50-54, 8 = 55-59, 9 = 60-64, 10 = 65-69, 11 = 70-74, 12 = 75-79, 13 = 80+                                                                                                                                                             |                            |
| `Education`            | Nivel educativo alcanzado por el encuestado.                                           | 1 = Menos de primaria, 2 = Primaria, 3 = Secundaria, 4 = Preparatoria, 5 = Universidad o más                                                                                                                                                                                                                |                            |
| `Income`               | Nivel de ingresos anuales del encuestado.                                              | 1 = Menos de \$10,000, 2 = \$10,000–\$14,999, 3 = \$15,000–\$19,999, 4 = \$20,000–\$24,999, 5 = \$25,000–\$29,999, 6 = \$30,000–\$34,999, 7 = \$35,000–\$39,999, 8 = \$40,000–\$44,999, 9 = \$45,000–\$49,999, 10 = \$50,000–\$59,999, 11 = \$60,000–\$74,999, 12 = \$75,000–\$99,999, 13 = \$100,000 o más |                            |
