# ***Exploratory Data Analisys - An√°lisis sobre los h√°bitos de vida del ciudadano***
## ‚û°Ô∏è **Mapeo y descodificaci√≥n del Dataset original**
------

### üóíÔ∏è**Bloque de contenidos:**

1. [Introducci√≥n](#Introducci√≥n)
2. [Carga de datos](#Carga-de-datos)  
    2.1. [Importaci√≥n de m√≥dulos](#Importaci√≥n-de-m√≥dulos)  
    2.2. [Importaci√≥n de datos](#Importaci√≥n-de-datos)  
    2.3. [Mapeo de las variables](#Mapeo-de-las-variables)  


### **1. Introducci√≥n**

El presente notebook realiza un *An√°lisis Exploratorio de Datos (EDA)* sobre un conjunto de datos de salud p√∫blica procedente del **Behavioral Risk Factor Surveillance System (BRFSS)**, una encuesta anual realizada por los **Centers for Disease Control and Prevention (CDC)** de Estados Unidos. Este dataset recoge informaci√≥n detallada relacionada con h√°bitos de vida, salud f√≠sica, bienestar emocional, estilos de alimentaci√≥n, sue√±o, ejercicio f√≠sico, consumo de alcohol y presencia de determinadas enfermedades.

El objetivo principal de este notebook es llevar a cabo un flujo completo y estructurado de **exploraci√≥n, limpieza y visualizaci√≥n** b√°sica de los datos, siguiendo el prop√≥sito del ejercicio pr√°ctico del m√°ster. El an√°lisis inicial permitir√° comprender la estructura del dataset, evaluar su calidad, detectar problemas comunes (valores nulos, incoherencias, outliers, codificaciones irregulares) y preparar el conjunto de datos para an√°lisis posteriores.

Este trabajo se centra exclusivamente en el EDA, sin aplicar t√©cnicas de modelado ni an√°lisis estad√≠stico avanzado. La intenci√≥n es **desarrollar criterio y orden** en las fases fundamentales de inspecci√≥n y tratamiento de datos, aplicando buenas pr√°cticas de an√°lisis exploratorio.

A lo largo del notebook se realizar√°n los **siguientes pasos**:

- Carga del dataset y revisi√≥n general de su estructura.

- Exploraci√≥n inicial: tipos de datos, valores nulos, duplicados, rangos y coherencia.

- Limpieza y normalizaci√≥n, justificando cada decisi√≥n.

- Visualizaciones b√°sicas para comprender la distribuci√≥n de variables clave.

- Conclusiones exploratorias que resuman los principales hallazgos.

El **objetivo final** es obtener una visi√≥n clara y ordenada del dataset, transform√°ndolo desde su estado original hacia una versi√≥n depurada que facilite futuras tareas anal√≠ticas.

Para poder iniciar este EDA, se debe plantear una serie de preguntas que alce la iniciativa y la curiosidad del an√°lisis, planteando estas **primeras cuestiones**:

- ¬øC√≥mo se distribuyen las horas de sue√±o?

- ¬øQu√© prevalencia hay de mala salud mental o f√≠sica?

- ¬øQu√© relaci√≥n podr√≠a haber entre ejercicio, sue√±o y salud percibida?

- ¬øHay diferencias seg√∫n sexo o grupo de edad?

---

### **2. Carga de datos**

#### ***2.1 Importaci√≥n de m√≥dulos***



In [1]:
%pwd

'c:\\Users\\sorim\\Documents\\Data_Science\\Evolve\\repos\\projects-evolve\\EDA\\notebooks'

In [2]:
# Ajusto la ruta
%cd ..

c:\Users\sorim\Documents\Data_Science\Evolve\repos\projects-evolve\EDA


In [3]:
import scripts.variables
from scripts.funciones import mapeo_df_original
from scripts.modulos import *

#### ***2.2 Importaci√≥n de datos***


In [4]:
df = pd.read_sas('./data/LLCP2022.XPT', format='xport', encoding='latin1')
df

Unnamed: 0,_STATE,FMONTH,IDATE,IMONTH,IDAY,IYEAR,DISPCODE,SEQNO,_PSU,CTELENM1,...,_SMOKGRP,_LCSREC,DRNKANY6,DROCDY4_,_RFBING6,_DRNKWK2,_RFDRHV8,_FLSHOT7,_PNEUMO3,_AIDTST4
0,1.0,1.0,02032022,02,03,2022,1100.0,2022000001,2.022000e+09,1.0,...,4.0,,2.0,5.397605e-79,1.0,5.397605e-79,1.0,1.0,2.0,2.0
1,1.0,1.0,02042022,02,04,2022,1100.0,2022000002,2.022000e+09,1.0,...,4.0,,2.0,5.397605e-79,1.0,5.397605e-79,1.0,2.0,2.0,2.0
2,1.0,1.0,02022022,02,02,2022,1100.0,2022000003,2.022000e+09,1.0,...,4.0,,2.0,5.397605e-79,1.0,5.397605e-79,1.0,,,2.0
3,1.0,1.0,02032022,02,03,2022,1100.0,2022000004,2.022000e+09,1.0,...,3.0,2.0,2.0,5.397605e-79,1.0,5.397605e-79,1.0,9.0,9.0,2.0
4,1.0,1.0,02022022,02,02,2022,1100.0,2022000005,2.022000e+09,1.0,...,4.0,,1.0,1.000000e+01,1.0,1.400000e+02,1.0,,,2.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
445127,78.0,11.0,12192022,12,19,2022,1100.0,2022001527,2.022002e+09,,...,4.0,,7.0,9.000000e+02,9.0,9.990000e+04,9.0,,,1.0
445128,78.0,11.0,12212022,12,21,2022,1100.0,2022001528,2.022002e+09,,...,4.0,,2.0,5.397605e-79,1.0,5.397605e-79,1.0,,,1.0
445129,78.0,11.0,11292022,11,29,2022,1100.0,2022001529,2.022002e+09,,...,1.0,,7.0,9.000000e+02,9.0,9.990000e+04,9.0,2.0,2.0,2.0
445130,78.0,11.0,12082022,12,08,2022,1100.0,2022001530,2.022002e+09,,...,4.0,,2.0,5.397605e-79,1.0,5.397605e-79,1.0,1.0,1.0,1.0


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 445132 entries, 0 to 445131
Columns: 328 entries, _STATE to _AIDTST4
dtypes: float64(323), object(5)
memory usage: 1.1+ GB


Como se puede observar, es un dataset muy complejo en el que cuenta con 445.132 filas y 328 columnas. 

Al tener un tiempo limitado para poder analizar todos los datos, voy a centrarme en aquellas columnas que me pueden interesar m√°s. 

Gracias a que la fuente de los datos tambi√©n incluye un archivo donde viene informaci√≥n de cada una de las variables (incluido en la caperta data), me quedar√© con:
- **H√°bitos y estilo de vida**

    - `EXERANY2` -> ¬øRealiza ejercicio?

    - `SLEPTIM1` -> Horas de sue√±o

    - `SMOKE100` -> Ha fumado 100 cigarrillos en su vida

    - `ALCDAY4` -> Frecuencia de consumo de alcohol

- **Estr√©s y salud mental**

    - `MENTHLTH` -> D√≠as de mala salud mental (√∫ltimos 30 d√≠as)

- **Salud f√≠sica**

    - `GENHLTH` -> Salud general

    - `PHYSHLTH` -> D√≠as de mala salud f√≠sica

    - `DIABETE4` -> Diabetes

    - `CVDCRHD4` -> Enfermedad cardiovascular

    - `ASTHMA3` -> Asma

    - `CHCOCNC1` -> C√°ncer

- **Variables socio-demogr√°ficas**

    - `COLGSEX1` -> G√©nero

    - `_AGEG5YR` -> Grupo de edad

    - `INCOME3` -> Nivel de ingresos

    - `_EDUCAG` -> Nivel educativo

    - `EMPLOY1` -> Empleo

    - `_STATE` -> Estado

    - `_BMI5CAT` -> Categpr√≠as de IMC

#### ***2.3 Mapeo de las variables***

Ahora que ya se ha hecho la selecci√≥n de las variables que m√°s me llaman la atenci√≥n y las cuales quiero analizar, procedemos a mapear las variables ya que est√°n codificada de manera num√©rica.

Para que sea m√°s automatizado el mapeo de las variables, as√≠ como sus valores (ya que vienen codificadas de manera num√©rica), he creado un script de python para la ayuda de la conversi√≥n.


In [5]:
mapeo_df_original(df, scripts.variables)

Unnamed: 0,EXERANY2,ASTHMA3,CHCOCNC1,COLGSEX1,_AGEG5YR,INCOME3,_EDUCAG,EMPLOY1,_STATE,_BMI5CAT,SLEPTIM1,SMOKE100,ALCDAY4,MENTHLTH,GENHLTH,PHYSHLTH,DIABETE4,CVDCRHD4
0,No,No,No,,Age 80 or older,Refused,Graduated from College or Technical School,Retired,Alabama,,8.0,No,No drinks in past 30 days,,Very good,,Yes,No
1,No,No,Yes,,Age 80 or older,"$25,000 to < $35,000",Graduated High School,Self-employed,Alabama,Overweight,6.0,No,No drinks in past 30 days,,Excellent,,No,No
2,Yes,No,No,,Age 55 to 59,"$150,000 to < $200,000",Graduated from College or Technical School,Retired,Alabama,Overweight,5.0,No,No drinks in past 30 days,3.0,Very good,2.0,No,No
3,Yes,Yes,No,,,Don‚Äôt know/Not sure,Graduated High School,Retired,Alabama,Normal Weight,7.0,Yes,No drinks in past 30 days,,Excellent,,No,No
4,Yes,No,No,,Age 30 to 44,"$25,000 to < $35,000",Attended College or Technical School,A homemaker,Alabama,Normal Weight,9.0,No,2 days per week,,Fair,2.0,No,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
445127,Yes,Yes,No,,Age 18 to 24,"Less than $10,000",Graduated High School,Employed for wages,Virgin Islands,Overweight,6.0,No,Don‚Äôt know/Not sure,3.0,Good,,No,No
445128,Yes,No,No,,Age 50 to 54,"$50,000 to < $75,000",Graduated from College or Technical School,Employed for wages,Virgin Islands,Overweight,7.0,No,No drinks in past 30 days,2.0,Excellent,2.0,No,No
445129,No,No,No,,Age 65 to 69,Don‚Äôt know/Not sure,Graduated High School,Unable to work,Virgin Islands,Underweight,5.0,Yes,Don‚Äôt know/Not sure,30.0,Poor,30.0,No,No
445130,No,Yes,No,,Age 70 to 74,"$75,000 to < $100,000",Attended College or Technical School,Retired,Virgin Islands,Obese,5.0,No,No drinks in past 30 days,,Very good,,No,No


----