# *Exploratory Data Analisys - An√°lisis sobre los h√°bitos de vida del ciudadano*
------

## üóíÔ∏è**Bloque de contenidos:**

1. [Introducci√≥n](#Introducci√≥n)
2. [Carga de datos](#Carga-de-datos)


## **1. Introducci√≥n**

El presente notebook realiza un *An√°lisis Exploratorio de Datos (EDA)* sobre un conjunto de datos de salud p√∫blica procedente del **Behavioral Risk Factor Surveillance System (BRFSS)**, una encuesta anual realizada por los **Centers for Disease Control and Prevention (CDC)** de Estados Unidos. Este dataset recoge informaci√≥n detallada relacionada con h√°bitos de vida, salud f√≠sica, bienestar emocional, estilos de alimentaci√≥n, sue√±o, ejercicio f√≠sico, consumo de alcohol y presencia de determinadas enfermedades.

El objetivo principal de este notebook es llevar a cabo un flujo completo y estructurado de **exploraci√≥n, limpieza y visualizaci√≥n** b√°sica de los datos, siguiendo el prop√≥sito del ejercicio pr√°ctico del m√°ster. El an√°lisis inicial permitir√° comprender la estructura del dataset, evaluar su calidad, detectar problemas comunes (valores nulos, incoherencias, outliers, codificaciones irregulares) y preparar el conjunto de datos para an√°lisis posteriores.

Este trabajo se centra exclusivamente en el EDA, sin aplicar t√©cnicas de modelado ni an√°lisis estad√≠stico avanzado. La intenci√≥n es **desarrollar criterio y orden** en las fases fundamentales de inspecci√≥n y tratamiento de datos, aplicando buenas pr√°cticas de an√°lisis exploratorio.

A lo largo del notebook se realizar√°n los **siguientes pasos**:

- Carga del dataset y revisi√≥n general de su estructura.

- Exploraci√≥n inicial: tipos de datos, valores nulos, duplicados, rangos y coherencia.

- Limpieza y normalizaci√≥n, justificando cada decisi√≥n.

- Visualizaciones b√°sicas para comprender la distribuci√≥n de variables clave.

- Conclusiones exploratorias que resuman los principales hallazgos.

El **objetivo final** es obtener una visi√≥n clara y ordenada del dataset, transform√°ndolo desde su estado original hacia una versi√≥n depurada que facilite futuras tareas anal√≠ticas.

Para poder iniciar este EDA, se debe plantear una serie de preguntas que alce la iniciativa y la curiosidad del an√°lisis, planteando estas **primeras cuestiones**:

- ¬øC√≥mo se distribuyen las horas de sue√±o?

- ¬øQu√© prevalencia hay de mala salud mental o f√≠sica?

- ¬øQu√© relaci√≥n podr√≠a haber entre ejercicio, sue√±o y salud percibida?

- ¬øHay diferencias seg√∫n sexo o grupo de edad?

---

## **2. Carga de datos**

### ***2.1 Importaci√≥n de m√≥dulos***



In [1]:
%pwd

'c:\\Users\\sorim\\Documents\\Data_Science\\Evolve\\repos\\projects-evolve\\EDA\\notebooks'

In [2]:
# Ajusto la ruta
%cd ..

c:\Users\sorim\Documents\Data_Science\Evolve\repos\projects-evolve\EDA


In [3]:
from data.variables import *
from notebooks.funciones import *
import numpy as np
import pandas as pd

### ***2.2 Importaci√≥n de datos***


In [4]:
df = pd.read_sas('./data/LLCP2022.XPT', format='xport', encoding='latin1')
df

Unnamed: 0,_STATE,FMONTH,IDATE,IMONTH,IDAY,IYEAR,DISPCODE,SEQNO,_PSU,CTELENM1,...,_SMOKGRP,_LCSREC,DRNKANY6,DROCDY4_,_RFBING6,_DRNKWK2,_RFDRHV8,_FLSHOT7,_PNEUMO3,_AIDTST4
0,1.0,1.0,02032022,02,03,2022,1100.0,2022000001,2.022000e+09,1.0,...,4.0,,2.0,5.397605e-79,1.0,5.397605e-79,1.0,1.0,2.0,2.0
1,1.0,1.0,02042022,02,04,2022,1100.0,2022000002,2.022000e+09,1.0,...,4.0,,2.0,5.397605e-79,1.0,5.397605e-79,1.0,2.0,2.0,2.0
2,1.0,1.0,02022022,02,02,2022,1100.0,2022000003,2.022000e+09,1.0,...,4.0,,2.0,5.397605e-79,1.0,5.397605e-79,1.0,,,2.0
3,1.0,1.0,02032022,02,03,2022,1100.0,2022000004,2.022000e+09,1.0,...,3.0,2.0,2.0,5.397605e-79,1.0,5.397605e-79,1.0,9.0,9.0,2.0
4,1.0,1.0,02022022,02,02,2022,1100.0,2022000005,2.022000e+09,1.0,...,4.0,,1.0,1.000000e+01,1.0,1.400000e+02,1.0,,,2.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
445127,78.0,11.0,12192022,12,19,2022,1100.0,2022001527,2.022002e+09,,...,4.0,,7.0,9.000000e+02,9.0,9.990000e+04,9.0,,,1.0
445128,78.0,11.0,12212022,12,21,2022,1100.0,2022001528,2.022002e+09,,...,4.0,,2.0,5.397605e-79,1.0,5.397605e-79,1.0,,,1.0
445129,78.0,11.0,11292022,11,29,2022,1100.0,2022001529,2.022002e+09,,...,1.0,,7.0,9.000000e+02,9.0,9.990000e+04,9.0,2.0,2.0,2.0
445130,78.0,11.0,12082022,12,08,2022,1100.0,2022001530,2.022002e+09,,...,4.0,,2.0,5.397605e-79,1.0,5.397605e-79,1.0,1.0,1.0,1.0


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 445132 entries, 0 to 445131
Columns: 328 entries, _STATE to _AIDTST4
dtypes: float64(323), object(5)
memory usage: 1.1+ GB


Como se puede observar, es un dataset muy complejo en el que cuenta con 445.132 filas y 328 columnas. 

Al tener un tiempo limitado para poder analizar todos los datos, voy a centrarme en aquellas columnas que me pueden interesar m√°s. 

Gracias a que la fuente de los datos tambi√©n incluye un archivo donde viene informaci√≥n de cada una de las variables, me quedar√© con:
- **H√°bitos y estilo de vida**

    - `EXERANY2` -> ¬øRealiza ejercicio?

    - `SLEPTIM1` -> Horas de sue√±o

    - `SMOKE100` -> Ha fumado 100 cigarrillos en su vida

    - `ALCDAY4` -> Frecuencia de consumo de alcohol

- **Estr√©s y salud mental**

    - `MENTHLTH` -> D√≠as de mala salud mental (√∫ltimos 30 d√≠as)

- **Salud f√≠sica**

    - `GENHLTH` -> Salud general

    - `PHYSHLTH` -> D√≠as de mala salud f√≠sica

    - `DIABETE4` -> Diabetes

    - `CVDCRHD4` -> Enfermedad cardiovascular

    - `ASTHMA3` -> Asma

    - `CHCOCNC1` -> C√°ncer

- **Variables socio-demogr√°ficas**

    - `COLGSEX1` -> G√©nero

    - `_AGEG5YR` -> Grupo de edad

    - `INCOME3` -> Nivel de ingresos

    - `_EDUCAG` -> Nivel educativo

    - `EMPLOY1` -> Empleo

    - `_STATE` -> Estado

    - `_BMI5CAT` -> Categpr√≠as de IMC

### ***2.3 Mapeo de las variables***

Ahora que ya se ha hecho la selecci√≥n de las variables que m√°s me llaman la atenci√≥n y las cuales quiero analizar, procedemos a mapear las variables ya que est√°n codificada de manera num√©rica.

Para que sea m√°s automatizado el mapeo de las variables, as√≠ como sus valores (ya que vienen codificadas de manera num√©rica), he creado un script de python para la ayuda de la conversi√≥n.


In [6]:
# En primer lugar, convierto todas las variables en un √∫nico diccionario
mapeo = {}
for v in [values1, values2,values3, values4, values5, values6, values7, values8, values9, values10, values11, values12, values13, values14, values15, values16, values17, values18]:
    mapeo.update(v)

In [7]:
mapeo

{'EXERANY2': {1: 'Yes', 2: 'No', 7: 'Don‚Äôt know/Not Sure', 9: 'Refused'},
 'SLEPTIM1': {77: 'Don‚Äôt know/Not Sure', 99: 'Refused'},
 'SMOKE100': {1: 'Yes', 2: 'No', 7: 'Don‚Äôt know/Not Sure', 9: 'Refused'},
 'ALCDAY4': {range(101, 200): '1 day per week',
  range(201, 300): '2 days per week',
  777: 'Don‚Äôt know/Not sure',
  888: 'No drinks in past 30 days',
  999: 'Refused'},
 'MENTHLTH': {88: None, 77: 'Don‚Äôt know/Not sure', 99: 'Refused'},
 'GENHLTH': {1: 'Excellent',
  2: 'Very good',
  3: 'Good',
  4: 'Fair',
  5: 'Poor',
  7: 'Don‚Äôt know/Not Sure',
  9: 'Refused'},
 'PHYSHLTH': {77: 'Don‚Äôt know/Not sure', 99: 'Refused'},
 'DIABETE4': {1: 'Yes',
  2: 'Yes, but female told only during pregnancy',
  3: 'No',
  4: 'Pre-diabetes or borderline diabetes',
  7: 'Don‚Äôt know/Not Sure',
  9: 'Refused'},
 'CVDCRHD4': {1: 'Yes', 2: 'No', 7: 'Don‚Äôt know/Not sure', 9: 'Refused'},
 'ASTHMA3': {1: 'Yes', 2: 'No', 7: 'Don‚Äôt know/Not sure', 9: 'Refused'},
 'CHCOCNC1': {1: 'Yes', 2: 

In [8]:
# Expando los ranges
mappings = {col: ranges_expand(map_dict) for col, map_dict in mapeo.items()}
mappings


{'EXERANY2': {1: 'Yes', 2: 'No', 7: 'Don‚Äôt know/Not Sure', 9: 'Refused'},
 'SLEPTIM1': {77: 'Don‚Äôt know/Not Sure', 99: 'Refused'},
 'SMOKE100': {1: 'Yes', 2: 'No', 7: 'Don‚Äôt know/Not Sure', 9: 'Refused'},
 'ALCDAY4': {101: '1 day per week',
  102: '1 day per week',
  103: '1 day per week',
  104: '1 day per week',
  105: '1 day per week',
  106: '1 day per week',
  107: '1 day per week',
  108: '1 day per week',
  109: '1 day per week',
  110: '1 day per week',
  111: '1 day per week',
  112: '1 day per week',
  113: '1 day per week',
  114: '1 day per week',
  115: '1 day per week',
  116: '1 day per week',
  117: '1 day per week',
  118: '1 day per week',
  119: '1 day per week',
  120: '1 day per week',
  121: '1 day per week',
  122: '1 day per week',
  123: '1 day per week',
  124: '1 day per week',
  125: '1 day per week',
  126: '1 day per week',
  127: '1 day per week',
  128: '1 day per week',
  129: '1 day per week',
  130: '1 day per week',
  131: '1 day per week',
  1

In [9]:
# Mapeo en el DF original
df_1 = df.copy()

for col, m in mappings.items():
    df_1[col] = df_1[col].apply(lambda x: m.get(x, x)) # Uso lambda para que me cambie aquellos valores que est√°n en el dict para que algunos valores me lo deje como est√°n.



In [10]:
cols = mappings.keys()

In [11]:
df_1 = df_1[cols]

In [12]:
# Lo guardo en csv
df_1.to_csv('./data/mapped_data.csv', index=False)

## **3. Exploraci√≥n inicial**

### ***3.1. Vista general***

Ahora que ya tenemos el dataset que queremos, lo cargamos y trabajamos sobre √©l.

Por lo que, en primer lugar, realizaremos una vista general de los datos.


In [13]:
df = pd.read_csv('./data/mapped_data.csv')
df.head()

  df = pd.read_csv('./data/mapped_data.csv')


Unnamed: 0,EXERANY2,SLEPTIM1,SMOKE100,ALCDAY4,MENTHLTH,GENHLTH,PHYSHLTH,DIABETE4,CVDCRHD4,ASTHMA3,CHCOCNC1,COLGSEX1,_AGEG5YR,INCOME3,_EDUCAG,EMPLOY1,_STATE,_BMI5CAT
0,No,8.0,No,No drinks in past 30 days,,Very good,88.0,Yes,No,No,No,,Age 80 or older,Refused,Graduated from College or Technical School,Retired,Alabama,
1,No,6.0,No,No drinks in past 30 days,,Excellent,88.0,No,No,No,Yes,,Age 80 or older,"$25,000 to < $35,000",Graduated High School,Self-employed,Alabama,Overweight
2,Yes,5.0,No,No drinks in past 30 days,3.0,Very good,2.0,No,No,No,No,,Age 55 to 59,"$150,000 to < $200,000",Graduated from College or Technical School,Retired,Alabama,Overweight
3,Yes,7.0,Yes,No drinks in past 30 days,,Excellent,88.0,No,No,Yes,No,,,Don‚Äôt know/Not sure,Graduated High School,Retired,Alabama,Normal Weight
4,Yes,9.0,No,2 days per week,,Fair,2.0,No,No,No,No,,Age 30 to 44,"$25,000 to < $35,000",Attended College or Technical School,A homemaker,Alabama,Normal Weight


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 445132 entries, 0 to 445131
Data columns (total 18 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   EXERANY2  445130 non-null  object
 1   SLEPTIM1  445129 non-null  object
 2   SMOKE100  413355 non-null  object
 3   ALCDAY4   404369 non-null  object
 4   MENTHLTH  179900 non-null  object
 5   GENHLTH   445129 non-null  object
 6   PHYSHLTH  445127 non-null  object
 7   DIABETE4  445129 non-null  object
 8   CVDCRHD4  445130 non-null  object
 9   ASTHMA3   445130 non-null  object
 10  CHCOCNC1  445129 non-null  object
 11  COLGSEX1  21 non-null      object
 12  _AGEG5YR  436053 non-null  object
 13  INCOME3   432200 non-null  object
 14  _EDUCAG   442749 non-null  object
 15  EMPLOY1   438936 non-null  object
 16  _STATE    445132 non-null  object
 17  _BMI5CAT  396326 non-null  object
dtypes: object(18)
memory usage: 61.1+ MB


Podemos observar que todas las columnas son de tipo `object` y hay nulos. Por lo que lo siguiente que realizaremos es:

- Cambiar el nombre de las columnas para que sean m√°s significativas y sepamos en todo momento sobre qu√© informaci√≥n estamos trabajando

- Analizar el tipo de las columnas y cambiar si fuese necesario.

- Analaizar los `NaN` y si se puede realizar alguna transformaci√≥n.

### ***3.2. Renombramiento de columnas***

In [15]:
# Renombro las columnas
name_cols = {'EXERANY2': 'ejercicio',
             'SLEPTIM1': 'sue√±o_h',
             'SMOKE100': 'fumar',
             'ALCDAY4': 'alcohol',
             'MENTHLTH': 'salud_mental_malos',
             'GENHLTH': 'salud_general',
             'PHYSHLTH': 'salud_fisica_mala',
             'DIABETE4': 'diabetes',
             'CVDCRHD4': 'enf_cardio',
             'ASTHMA3': 'asma',
             'CHCOCNC1': 'cancer',
             'COLGSEX1': 'genero',
             '_AGEG5YR': 'grupo_edad',
             'INCOME3': 'ingresos',
             '_EDUCAG': 'educacion',
             'EMPLOY1': 'empleo',
             '_STATE': 'estado',
             '_BMI5CAT': 'IMC'}

df.rename(columns=name_cols, inplace=True)
df.sample()

Unnamed: 0,ejercicio,sue√±o_h,fumar,alcohol,salud_mental_malos,salud_general,salud_fisica_mala,diabetes,enf_cardio,asma,cancer,genero,grupo_edad,ingresos,educacion,empleo,estado,IMC
117555,No,6.0,No,1 day per week,,Very good,88.0,No,No,No,No,,Age 18 to 24,"$25,000 to < $35,000",Graduated High School,Employed for wages,Iowa,Overweight


### ***3.3. Tipos de datos y primera visualizaci√≥n de nulos***

A continuaci√≥n, veremos cada una de las variables y nos centraremos en la tipolog√≠a de sus datos

In [16]:
df['ejercicio'].value_counts(dropna=False)

ejercicio
Yes                    337559
No                     106480
Don‚Äôt know/Not Sure       724
Refused                   367
NaN                         2
Name: count, dtype: int64

In [17]:
df['ejercicio'].dtype

dtype('O')

    Dejamos como est√° esta variable contando que tiene √∫nicamente dos NaN

In [18]:
df['sue√±o_h'].value_counts(dropna=False)

sue√±o_h
7.0                    132927
8.0                    125442
6.0                     95880
5.0                     30122
9.0                     21210
4.0                     12433
10.0                    10459
Don‚Äôt know/Not Sure      4792
3.0                      3260
12.0                     3004
2.0                      1549
1.0                      1154
11.0                      686
Refused                   658
16.0                      329
15.0                      317
14.0                      295
18.0                      168
13.0                      165
20.0                      143
24.0                       52
17.0                       27
22.0                       19
23.0                       18
19.0                       16
21.0                        4
NaN                         3
Name: count, dtype: int64

In [19]:
df['sue√±o_h'].dtype

dtype('O')

    Aunque sea de tipo object, a lo mejor es mejor tratarla como una num√©rica. Sin embargo, debido a esos valores categ√≥ricos (Don‚Äôt know/Not Sure y Refused), lo podr√≠amos tratar como NaN y los sumamos a los 3 valores que aparecen

In [20]:
df['sue√±o_h'].value_counts(dropna=False)[['Don‚Äôt know/Not Sure', 'Refused', np.nan]].sum()

np.int64(5453)

    Habr√≠a en total 5453 nulos en sue√±o_h

In [21]:
df['fumar'].value_counts(dropna=False)

fumar
No                     245955
Yes                    164217
NaN                     31777
Don‚Äôt know/Not Sure      2297
Refused                   886
Name: count, dtype: int64

In [22]:
df['fumar'].dtype

dtype('O')

    La tratamos igual que la variable 'ejercicio' aunque tiene un gran n√∫mero de NaN

In [23]:
df['alcohol'].value_counts(dropna=False)

alcohol
No drinks in past 30 days    187667
2 days per week              144740
1 day per week                66151
NaN                           40763
Don‚Äôt know/Not sure            3447
Refused                        2364
Name: count, dtype: int64

In [24]:
df['alcohol'].dtype

dtype('O')

    La tratamos igual que la variable 'ejercicio' y 'fumar' aunque tiene un gran n√∫mero de NaN

In [25]:
df['salud_mental_malos'].value_counts(dropna=False)

salud_mental_malos
NaN                    265232
30.0                    26990
2.0                     23785
5.0                     19951
10.0                    15414
3.0                     15345
15.0                    14519
1.0                     14409
20.0                     9150
4.0                      7943
7.0                      7844
Don‚Äôt know/Not sure      6589
25.0                     3078
14.0                     2871
Refused                  2475
6.0                      2305
8.0                      1749
12.0                     1259
28.0                      910
21.0                      549
29.0                      502
9.0                       322
18.0                      319
16.0                      280
17.0                      244
27.0                      241
22.0                      193
13.0                      169
24.0                      124
11.0                      121
26.0                      106
23.0                       97
19.0               

In [26]:
df['salud_mental_malos'].dtype

dtype('O')

In [27]:
df['salud_mental_malos'].value_counts(dropna=False)[['Don‚Äôt know/Not sure', 'Refused', np.nan]].sum()

np.int64(274296)

    Esta variable tambi√©n convendr√≠a tratarla como una num√©rica por lo que, si hacemos la misma operaci√≥n que con la variable 'sue√±o_h', quedar√≠an muchos valores desconocidos.

In [28]:
df['salud_general'].value_counts(dropna=False)

salud_general
Very good              148444
Good                   143598
Excellent               71878
Fair                    60273
Poor                    19741
Don‚Äôt know/Not Sure       810
Refused                   385
NaN                         3
Name: count, dtype: int64

In [29]:
df['salud_general'].dtype

dtype('O')

    La tratamos igual que la variable 'ejercicio', 'fumar' y 'alcohol' teniendo bastantes NaN si sumamos los valores desconocidos

In [30]:
df['salud_fisica_mala'].value_counts(dropna=False)

salud_fisica_mala
88.0                   267819
30.0                    33082
2.0                     25256
1.0                     17250
3.0                     15948
5.0                     15315
10.0                    10589
7.0                      9348
Don‚Äôt know/Not sure      8875
15.0                     8787
4.0                      8462
20.0                     5421
14.0                     5029
6.0                      2538
25.0                     2181
Refused                  2047
8.0                      1761
12.0                     1111
21.0                     1038
28.0                      751
9.0                       411
29.0                      365
18.0                      271
16.0                      255
27.0                      188
17.0                      185
13.0                      162
11.0                      161
22.0                      140
24.0                      125
26.0                      109
23.0                       99
19.0                

In [31]:
df['salud_fisica_mala'].value_counts(dropna=False)[['Don‚Äôt know/Not sure', 'Refused', np.nan]].sum()

np.int64(10927)

In [32]:
df['diabetes'].value_counts(dropna=False)

diabetes
No                                            368722
Yes                                            61158
Pre-diabetes or borderline diabetes            10329
Yes, but female told only during pregnancy      3836
Don‚Äôt know/Not Sure                              763
Refused                                          321
NaN                                                3
Name: count, dtype: int64

In [33]:
df['enf_cardio'].value_counts(dropna=False)

enf_cardio
No                     414176
Yes                     26551
Don‚Äôt know/Not sure      4044
Refused                   359
NaN                         2
Name: count, dtype: int64

In [34]:
df['asma'].value_counts(dropna=False)

asma
No                     376665
Yes                     66694
Don‚Äôt know/Not sure      1494
Refused                   277
NaN                         2
Name: count, dtype: int64

In [35]:
df['cancer'].value_counts(dropna=False)

cancer
No                     392442
Yes                     50269
Don‚Äôt know/Not sure      2016
Refused                   402
NaN                         3
Name: count, dtype: int64

In [36]:
df['genero'].value_counts(dropna=False)

genero
NaN       445111
Female        16
Male           5
Name: count, dtype: int64

    Curioso que la mayor√≠a de las personas que se sometieron a esta encuesta no quisieron decir de qu√© sexo eran

In [38]:
df['grupo_edad'].value_counts(dropna=False)

grupo_edad
Age 65 to 69       47099
Age 60 to 64       44511
Age 70 to 74       43472
Age 55 to 59       36821
Age 80 or older    36251
Age 50 to 54       33644
Age 75 to 79       32518
Age 30 to 44       29942
Age 45 to 49       28531
Age 35 to 39       28526
Age 18 to 24       26941
Age 30 to 34       25807
Age 25 to 29       21990
NaN                 9079
Name: count, dtype: int64

In [39]:
df['ingresos'].value_counts(dropna=False)

ingresos
$50,000 to < $75,000      59148
$100,000 to < $150,000    50330
$75,000 to < $100,000     48436
Refused                   47001
$35,000 to < $50,000      46831
$25,000 to < $35,000      42294
Don‚Äôt know/Not sure       36114
$200,000 or more          23478
$150,000 to < $200,000    22553
$20,000 to < $25,000      20343
$15,000 to < $20,000      14300
NaN                       12932
$10,000 to < $15,000      11031
Less than $10,000         10341
Name: count, dtype: int64

In [40]:
df['educacion'].value_counts(dropna=False)

educacion
Graduated from College or Technical School    187496
Attended College or Technical School          120252
Graduated High School                         108990
Did not graduate High School                   26011
NaN                                             2383
Name: count, dtype: int64

In [41]:
df['empleo'].value_counts(dropna=False)

empleo
Employed for wages                  186004
Retired                             137083
Self-employed                        38768
Unable to work                       26737
A homemaker                          17477
A student                            11111
Out of work for 1 year or more        8668
Out of work for less than 1 year      8044
NaN                                   6196
Refused                               5044
Name: count, dtype: int64

In [42]:
df['estado'].value_counts(dropna=False)

estado
Washington              26152
New York                17800
Minnesota               16821
Ohio                    16487
Maryland                16418
Texas                   14245
Florida                 13393
Wisconsin               11276
Kansas                  11247
Massachusetts           11029
California              10952
Maine                   10646
Indiana                 10466
Virginia                10417
Arizona                 10185
Michigan                10058
South Carolina          10037
Utah                     9826
Connecticut              9784
Colorado                 9365
Georgia                  9236
Iowa                     8949
Vermont                  8811
New Jersey               8209
Hawaii                   7747
Nebraska                 7473
Missouri                 7438
South Dakota             7424
Montana                  7048
New Hampshire            6757
Idaho                    6280
Rhode Island             5893
Alaska                   5865
Okl

In [43]:
df['estado'].unique()

array(['Alabama', 'Alaska', 'Arizona', 'Arkansas', 'California',
       'Colorado', 'Connecticut', 'Delaware', 'District of Columbia',
       'Florida', 'Georgia', 'Hawaii', 'Idaho', 'Illinois', 'Indiana',
       'Iowa', 'Kansas', 'Kentucky', 'Louisiana', 'Maine', 'Maryland',
       'Massachusetts', 'Michigan', 'Minnesota', 'Mississippi',
       'Missouri', 'Montana', 'Nebraska', 'Nevada', 'New Hampshire',
       'New Jersey', 'New Mexico', 'New York', 'North Carolina',
       'North Dakota', 'Ohio', 'Oklahoma', 'Oregon', 'Pennsylvania',
       'Rhode Island', 'South Carolina', 'South Dakota', 'Tennessee',
       'Texas', 'Utah', 'Vermont', 'Virginia', 'Washington',
       'West Virginia', 'Wisconsin', 'Wyoming', 'Guam', 'Puerto Rico',
       'Virgin Islands'], dtype=object)

In [44]:
df['IMC'].value_counts(dropna=False)

IMC
Overweight       139995
Obese            132577
Normal Weight    116976
NaN               48806
Underweight        6778
Name: count, dtype: int64

En resumen:

- Todas las variables tienen valores `NaN` por lo que antes de ver c√≥mo transformarlas tendremos en cuenta:

    - Los valores duplicados.

    - Si en una misma fila hay bastantes nulos.

- Con este an√°lisis de cada variable, podemos clasificar en dos grandes grupos:

    - **Variables de tipo categ√≥rica**: `ejercicio`, `fumar`, `alcohol`, `salud_general`, `diabetes`, `enf_cardio`, `asma`, `cancer`, `grupo_edad`, `ingresos` (va por rangos), `educacion`, `empleo`, `estado` y `IMC`.

    - **Variables de tipo num√©rica**: `sue√±o_h`, `salud_mental_malos`, `salud_fisica_mala`.

Me planteo eliminar la variable `genero` por el gran n√∫mero de nulos y no aportar√≠a mucha informaci√≥n al an√°lisis.

### ***3.4. Duplicados***

In [46]:
df.duplicated().sum()

np.int64(2806)

De 445.132 valores, √∫nicamente existen 2.806 filas que est√°n duplicadas.

Se puede profundizar m√°s y ver si esas filas tienen m√°s valores nulos o no.