# D5 - Project 2
----

### Summary
This notebook shows the process we followed to clean, explore and analyze the data set that contains
information about the __National Household Survey__.

---

In [1]:
# Dependencies
import pandas as pd

In [28]:
# National Household Survey
# In the repository the csv file is stored as a zip file to avoid conflicts with Git

# Características de las viviendas que habitan los integrantes de los hogares encuestados

# Save path to data set in a variable
vivienda_file = "../Resources/vivienda.csv"

# Use Pandas to read data - Main file PK folioviv
vivienda_df = pd.read_csv(vivienda_file, low_memory=False) 

# Show the results
vivienda_df.count()

folioviv      56680
tipo_viv      56680
condominio    56680
elevador      56680
mat_pared     56680
mat_techos    56680
mat_pisos     56680
ais_techos    56680
ais_pared     56680
ais_ventan    56680
ais_otro      56680
antiguedad    56680
cocina        56680
cocina_dor    56680
cuart_dorm    56680
num_cuarto    56680
disp_agua     56680
dotac_agua    56680
excusado      56680
uso_compar    56680
sanit_agua    56680
bano_comp     56680
bano_excus    56680
bano_regad    56680
drenaje       56680
disp_elect    56680
anio_panel    56680
panel_ne      56680
pot_panel     56680
potencia      56680
              ...  
mes_res       56680
familiar      56680
tipo_adqui    56680
financia_1    56680
financia_2    56680
financia_3    56680
financia_4    56680
financia_5    56680
financia_6    56680
financia_7    56680
financia_8    56680
num_dueno1    56680
hog_dueno1    56680
num_dueno2    56680
hog_dueno2    56680
escrituras    56680
computador    56680
tel_fijo      56680
celular       56680


In [3]:
# Características de los hogares
# Save path to data set in a variable
hogar_file = "../Resources/hogar.csv"

# Use Pandas to read data - 1st Aux file PK foliohog  FK folioviv
hogar_df = pd.read_csv(hogar_file, low_memory=False) 

# Show the results
hogar_df.count()

folioviv      57519
foliohog      57519
huespedes     57519
huesp_come    57519
trabaja_do    57519
cuid_perso    57519
lavandero     57519
chofer        57519
cocinero      57519
jardinero     57519
tot_integ     57519
tot_hom       57519
tot_muj       57519
dtype: int64

In [29]:
# Contiene características sociodemográficas y ocupacionales de los integrantes del hogar.
# Save path to data set in a variable
persona_file = "../Resources/persona.csv"

# Use Pandas to read data - 2nd Aux file PK id_pobla  FK folioviv, foliohog
persona_df = pd.read_csv(persona_file, low_memory=False) 

# Show the results
persona_df.count()

folioviv      208140
foliohog      208140
id_pobla      208140
edad          208140
nacio_dia     208140
nacio_mes     208140
sexo          208140
parentesco    208140
asiste_esc    208140
tipo_esc      208140
turno_esc     208140
tiene_beca    208140
otorg_beca    208140
forma_beca    208140
no_asiste     208140
grado_inst    208140
nivel_inst    208140
residencia    208140
alfabetism    208140
edo_conyug    208140
trabajo_sp    208140
motivo_aus    208140
act_buscot    208140
act_pensio    208140
act_quehac    208140
act_estudi    208140
act_discap    208140
act_otra      208140
num_trabaj    208140
subor         208140
indep         208140
personal      208140
pago          208140
contrato      208140
lentes        208140
dif_ver       208140
a_auditivo    208140
dif_oir       208140
sin_ruido     208140
con_ruido     208140
dif_camina    208140
usa_aparat    208140
ap_caminar    208140
cam_100mts    208140
cam_500mts    208140
sube_12esc    208140
dif_record    208140
frec_nerv    

## Vivienda

In [5]:
# Only Mexico City data from the main file
viv_cdmx_df = vivienda_df.loc[(vivienda_df["folioviv"] > 899999999) & (vivienda_df["folioviv"] < 1000000000), :]
viv_cdmx_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1776 entries, 13805 to 15580
Columns: 110 entries, folioviv to factor
dtypes: int64(64), object(46)
memory usage: 1.5+ MB


In [6]:
# Ubicación geográfica
# Para CDMX el primer dígito representa la clave de la entidad, los siguientes tres la clave del
# municipio y los últimos cuatro la clave de la localidad.
# 007 Iztapalapa  005 Gustavo A. Madero   012 Tlalpan  015 Cuauhtémoc   010 Álvaro Obregón  003 Coyoacán 
# 017 Venustiano Carranza  014 Benito Juárez  002 Azcapotzalco  006 Iztacalco  011 Tláhuac  013 Xochimilco 
# 016 Miguel Hidalgo  004 Cuajimalpa de Morelos  008 La Magdalena Contreras  009 Milpa Alta

viv_cdmx_df['ubica_geo'].value_counts()

90070000    300
90050000    191
90120000    165
90150000    156
90100000    138
90030000    132
90170000    107
90140000    103
90020000     92
90060000     85
90110000     84
90130000     59
90160000     59
90040000     42
90080000     40
90090000     23
Name: ubica_geo, dtype: int64

# Variables 'Vivienda' elegidas para el Proyecto:


•	tipo_viv: Tipo de vivienda C (1)
•	num_cuarto: Número de cuartos N (2)
•	disp_agua: Disponibilidad de agua C (1)
•	excusado: Tiene excusado C (1)
•	drenaje: Destino de drenaje C (1)
•	disp_elect: Disponibilidad eléctrica C (1)
•	tanque_gas: Dispone de tanque de gas
•	estacionario C (1)
•	tenencia: Tipo de tenencia de la vivienda C (1)
•	pago_renta: Pago de renta de vivienda N (5)
•	anio_res: Años residiendo en la vivienda N (2)
•	computador: Disponibilidad de computadora C (1)
•	tel_fijo: Disponibilidad de línea telefónica fija C (1)
•	celular: Disponibilidad de teléfono celular C (1)
•	internet: Disponibilidad de internet C (1)
•	tv_paga: Disponibilidad de servicio de
•	televisión de paga C (1)
•	auto_pick: Disponibilidad de automóvil propio C (1)
•	tot_hog: Total de hogares en la vivienda N (2)

In [7]:
# APARTADO A. RESIDENTES E IDENTIFICACIÓN DE HOGARES EN LA VIVIENDA
# 1. Esta vivienda es:  1 Casa independiente  2 Departamento en condominio vertical
# 3 Vivienda en vecindad 4 Vivienda en cuarto de azotea 5 Local no construido para habitación

viv_cdmx_df['tipo_viv'].value_counts()

1    1184
2     550
3      33
4       5
&       4
Name: tipo_viv, dtype: int64

In [8]:
# APARTADO A. RESIDENTES E IDENTIFICACIÓN DE HOGARES EN LA VIVIENDA
#¿Cuántos cuartos tiene en total esta vivienda, contando la cocina? 
#(No cuente pasillos ni baños) ANOTE EL NÚMERO

viv_cdmx_df['num_cuarto'].value_counts()

4     503
5     364
3     347
6     168
2     162
1     102
7      67
8      25
9      19
10     11
11      4
12      3
15      1
Name: num_cuarto, dtype: int64

In [9]:
#¿En esta vivienda tienen... 1. agua entubada dentro de la vivienda?. 2.agua entubada fuera de la vivienda, pero dentro del terreno?
#3.agua entubada de llave pública (o hidrante)? 4. agua entubada que acarrean de otra vivienda?
#5.agua de pipa? 6. agua de un pozo, río, lago, arroyo u otra?
viv_cdmx_df['disp_agua'].value_counts()

1    1561
2     197
5      13
3       4
4       1
Name: disp_agua, dtype: int64

In [10]:
# 12. ¿Tienen excusado, retrete, sanitario, letrina u hoyo negro? 1.SI 2.NO
viv_cdmx_df['excusado'].value_counts()

1    1771
2       5
Name: excusado, dtype: int64

In [11]:
#16 ¿Esta vivienda tiene drenaje o desagüe conectado a... 1. la red pública? 2. una fosa séptica?
# 3.una tubería que va a dar a una barranca o grieta? 4. una tubería que va a dar a un río, lago o mar?.
# 5.¿No tiene drenaje?
viv_cdmx_df['drenaje'].value_counts()

1    1658
2     100
3      16
5       2
Name: drenaje, dtype: int64

In [12]:
#17. ¿En esta vivienda, la luz eléctrica la obtienen... 1. del servicio público? 2. de una planta particular?
# 3. de panel solar? 4.de otra fuente? 5.¿No tiene luz eléctrica?
viv_cdmx_df['disp_elect'].value_counts()

1    1776
Name: disp_elect, dtype: int64

In [14]:
#22. ¿Esta vivienda tiene...
#lavadero? 1.SI 2.NO
#calentador de gas u otros? 1.SI 2.NO
#fregadero o tarja? 1.SI 2.NO
#medidor de luz? 1.SI 2.NO
#regadera? 1.SI 2.NO
#bomba de agua? 1.SI 2.NO
#regadera eléctrica?  1.SI 2.NO
#tanque de gas estacionario? 1.SI 2.NO
#tinaco en la azotea? 1.SI 2.NO
#aire acondicionado? 1.SI 2.NO
#cisterna o aljibe? 1.SI 2.NO
#pileta, tanque o depósito de agua? 1.SI 2.NO
#chimenea o calentón de leña? 1.SI 2.NO
#calentador solar de agua? 1.SI 2.NO
viv_cdmx_df['tanque_gas'].value_counts()

2    1246
1     530
Name: tanque_gas, dtype: int64

In [15]:
# APARTADO D. CARACTERÍSTICAS DE LA VIVIENDA (Sólo para el hogar principal)
# 28. ¿Esta vivienda...1 es rentada?   2 es prestada?   3 es propia pero la están pagando?
# 4 es propia?   5 está intestada o en litigio?   6 ¿Otra situación?
viv_cdmx_df['tenencia'].value_counts()

4    776
1    400
2    370
3    117
5    102
6     11
Name: tenencia, dtype: int64

In [16]:
# APARTADO D. CARACTERÍSTICAS DE LA VIVIENDA (Sólo para el hogar principal)
# 29. ¿Cuánto se paga mensualmente por la renta de esta vivienda?
viv_cdmx_df['pago_renta'].value_counts() 

         1376
2000       31
2500       29
1500       26
3000       21
5000       20
3500       19
1800       15
1000       13
4500       13
1200       13
4000       11
6000       10
1600        7
7000        7
500         7
2800        6
5500        6
15000       6
6500        6
9000        5
8000        5
1400        5
2700        5
2100        5
2200        5
2300        5
1700        5
10000       4
13000       4
         ... 
40000       1
1150        1
35000       1
10200       1
5130        1
3050        1
18000       1
20000       1
9500        1
24000       1
3400        1
22000       1
1900        1
1450        1
2750        1
31000       1
11500       1
8800        1
7800        1
21000       1
3700        1
3600        1
6800        1
6400        1
30000       1
1250        1
8400        1
6150        1
36000       1
600         1
Name: pago_renta, Length: 85, dtype: int64

In [17]:
# APARTADO D. CARACTERÍSTICAS DE LA VIVIENDA (Sólo para el hogar principal)
# 29. ¿Cuánto se paga mensualmente por la renta de esta vivienda?
viv_cdmx_df['pago_renta'].value_counts() 

         1376
2000       31
2500       29
1500       26
3000       21
5000       20
3500       19
1800       15
1000       13
4500       13
1200       13
4000       11
6000       10
1600        7
7000        7
500         7
2800        6
5500        6
15000       6
6500        6
9000        5
8000        5
1400        5
2700        5
2100        5
2200        5
2300        5
1700        5
10000       4
13000       4
         ... 
40000       1
1150        1
35000       1
10200       1
5130        1
3050        1
18000       1
20000       1
9500        1
24000       1
3400        1
22000       1
1900        1
1450        1
2750        1
31000       1
11500       1
8800        1
7800        1
21000       1
3700        1
3600        1
6800        1
6400        1
30000       1
1250        1
8400        1
6150        1
36000       1
600         1
Name: pago_renta, Length: 85, dtype: int64

In [18]:
#¿Por cuánto tiempo ha rentado esta vivienda? 
viv_cdmx_df['anio_res'].value_counts()

      1376
0       68
1       60
3       47
2       44
5       35
4       24
10      20
15      16
7       12
6       10
8       10
30       7
17       5
20       5
16       5
12       4
9        3
25       3
19       3
13       3
35       2
47       2
40       2
14       2
32       2
50       1
28       1
27       1
18       1
29       1
44       1
Name: anio_res, dtype: int64

In [19]:
#¿En esta vivienda tienen...
viv_cdmx_df['computador'].value_counts() 

1    970
2    806
Name: computador, dtype: int64

In [20]:
#¿En esta vivienda tienen...
viv_cdmx_df['tel_fijo'].value_counts() 

1    1226
2     550
Name: tel_fijo, dtype: int64

In [21]:
#¿En esta vivienda tienen...
viv_cdmx_df['celular'].value_counts() 

1    1643
2     133
Name: celular, dtype: int64

In [22]:
#¿En esta vivienda tienen...
viv_cdmx_df['internet'].value_counts()

1    1281
2     495
Name: internet, dtype: int64

In [23]:
#¿En esta vivienda tienen...
viv_cdmx_df['tv_paga'].value_counts()

2    964
1    812
Name: tv_paga, dtype: int64

In [24]:
#¿En esta vivienda tienen...
viv_cdmx_df['auto_pick'].value_counts()

2    992
1    784
Name: auto_pick, dtype: int64

In [25]:
#¿Cuántos hogares o grupos de personas tienen gasto separado para comer contando el de usted?
viv_cdmx_df['tot_hog'].value_counts()

1    1765
2       8
3       3
Name: tot_hog, dtype: int64

In [60]:
# Tamaño de localidad
# 1 Localidades con 100 000 y más habitantes  2 Localidades con 15 000 a 99 999 habitantes
# 3 Localidades con 2 500 a 14 999 habitantes  4 Localidades con menos de 2 500 habitantes
viv_cdmx_df['tam_loc'].value_counts()

1    1713
2      31
4      18
3      14
Name: tam_loc, dtype: int64

In [59]:
# Estrato socioeconómico   1 Bajo   2 Medio bajo    3 Medio alto   4 Alto
viv_cdmx_df['est_socio'].value_counts()

3    795
2    728
4    248
1      5
Name: est_socio, dtype: int64

In [61]:
# Unidad primaria de muestreo 
# Las unidades primarias de muestreo están constituidas por agrupaciones de viviendas con características 
# diferenciadas dependiendo del ámbito al que pertenecen. Estas unidades son seleccionadas en la primera 
# etapa del muestreo y corresponden a áreas geográficas con límites identificables en el terreno que agrupan un
# conjunto de viviendas, cuyo número depende del tamaño de las localidades
viv_cdmx_df['upm'].value_counts()

2577    10
2578     8
2341     5
2332     5
2333     5
2334     5
2336     5
2337     5
2338     5
2343     5
2354     5
2344     5
2345     5
2347     5
2348     5
2349     5
2351     5
2352     5
2328     5
2327     5
2326     5
2324     5
2298     5
2302     5
2303     5
2304     5
2305     5
2308     5
2310     5
2311     5
        ..
2505     3
2300     3
2424     3
2513     3
2275     3
2516     3
2317     3
2521     3
2529     3
2378     3
2530     3
2241     3
2540     3
2374     3
2360     3
2230     3
2468     3
2350     3
2476     3
2485     2
2473     2
2399     2
2525     2
2526     2
2233     2
2527     2
2448     2
2507     2
2201     2
2480     2
Name: upm, Length: 398, dtype: int64

In [18]:
# APARTADO A. RESIDENTES E IDENTIFICACIÓN DE HOGARES EN LA VIVIENDA
# 1. Esta vivienda es:  1 Casa independiente  2 Departamento en condominio vertical
# 3 Vivienda en vecindad 4 Vivienda en cuarto de azotea 5 Local no construido para habitación

viv_cdmx_df['tipo_viv'].value_counts()

1    1184
2     550
3      33
4       5
&       4
Name: tipo_viv, dtype: int64

In [19]:
# APARTADO A. RESIDENTES E IDENTIFICACIÓN DE HOGARES EN LA VIVIENDA
# HOGARES EN LA VIVIENDA
# 2. ¿Cuántos hogares o grupos de personas tienen gasto separado para comer contando el de usted?
viv_cdmx_df['tot_hog'].value_counts()

1    1765
2       8
3       3
Name: tot_hog, dtype: int64

In [8]:
# APARTADO D. CARACTERÍSTICAS DE LA VIVIENDA (Sólo para el hogar principal)
# 28. ¿Esta vivienda...1 es rentada?   2 es prestada?   3 es propia pero la están pagando?
# 4 es propia?   5 está intestada o en litigio?   6 ¿Otra situación?
viv_cdmx_df['tenencia'].value_counts()

4    776
1    400
2    370
3    117
5    102
6     11
Name: tenencia, dtype: int64

In [9]:
# APARTADO D. CARACTERÍSTICAS DE LA VIVIENDA (Sólo para el hogar principal)
# 29. ¿Cuánto se paga mensualmente por la renta de esta vivienda?
viv_cdmx_df['pago_renta'].value_counts() 

         1376
2000       31
2500       29
1500       26
3000       21
5000       20
3500       19
1800       15
4500       13
1200       13
1000       13
4000       11
6000       10
500         7
7000        7
1600        7
2800        6
5500        6
6500        6
15000       6
2100        5
1400        5
2700        5
9000        5
8000        5
2300        5
1700        5
2200        5
800         4
17000       4
         ... 
11500       1
1880        1
8800        1
5130        1
38000       1
35000       1
1450        1
8400        1
31000       1
6800        1
6400        1
40000       1
8500        1
5700        1
3400        1
7100        1
3700        1
5200        1
36000       1
21000       1
1150        1
30000       1
18000       1
9500        1
24000       1
6200        1
22000       1
6150        1
7800        1
2750        1
Name: pago_renta, Length: 85, dtype: int64

In [26]:
viv_cdmx_df.dtypes

folioviv       int64
tipo_viv      object
condominio    object
elevador      object
mat_pared      int64
mat_techos     int64
mat_pisos     object
ais_techos     int64
ais_pared      int64
ais_ventan     int64
ais_otro       int64
antiguedad    object
cocina         int64
cocina_dor    object
cuart_dorm     int64
num_cuarto     int64
disp_agua      int64
dotac_agua    object
excusado       int64
uso_compar    object
sanit_agua    object
bano_comp     object
bano_excus    object
bano_regad    object
drenaje        int64
disp_elect     int64
anio_panel    object
panel_ne      object
pot_panel     object
potencia      object
               ...  
mes_res       object
familiar      object
tipo_adqui    object
financia_1    object
financia_2    object
financia_3    object
financia_4    object
financia_5    object
financia_6    object
financia_7    object
financia_8    object
num_dueno1    object
hog_dueno1    object
num_dueno2    object
hog_dueno2    object
escrituras    object
computador   

In [25]:
viv_cdmx_df['pago_renta'].dtype

dtype('O')

In [55]:
# 29. ¿Cuánto se paga mensualmente por la renta de esta vivienda?
red_df = viv_cdmx_df.loc[:, ["folioviv", "pago_renta"]]
red_df['renta'] = red_df['pago_renta'].str.strip()
red_df['renta'] = red_df['renta'].apply(pd.to_numeric, args=('coerce',))

In [62]:
# 29. ¿Cuánto se paga mensualmente por la renta de esta vivienda?
bins = [0, 1000, 5000, 7500, 10000, 20000, 30000]

# Create the names for the bins
group_names = ["<1000", "1000-5000", "5000-7500", "7500-10000", "10000-20000", ">20000"]

# Create df with the bins
red_df["gpo_renta"] = pd.cut(red_df['renta'], bins, labels=group_names)

red_df["gpo_renta"].value_counts()

1000-5000      270
5000-7500       43
<1000           31
10000-20000     26
7500-10000      19
>20000           6
Name: gpo_renta, dtype: int64

In [10]:
# APARTADO D. CARACTERÍSTICAS DE LA VIVIENDA (Sólo para el hogar principal)
#36. ¿En esta vivienda tienen...
viv_cdmx_df['computador'].value_counts() 

1    970
2    806
Name: computador, dtype: int64

In [11]:
#36. ¿En esta vivienda tienen...
viv_cdmx_df['tel_fijo'].value_counts() 

1    1226
2     550
Name: tel_fijo, dtype: int64

In [12]:
#36. ¿En esta vivienda tienen...
viv_cdmx_df['celular'].value_counts() 

1    1643
2     133
Name: celular, dtype: int64

In [13]:
#36. ¿En esta vivienda tienen...
viv_cdmx_df['internet'].value_counts()

1    1281
2     495
Name: internet, dtype: int64

In [14]:
#36. ¿En esta vivienda tienen...
viv_cdmx_df['tv_paga'].value_counts()

2    964
1    812
Name: tv_paga, dtype: int64

In [15]:
#36. ¿En esta vivienda tienen...
viv_cdmx_df['auto_pick'].value_counts()

2    992
1    784
Name: auto_pick, dtype: int64

## Persona

In [30]:
# Only Mexico City data from the persona file
per_cdmx_df = persona_df.loc[(persona_df["folioviv"] > 899999999) & (persona_df["folioviv"] < 1000000000), :]
per_cdmx_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5901 entries, 50355 to 56255
Data columns (total 58 columns):
folioviv      5901 non-null int64
foliohog      5901 non-null int64
id_pobla      5901 non-null int64
edad          5901 non-null int64
nacio_dia     5901 non-null object
nacio_mes     5901 non-null object
sexo          5901 non-null int64
parentesco    5901 non-null int64
asiste_esc    5901 non-null object
tipo_esc      5901 non-null object
turno_esc     5901 non-null object
tiene_beca    5901 non-null object
otorg_beca    5901 non-null object
forma_beca    5901 non-null object
no_asiste     5901 non-null object
grado_inst    5901 non-null object
nivel_inst    5901 non-null object
residencia    5901 non-null object
alfabetism    5901 non-null object
edo_conyug    5901 non-null object
trabajo_sp    5901 non-null object
motivo_aus    5901 non-null object
act_buscot    5901 non-null object
act_pensio    5901 non-null object
act_quehac    5901 non-null object
act_estudi    5901 

# Variables 'Personas' elegidas para el Proyecto:


•	edad: Edad N (3)
•	sexo: Sexo C (1)
•	nivel_inst: Nivel de instrucción C (2)
•	alfabetism: Alfabetismo C (1)
•	edo_conyug: Estado conyugal C (1)
•	act_buscot: Actividad busca de empleo C (1)
•	act_pensio: Actividad pensionado o jubilado C (1)
•	act_quehac: Actividad quehaceres del hogar C (1)
•	act_estudi: Actividad estudiante C (1)
•	act_discap: Actividad limitación física o mental C (1)
•	act_otra: Actividad de otra situación diferente C (1)
•	num_trabaj: Números de trabajos C (1)

In [64]:
# APARTADO B. CARACTERÍSTICAS DE LOS INTEGRANTES DEL HOGAR, EDUCACIÓN Y OCUPACIÓN PARA TODAS LAS PERSONAS DEL HOGAR
# 2. ¿Cuántos años cumplidos tiene ?
per_cdmx_df['edad'].value_counts()

40    118
35    113
22    111
24    108
30    107
42    105
23     98
27     98
19     95
29     95
26     95
32     95
60     94
45     93
25     93
18     93
43     90
50     89
17     88
39     87
33     87
20     87
52     86
21     85
5      85
34     84
16     84
31     82
55     82
46     82
     ... 
67     51
62     51
70     47
69     44
76     36
66     35
73     29
75     28
77     28
78     26
74     25
80     20
71     19
82     17
79     16
85     13
84     11
83     11
86      9
88      7
87      7
93      5
81      4
90      4
91      4
89      3
94      3
92      3
97      2
95      1
Name: edad, Length: 97, dtype: int64

In [31]:
# 2. es... 1.hombre 2.mujer
per_cdmx_df['sexo'].value_counts()

2    3057
1    2844
Name: sexo, dtype: int64

In [65]:
# 13. ¿Cuál es el último año o grado que aprobó en la escuela?    Nivel de instrucción
# 03 Secundaria   02 Primaria   10 Licenciatura o profesional  04 Preparatoria o bachillerato  
# 00 Ninguno  01 Preescolar   05 Normal básica  06 Estudios técnicos o comerciales con primaria terminada  
# 07 Estudios técnicos o comerciales con secundaria terminada 08 Estudios técnicos o comerciales con 
# preparatoria terminada   09 Normal de licenciatura   11 Maestría   12 Doctorado
per_cdmx_df['nivel_inst'].value_counts()

03    1279
02    1195
10    1164
04    1155
01     196
       193
07     189
00     185
11     132
08     106
06      39
12      34
09      24
05      10
Name: nivel_inst, dtype: int64

In [32]:
#APARTADO B. CARACTERÍSTICAS DE LOS INTEGRANTES DEL HOGAR, EDUCACIÓN Y OCUPACIÓN
#¿Entonces la semana pasada,
#1 estuvo buscando trabajo?
per_cdmx_df['act_buscot'].value_counts()

     5793
1     108
Name: act_buscot, dtype: int64

In [33]:
#2 es pensionado o jubilado?
per_cdmx_df['act_pensio'].value_counts()

     5572
2     329
Name: act_pensio, dtype: int64

In [34]:
#3 se dedicó a los quehaceres del hogar?
per_cdmx_df['act_quehac'].value_counts()

     5087
3     814
Name: act_quehac, dtype: int64

In [35]:
#4 se dedicó a estudiar?
per_cdmx_df['act_estudi'].value_counts()

     5228
4     673
Name: act_estudi, dtype: int64

In [36]:
#5 Es una persona con alguna limitación física o mental que le impide trabajar por el resto de su vida
per_cdmx_df['act_discap'].value_counts()

     5820
5      81
Name: act_discap, dtype: int64

In [37]:
#6 Está en otra situación diferente a las anteriores
per_cdmx_df['act_otra'].value_counts()

     5856
6      45
Name: act_otra, dtype: int64

In [38]:
#¿Cuántos trabajos tuvo ... la semana pasada? 1. Solo uno 2. Dos o mas
per_cdmx_df['num_trabaj'].value_counts()

1    3027
     2811
2      63
Name: num_trabaj, dtype: int64

In [66]:
# 14. ¿Hace 5 años, en 2012, en qué estado de la república mexicana o país vivía?
per_cdmx_df['residencia'].value_counts()

09    5388
       320
15      69
16      15
12      11
30      11
21      11
34      11
33       9
20       9
28       8
19       7
01       4
13       4
26       3
14       3
22       3
29       2
11       2
25       2
27       2
31       1
24       1
32       1
23       1
10       1
17       1
07       1
Name: residencia, dtype: int64

In [67]:
# 17. Durante la semana pasada, trabajó?   1 SÍ   2 NO    9 No sabe
per_cdmx_df['trabajo_sp'].value_counts()

1    3034
2    2034
      833
Name: trabajo_sp, dtype: int64

In [68]:
# 22. En su trabajo principal, ¿tuvo un jefe(a) o superior?   1 SÍ    2 NO
per_cdmx_df['subor'].value_counts()

     2811
1    2230
2     860
Name: subor, dtype: int64

In [69]:
# 23. Entonces, ¿se dedicó a un negocio o actividad por su cuenta?    1 SÍ    2 NO
per_cdmx_df['indep'].value_counts()

     5041
1     858
2       2
Name: indep, dtype: int64

In [71]:
# 24. ¿Tuvo empleados o le ayudaron personas en su negocio o actividad?    1 SÍ    2 NO
per_cdmx_df['personal'].value_counts() 

     5043
2     663
1     195
Name: personal, dtype: int64

In [72]:
# 25. En ese trabajo  1 ¿Recibe un pago?     2 ¿Es un trabajador(a) sin pago en un negocio del hogar?
# 3 ¿Es un trabajador(a) sin pago en un negocio que no es del hogar?
per_cdmx_df['pago'].value_counts()

     3669
1    2189
2      33
3      10
Name: pago, dtype: int64

In [74]:
# 26. ¿En su trabajo principal cuenta con un contrato escrito?   1 SÍ   2 NO   9 No sabe
per_cdmx_df['contrato'].value_counts()

     3712
1    1349
2     713
9     127
Name: contrato, dtype: int64

In [79]:
# APARTADO C. SALUD
# 7. ¿Tiene dificultad para caminar o subir escaleras?  1 No tiene dificultad
# 2 Alguna dificultad   3 Mucha dificultad   4 No puede hacerlo   9 No sabe
per_cdmx_df['dif_camina'].value_counts()

1    5018
2     454
3     201
      193
4      27
9       8
Name: dif_camina, dtype: int64

In [80]:
# APARTADO C. SALUD
# 13. ¿Tiene dificultad para recordar o concentrarse?  1 No tiene dificultad  2 Alguna dificultad
# 3 Mucha dificultad    4 No puede hacerlo  9 No sabe
per_cdmx_df['dif_record'].value_counts()

1    5075
2     520
      193
3      86
4      17
9      10
Name: dif_record, dtype: int64

In [81]:
# APARTADO C. SALUD
# 14. ¿Con qué frecuencia se ha sentido preocupado o nervioso?   1 Diario    2 Semanalmente   3 Mensualmente
# 4 Algunas veces al año    5 Nunca    9 No sabe
per_cdmx_df['frec_nerv'].value_counts()

5    1888
4    1680
1     715
2     572
3     484
      474
9      88
Name: frec_nerv, dtype: int64

In [82]:
# APARTADO C. SALUD
# 15. ¿Toma algún medicamento para la preocupación o el nerviosismo?     1 SÍ     2 NO     9 No sabe
per_cdmx_df['med_nerv'].value_counts()

2    5285
      474
1     128
9      14
Name: med_nerv, dtype: int64

In [83]:
# APARTADO C. SALUD
# 16. ¿Con qué intensidad se sintió nervioso o preocupado la última vez?     1 Un poco    2 Mucho
# 3 Ni poco ni mucho   9 No sabe
per_cdmx_df['inte_nerv'].value_counts()

     2447
1    1975
2     740
3     726
9      13
Name: inte_nerv, dtype: int64

In [84]:
# APARTADO C. SALUD
# 17. ¿Con qué frecuencia se siente deprimido?     1 Diario   2 Semanalmente    3 Mensualmente
# 4 Algunas veces al año   5 Nunca    9 No sabe
per_cdmx_df['frec_depre'].value_counts()

5    3448
4    1279
      474
3     241
2     199
1     191
9      69
Name: frec_depre, dtype: int64

In [85]:
# APARTADO C. SALUD
# 20. En los últimos 3 meses, ¿con qué frecuencia ha sentido dolor?   1 Nunca   2 Algunos días  
# 3 La mayoría de los días   4 Todos los días   9 No sabe
per_cdmx_df['frec_dolor'].value_counts()

1    3554
2    1378
      474
4     272
3     202
9      21
Name: frec_dolor, dtype: int64

In [86]:
# APARTADO C. SALUD
# 22. En los últimos 3 meses, ¿con qué frecuencia se ha sentido muy cansado o exhausto?  1 Nunca     2 Algunos días
# 3 La mayoría de los días     4 Todos los días     9 No sabe
per_cdmx_df['frec_cansa'].value_counts()

1    2648
2    2193
      474
3     304
4     254
9      28
Name: frec_cansa, dtype: int64

## Hogar

In [75]:
# Only Mexico City data from the hogar file
hog_cdmx_df = hogar_df.loc[(hogar_df["folioviv"] > 899999999) & (hogar_df["folioviv"] < 1000000000), :]
hog_cdmx_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1790 entries, 13982 to 15771
Data columns (total 13 columns):
folioviv      1790 non-null int64
foliohog      1790 non-null int64
huespedes     1790 non-null int64
huesp_come    1790 non-null object
trabaja_do    1790 non-null object
cuid_perso    1790 non-null object
lavandero     1790 non-null object
chofer        1790 non-null object
cocinero      1790 non-null object
jardinero     1790 non-null object
tot_integ     1790 non-null int64
tot_hom       1790 non-null int64
tot_muj       1790 non-null int64
dtypes: int64(6), object(7)
memory usage: 195.8+ KB


In [76]:
# Número de integrantes del hogar
hog_cdmx_df['tot_integ'].value_counts()

2     395
4     384
3     379
1     266
5     200
6      90
7      35
8      17
9      10
10      8
16      2
11      2
14      1
13      1
Name: tot_integ, dtype: int64

In [77]:
# Total de integrantes hombres
hog_cdmx_df['tot_hom'].value_counts() 

1    710
2    508
3    246
0    241
4     61
5     16
6      4
8      2
9      1
7      1
Name: tot_hom, dtype: int64

In [78]:
# Total de integrantes mujeres
hog_cdmx_df['tot_muj'].value_counts() 

1    743
2    517
3    245
0    166
4     80
5     22
6      9
7      4
8      3
9      1
Name: tot_muj, dtype: int64

## Merge

In [9]:
merge = pd.merge(viv_cdmx_df, hogar_df, on="folioviv", suffixes=("_Viv", "_Hog"))
merge.head()

Unnamed: 0,folioviv,tipo_viv,condominio,elevador,mat_pared,mat_techos,mat_pisos,ais_techos,ais_pared,ais_ventan,...,huesp_come,trabaja_do,cuid_perso,lavandero,chofer,cocinero,jardinero,tot_integ,tot_hom,tot_muj
0,900083044,2,6.0,2.0,8,9,3,2,2,2,...,,,,,,,,2,1,1
1,900083065,2,5.0,2.0,8,9,3,2,2,2,...,,,,,,,,6,4,2
2,900083089,2,6.0,2.0,8,9,3,2,2,2,...,,,,,,,,3,1,2
3,900083113,2,6.0,2.0,8,9,3,2,2,2,...,,,,,,,,3,2,1
4,900168010,1,,,8,9,3,2,2,2,...,,,,,,,,1,1,0
