# D5 - Project 2
----

### Summary
This notebook shows the process we followed to clean, explore and analyze the data set 
that contains information about the __National Household Survey__ for the `Megalopolis -- Zona Metropolitana del Valle de México`. Also, contains the variables of interest for the project. 


__Megalopolis states:__
** Ciudad de México ** Estado de México ** Hidalgo ** Puebla ** Morelos ** Querétaro  ** Tlaxcala


However to make the final visualizations, we included only a small set of these variables.

----

In [3]:
# Dependencies
import pandas as pd

In [4]:
# National Household Survey

# Características de las viviendas que habitan los integrantes de los hogares encuestados

# Save path to data set in a variable
vivienda_file = "../Resources/vivienda.csv"

# Use Pandas to read data - Main file PK folioviv
vivienda_df = pd.read_csv(vivienda_file, low_memory=False) 

# Show the results
vivienda_df.count()

folioviv      56680
tipo_viv      56680
condominio    56680
elevador      56680
mat_pared     56680
mat_techos    56680
mat_pisos     56680
ais_techos    56680
ais_pared     56680
ais_ventan    56680
ais_otro      56680
antiguedad    56680
cocina        56680
cocina_dor    56680
cuart_dorm    56680
num_cuarto    56680
disp_agua     56680
dotac_agua    56680
excusado      56680
uso_compar    56680
sanit_agua    56680
bano_comp     56680
bano_excus    56680
bano_regad    56680
drenaje       56680
disp_elect    56680
anio_panel    56680
panel_ne      56680
pot_panel     56680
potencia      56680
              ...  
mes_res       56680
familiar      56680
tipo_adqui    56680
financia_1    56680
financia_2    56680
financia_3    56680
financia_4    56680
financia_5    56680
financia_6    56680
financia_7    56680
financia_8    56680
num_dueno1    56680
hog_dueno1    56680
num_dueno2    56680
hog_dueno2    56680
escrituras    56680
computador    56680
tel_fijo      56680
celular       56680


In [3]:
# Características de los hogares
# Save path to data set in a variable
hogar_file = "../Resources/hogar.csv"

# Use Pandas to read data - 1st Aux file PK foliohog  FK folioviv
hogar_df = pd.read_csv(hogar_file, low_memory=False) 

# Show the results
hogar_df.count()

folioviv      57519
foliohog      57519
huespedes     57519
huesp_come    57519
trabaja_do    57519
cuid_perso    57519
lavandero     57519
chofer        57519
cocinero      57519
jardinero     57519
tot_integ     57519
tot_hom       57519
tot_muj       57519
dtype: int64

In [4]:
# Contiene características sociodemográficas y ocupacionales de los integrantes del hogar.
# Save path to data set in a variable
persona_file = "../Resources/persona.csv"

# Use Pandas to read data - 2nd Aux file PK id_pobla  FK folioviv, foliohog
persona_df = pd.read_csv(persona_file, low_memory=False) 

# Show the results
persona_df.count()

folioviv      208140
foliohog      208140
id_pobla      208140
edad          208140
nacio_dia     208140
nacio_mes     208140
sexo          208140
parentesco    208140
asiste_esc    208140
tipo_esc      208140
turno_esc     208140
tiene_beca    208140
otorg_beca    208140
forma_beca    208140
no_asiste     208140
grado_inst    208140
nivel_inst    208140
residencia    208140
alfabetism    208140
edo_conyug    208140
trabajo_sp    208140
motivo_aus    208140
act_buscot    208140
act_pensio    208140
act_quehac    208140
act_estudi    208140
act_discap    208140
act_otra      208140
num_trabaj    208140
subor         208140
indep         208140
personal      208140
pago          208140
contrato      208140
lentes        208140
dif_ver       208140
a_auditivo    208140
dif_oir       208140
sin_ruido     208140
con_ruido     208140
dif_camina    208140
usa_aparat    208140
ap_caminar    208140
cam_100mts    208140
cam_500mts    208140
sube_12esc    208140
dif_record    208140
frec_nerv    

### Vivienda file

In [5]:
# Only Megalopolis data from the main file  
# folioviv begins with 9 for Ciudad de México  13 Hidalgo  15 México  17 Morelos  21 Puebla  22 Querétaro  29 Tlaxcala
viv_mega_df = vivienda_df.loc[
    (vivienda_df["folioviv"] > 899999999) & (vivienda_df["folioviv"] < 1000000000) |
    (vivienda_df["folioviv"] > 1299999999) & (vivienda_df["folioviv"] < 1400000000) |
    (vivienda_df["folioviv"] > 1499999999) & (vivienda_df["folioviv"] < 1600000000) |
    (vivienda_df["folioviv"] > 1699999999) & (vivienda_df["folioviv"] < 1800000000) |
    (vivienda_df["folioviv"] > 2099999999) & (vivienda_df["folioviv"] < 2300000000) |
    (vivienda_df["folioviv"] > 2899999999) & (vivienda_df["folioviv"] < 3000000000), :]
viv_mega_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12295 entries, 13805 to 51369
Columns: 110 entries, folioviv to factor
dtypes: int64(64), object(46)
memory usage: 10.4+ MB


In [6]:
# Add a new column to add the state number
viv_mega_df.insert(1, 'state', 0)

In [10]:
# State is inserted after the field folioviv
viv_mega_df.columns[97]

'computador'

In [7]:
# Assign the state number to make groups and counters
viv_mega_df.loc[(viv_mega_df["folioviv"] > 899999999) & (viv_mega_df["folioviv"] < 1000000000), 'state'] = 9
viv_mega_df.loc[(viv_mega_df["folioviv"] > 1299999999) & (viv_mega_df["folioviv"] < 1400000000), 'state'] = 13
viv_mega_df.loc[(viv_mega_df["folioviv"] > 1499999999) & (viv_mega_df["folioviv"] < 1600000000), 'state'] = 15
viv_mega_df.loc[(viv_mega_df["folioviv"] > 1699999999) & (viv_mega_df["folioviv"] < 1800000000), 'state'] = 17
viv_mega_df.loc[(viv_mega_df["folioviv"] > 2099999999) & (viv_mega_df["folioviv"] < 2200000000), 'state'] = 21
viv_mega_df.loc[(viv_mega_df["folioviv"] > 2199999999) & (viv_mega_df["folioviv"] < 2300000000), 'state'] = 22
viv_mega_df.loc[(viv_mega_df["folioviv"] > 2899999999) & (viv_mega_df["folioviv"] < 3000000000), 'state'] = 29

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[item] = s


In [8]:
# Count the rows by state
df = viv_mega_df.groupby(['state'])['folioviv'].count()
df

state
9     1776
13    1721
15    1828
17    1632
21    1697
22    1830
29    1811
Name: folioviv, dtype: int64

In [7]:
# Ubicación geográfica
viv_mega_df.groupby('state')['ubica_geo'].value_counts()

state  ubica_geo
9      90070000     300
       90050000     191
       90120000     165
       90150000     156
       90100000     138
       90030000     132
       90170000     107
       90140000     103
       90020000      92
       90060000      85
       90110000      84
       90130000      59
       90160000      59
       90040000      42
       90080000      40
       90090000      23
13     130480000    167
       130670000    115
       130510000     98
       130630000     86
       130760000     82
       130770000     82
       130130000     71
       130280000     68
       130300000     67
       130590000     53
       130290000     50
       130560000     44
       130640000     38
       130730000     38
                   ... 
29     290360000     37
       290210000     36
       290140000     34
       290310000     31
       290380000     31
       290280000     30
       290390000     26
       290410000     24
       290300000     20
       290020000     19

#### `Data preparation for the Services Graph`

In [11]:
# Get information for the graph - totals by variable
viv_mega_df.groupby(['state']).agg({i:'value_counts' for i in viv_mega_df.columns[97:102]})

Unnamed: 0,Unnamed: 1,computador,tel_fijo,celular,internet,tv_paga
9,1,970,1226,1643,1281,812
9,2,806,550,133,495,964
13,1,489,420,1424,464,849
13,2,1232,1301,297,1257,872
15,1,650,842,1668,817,656
15,2,1178,986,160,1011,1172
17,1,545,743,1435,764,723
17,2,1087,889,197,868,909
21,1,499,515,1391,552,648
21,2,1198,1182,306,1145,1049


In [12]:
# Get information for the graph - totals by variable group by state and estrato socioeconomico
viv_mega_df.groupby(['state','est_socio']).agg({i:'value_counts' for i in viv_mega_df.columns[97:102]})

Unnamed: 0,Unnamed: 1,Unnamed: 2,computador,tel_fijo,celular,internet,tv_paga
9,1,1,,1,5.0,,
9,1,2,5.0,4,,5.0,5.0
9,2,1,282.0,427,666.0,449.0,243.0
9,2,2,446.0,301,62.0,279.0,485.0
9,3,1,491.0,588,736.0,613.0,394.0
9,3,2,304.0,207,59.0,182.0,401.0
9,4,1,197.0,210,236.0,219.0,175.0
9,4,2,51.0,38,12.0,29.0,73.0
13,1,1,38.0,53,310.0,29.0,188.0
13,1,2,423.0,408,151.0,432.0,273.0


In [8]:
# Get information for the graph - totals by variable group by estrato socioeconomico
graph_df = viv_mega_df.groupby(['est_socio']).agg({i:'value_counts' for i in viv_mega_df.columns[97:102]})
graph_df.reset_index(inplace=True)
graph_df.rename(columns={"level_0":"est_socio", "level_1":"yes_no"}, inplace=True)

In [9]:
# Show results
graph_df

Unnamed: 0,est_socio,yes_no,computador,tel_fijo,celular,internet,tv_paga
0,1,1,162,209,1335,133,534
1,1,2,1659,1612,486,1688,1287
2,2,1,2227,2510,6474,2775,3138
3,2,2,5051,4768,804,4503,4140
4,3,1,1259,1407,2041,1511,1228
5,3,2,913,765,131,661,944
6,4,1,781,758,992,837,735
7,4,2,243,266,32,187,289


In [10]:
# Calculate the percentages of the field computador
comp = graph_df.groupby(['est_socio', 'yes_no']).agg({'computador': 'sum'})
# Change: groupby and divide by sum
pcts = comp.groupby(level=0).apply(lambda x:100 * x / float(x.sum()))

In [11]:
# Show results
pcts

Unnamed: 0_level_0,Unnamed: 1_level_0,computador
est_socio,yes_no,Unnamed: 2_level_1
1,1,8.896211
1,2,91.103789
2,1,30.599066
2,2,69.400934
3,1,57.965009
3,2,42.034991
4,1,76.269531
4,2,23.730469


In [12]:
# Calculate the percentages of the field computador
comp = graph_df.groupby(['est_socio', 'yes_no']).agg({'tel_fijo': 'sum'})
# Change: groupby and divide by sum
pcts = comp.groupby(level=0).apply(lambda x:100 * x / float(x.sum()))

In [13]:
# Show results
pcts

Unnamed: 0_level_0,Unnamed: 1_level_0,tel_fijo
est_socio,yes_no,Unnamed: 2_level_1
1,1,11.47721
1,2,88.52279
2,1,34.487497
2,2,65.512503
3,1,64.779006
3,2,35.220994
4,1,74.023438
4,2,25.976562


In [14]:
# Calculate the percentages of the field computador
comp = graph_df.groupby(['est_socio', 'yes_no']).agg({'celular': 'sum'})
# Change: groupby and divide by sum
pcts = comp.groupby(level=0).apply(lambda x:100 * x / float(x.sum()))

In [15]:
# Show results
pcts

Unnamed: 0_level_0,Unnamed: 1_level_0,celular
est_socio,yes_no,Unnamed: 2_level_1
1,1,73.311367
1,2,26.688633
2,1,88.953009
2,2,11.046991
3,1,93.968692
3,2,6.031308
4,1,96.875
4,2,3.125


In [16]:
# Calculate the percentages of the field computador
comp = graph_df.groupby(['est_socio', 'yes_no']).agg({'internet': 'sum'})
# Change: groupby and divide by sum
pcts = comp.groupby(level=0).apply(lambda x:100 * x / float(x.sum()))

In [17]:
# Show results
pcts

Unnamed: 0_level_0,Unnamed: 1_level_0,internet
est_socio,yes_no,Unnamed: 2_level_1
1,1,7.303679
1,2,92.696321
2,1,38.128607
2,2,61.871393
3,1,69.567219
3,2,30.432781
4,1,81.738281
4,2,18.261719


In [18]:
# Calculate the percentages of the field computador
comp = graph_df.groupby(['est_socio', 'yes_no']).agg({'tv_paga': 'sum'})
# Change: groupby and divide by sum
pcts = comp.groupby(level=0).apply(lambda x:100 * x / float(x.sum()))

In [19]:
# Show results
pcts

Unnamed: 0_level_0,Unnamed: 1_level_0,tv_paga
est_socio,yes_no,Unnamed: 2_level_1
1,1,29.324547
1,2,70.675453
2,1,43.116241
2,2,56.883759
3,1,56.537753
3,2,43.462247
4,1,71.777344
4,2,28.222656


### Variables chosen for the project:
-	tipo_viv: Tipo de vivienda C (1)
-	num_cuarto: Número de cuartos N (2)
-	disp_agua: Disponibilidad de agua C (1)
-	excusado: Tiene excusado C (1)
-	drenaje: Destino de drenaje C (1)
-	disp_elect: Disponibilidad eléctrica C (1)
-	tanque_gas: Dispone de tanque de gas
-	estacionario C (1)
-	tenencia: Tipo de tenencia de la vivienda C (1)
-	pago_renta: Pago de renta de vivienda N (5)
-	anio_res: Años residiendo en la vivienda N (2)
-	computador: Disponibilidad de computadora C (1)
-	tel_fijo: Disponibilidad de línea telefónica fija C (1)
-	celular: Disponibilidad de teléfono celular C (1)
-	internet: Disponibilidad de internet C (1)
-	tv_paga: Disponibilidad de servicio de
-	televisión de paga C (1)
-	auto_pick: Disponibilidad de automóvil propio C (1)
-	tot_hog: Total de hogares en la vivienda N (2)

In [38]:
# APARTADO A. RESIDENTES E IDENTIFICACIÓN DE HOGARES EN LA VIVIENDA
# 1. Esta vivienda es:  1 Casa independiente  2 Departamento en condominio vertical
# 3 Vivienda en vecindad 4 Vivienda en cuarto de azotea 5 Local no construido para habitación

viv_mega_df.groupby('state')['tipo_viv'].value_counts()

state  tipo_viv
9      1           1184
       2            550
       3             33
       4              5
       &              4
13     1           1671
       2             42
       3              6
       &              2
15     1           1678
       2             97
       3             52
       &              1
17     1           1511
       2             93
       3             22
       &              5
       5              1
21     1           1543
       2            104
       3             46
       &              2
       4              2
22     1           1734
       2             76
       3             16
       &              4
29     1           1727
       2             79
       5              3
       3              2
Name: tipo_viv, dtype: int64

In [40]:
# APARTADO A. RESIDENTES E IDENTIFICACIÓN DE HOGARES EN LA VIVIENDA
#¿Cuántos cuartos tiene en total esta vivienda, contando la cocina? 
#(No cuente pasillos ni baños) ANOTE EL NÚMERO

viv_mega_df.groupby('state')['num_cuarto'].value_counts()

state  num_cuarto
9      4             503
       5             364
       3             347
       6             168
       2             162
       1             102
       7              67
       8              25
       9              19
       10             11
       11              4
       12              3
       15              1
13     4             478
       5             349
       3             348
       2             201
       6             155
       7              65
       1              64
       8              33
       9              14
       10             10
       11              1
       12              1
       13              1
       14              1
15     4             465
       3             341
       5             338
                    ... 
21     8              27
       9               7
       10              7
       11              2
       12              1
22     4             486
       3             377
       5             354
       

In [41]:
#¿En esta vivienda tienen... 1. agua entubada dentro de la vivienda?. 2.agua entubada fuera de la vivienda, pero dentro del terreno?
#3.agua entubada de llave pública (o hidrante)? 4. agua entubada que acarrean de otra vivienda?
#5.agua de pipa? 6. agua de un pozo, río, lago, arroyo u otra?
viv_mega_df.groupby('state')['disp_agua'].value_counts()

state  disp_agua
9      1            1561
       2             197
       5              13
       3               4
       4               1
13     1            1079
       2             505
       6              61
       5              47
       4              27
       3               2
15     1            1265
       2             500
       5              37
       4              19
       6               7
17     1            1098
       2             432
       5              42
       6              32
       4              24
       3               4
21     1             967
       2             630
       6              45
       5              33
       4              19
       3               3
22     1            1363
       2             394
       4              37
       5              23
       6              10
       3               3
29     1            1158
       2             604
       6              26
       4              22
       5               1
Name: di

In [42]:
# 12. ¿Tienen excusado, retrete, sanitario, letrina u hoyo negro? 1.SI 2.NO
viv_mega_df.groupby('state')['excusado'].value_counts()

state  excusado
9      1           1771
       2              5
13     1           1626
       2             95
15     1           1799
       2             29
17     1           1615
       2             17
21     1           1659
       2             38
22     1           1744
       2             86
29     1           1718
       2             93
Name: excusado, dtype: int64

In [43]:
#16 ¿Esta vivienda tiene drenaje o desagüe conectado a... 1. la red pública? 2. una fosa séptica?
# 3.una tubería que va a dar a una barranca o grieta? 4. una tubería que va a dar a un río, lago o mar?.
# 5.¿No tiene drenaje?
viv_mega_df.groupby('state')['drenaje'].value_counts()

state  drenaje
9      1          1658
       2           100
       3            16
       5             2
13     1          1153
       2           447
       5            92
       3            16
       4            13
15     1          1589
       2           174
       5            31
       3            26
       4             8
17     1          1068
       2           524
       3            21
       5            16
       4             3
21     1          1325
       2           301
       5            59
       3            11
       4             1
22     1          1503
       2           234
       5            82
       3            11
29     1          1664
       5            58
       2            53
       3            32
       4             4
Name: drenaje, dtype: int64

In [44]:
#17. ¿En esta vivienda, la luz eléctrica la obtienen... 1. del servicio público? 2. de una planta particular?
# 3. de panel solar? 4.de otra fuente? 5.¿No tiene luz eléctrica?
viv_mega_df.groupby('state')['disp_elect'].value_counts()

state  disp_elect
9      1             1776
13     1             1711
       5                9
       4                1
15     1             1826
       3                1
       5                1
17     1             1629
       4                2
       3                1
21     1             1689
       5                7
       4                1
22     1             1819
       5                7
       3                4
29     1             1806
       5                4
       2                1
Name: disp_elect, dtype: int64

In [45]:
#22. ¿Esta vivienda tiene...
#tanque de gas estacionario? 1.SI 2.NO
viv_mega_df.groupby('state')['tanque_gas'].value_counts()

state  tanque_gas
9      2             1246
       1              530
13     2             1447
       1              274
15     2             1468
       1              360
17     2             1452
       1              180
21     2             1473
       1              224
22     2             1595
       1              235
29     2             1513
       1              298
Name: tanque_gas, dtype: int64

In [46]:
# APARTADO D. CARACTERÍSTICAS DE LA VIVIENDA (Sólo para el hogar principal)
# 28. ¿Esta vivienda...1 es rentada?   2 es prestada?   3 es propia pero la están pagando?
# 4 es propia?   5 está intestada o en litigio?   6 ¿Otra situación?
viv_mega_df.groupby('state')['tenencia'].value_counts()

state  tenencia
9      4            776
       1            400
       2            370
       3            117
       5            102
       6             11
13     4           1074
       2            289
       1            138
       3             96
       5             63
       6             61
15     4           1047
       2            340
       1            266
       3            120
       5             49
       6              6
17     4            870
       2            389
       1            221
       5             83
       3             61
       6              8
21     4            846
       2            400
       1            216
       3            109
       5            109
       6             17
22     4            875
       2            377
       1            282
       3            158
       5             97
       6             41
29     4           1217
       2            256
       1            169
       3            126
       5             43


In [60]:
# APARTADO D. CARACTERÍSTICAS DE LA VIVIENDA (Sólo para el hogar principal)
# 29. ¿Cuánto se paga mensualmente por la renta de esta vivienda?
# Create a new data frame with less columns to make bins
renta_mega = viv_mega_df.loc[:, ["folioviv", "state", "pago_renta"]]
renta_mega['renta'] = renta_mega['pago_renta'].str.strip()
renta_mega['renta'] = renta_mega['renta'].apply(pd.to_numeric, args=('coerce',))

In [62]:
# 29. ¿Cuánto se paga mensualmente por la renta de esta vivienda?
# Define the bins to group the data by range
bins = [0, 1000, 5000, 7500, 10000, 20000, 30000]

# Create the names for the bins
group_names = ["<1000", "1000-5000", "5000-7500", "7500-10000", "10000-20000", ">20000"]

# Create df with the bins
renta_mega["gpo_renta"] = pd.cut(renta_mega['renta'], bins, labels=group_names)

renta_mega.groupby('state')['gpo_renta'].value_counts()

state  gpo_renta  
9      1000-5000      270
       5000-7500       43
       <1000           31
       10000-20000     26
       7500-10000      19
       >20000           6
13     1000-5000       87
       <1000           49
       5000-7500        1
       7500-10000       1
15     1000-5000      189
       <1000           66
       5000-7500        5
       7500-10000       4
       10000-20000      2
17     1000-5000      140
       <1000           75
       5000-7500        3
       7500-10000       2
       10000-20000      1
21     1000-5000      136
       <1000           70
       5000-7500        6
       10000-20000      2
       7500-10000       2
22     1000-5000      197
       <1000           35
       5000-7500       25
       7500-10000      15
       10000-20000     10
29     <1000           86
       1000-5000       82
       7500-10000       1
Name: gpo_renta, dtype: int64

In [47]:
#¿Por cuánto tiempo ha rentado esta vivienda? 
viv_mega_df.groupby('state')['anio_res'].value_counts()

state  anio_res
9                  1376
       0             68
       1             60
       3             47
       2             44
       5             35
       4             24
       10            20
       15            16
       7             12
       6             10
       8             10
       30             7
       16             5
       17             5
       20             5
       12             4
       13             3
       19             3
       25             3
       9              3
       14             2
       32             2
       35             2
       40             2
       47             2
       18             1
       27             1
       28             1
       29             1
                   ... 
22     4             16
       5             16
       6             12
       8              9
       7              5
       10             2
       9              2
       12             1
       14             1
       16             1


In [48]:
#¿En esta vivienda tienen...   1 SI    2  NO
viv_mega_df.groupby('state')['computador'].value_counts()

state  computador
9      1              970
       2              806
13     2             1232
       1              489
15     2             1178
       1              650
17     2             1087
       1              545
21     2             1198
       1              499
22     2             1065
       1              765
29     2             1300
       1              511
Name: computador, dtype: int64

In [49]:
#¿En esta vivienda tienen...
viv_mega_df.groupby('state')['tel_fijo'].value_counts()

state  tel_fijo
9      1           1226
       2            550
13     2           1301
       1            420
15     2            986
       1            842
17     2            889
       1            743
21     2           1182
       1            515
22     2           1159
       1            671
29     2           1344
       1            467
Name: tel_fijo, dtype: int64

In [50]:
#¿En esta vivienda tienen...
viv_mega_df.groupby('state')['celular'].value_counts()

state  celular
9      1          1643
       2           133
13     1          1424
       2           297
15     1          1668
       2           160
17     1          1435
       2           197
21     1          1391
       2           306
22     1          1668
       2           162
29     1          1613
       2           198
Name: celular, dtype: int64

In [51]:
#¿En esta vivienda tienen...
viv_mega_df.groupby('state')['internet'].value_counts()

state  internet
9      1           1281
       2            495
13     2           1257
       1            464
15     2           1011
       1            817
17     2            868
       1            764
21     2           1145
       1            552
22     2            953
       1            877
29     2           1310
       1            501
Name: internet, dtype: int64

In [52]:
#¿En esta vivienda tienen...
viv_mega_df.groupby('state')['tv_paga'].value_counts()

state  tv_paga
9      2           964
       1           812
13     2           872
       1           849
15     2          1172
       1           656
17     2           909
       1           723
21     2          1049
       1           648
22     1          1082
       2           748
29     2           946
       1           865
Name: tv_paga, dtype: int64

In [53]:
#¿En esta vivienda tienen...
viv_mega_df.groupby('state')['auto_pick'].value_counts()

state  auto_pick
9      2             992
       1             784
13     2            1082
       1             639
15     2            1116
       1             712
17     2            1002
       1             630
21     2            1144
       1             553
22     1             979
       2             851
29     2            1167
       1             644
Name: auto_pick, dtype: int64

In [54]:
#¿Cuántos hogares o grupos de personas tienen gasto separado para comer contando el de usted?
viv_mega_df.groupby('state')['tot_hog'].value_counts()

state  tot_hog
9      1          1765
       2             8
       3             3
13     1          1692
       2            23
       3             3
       4             3
15     1          1806
       2            19
       3             3
17     1          1620
       2            10
       3             2
21     1          1670
       2            26
       3             1
22     1          1799
       2            23
       3             6
       4             2
29     1          1786
       2            22
       3             3
Name: tot_hog, dtype: int64

In [55]:
# Tamaño de localidad
# 1 Localidades con 100 000 y más habitantes  2 Localidades con 15 000 a 99 999 habitantes
# 3 Localidades con 2 500 a 14 999 habitantes  4 Localidades con menos de 2 500 habitantes
viv_mega_df.groupby('state')['tam_loc'].value_counts()

state  tam_loc
9      1          1713
       2            31
       4            18
       3            14
13     4           827
       3           388
       2           276
       1           230
15     1          1119
       3           279
       4           222
       2           208
17     1           587
       3           408
       2           364
       4           273
21     1           517
       4           474
       3           383
       2           323
22     1           786
       4           526
       3           370
       2           148
29     3           824
       2           627
       4           360
Name: tam_loc, dtype: int64

In [56]:
# Estrato socioeconómico   1 Bajo   2 Medio bajo    3 Medio alto   4 Alto
viv_mega_df.groupby('state')['est_socio'].value_counts()

state  est_socio
9      3             795
       2             728
       4             248
       1               5
13     2            1081
       1             461
       3              99
       4              80
15     2            1170
       3             303
       4             191
       1             164
17     2            1136
       3             238
       1             198
       4              60
21     2             812
       1             576
       3             219
       4              90
22     2             830
       3             390
       1             328
       4             282
29     2            1521
       3             128
       1              89
       4              73
Name: est_socio, dtype: int64

## Persona file

In [63]:
# Only Megalopolis data from the persona file
# folioviv begins with 9 for Ciudad de México  13 Hidalgo  15 México  17 Morelos  21 Puebla  22 Querétaro  29 Tlaxcala
per_mega_df = persona_df.loc[
    (persona_df["folioviv"] > 899999999) & (persona_df["folioviv"] < 1000000000) |
    (persona_df["folioviv"] > 1299999999) & (persona_df["folioviv"] < 1400000000) |
    (persona_df["folioviv"] > 1499999999) & (persona_df["folioviv"] < 1600000000) |
    (persona_df["folioviv"] > 1699999999) & (persona_df["folioviv"] < 1800000000) |
    (persona_df["folioviv"] > 2099999999) & (persona_df["folioviv"] < 2300000000) |
    (persona_df["folioviv"] > 2899999999) & (persona_df["folioviv"] < 3000000000), :]
per_mega_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 46157 entries, 50355 to 188564
Data columns (total 58 columns):
folioviv      46157 non-null int64
foliohog      46157 non-null int64
id_pobla      46157 non-null int64
edad          46157 non-null int64
nacio_dia     46157 non-null object
nacio_mes     46157 non-null object
sexo          46157 non-null int64
parentesco    46157 non-null int64
asiste_esc    46157 non-null object
tipo_esc      46157 non-null object
turno_esc     46157 non-null object
tiene_beca    46157 non-null object
otorg_beca    46157 non-null object
forma_beca    46157 non-null object
no_asiste     46157 non-null object
grado_inst    46157 non-null object
nivel_inst    46157 non-null object
residencia    46157 non-null object
alfabetism    46157 non-null object
edo_conyug    46157 non-null object
trabajo_sp    46157 non-null object
motivo_aus    46157 non-null object
act_buscot    46157 non-null object
act_pensio    46157 non-null object
act_quehac    46157 non-null

In [64]:
# Add a new column to add the state number
per_mega_df.insert(1, 'state', 0)

In [65]:
# State is inserted after the field folioviv
per_mega_df.columns

Index(['folioviv', 'state', 'foliohog', 'id_pobla', 'edad', 'nacio_dia',
       'nacio_mes', 'sexo', 'parentesco', 'asiste_esc', 'tipo_esc',
       'turno_esc', 'tiene_beca', 'otorg_beca', 'forma_beca', 'no_asiste',
       'grado_inst', 'nivel_inst', 'residencia', 'alfabetism', 'edo_conyug',
       'trabajo_sp', 'motivo_aus', 'act_buscot', 'act_pensio', 'act_quehac',
       'act_estudi', 'act_discap', 'act_otra', 'num_trabaj', 'subor', 'indep',
       'personal', 'pago', 'contrato', 'lentes', 'dif_ver', 'a_auditivo',
       'dif_oir', 'sin_ruido', 'con_ruido', 'dif_camina', 'usa_aparat',
       'ap_caminar', 'cam_100mts', 'cam_500mts', 'sube_12esc', 'dif_record',
       'frec_nerv', 'med_nerv', 'inte_nerv', 'frec_depre', 'med_depre',
       'inte_depre', 'frec_dolor', 'inte_dolor', 'frec_cansa', 'tiem_cansa',
       'inte_cansa'],
      dtype='object')

In [66]:
# Assign the state number to make groups and counters
per_mega_df.loc[(per_mega_df["folioviv"] > 899999999) & (per_mega_df["folioviv"] < 1000000000), 'state'] = 9
per_mega_df.loc[(per_mega_df["folioviv"] > 1299999999) & (per_mega_df["folioviv"] < 1400000000), 'state'] = 13
per_mega_df.loc[(per_mega_df["folioviv"] > 1499999999) & (per_mega_df["folioviv"] < 1600000000), 'state'] = 15
per_mega_df.loc[(per_mega_df["folioviv"] > 1699999999) & (per_mega_df["folioviv"] < 1800000000), 'state'] = 17
per_mega_df.loc[(per_mega_df["folioviv"] > 2099999999) & (per_mega_df["folioviv"] < 2200000000), 'state'] = 21
per_mega_df.loc[(per_mega_df["folioviv"] > 2199999999) & (per_mega_df["folioviv"] < 2300000000), 'state'] = 22
per_mega_df.loc[(per_mega_df["folioviv"] > 2899999999) & (per_mega_df["folioviv"] < 3000000000), 'state'] = 29

In [68]:
# Count the rows by state
per_mega_df.groupby('state')['folioviv'].count()

state
9     5901
13    6520
15    7034
17    5784
21    6612
22    6941
29    7365
Name: folioviv, dtype: int64

### Variables chosen for the project:
•	edad: Edad N (3)
•	sexo: Sexo C (1)
•	nivel_inst: Nivel de instrucción C (2)
•	alfabetism: Alfabetismo C (1)
•	edo_conyug: Estado conyugal C (1)
•	act_buscot: Actividad busca de empleo C (1)
•	act_pensio: Actividad pensionado o jubilado C (1)
•	act_quehac: Actividad quehaceres del hogar C (1)
•	act_estudi: Actividad estudiante C (1)
•	act_discap: Actividad limitación física o mental C (1)
•	act_otra: Actividad de otra situación diferente C (1)
•	num_trabaj: Números de trabajos C (1)

In [69]:
# APARTADO B. CARACTERÍSTICAS DE LOS INTEGRANTES DEL HOGAR, EDUCACIÓN Y OCUPACIÓN PARA TODAS LAS PERSONAS DEL HOGAR
# 2. ¿Cuántos años cumplidos tiene ?
per_mega_df.groupby('state')['edad'].value_counts()

state  edad
9      40      118
       35      113
       22      111
       24      108
       30      107
       42      105
       23       98
       27       98
       19       95
       26       95
       29       95
       32       95
       60       94
       18       93
       25       93
       45       93
       43       90
       50       89
       17       88
       20       87
       33       87
       39       87
       52       86
       5        85
       21       85
       16       84
       34       84
       31       82
       46       82
       55       82
              ... 
29     70       26
       71       24
       68       23
       72       23
       76       23
       75       19
       73       17
       78       17
       85       17
       81       16
       84       16
       79       14
       80       13
       77       11
       82       11
       87       10
       74        8
       83        8
       86        7
       88        6
       89        6


In [70]:
# 2. es... 1.hombre 2.mujer
per_mega_df.groupby('state')['sexo'].value_counts()

state  sexo
9      2       3057
       1       2844
13     2       3441
       1       3079
15     2       3655
       1       3379
17     2       3016
       1       2768
21     2       3437
       1       3175
22     2       3588
       1       3353
29     2       3814
       1       3551
Name: sexo, dtype: int64

In [87]:
# 15. ¿ sabe leer y escribir un recado?   1 SI  2 NO
per_mega_df.groupby('state')['alfabetism'].value_counts()

state  alfabetism
9      1             5349
                      405
       2              147
13     1             5299
                      675
       2              546
15     1             6176
                      610
       2              248
17     1             4968
                      500
       2              316
21     1             5331
                      692
       2              589
22     1             5863
                      688
       2              390
29     1             6240
                      733
       2              392
Name: alfabetism, dtype: int64

In [88]:
# 16. Actualmente   1 vive con su pareja en unión libre?  2 está separada(o)?  3 está divorciada(o)?
# 4 está viuda(o)?  5 está soltera(o)?   6 está casada(o) civil y/o religiosamente?
per_mega_df.groupby('state')['edo_conyug'].value_counts()

state  edo_conyug
9      5             1845
       6             1678
                      833
       1              818
       2              316
       4              272
       3              139
13     6             1820
       5             1669
                     1451
       1             1054
       4              266
       2              190
       3               70
15     5             2041
       6             2018
                     1343
       1             1029
       2              279
       4              245
       3               79
17     6             1602
       5             1517
                     1085
       1              894
       2              335
       4              272
       3               79
21     5             1764
       6             1613
                     1410
       1             1192
       2              297
       4              275
       3               61
22     6             2226
       5             2021
                    

In [71]:
# 13. ¿Cuál es el último año o grado que aprobó en la escuela?    Nivel de instrucción
# 03 Secundaria   02 Primaria   10 Licenciatura o profesional  04 Preparatoria o bachillerato  
# 00 Ninguno  01 Preescolar   05 Normal básica  06 Estudios técnicos o comerciales con primaria terminada  
# 07 Estudios técnicos o comerciales con secundaria terminada 08 Estudios técnicos o comerciales con 
# preparatoria terminada   09 Normal de licenciatura   11 Maestría   12 Doctorado
per_mega_df.groupby('state')['nivel_inst'].value_counts()

state  nivel_inst
9      03            1279
       02            1195
       10            1164
       04            1155
       01             196
                      193
       07             189
       00             185
       11             132
       08             106
       06              39
       12              34
       09              24
       05              10
13     02            1993
       03            1734
       04             857
       00             553
       10             522
                      323
       01             278
       07              84
       11              46
       08              43
       09              39
       05              28
       06              12
       12               8
15     03            1867
       02            1783
                     ... 
21     05              10
       06               5
22     02            1851
       03            1820
       04             925
       10             843
       00           

In [72]:
#APARTADO B. CARACTERÍSTICAS DE LOS INTEGRANTES DEL HOGAR, EDUCACIÓN Y OCUPACIÓN
#¿Entonces la semana pasada,
#1 estuvo buscando trabajo?
per_mega_df.groupby('state')['act_buscot'].value_counts()

state  act_buscot
9                    5793
       1              108
13                   6461
       1               59
15                   6937
       1               97
17                   5684
       1              100
21                   6569
       1               43
22                   6865
       1               76
29                   7276
       1               89
Name: act_buscot, dtype: int64

In [74]:
#2 es pensionado o jubilado?
per_mega_df.groupby('state')['act_pensio'].value_counts()

state  act_pensio
9                    5572
       2              329
13                   6426
       2               94
15                   6880
       2              154
17                   5610
       2              174
21                   6525
       2               87
22                   6798
       2              143
29                   7261
       2              104
Name: act_pensio, dtype: int64

In [75]:
#3 se dedicó a los quehaceres del hogar?
per_mega_df.groupby('state')['act_quehac'].value_counts()

state  act_quehac
9                    5087
       3              814
13                   4882
       3             1638
15                   5771
       3             1263
17                   4553
       3             1231
21                   5638
       3              974
22                   5801
       3             1140
29                   5853
       3             1512
Name: act_quehac, dtype: int64

In [76]:
#4 se dedicó a estudiar?
per_mega_df.groupby('state')['act_estudi'].value_counts()

state  act_estudi
9                    5228
       4              673
13                   5870
       4              650
15                   6070
       4              964
17                   5238
       4              546
21                   6027
       4              585
22                   6206
       4              735
29                   6591
       4              774
Name: act_estudi, dtype: int64

In [77]:
#5 Es una persona con alguna limitación física o mental que le impide trabajar por el resto de su vida
per_mega_df.groupby('state')['act_discap'].value_counts()

state  act_discap
9                    5820
       5               81
13                   6428
       5               92
15                   6947
       5               87
17                   5701
       5               83
21                   6510
       5              102
22                   6821
       5              120
29                   7287
       5               78
Name: act_discap, dtype: int64

In [78]:
#6 Está en otra situación diferente a las anteriores
per_mega_df.groupby('state')['act_otra'].value_counts()

state  act_otra
9                  5856
       6             45
13                 6478
       6             42
15                 6968
       6             66
17                 5762
       6             22
21                 6581
       6             31
22                 6906
       6             35
29                 7330
       6             35
Name: act_otra, dtype: int64

In [79]:
#¿Cuántos trabajos tuvo ... la semana pasada? 1. Solo uno 2. Dos o mas
per_mega_df.groupby('state')['num_trabaj'].value_counts()

state  num_trabaj
9      1             3027
                     2811
       2               63
13                   3516
       1             2871
       2              133
15                   3851
       1             3121
       2               62
17                   2875
       1             2815
       2               94
21     1             3376
                     3056
       2              180
22                   3568
       1             3238
       2              135
29                   3642
       1             3581
       2              142
Name: num_trabaj, dtype: int64

In [81]:
# 17. Durante la semana pasada, trabajó?   1 SÍ   2 NO    9 No sabe
per_mega_df.groupby('state')['trabajo_sp'].value_counts()

state  trabajo_sp
9      1             3034
       2             2034
                      833
13     1             2958
       2             2111
                     1451
15     1             3126
       2             2565
                     1343
17     1             2863
       2             1836
                     1085
21     1             3496
       2             1706
                     1410
22     1             3321
       2             2179
                     1441
29     1             3668
       2             2094
                     1603
Name: trabajo_sp, dtype: int64

In [80]:
# 14. ¿Hace 5 años, en 2012, en qué estado de la república mexicana o país vivía?
per_mega_df.groupby('state')['residencia'].value_counts()

state  residencia
9      09            5388
                      320
       15              69
       16              15
       12              11
       21              11
       30              11
       34              11
       20               9
       33               9
       28               8
       19               7
       01               4
       13               4
       14               3
       22               3
       26               3
       11               2
       25               2
       27               2
       29               2
       07               1
       10               1
       17               1
       23               1
       24               1
       31               1
       32               1
13     13            5580
                      551
                     ... 
22     04               1
       10               1
       18               1
       23               1
       26               1
       32               1
29     29           

## Hogar file

In [89]:
# Only Megalopolis data from the hogar file
hog_mega_df = hogar_df.loc[
    (hogar_df["folioviv"] > 899999999) & (hogar_df["folioviv"] < 1000000000) |
    (hogar_df["folioviv"] > 1299999999) & (hogar_df["folioviv"] < 1400000000) |
    (hogar_df["folioviv"] > 1499999999) & (hogar_df["folioviv"] < 1600000000) |
    (hogar_df["folioviv"] > 1699999999) & (hogar_df["folioviv"] < 1800000000) |
    (hogar_df["folioviv"] > 2099999999) & (hogar_df["folioviv"] < 2300000000) |
    (hogar_df["folioviv"] > 2899999999) & (hogar_df["folioviv"] < 3000000000), :]
hog_mega_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12483 entries, 13982 to 52138
Data columns (total 13 columns):
folioviv      12483 non-null int64
foliohog      12483 non-null int64
huespedes     12483 non-null int64
huesp_come    12483 non-null object
trabaja_do    12483 non-null object
cuid_perso    12483 non-null object
lavandero     12483 non-null object
chofer        12483 non-null object
cocinero      12483 non-null object
jardinero     12483 non-null object
tot_integ     12483 non-null int64
tot_hom       12483 non-null int64
tot_muj       12483 non-null int64
dtypes: int64(6), object(7)
memory usage: 1.3+ MB


In [90]:
# Add a new column to add the state number
hog_mega_df.insert(1, 'state', 0)

In [91]:
# State is inserted after the field folioviv
hog_mega_df.columns

Index(['folioviv', 'state', 'foliohog', 'huespedes', 'huesp_come',
       'trabaja_do', 'cuid_perso', 'lavandero', 'chofer', 'cocinero',
       'jardinero', 'tot_integ', 'tot_hom', 'tot_muj'],
      dtype='object')

In [92]:
# Assign the state number to make groups and counters
hog_mega_df.loc[(hog_mega_df["folioviv"] > 899999999) & (hog_mega_df["folioviv"] < 1000000000), 'state'] = 9
hog_mega_df.loc[(hog_mega_df["folioviv"] > 1299999999) & (hog_mega_df["folioviv"] < 1400000000), 'state'] = 13
hog_mega_df.loc[(hog_mega_df["folioviv"] > 1499999999) & (hog_mega_df["folioviv"] < 1600000000), 'state'] = 15
hog_mega_df.loc[(hog_mega_df["folioviv"] > 1699999999) & (hog_mega_df["folioviv"] < 1800000000), 'state'] = 17
hog_mega_df.loc[(hog_mega_df["folioviv"] > 2099999999) & (hog_mega_df["folioviv"] < 2200000000), 'state'] = 21
hog_mega_df.loc[(hog_mega_df["folioviv"] > 2199999999) & (hog_mega_df["folioviv"] < 2300000000), 'state'] = 22
hog_mega_df.loc[(hog_mega_df["folioviv"] > 2899999999) & (hog_mega_df["folioviv"] < 3000000000), 'state'] = 29

In [93]:
# Count the rows by state
hog_mega_df.groupby('state')['folioviv'].count()

state
9     1790
13    1759
15    1853
17    1646
21    1725
22    1871
29    1839
Name: folioviv, dtype: int64

In [None]:
# Count the rows by state
viv_mega_df.groupby('state')['ubica_geo'].value_counts()

In [94]:
# Número de integrantes del hogar
hog_mega_df.groupby('state')['tot_integ'].value_counts()

state  tot_integ
9      2            395
       4            384
       3            379
       1            266
       5            200
       6             90
       7             35
       8             17
       9             10
       10             8
       11             2
       16             2
       13             1
       14             1
13     4            419
       2            311
       3            308
       5            271
       1            197
       6            133
       7             56
       8             42
       9             10
       10             6
       12             4
       11             2
15     4            470
       3            370
       5            318
       2            294
                   ... 
21     12             3
       14             2
       13             1
22     4            445
       3            386
       2            311
       5            295
       1            187
       6            130
       7             58

In [95]:
# Total de integrantes hombres
hog_mega_df.groupby('state')['tot_hom'].value_counts()

state  tot_hom
9      1          710
       2          508
       3          246
       0          241
       4           61
       5           16
       6            4
       8            2
       7            1
       9            1
13     1          657
       2          504
       3          281
       0          186
       4           90
       5           35
       6            6
15     1          670
       2          586
       3          314
       0          150
       4           95
       5           25
       6            6
       7            5
       8            1
       11           1
17     1          621
       2          482
       3          225
                 ... 
       6            5
21     1          614
       2          525
       3          244
       0          166
       4          126
       5           35
       6            8
       7            5
       8            1
       9            1
22     1          683
       2          567
       3         

In [96]:
# Total de integrantes mujeres
hog_mega_df.groupby('state')['tot_muj'].value_counts()

state  tot_muj
9      1          743
       2          517
       3          245
       0          166
       4           80
       5           22
       6            9
       7            4
       8            3
       9            1
13     1          632
       2          525
       3          321
       4          112
       0          105
       5           43
       6           16
       7            3
       8            2
15     1          620
       2          596
       3          344
       4          126
       0          109
       5           44
       6           12
       7            1
       8            1
17     1          616
       2          548
                 ... 
       8            2
21     1          616
       2          511
       3          286
       4          139
       0          102
       5           50
       6           15
       7            4
       8            1
       9            1
22     1          638
       2          626
       3         