#  Laboratorio 5 - Python
## @author: Roberto Mendoza 

In [3]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore') 

In [18]:
# algunos puntos iumportanes 

# Uso de copy para limpiar una base de datos. La base de datos original puede alterarse luego de los cambios.
# Esto no es bueno si queremos la base original para realizar nuevas bases de datos. 

df = pd.DataFrame({'team': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   'points': [18, 22, 19, 14, 14, 11, 20, 28],
                   'assists': [5, 7, 7, 9, 12, 9, 9, 4]})

df_subset = df[0:4]

df_subset.team[0] = 'X'
df_subset

Unnamed: 0,team,points,assists
0,X,18,5
1,B,22,7
2,C,19,7
3,D,14,9


In [19]:
print(df)

  team  points  assists
0    X      18        5
1    B      22        7
2    C      19        7
3    D      14        9
4    E      14       12
5    F      11        9
6    G      20        9
7    H      28        4


In [16]:
df = pd.DataFrame({'team': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   'points': [18, 22, 19, 14, 14, 11, 20, 28],
                   'assists': [5, 7, 7, 9, 12, 9, 9, 4]})

df_subset = df[0:4].copy()

df_subset.team[0] = 'X'
df_subset

Unnamed: 0,team,points,assists
0,X,18,5
1,B,22,7
2,C,19,7
3,D,14,9


In [17]:
df

Unnamed: 0,team,points,assists
0,A,18,5
1,B,22,7
2,C,19,7
3,D,14,9
4,E,14,12
5,F,11,9
6,G,20,9
7,H,28,4


## Merge datasets

In [21]:

df1 = pd.DataFrame(
    {
    'id':[1,2,3,4,5],
    'color': ["red", "blue", "green", np.nan, "red"],
    'size' : ["small", "large", "medium", "medium", "small"],
    'type' : ["A", "B", "C", np.nan, "A"]
    }
)

df1

Unnamed: 0,id,color,size,type
0,1,red,small,A
1,2,blue,large,B
2,3,green,medium,C
3,4,,medium,
4,5,red,small,A


In [23]:
df2 = pd.DataFrame(
    {
    'id':[2,3,4,10,20,30],
    'value': [1000, 2000, 3000,4000,5000,6000]
    }
)
df2

Unnamed: 0,id,value
0,2,1000
1,3,2000
2,4,3000
3,10,4000
4,20,5000
5,30,6000


In [26]:
# merge datasets

# Se une las dos bases de datos asi no todos los identificadores coincidan 

pd.merge(df1, df2, how = "outer", on = "id")
pd.merge(df1, df2, how = "outer", on = "id", validate = "1:1")

Unnamed: 0,id,color,size,type,value
0,1,red,small,A,
1,2,blue,large,B,1000.0
2,3,green,medium,C,2000.0
3,4,,medium,,3000.0
4,5,red,small,A,
5,10,,,,4000.0
6,20,,,,5000.0
7,30,,,,6000.0


In [27]:
# Merge completo 

pd.merge(df1, df2, how = "inner", on = "id", validate = "1:1")


Unnamed: 0,id,color,size,type,value
0,2,blue,large,B,1000
1,3,green,medium,C,2000
2,4,,medium,,3000


In [30]:
# Merge dado un Master Data

pd.merge(df1, df2, how = "left", on = "id", validate = "1:1")


Unnamed: 0,id,color,size,type,value
0,1,red,small,A,
1,2,blue,large,B,1000.0
2,3,green,medium,C,2000.0
3,4,,medium,,3000.0
4,5,red,small,A,


In [32]:
# Creación de dummies 
data = pd.merge(df1, df2, how = "outer", on = "id", validate = "1:1")
data['dummy'] = np.where(data.value > 1500,1,0)  # no toma en cuenta los missing 
data

Unnamed: 0,id,color,size,type,value,dummy
0,1,red,small,A,,0
1,2,blue,large,B,1000.0,0
2,3,green,medium,C,2000.0,1
3,4,,medium,,3000.0,1
4,5,red,small,A,,0
5,10,,,,4000.0,1
6,20,,,,5000.0,1
7,30,,,,6000.0,1


In [36]:
# Si alguna de las variables del condicional es missing, entonces la variable dummy tambien  

data['dummy'].mask(
    data[['value']].isnull().any(axis=1), np.nan, inplace=True)

In [37]:
data

Unnamed: 0,id,color,size,type,value,dummy
0,1,red,small,A,,
1,2,blue,large,B,1000.0,0.0
2,3,green,medium,C,2000.0,1.0
3,4,,medium,,3000.0,1.0
4,5,red,small,A,,
5,10,,,,4000.0,1.0
6,20,,,,5000.0,1.0
7,30,,,,6000.0,1.0


### Merge ENAHO

In [54]:
data1 = pd.read_stata("../../data/enaho/enaho01-2019-100.dta")
enaho100_19 = data1.copy()
enaho100_19

Unnamed: 0,conglome,vivienda,hogar,ubigeo,ubigeo2,dominio,p102,p103,p103a,p110,p111a,p112a,nbi1,nbi2,nbi3,nbi4,nbi5,latitud,longitud,altitud
0,005001,007,11,010101,10101,sierra norte,adobe,cemento,"planchas de calamina, fibra de cemento o simil...","red pública, dentro de la vivienda",red pública de desagüe dentro de la vivienda,con medidor de uso exclusivo para la vivienda,vivienda adecuada,vivienda sin hacinamiento,hogares con vivienda con servicios higienicos,hogares con niños que asisten a la escuela,hogares sin alta dependencia económica,-6.228422,-77.87709,2348
1,005001,017,11,010101,10101,sierra norte,adobe,cemento,"planchas de calamina, fibra de cemento o simil...","red pública, dentro de la vivienda",red pública de desagüe dentro de la vivienda,con medidor de uso colectivo (para varias vivi...,vivienda adecuada,vivienda sin hacinamiento,hogares con vivienda con servicios higienicos,hogares con niños que asisten a la escuela,hogares sin alta dependencia económica,-6.228422,-77.87709,2348
2,005001,028,11,010101,10101,sierra norte,,,,,,,,,,,,-6.228422,-77.87709,2348
3,005001,040,11,010101,10101,sierra norte,adobe,cemento,"planchas de calamina, fibra de cemento o simil...",otra,otra,con medidor de uso exclusivo para la vivienda,vivienda adecuada,vivienda sin hacinamiento,hogares con vivienda sin servicios hogienicos,hogares con niños que asisten a la escuela,hogares sin alta dependencia económica,-6.228422,-77.87709,2348
4,005001,050,11,010101,10101,sierra norte,adobe,cemento,"planchas de calamina, fibra de cemento o simil...","red pública, dentro de la vivienda",red pública de desagüe dentro de la vivienda,con medidor de uso colectivo (para varias vivi...,vivienda adecuada,vivienda sin hacinamiento,hogares con vivienda con servicios higienicos,hogares con niños que asisten a la escuela,hogares sin alta dependencia económica,-6.228422,-77.87709,2348
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
43863,011350,022,11,180101,180101,costa sur,adobe,cemento,"planchas de calamina, fibra de cemento o simil...","red pública, dentro de la vivienda",red pública de desagüe dentro de la vivienda,con medidor de uso exclusivo para la vivienda,vivienda adecuada,vivienda sin hacinamiento,hogares con vivienda con servicios higienicos,hogares con niños que asisten a la escuela,hogares sin alta dependencia económica,-17.212933,-70.93914,1427
43864,011350,059,11,180101,180101,costa sur,"madera (pona, tornillo, etc)",tierra,"planchas de calamina, fibra de cemento o simil...",pilón o pileta de uso público,otra,con medidor de uso exclusivo para la vivienda,vivienda inadecuada,vivienda sin hacinamiento,hogares con vivienda sin servicios hogienicos,hogares con niños que asisten a la escuela,hogares sin alta dependencia económica,-17.212933,-70.93914,1427
43865,011350,078,11,180101,180101,costa sur,"madera (pona, tornillo, etc)",cemento,"planchas de calamina, fibra de cemento o simil...",pilón o pileta de uso público,otra,con medidor de uso exclusivo para la vivienda,vivienda adecuada,vivienda sin hacinamiento,hogares con vivienda sin servicios hogienicos,hogares con niños que asisten a la escuela,hogares sin alta dependencia económica,-17.212933,-70.93914,1427
43866,011350,097,11,180101,180101,costa sur,adobe,cemento,"planchas de calamina, fibra de cemento o simil...","red pública, dentro de la vivienda",red pública de desagüe dentro de la vivienda,con medidor de uso exclusivo para la vivienda,vivienda adecuada,vivienda con hacinamiento,hogares con vivienda con servicios higienicos,hogares con niños que asisten a la escuela,hogares sin alta dependencia económica,-17.212933,-70.93914,1427


In [55]:
data1 = pd.read_stata("../../data/enaho/enaho01-2019-100.dta",convert_categoricals=False)
enaho100_19 = data1.copy()
enaho100_19


Unnamed: 0,conglome,vivienda,hogar,ubigeo,ubigeo2,dominio,p102,p103,p103a,p110,p111a,p112a,nbi1,nbi2,nbi3,nbi4,nbi5,latitud,longitud,altitud
0,005001,007,11,010101,10101,4,3.0,5.0,4.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,-6.228422,-77.87709,2348
1,005001,017,11,010101,10101,4,3.0,5.0,4.0,1.0,1.0,2.0,0.0,0.0,0.0,0.0,0.0,-6.228422,-77.87709,2348
2,005001,028,11,010101,10101,4,,,,,,,,,,,,-6.228422,-77.87709,2348
3,005001,040,11,010101,10101,4,3.0,5.0,4.0,7.0,7.0,1.0,0.0,0.0,1.0,0.0,0.0,-6.228422,-77.87709,2348
4,005001,050,11,010101,10101,4,3.0,5.0,4.0,1.0,1.0,2.0,0.0,0.0,0.0,0.0,0.0,-6.228422,-77.87709,2348
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
43863,011350,022,11,180101,180101,3,3.0,5.0,4.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,-17.212933,-70.93914,1427
43864,011350,059,11,180101,180101,3,7.0,6.0,4.0,3.0,7.0,1.0,1.0,0.0,1.0,0.0,0.0,-17.212933,-70.93914,1427
43865,011350,078,11,180101,180101,3,7.0,5.0,4.0,3.0,7.0,1.0,0.0,0.0,1.0,0.0,0.0,-17.212933,-70.93914,1427
43866,011350,097,11,180101,180101,3,3.0,5.0,4.0,1.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,-17.212933,-70.93914,1427


In [56]:
data2 = pd.read_stata("../../data/enaho/enaho01-2019-200.dta",convert_categoricals=False)
enaho200_19 = data2.copy()

data3 = pd.read_stata("../../data/enaho/enaho01a-2019-300.dta",convert_categoricals=False)
enaho300_19 = data3.copy()

data4 = pd.read_stata("../../data/enaho/enaho01a-2019-400.dta",convert_categoricals=False)
enaho400_19 = data4.copy()

data5 = pd.read_stata("../../data/enaho/enaho01a-2019-500.dta",convert_categoricals=False)
enaho500_19 = data5.copy()

data6 = pd.read_stata("../../data/enaho/sumaria-2018.dta",convert_categoricals=False)
sumaria_18 = data6.copy()

data7 = pd.read_stata("../../data/enaho/sumaria-2019.dta",convert_categoricals=False)
sumaria_19 = data7.copy()

data8 = pd.read_stata("../../data/enaho/sumaria-2020.dta",convert_categoricals=False)
sumaria_20 = data7.copy()

In [63]:
# Lectura de etiqueta con  convert_categoricals=False, iterator=True como argumentos adicionales 

labels100 = pd.read_stata("../../data/enaho/enaho01-2019-100.dta",convert_categoricals=False, iterator=True)
labels200 = pd.read_stata("../../data/enaho/enaho01-2019-200.dta",convert_categoricals=False, iterator=True)
labels300 = pd.read_stata("../../data/enaho/enaho01a-2019-300.dta",convert_categoricals=False, iterator=True)
labels500 = pd.read_stata("../../data/enaho/enaho01a-2019-500.dta",convert_categoricals=False, iterator=True)
labels_sumaria18 = pd.read_stata("../../data/enaho/sumaria-2018.dta",convert_categoricals=False, iterator=True)
labels_sumaria19  = pd.read_stata("../../data/enaho/sumaria-2019.dta",convert_categoricals=False, iterator=True)
labels_sumaria20  = pd.read_stata("../../data/enaho/sumaria-2020.dta",convert_categoricals=False, iterator=True)

In [58]:
print(labels100.variable_labels())  # etiqueta de cada variable

labels100.value_labels().keys()  # etiqueta de cada valor 

{'conglome': 'número de conglomerado', 'vivienda': 'número de selección de vivienda', 'hogar': 'número secuencial del hogar', 'ubigeo': 'ubicación geográfica', 'ubigeo2': 'ubicación geográfica', 'dominio': 'dominio geográfico', 'p102': 'el material predominante en las paredes exteriores es:', 'p103': 'el material predominante en los pisos es:', 'p103a': 'el material predominante en los techos es:', 'p110': 'el agua que utilizan en el hogar ¿procede principalmente de:', 'p111a': 'el baño o servicio higiénico que tiene su hogar esta conectado a:', 'p112a': 'el servicio eléctrico de su hogar es:', 'nbi1': 'vivienda inadecuada ( necesidad básica insatisfecha 1 )', 'nbi2': 'vivienda con hacinamiento ( necesidad básica insatisfecha 2 ) ', 'nbi3': 'hogares con vivienda sin servicios higiénicos ( necesidad básica insatisfecha 3 ', 'nbi4': 'hogares con niños que no asisten a la escuela ( necesidad básica insatisfecha 4 ', 'nbi5': 'hogares con alta dependencia económica ( necesidad básica insati

dict_keys(['dominio', 'p112a', 'nbi1', 'nbi2', 'nbi3', 'nbi5', 'nbi4', 'p111a', 'p110', 'p103a', 'p103', 'p102'])

In [59]:
labels100.value_labels()['nbi1']

{0: 'vivienda adecuada', 1: 'vivienda inadecuada'}

In [60]:
# La base master es el módulo 200 de ENAHO

enaho19 = pd.merge(enaho200_19, enaho300_19, how = 'left', on = ["conglome","vivienda","hogar","codperso"],
                   validate = "1:1")


In [61]:
enaho19

Unnamed: 0,conglome,vivienda,hogar,codperso,p203,p207,p208a,p209,p210,t211,facpob07,p300a,p301a,p301b,p301c
0,005009,041,11,01,1,2.0,60.0,6.0,,,94.218208,4.0,1.0,,
1,005009,041,11,02,3,2.0,28.0,6.0,,,94.218208,4.0,10.0,5.0,
2,005009,056,11,01,1,2.0,48.0,5.0,,,94.218208,4.0,5.0,4.0,
3,005009,056,11,02,3,2.0,25.0,6.0,,,94.218208,4.0,6.0,5.0,
4,005009,056,11,03,3,2.0,16.0,6.0,1.0,,94.218208,4.0,6.0,5.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
128271,011350,097,11,04,3,2.0,1.0,,,,80.257660,,,,
128272,011350,097,11,05,3,1.0,0.0,,,,80.257660,,,,
128273,011350,116,11,01,1,2.0,41.0,1.0,,,80.257660,1.0,5.0,4.0,
128274,011350,116,11,02,3,1.0,22.0,6.0,,,80.257660,4.0,9.0,1.0,


In [62]:
# tabulación de la frecuenia absoluta de los valores de una variables
# Lengua materna 
enaho19.p300a.value_counts()

4.0    92894
1.0    17734
3.0     2938
2.0     2426
6.0      251
8.0      192
7.0       53
9.0       52
Name: p300a, dtype: int64

In [65]:
labels300.value_labels()['p300a']

{1: 'quechua',
 3: 'otra lengua nativa',
 4: 'castellano',
 7: 'otra lengua extranjera',
 8: 'no escucha/no habla',
 2: 'aymará',
 6: 'portugués',
 9: 'lengua de señas peruanas'}

In [68]:
# Nueva variable de lengua materna 

def lengua_materna(x):
    if x == 4:
        return 1
    elif x < 4:
        return 2
    elif x>5:
        return 3
    else:
        return np.nan

enaho19['lengua'] = enaho19['p300a'].map(lambda x: lengua_materna(x))

In [69]:
enaho19

Unnamed: 0,conglome,vivienda,hogar,codperso,p203,p207,p208a,p209,p210,t211,facpob07,p300a,p301a,p301b,p301c,lengua
0,005009,041,11,01,1,2.0,60.0,6.0,,,94.218208,4.0,1.0,,,1.0
1,005009,041,11,02,3,2.0,28.0,6.0,,,94.218208,4.0,10.0,5.0,,1.0
2,005009,056,11,01,1,2.0,48.0,5.0,,,94.218208,4.0,5.0,4.0,,1.0
3,005009,056,11,02,3,2.0,25.0,6.0,,,94.218208,4.0,6.0,5.0,,1.0
4,005009,056,11,03,3,2.0,16.0,6.0,1.0,,94.218208,4.0,6.0,5.0,,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
128271,011350,097,11,04,3,2.0,1.0,,,,80.257660,,,,,
128272,011350,097,11,05,3,1.0,0.0,,,,80.257660,,,,,
128273,011350,116,11,01,1,2.0,41.0,1.0,,,80.257660,1.0,5.0,4.0,,2.0
128274,011350,116,11,02,3,1.0,22.0,6.0,,,80.257660,4.0,9.0,1.0,,1.0
