# Queremos verificar la variable que servirá para estudiar los datos a nivel de hoagar y persona

In [1]:
# Importar paquetes 

import pandas as pd
import pyreadstat as pyd

In [37]:
# Crear dfs para los módulos 

df_persona, meta_p = pyd.read_sav('Data/Enemdu_2020/enemdu_persona_2020_12.sav', apply_value_formats=True)
df_consumidor, meta_c = pyd.read_sav('Data/Enemdu_2020/enemdu_consumidor_2020_12.sav', apply_value_formats=True)
df_vivienda, meta_v = pyd.read_sav('Data/Enemdu_2020/enemdu_vivienda_hogar_2020_12.sav', apply_value_formats=True)

In [3]:
# Identificar nombres de variables

meta_p.column_names_to_labels

{'area': 'Area',
 'ciudad': 'Ciudad',
 'conglomerado': 'Conglomerado',
 'panelm': 'Panelm',
 'vivienda': 'Vivienda',
 'hogar': 'Hogar',
 'p01': 'Persona',
 'p02': 'Sexo',
 'p03': 'Edad',
 'p04': 'Relación de parentesco',
 'p05a': 'Seguro Social - Alternativa 1',
 'p05b': 'Seguro Social - Alternativa 2',
 'p06': 'Estado civil',
 'p07': 'Asiste a clases',
 'p08': 'Jornada a la que asiste',
 'p08a': 'Modalidad de estudio a la que asiste',
 'p08b': 'Tipo de conexión para actividades educativas',
 'p09': 'Razón por la que no asiste',
 'p10a': 'Nivel de instrucción',
 'p10b': 'Año aprobado',
 'p11': 'Sabe leer y escribir',
 'p12a': 'Por sus estudios obtuvo algún título',
 'p12b': 'Qué título obtuvo',
 'p15': 'Cómo se considera',
 'p15aa': 'Donde nació',
 'p15ab': 'Lugar de nacimiento',
 'cod_inf': 'Código del Informante',
 'p20': 'Trabajó la semana pasada',
 'p21': 'Actividad que realizó para ayudar en su hogar',
 'p22': 'Tiene trabajo del cual estuvo ausente',
 'p23': 'Razón por la que no t

In [4]:
# Leer codificaciones

meta_p.variable_value_labels

{'area': {1.0: ' Urbana', 2.0: ' Rural'},
 'p01': {'10': ' Persona 10',
  '20': ' Persona 20',
  ' 1': ' Persona 1',
  '11': ' Persona 11',
  '21': ' Persona 21',
  ' 2': ' Persona 2',
  '12': ' Persona 12',
  '22': ' Persona 22',
  ' 3': ' Persona 3',
  '13': ' Persona 13',
  '23': ' Persona 23',
  ' 4': ' Persona 4',
  '14': ' Persona 14',
  '24': ' Persona 24',
  ' 5': ' Persona 5',
  '15': ' Persona 15',
  '25': ' Persona 25',
  ' 6': ' Persona 6',
  '16': ' Persona 16',
  ' 7': ' Persona 7',
  '17': ' Persona 17',
  ' 8': ' Persona 8',
  '18': ' Persona 18',
  ' 9': ' Persona 9',
  '19': ' Persona 19'},
 'p02': {1.0: ' Hombre', 2.0: ' Mujer'},
 'p03': {98.0: ' 98 y más', 99.0: ' No informa'},
 'p04': {1.0: ' Jefe',
  2.0: ' Cónyuge',
  3.0: ' Hijo o Hija',
  4.0: ' Yerno o nuera',
  5.0: ' Nieto o nieta',
  6.0: ' Padres o suegros',
  7.0: ' Otros parientes',
  8.0: ' Empleado(a) doméstico(a)',
  9.0: ' Otros no parientes'},
 'p05a': {1.0: ' IESS, seguro general',
  2.0: ' IESS, s

## Mejorar la calidad de la base 

In [38]:
df_persona.rename(columns=meta_p.column_names_to_labels, inplace=True) # meta.column_names_to_labels sirve como diccionarios
df_consumidor.rename(columns=meta_c.column_names_to_labels, inplace=True)
df_vivienda.rename(columns=meta_v.column_names_to_labels, inplace=True)

In [5]:
"""Si deseamos decodificar los valores de variable""" 

# Cambiar codigos por valores
# df_persona = pyd.set_value_labels(df_persona, meta)

# https://stackoverflow.com/questions/62962795/how-to-read-spss-aka-sav-in-python

'Si deseamos decodificar los valores de variable'

In [6]:
for i in df_persona.columns:
    print(i)

Area
Ciudad
Conglomerado
Panelm
Vivienda
Hogar
Persona
Sexo
Edad
Relación de parentesco
Seguro Social - Alternativa 1
Seguro Social - Alternativa 2
Estado civil
Asiste a clases
Jornada a la que asiste
Modalidad de estudio a la que asiste
Tipo de conexión para actividades educativas
Razón por la que no asiste
Nivel de instrucción
Año aprobado
Sabe leer y escribir
Por sus estudios obtuvo algún título
Qué título obtuvo
Cómo se considera
Donde nació
Lugar de nacimiento
Código del Informante
Trabajó la semana pasada
Actividad que realizó para ayudar en su hogar
Tiene trabajo del cual estuvo ausente
Razón por la que no trabajó
Razón relacionada con el COVID19
Continua(ó) recibiendo algún ingreso durante ausencia del trabajo
Desde que dejó de trabajar hasta que espera regresar ¿Cuánto tiempo estará (...) ausente
Horas de trabajo en la semana anterior
Razón por la que trabajó menos de 40 horas
Razón relacionada con el COVID19
Razón por la que trabajó más de 40 horas
Desea trabajar más horas
Es

# Tipología del hogar, según metodología INEC

In [64]:
'''Hay que verificar que si en una vivienda existen al menos dos hogares o no.'''

# Visualizamos los datos 

df_persona[['Ciudad', 'Identificador de vivienda', 'Identificador de hogar', 'Persona', 'Relación de parentesco']].head(20)

Unnamed: 0,Ciudad,Identificador de vivienda,Identificador de hogar,Persona,Relación de parentesco
0,200250.0,20025000002200502,200250000022005021,1,Jefe
1,200250.0,20025000002200502,200250000022005021,2,Hijo o Hija
2,200250.0,20025000002200503,200250000022005031,1,Jefe
3,200250.0,20025000002200503,200250000022005031,2,Cónyuge
4,200250.0,20025000002200503,200250000022005031,3,Hijo o Hija
5,200250.0,20025000002200505,200250000022005051,1,Jefe
6,200250.0,20025000002200505,200250000022005051,2,Hijo o Hija
7,200250.0,20025000002200505,200250000022005051,3,Padres o suegros
8,200250.0,20025000002200506,200250000022005061,1,Jefe
9,200250.0,20025000002200506,200250000022005061,2,Cónyuge


# Número de personas en el hogar

In [77]:
# Para esto, vamos a desagregar los datos en en dos niveles jerárquicos: El nivel 1, Identificador de vivienda, que contiene 
# a su vez al nivel 2, Identificador de hogar. Entonces, el conteo de identificadores de hogar será el número de persoans, 
# pues a cada persona de ese higar se le asigna el mismo identificador de hogar. Luego, Cuando contemos el número de 
# identificadores de hogar dentro de la vivienda obtendrémos el número de hogares.

des = ['Identificador de vivienda', 'Identificador de hogar']
count_parentezco = df_persona.groupby(by=des).size().reset_index(name="Número de personas")
count_parentezco = count_parentezco[des+['Número de personas']].head(10).sort_values(by=['Identificador de vivienda'])
count_parentezco

Unnamed: 0,Identificador de vivienda,Identificador de hogar,Número de personas
0,1015000050300901,10150000503009011,3
1,1015000050300902,10150000503009021,8
2,1015000050300903,10150000503009031,8
3,1015000050300904,10150000503009041,3
4,1015000050300905,10150000503009051,4
5,1015000050300906,10150000503009061,1
6,1015000050300908,10150000503009081,4
7,1015000110100501,10150001101005011,3
8,1015000110100502,10150001101005021,4
9,1015000110100503,10150001101005031,4


In [72]:
# Para hacer una verificación: filtramos la base para el primer identificador de hogar de la tabla de arriba

df_persona[df_persona['Identificador de vivienda'] == '01015000050300901']

Unnamed: 0,Area,Ciudad,Conglomerado,Panelm,Vivienda,Hogar,Persona,Sexo,Edad,Relación de parentesco,...,Ingreso per cápita,Pobreza,Extrema Pobreza,Nivel de instrucción,Estratos,Unidad primaria de muestreo,Identificador de vivienda,Identificador de hogar,Identificador de persona,Periodo
2438,Urbana,10150.0,503,Panel I,1,Hogar Uno,1,Hombre,63.0,Jefe,...,33.333333,POBRE,INDIGENTE,Educación Básica,2712,10150000503,1015000050300901,10150000503009011,1015000050300901101,dic-20
2439,Urbana,10150.0,503,Panel I,1,Hogar Uno,2,Mujer,62.0,Cónyuge,...,33.333333,POBRE,INDIGENTE,Educación Básica,2712,10150000503,1015000050300901,10150000503009011,1015000050300901102,dic-20
2440,Urbana,10150.0,503,Panel I,1,Hogar Uno,3,Mujer,34.0,Hijo o Hija,...,33.333333,POBRE,INDIGENTE,Superior,2712,10150000503,1015000050300901,10150000503009011,1015000050300901103,dic-20


In [88]:
# Ahora, procedemos a ver si hay al menos dos hogares por vivienda
ver = count_parentezco.groupby(by=['Identificador de vivienda', 'Identificador de hogar']).size().reset_index(name="cuenta")
ver[ver['cuenta'] >= 2]
# Es igual de válido usar: 
# count_parentezco.groupby(by=['Identificador de vivienda'])['Identificador de hogar'].count().reset_index(name="cuenta")

Unnamed: 0,Identificador de vivienda,Identificador de hogar,cuenta


###### Ahora podemos estar seguros de que los datos a tratar se pueden empaquetar por el código de hogar.