## 0.0 Librerías
Las librerías por utilizar son las usuales para análisis de datos, junto con json, el cual es un estándar en la programación para almacenar información, la estructura de un JSON es muy similar a los diccionarios de python, y en un sentido practico se manipulan dentro de python parseando (codificando) el archivo como un diccionarío


In [1]:
import numpy as np
import pandas as pd
import json
import os

pd.set_option('display.max_columns',None)

## 0.1 Introducción a la manipulación de JSONs

El siguiente es un ejemplo de como se lee un archivo JSON

In [2]:
read = open('./metadata.json','r')
metadata = json.loads(read.read())
read.close()

El tipo de variable con el cual se ha cargado en memoria dentro de python es como un diccionario 

In [3]:
type(metadata)

dict

La información obtenida del JSON corresponde a la metadata de la encuesta de la ENIGH, a continuación se explica un poco del abstract sobre lo que consiste este estudiom

In [4]:
print(metadata['study_desc']['study_info']['abstract'],)

El objetivo de la ENIGH es proporcionar un panorama estadí­stico del comportamiento de los ingresos y gastos de los hogares en cuanto a su monto, procedencia y distribución; adicionalmente ofrece información sobre las caracterí­sticas ocupacionales y sociodemográficas de los integrantes del hogar, así­ como las caracterí­sticas de la infraestructura de la vivienda y el equipamiento del hogar. 

Desde 1984, cuando el INEGI comenzó a levantar la encuesta, hasta el dí­a de hoy, se han venido desarrollando tanto nuevas metodologí­as, emitido recomendaciones internacionales y documentado buenas prácticas para la generación de información de ingresos y gastos de los hogares por medio de encuestas.

En este periodo se han realizado adiciones en la temá¡tica de la encuesta, actualizaciones metodológicas e innovaciones en los procesos, para obtener resultados que reflejen la realidad, tomando en cuenta las recomendaciones internacionales y los requerimientos de información de los diferentes usu

Algunas estructuras de diccionarios (y JSONs) son compatibles en el constructor de pandas.DataFrame, por ejemplo, la siguiente lista de diccionarios con la estructura 
list(dict(__keys__=_'values'_)) genera el DataFrame de columnas __keys__, y de valores _'values'_

In [5]:
metadata['doc_desc']['producers']

[{'name': '', 'abbreviation': 'INEGI', 'affiliation': '', 'role': ''},
 {'name': 'Dirección General de Estadísticas Sociodemográficas',
  'abbreviation': 'DGES',
  'affiliation': '',
  'role': ''},
 {'name': 'Dirección General Adjunta de Encuestas Sociodemográficas',
  'abbreviation': 'DGAES',
  'affiliation': '',
  'role': ''},
 {'name': 'Dirección de Encuestas Regulares en Hogares',
  'abbreviation': '',
  'affiliation': '',
  'role': ''},
 {'name': 'Subdirección de Generación de Estadísticas de Encuestas de Ingresos y Gastos',
  'abbreviation': '',
  'affiliation': '',
  'role': 'Documentación de la encuesta y revisión del metadato.'}]

In [6]:
pd.DataFrame(metadata['doc_desc']['producers'])

Unnamed: 0,name,abbreviation,affiliation,role
0,,INEGI,,
1,Dirección General de Estadísticas Sociodemográ...,DGES,,
2,Dirección General Adjunta de Encuestas Sociode...,DGAES,,
3,Dirección de Encuestas Regulares en Hogares,,,
4,Subdirección de Generación de Estadísticas de ...,,,Documentación de la encuesta y revisión del me...


## 1.0 Limpieza de datos

La información que se presenta a continuación es una muestra de los folios totales de la ENIG, con motivo de que no existan complicaciones de saturar la memoria RAM de nuestras maquinas, el primer paso de esta prueba consiste en limpiar la información haciendo uso de funciones, realiza las intrucciones expuestas en los apartados 
> x) apartado 


In [7]:
df = pd.read_csv('./gastoshogar.txt'
                 ,dtype={x:'str' for x in ['clave', 'forma_pag1', 'forma_pag2', 'forma_pag3', 'frecuencia', 'inst_1', 'inst_2', 'lugar_comp', 'orga_inst', 'tipo_gasto', 'mes_dia', 'fecha_adqu', 'fecha_pago', 'folioviv', 'foliohog']}
                 ,na_values=['0000','00','0'] 
                 ,quotechar="'"
                 )

  df = pd.read_csv('./gastoshogar.txt'


In [8]:
df.head()

Unnamed: 0,folioviv,foliohog,clave,tipo_gasto,mes_dia,forma_pag1,forma_pag2,forma_pag3,lugar_comp,orga_inst,frecuencia,fecha_adqu,fecha_pago,cantidad,gasto,pago_mp,costo,inmujer,inst_1,inst_2,num_meses,num_pagos,ultim_pago,gasto_tri,gasto_nm,gas_nm_tri,imujer_tri
0,100013606,1,C001,G1,,1,,,6,,,,,,100,,,,,,,,,300.0,,,
1,100013606,1,C003,G1,,1,,,6,,,,,,40,,,,,,,,,120.0,,,
2,100013606,1,C004,G1,,1,,,6,,,,,,44,,,,,,,,,132.0,,,
3,100013606,1,C005,G1,,1,,,6,,,,,,46,,,,,,,,,138.0,,,
4,100013606,1,C006,G1,,1,,,6,,,,,,32,,,,,,,,,96.0,,,


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1409409 entries, 0 to 1409408
Data columns (total 27 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   folioviv    1409409 non-null  object
 1   foliohog    1409409 non-null  object
 2   clave       1409409 non-null  object
 3   tipo_gasto  1409409 non-null  object
 4   mes_dia     705526 non-null   object
 5   forma_pag1  1261869 non-null  object
 6   forma_pag2  1310 non-null     object
 7   forma_pag3  23 non-null       object
 8   lugar_comp  1135288 non-null  object
 9   orga_inst   9660 non-null     object
 10  frecuencia  80555 non-null    object
 11  fecha_adqu  5311 non-null     object
 12  fecha_pago  5311 non-null     object
 13  cantidad    1409409 non-null  object
 14  gasto       1408685 non-null  object
 15  pago_mp     1341741 non-null  object
 16  costo       1409409 non-null  object
 17  inmujer     1357647 non-null  object
 18  inst_1      1409409 non-null  object
 19  

> 1.1) Valores numéricos. Crea una función que reciba un DataFrame y una lista de columnas que deban ser convertidas de tipo de dato str a float, la función debe devolver el dataframe con todas sus columnas, cambiando el tipo de dato de las seleccionadas __(1 punto)__

In [11]:
# El siguiente es un ejemplo de la respuesta esperada, sin embargo, para conseguir el punto debe encontrar el error en la función

def valores_numericos(data:pd.DataFrame, columnas:list):
    """Recibe un DataFrame y un listado de columnas y transforma el tipo de dato de estas ultimas a flotante"""
data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
for columna in columnas:
data_out[columna] = pd.to_numeric(data_out[columna],errors='coerce').astype(float)
return data_out

> 1.2) Columnas nulas. Crea una función que reciba un DataFrame y un cutoff para determinar el porcentaje mínimo de valores no nulos en la tabla para cada columna, elimina las columnas que tengan más de dicho porcentaje nulo (_% de valores no nulos_ > min_pct_no_nulo)  __(1 punto)__ 

In [16]:
def no_nulo(data:pd.DataFrame, min_pct_no_nulo:float=0.60):
    data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
    return data_out

> 1.3) Columnas unarias. Crea una función que reciba un DataFrame, una lista de columnas y un cutoff. el uso de esta función determinara que columnas de variables discretas tienen un "único" valor, si el valor más frecuente se repite más del porcentaje determinado en el cutoff, la columna se remueve del DataFrame resultante  __(1 punto)__

In [118]:
def no_unarias(data:pd.DataFrame, columnas:list, max_pct_repeticion:float=0.90):
    data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
    return data_out

> 1.4) Limpieza de datos. Crea una función que le aplique las funciones de limpieza al DataFrame en el orden de: valores_numericos, no_nulo, no_unarias, por lo que los parametros son las usadas en la funciones previas __(1 punto)__

In [119]:
def limpieza_de_datos(data:pd.DataFrame, columnas_numericas:list, columnas_no_numericas:list, min_pct_no_nulo:float=0.60, max_pct_repeticion:float=0.90):
    data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
    return data_out

# Hint: algunas columnas no numericas serán eliminadas por la función de no_nulo, por lo que al querer borrarlas en no_unarias puede producir que no encuentre la columna

#### Sigue ejecutando las celdas hasta la sección 2.0

In [120]:
df.head()

Unnamed: 0,folioviv,foliohog,clave,tipo_gasto,mes_dia,forma_pag1,forma_pag2,forma_pag3,lugar_comp,orga_inst,frecuencia,fecha_adqu,fecha_pago,cantidad,gasto,pago_mp,costo,inmujer,inst_1,inst_2,num_meses,num_pagos,ultim_pago,gasto_tri,gasto_nm,gas_nm_tri,imujer_tri
0,100013606,1,C001,G1,,1,,,6,,,,,,100,,,,,,,,,300.0,,,
1,100013606,1,C003,G1,,1,,,6,,,,,,40,,,,,,,,,120.0,,,
2,100013606,1,C004,G1,,1,,,6,,,,,,44,,,,,,,,,132.0,,,
3,100013606,1,C005,G1,,1,,,6,,,,,,46,,,,,,,,,138.0,,,
4,100013606,1,C006,G1,,1,,,6,,,,,,32,,,,,,,,,96.0,,,


In [121]:
columnas_numericas = ['cantidad', 'gasto', 'pago_mp', 'costo', 'inmujer', 'num_meses', 'num_pagos', 'gasto_tri', 'gasto_nm', 'gas_nm_tri', 'imujer_tri']
columnas_no_numericas = ['clave', 'tipo_gasto', 'mes_dia', 'forma_pag1','forma_pag2', 'forma_pag3', 'lugar_comp', 'orga_inst', 'frecuencia','fecha_adqu', 'fecha_pago', 'inst_1', 'inst_2', 'ultim_pago']

In [122]:
df = limpieza_de_datos(
    data=df
    ,columnas_numericas=columnas_numericas
    ,columnas_no_numericas=columnas_no_numericas
    ,min_pct_no_nulo=0.7
    ,max_pct_repeticion=0.9
    )
df.head()

Unnamed: 0,folioviv,foliohog,clave,mes_dia,forma_pag1,lugar_comp,cantidad,gasto,gasto_tri
0,100013606,1,C001,,1,6,,100.0,300.0
1,100013606,1,C003,,1,6,,40.0,120.0
2,100013606,1,C004,,1,6,,44.0,132.0
3,100013606,1,C005,,1,6,,46.0,138.0
4,100013606,1,C006,,1,6,,32.0,96.0


In [123]:
columnas_numericas = [x for x in columnas_numericas if x in df.columns]
columnas_no_numericas = [x for x in columnas_no_numericas if x in df.columns]

## 2.0 cruce de tablas

Los microdatos generados por INEGI vienen acompañados de catálogos, sin los cuales no se puede interpretar los datos, para esta encuesta los catálogos se encuentran dentro de JSONs en la subcarpeta catálogos


In [124]:
catalogos = os.listdir('./catalogos/')

El siguiente bucle genera un diccionario de tablas con los valores de los catálogos

In [125]:
cat = dict()
for x in catalogos:
    read = open(f'./catalogos/{x}','r')
    json_r = json.loads(read.read())
    read.close()
    json_r = pd.DataFrame(json_r['var_catgry'])
    name = x.split('.')[0]
    json_r.rename(columns={'value':name,'labl':f'{name} codificación'},inplace=True)
    cat[name] = json_r[[name,f'{name} codificación']]

> 2.1) Genera un bucle que, para todas las `columnas_no_numericas` de los cuales se cuenta con un catálogo en el diccionario `cat` se agregue su columna con el valor codificado de las columnas __(1 punto)__

In [126]:
for col in columnas_no_numericas:
    try:
        df = df.merge(cat[col],how='left')
    except:
        None

## 3.0 Formulario
Responda el formulario con base a la tabla final 