## 0.0 Librerías

Las librerías por utilizar son las usuales para análisis de datos, junto con json, el cual es un estándar en la programación para almacenar información, la estructura de un JSON es muy similar a los diccionarios de python, y en un sentido practico se manipulan dentro de python parseando (codificando) el archivo como un diccionarío


In [1]:
import numpy as np
import pandas as pd
import json
import os

pd.set_option('display.max_columns',None)

## 0.1 Introducción a la manipulación de JSONs


El siguiente es un ejemplo de como se lee un archivo JSON


In [2]:
read = open('./metadata.json','r')
metadata = json.loads(read.read())
read.close()

El tipo de variable con el cual se ha cargado en memoria dentro de python es como un diccionario


In [3]:
type(metadata)

dict

La información obtenida del JSON corresponde a la metadata de la encuesta de la ENIGH, a continuación se explica un poco del abstract sobre lo que consiste este estudiom


In [4]:
print(metadata['study_desc']['study_info']['abstract'],)

El objetivo de la ENIGH es proporcionar un panorama estadí­stico del comportamiento de los ingresos y gastos de los hogares en cuanto a su monto, procedencia y distribución; adicionalmente ofrece información sobre las caracterí­sticas ocupacionales y sociodemográficas de los integrantes del hogar, así­ como las caracterí­sticas de la infraestructura de la vivienda y el equipamiento del hogar. 

Desde 1984, cuando el INEGI comenzó a levantar la encuesta, hasta el dí­a de hoy, se han venido desarrollando tanto nuevas metodologí­as, emitido recomendaciones internacionales y documentado buenas prácticas para la generación de información de ingresos y gastos de los hogares por medio de encuestas.

En este periodo se han realizado adiciones en la temá¡tica de la encuesta, actualizaciones metodológicas e innovaciones en los procesos, para obtener resultados que reflejen la realidad, tomando en cuenta las recomendaciones internacionales y los requerimientos de información de los diferentes usu

Algunas estructuras de diccionarios (y JSONs) son compatibles en el constructor de pandas.DataFrame, por ejemplo, la siguiente lista de diccionarios con la estructura
list(dict(**keys**=_'values'_)) genera el DataFrame de columnas **keys**, y de valores _'values'_


In [5]:
metadata['doc_desc']['producers']

[{'name': '', 'abbreviation': 'INEGI', 'affiliation': '', 'role': ''},
 {'name': 'Dirección General de Estadísticas Sociodemográficas',
  'abbreviation': 'DGES',
  'affiliation': '',
  'role': ''},
 {'name': 'Dirección General Adjunta de Encuestas Sociodemográficas',
  'abbreviation': 'DGAES',
  'affiliation': '',
  'role': ''},
 {'name': 'Dirección de Encuestas Regulares en Hogares',
  'abbreviation': '',
  'affiliation': '',
  'role': ''},
 {'name': 'Subdirección de Generación de Estadísticas de Encuestas de Ingresos y Gastos',
  'abbreviation': '',
  'affiliation': '',
  'role': 'Documentación de la encuesta y revisión del metadato.'}]

In [6]:
pd.DataFrame(metadata['doc_desc']['producers'])

Unnamed: 0,name,abbreviation,affiliation,role
0,,INEGI,,
1,Dirección General de Estadísticas Sociodemográ...,DGES,,
2,Dirección General Adjunta de Encuestas Sociode...,DGAES,,
3,Dirección de Encuestas Regulares en Hogares,,,
4,Subdirección de Generación de Estadísticas de ...,,,Documentación de la encuesta y revisión del me...


## 1.0 Limpieza de datos

La información que se presenta a continuación es una muestra de los folios totales de la ENIG, con motivo de que no existan complicaciones de saturar la memoria RAM de nuestras maquinas, el primer paso de esta prueba consiste en limpiar la información haciendo uso de funciones, realiza las intrucciones expuestas en los apartados

> x) apartado


In [113]:
df = pd.read_csv('./gastoshogar.txt'
                 ,dtype={x:'str' for x in ['clave', 'forma_pag1', 'forma_pag2', 'forma_pag3', 'frecuencia', 'inst_1', 'inst_2', 'lugar_comp', 'orga_inst', 'tipo_gasto', 'mes_dia', 'fecha_adqu', 'fecha_pago', 'folioviv', 'foliohog']}
                 ,na_values=['0000','00','0'] 
                 ,quotechar="'"
                 )

  df = pd.read_csv('./gastoshogar.txt'


In [114]:
df.head()

Unnamed: 0,folioviv,foliohog,clave,tipo_gasto,mes_dia,forma_pag1,forma_pag2,forma_pag3,lugar_comp,orga_inst,frecuencia,fecha_adqu,fecha_pago,cantidad,gasto,pago_mp,costo,inmujer,inst_1,inst_2,num_meses,num_pagos,ultim_pago,gasto_tri,gasto_nm,gas_nm_tri,imujer_tri
0,100013606,1,C001,G1,,1,,,6,,,,,,100,,,,,,,,,300.0,,,
1,100013606,1,C003,G1,,1,,,6,,,,,,40,,,,,,,,,120.0,,,
2,100013606,1,C004,G1,,1,,,6,,,,,,44,,,,,,,,,132.0,,,
3,100013606,1,C005,G1,,1,,,6,,,,,,46,,,,,,,,,138.0,,,
4,100013606,1,C006,G1,,1,,,6,,,,,,32,,,,,,,,,96.0,,,


In [115]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1409409 entries, 0 to 1409408
Data columns (total 27 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   folioviv    1409409 non-null  object
 1   foliohog    1409409 non-null  object
 2   clave       1409409 non-null  object
 3   tipo_gasto  1409409 non-null  object
 4   mes_dia     705526 non-null   object
 5   forma_pag1  1261869 non-null  object
 6   forma_pag2  1310 non-null     object
 7   forma_pag3  23 non-null       object
 8   lugar_comp  1135288 non-null  object
 9   orga_inst   9660 non-null     object
 10  frecuencia  80555 non-null    object
 11  fecha_adqu  5311 non-null     object
 12  fecha_pago  5311 non-null     object
 13  cantidad    1409409 non-null  object
 14  gasto       1408685 non-null  object
 15  pago_mp     1341741 non-null  object
 16  costo       1409409 non-null  object
 17  inmujer     1357647 non-null  object
 18  inst_1      1409409 non-null  object
 19  

> 1.1) Valores numéricos. Crea una función que reciba un DataFrame y una lista de columnas que deban ser convertidas de tipo de dato str a float, la función debe devolver el dataframe con todas sus columnas, cambiando el tipo de dato de las seleccionadas **(1 punto)**


In [116]:
# El siguiente es un ejemplo de la respuesta esperada, sin embargo, para conseguir el punto debe encontrar el error en la función

def valores_numericos(data:pd.DataFrame, columnas:list):
    """Recibe un DataFrame y un listado de columnas y transforma el tipo de dato de estas ultimas a flotante"""
    data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
    for columna in columnas:
        data_out[columna] = pd.to_numeric(data_out[columna],errors='coerce').astype(float)
    return data_out

> 1.2) Columnas nulas. Crea una función que reciba un DataFrame y un cutoff para determinar el porcentaje mínimo de valores no nulos en la tabla para cada columna, elimina las columnas que tengan más de dicho porcentaje nulo **(1 punto)**


In [117]:
def no_nulo(data:pd.DataFrame, min_pct_no_nulo:float=0.60):
    data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
    drop = data.isna().sum()/data.shape[0]
    drop = drop[drop>min_pct_no_nulo].index
    data_out.drop(columns=drop,inplace=True)
    return data_out

> 1.3) Columnas unarias. Crea una función que reciba un DataFrame, una lista de columnas y un cutoff. el uso de esta función determinara que columnas de variables discretas tienen un "único" valor, si el valor más frecuente se repite más del porcentaje determinado en el cutoff, la columna se remueve del DataFrame resultante **(1 punto)**


In [118]:
def no_unarias(data:pd.DataFrame, columnas:list, max_pct_repeticion:float=0.90):
    data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
    for col in columnas:
        unaria = data[col].value_counts(True,dropna=False).reset_index().dropna().values[0][1]
        if unaria > max_pct_repeticion:
            data_out.drop(columns=[col],inplace=True)
    return data_out

> 1.4) Limpieza de datos. Crea una función que le aplique las funciones de limpieza al DataFrame en el orden de: valores_numericos, no_nulo, no_unarias, por lo que los parametros son las usadas en la funciones previas **(1 punto)**


In [119]:
def limpieza_de_datos(data:pd.DataFrame, columnas_numericas:list, columnas_no_numericas:list, min_pct_no_nulo:float=0.60, max_pct_repeticion:float=0.90):
    data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
    data_out = valores_numericos(data_out,columnas_numericas)
    data_out = no_nulo(data_out,min_pct_no_nulo)
    columnas_no_numericas = [x for x in columnas_no_numericas if x in data_out.columns]
    data_out = no_unarias(data_out,columnas_no_numericas,max_pct_repeticion)
    return data_out

# Hint: algunas columnas no numericas serán eliminadas por la función de no_nulo, por lo que al querer borrarlas en no_unarias puede producir que no encuentre la columna

In [120]:
df.head()

Unnamed: 0,folioviv,foliohog,clave,tipo_gasto,mes_dia,forma_pag1,forma_pag2,forma_pag3,lugar_comp,orga_inst,frecuencia,fecha_adqu,fecha_pago,cantidad,gasto,pago_mp,costo,inmujer,inst_1,inst_2,num_meses,num_pagos,ultim_pago,gasto_tri,gasto_nm,gas_nm_tri,imujer_tri
0,100013606,1,C001,G1,,1,,,6,,,,,,100,,,,,,,,,300.0,,,
1,100013606,1,C003,G1,,1,,,6,,,,,,40,,,,,,,,,120.0,,,
2,100013606,1,C004,G1,,1,,,6,,,,,,44,,,,,,,,,132.0,,,
3,100013606,1,C005,G1,,1,,,6,,,,,,46,,,,,,,,,138.0,,,
4,100013606,1,C006,G1,,1,,,6,,,,,,32,,,,,,,,,96.0,,,


In [121]:
columnas_numericas = ['cantidad', 'gasto', 'pago_mp', 'costo', 'inmujer', 'num_meses', 'num_pagos', 'gasto_tri', 'gasto_nm', 'gas_nm_tri', 'imujer_tri']
columnas_no_numericas = ['clave', 'tipo_gasto', 'mes_dia', 'forma_pag1','forma_pag2', 'forma_pag3', 'lugar_comp', 'orga_inst', 'frecuencia','fecha_adqu', 'fecha_pago', 'inst_1', 'inst_2', 'ultim_pago']

In [122]:
df = limpieza_de_datos(df,columnas_numericas,columnas_no_numericas,0.7,0.9)
df.head()

Unnamed: 0,folioviv,foliohog,clave,mes_dia,forma_pag1,lugar_comp,cantidad,gasto,gasto_tri
0,100013606,1,C001,,1,6,,100.0,300.0
1,100013606,1,C003,,1,6,,40.0,120.0
2,100013606,1,C004,,1,6,,44.0,132.0
3,100013606,1,C005,,1,6,,46.0,138.0
4,100013606,1,C006,,1,6,,32.0,96.0


In [123]:
columnas_numericas = [x for x in columnas_numericas if x in df.columns]
columnas_no_numericas = [x for x in columnas_no_numericas if x in df.columns]

## 2.0 cruce de tablas


Los microdatos generados por INEGI vienen acompañados de catálogos, sin los cuales no se puede interpretar los datos, para esta encuesta los catálogos se encuentran dentro de JSONs en la subcarpeta catálogos


In [124]:
catalogos = os.listdir('./catalogos/')

El siguiente bucle genera un diccionario de tablas con los valores de los catálogos


In [125]:
cat = dict()
for x in catalogos:
    read = open(f'./catalogos/{x}','r')
    json_r = json.loads(read.read())
    read.close()
    json_r = pd.DataFrame(json_r['var_catgry'])
    name = x.split('.')[0]
    json_r.rename(columns={'value':name,'labl':f'{name} codificación'},inplace=True)
    cat[name] = json_r[[name,f'{name} codificación']]

> 2.1) Genera un bucle que, para todas las `columnas_no_numericas` de los cuales se cuenta con un catálogo en el diccionario `cat` se agregue su columna con el valor codificado de las columnas **(1 punto)**


In [126]:
for col in columnas_no_numericas:
    try:
        df = df.merge(cat[col],how='left')
    except:
        None

## 3.0 Formulario

Responda el siguiente formulario con base a la tabla final


|                                                                          Pregunta                                                                          |                                                                              R                                                                               |
| :--------------------------------------------------------------------------------------------------------------------------------------------------------: | :----------------------------------------------------------------------------------------------------------------------------------------------------------: |
|                          Después de la limpieza de la tabla y el cruce contra catálogos, ¿cuál es el tamaño del DataFrame final?                           |                                                                        (1409409, 12)                                                                         |
|                                                 ¿Cuál es el número total de viviendas unicas en la tabla?                                                  |                                                                            25000                                                                             |
|                                                  ¿Cuál es el número total de hogares unicos en la tabla?                                                   |                                                                            25364                                                                             |
|                                           ¿Cuál es el top 3 en gasto de productos, bienes o servicios adquirido?                                           |                        Automóvil y/o guayín; Ayuda a parientes y personas ajenas al hogar, pago de renta a otro hogar; Gasolina Magna                        |
|                                                    ¿Cuál es el gasto promedio por hogar (no vivienda)?                                                     |                                                                          13,639.31                                                                           |
|                                       ¿Cuál es la combinación de forma de pago 1 y lugar de compra con mayor gasto?                                        |                                                                        Efectivo; null                                                                        |
|            ¿Para los productos, bienes y servicios en las claves ['D002','G009','A227','A093'] cuales son las formas de pago 1 con mayor gasto?            | Gas licuado de petróleo & Efectivo; Lociones y perfumes & Efectivo; Huevo de gallina blanco y rojo & Efectivo; Licor o cremas de frutas & Tarjeta de débito; |
| ¿De los usuarios con un gasto mayor que cero en "Gas licuado de petróleo", cual es el porcentaje de gasto en "Gas licuado de petróleo" de dichos clientes? |                                                                            2.75%                                                                             |
|                                    ¿Cuál es el porcentaje de gasto que representa el lugar de compra en Supermercados?                                     |                                                                            6.33%                                                                             |
|                                        Para la forma de pago 1 con Tarjeta de crédito ¿Cuál es el gasto más grande?                                        |                                                                    Computadora, tabletas                                                                     |


¿Cual es el tamaño del DataFrame Final?


In [128]:
df.shape

(1409409, 12)

¿Cuál es el número total de viviendas unicas en la tabla?


In [131]:
df['folioviv'].drop_duplicates().count()

25000

¿Cuál es el número total de hogares unicos en la tabla?


In [134]:
df[['folioviv','foliohog']].drop_duplicates()['foliohog'].count()

25364

¿Cuál es el top 3 en gasto de productos, bienes o servicios adquirido?


In [215]:
aux = df.groupby(['clave codificación'],dropna=False).agg({'gasto':'sum'}).sort_values('gasto',ascending=False).index[:3]

In [216]:
#aux = df['clave codificación'].drop_duplicates().sample(n=3)
print('; '.join(aux))

Automóvil y/o guayín; Ayuda a parientes y personas ajenas al hogar, pago de renta a otro hogar; Gasolina Magna


¿Cuál es el gasto promedio por hogar (no vivienda)?


In [153]:
df.groupby(['folioviv','foliohog'],dropna=False).agg({'gasto':'sum'})['gasto'].mean()

13639.311955921778

In [204]:
df.groupby(['folioviv'],dropna=False).agg({'gasto':'sum'})['gasto'].mean()

13837.900338

In [208]:
df[['forma_pag1 codificación','lugar_comp codificación']].fillna('null').drop_duplicates().sample(n=5)

Unnamed: 0,forma_pag1 codificación,lugar_comp codificación
204336,Vale,Diconsa
261286,Transferencia electrónica de fondos,Tianguis o mercado sobre ruedas
1478,Tarjeta de crédito,Tiendas con membresía
1312534,Fiado (persona particular o establecimiento co...,
1489,Tarjeta de crédito,Internet


¿Cuál es la combinación de forma de pago 1 y lugar de compra con mayor gasto?


In [151]:
df.groupby(['forma_pag1 codificación','lugar_comp codificación'],as_index=False,dropna=False).agg({'gasto':'sum'}).sort_values('gasto',ascending=False)

Unnamed: 0,forma_pag1 codificación,lugar_comp codificación,gasto
34,Efectivo,,75282939.00
32,Efectivo,Tiendas específicas del ramo,69836395.35
139,,,64853950.60
23,Efectivo,Persona particular,37410921.35
26,Efectivo,Supermercados,19168826.59
...,...,...,...
35,Fiado (persona particular o establecimiento co...,Cafeterías,36.00
8,Domiciliación,Mercado,35.00
49,Fiado (persona particular o establecimiento co...,Tiendas de conveniencia,10.00
69,Pago móvil,Tiendas de abarrotes,9.00


¿Para los productos, bienes y servicios en las claves ['D002','G009','A227','A093'] cuales son las formas de pago 1 con mayor gasto?


In [164]:
df['clave'].sample(n=5)

200769     D002
97590      G009
989804     A186
817652     A019
1309386    A098
Name: clave, dtype: object

In [210]:
df[['clave codificación','forma_pag1 codificación']].drop_duplicates().sample(n=30).to_clipboard()

In [171]:
(df[df['clave'].isin(['D002','G009','A227','A093'])]
 .groupby(['clave codificación','forma_pag1 codificación'],dropna=False,as_index=False)
 .agg({'gasto':'sum'}).sort_values('gasto',ascending=False)
 .drop_duplicates(['clave codificación'])).dropna()

Unnamed: 0,clave codificación,forma_pag1 codificación,gasto
1,Gas licuado de petróleo,Efectivo,5374999.0
19,Lociones y perfumes,Efectivo,789835.0
10,Huevo de gallina blanco y rojo,Efectivo,733310.03
17,Licor o cremas de frutas,Tarjeta de débito,250.0


¿De los usuarios con un gasto mayor que cero en "Gas licuado de petróleo", cual es el porcentaje de gasto en "Gas licuado de petróleo" de dichos clientes


In [186]:
glp = df[df['folioviv'].isin(df[(df['clave codificación']=='Gas licuado de petróleo')&(df['gasto']>0)]['folioviv'])].copy()
glp['flg'] = glp['clave codificación']=='Gas licuado de petróleo'
glp.groupby('flg').agg({'gasto':'sum'})/glp['gasto'].sum()


Unnamed: 0_level_0,gasto
flg,Unnamed: 1_level_1
False,0.972547
True,0.027453


In [213]:
df[df['clave codificación']=='Gas licuado de petróleo']['gasto'].sum()/df['gasto'].sum()

0.015672652259565635

¿Cuál es el porcentaje de gasto que representa el lugar de compra en Supermercados?


In [191]:
df[df['lugar_comp codificación']=='Supermercados']['gasto'].sum()/df['gasto'].sum()

0.0633085178388137

Para la forma de pago 1 con Tarjeta de crédito ¿Cuál es el gasto más grande?


In [224]:
df[df['forma_pag1 codificación']=='Tarjeta de crédito'].groupby('clave codificación').agg({'gasto':'sum'}).sort_values('gasto')

Unnamed: 0_level_0,gasto
clave codificación,Unnamed: 1_level_1
Yerbas de olor,11.9
Otras azúcares y mieles,12.1
Pitahaya y tuna,14.0
Otros productos de maíz (excepto cereal),17.2
Chícharo,18.0
...,...
"Motoneta, motocicleta",482960.0
Camioneta (pick up),550000.0
Automóvil y/o guayín,557600.0
"Televisión color (incluye portátil), LCD y plasma",559450.0
