## 0.0 Librerías

Las librerías por utilizar son las usuales para análisis de datos, junto con json, el cual es un estándar en la programación para almacenar información, la estructura de un JSON es muy similar a los diccionarios de python, y en un sentido practico se manipulan dentro de python parseando (codificando) el archivo como un diccionarío


In [1]:
import numpy as np
import pandas as pd
import json
import os

pd.set_option('display.max_columns',None)

## 0.1 Introducción a la manipulación de JSONs


El siguiente es un ejemplo de como se lee un archivo JSON


In [2]:
read = open('./metadata.json','r')
metadata = json.loads(read.read())
read.close()

El tipo de variable con el cual se ha cargado en memoria dentro de python es como un diccionario


In [3]:
type(metadata)

dict

In [4]:
metadata.keys()

dict_keys(['doc_desc', 'study_desc'])

In [None]:
metadata['study_desc'].keys()


In [6]:
metadata['study_desc']

{'title_statement': {'idno': 'MEX-INEGI.ESD3.03-ENIGH-2020-NS',
  'title': 'Encuesta Nacional de Ingresos y Gastos de los Hogares 2020',
  'sub_title': 'Nueva serie',
  'alt_title': 'ENIGH 2020 NS',
  'translated_title': 'National Survey of Household Income and Expenditure 2020'},
 'authoring_entity': [{'name': 'Instituto Nacional de Estadística y Geografía (INEGI)',
   'affiliation': ''},
  {'name': 'Dirección General de Estadísticas Sociodemográficas (DGES)',
   'affiliation': ''},
  {'name': 'Dirección General Adjunta de Encuestas Sociodemográficas y Registros Administrativos (DGAESRA)',
   'affiliation': ''},
  {'name': 'Dirección de Encuestas Regulares en Hogares', 'affiliation': ''},
  {'name': 'Subdirección de Encuestas de Ingresos y Gastos',
   'affiliation': ''}],
 'production_statement': {'copyright': 'INEGI',
  'funding_agencies': [{'name': 'Instituto Nacional de Estadística y Geografía',
    'abbreviation': 'INEGI',
    'role': ''}]},
 'distribution_statement': {'contact': 

La información obtenida del JSON corresponde a la metadata de la encuesta de la ENIGH, a continuación se explica un poco del abstract sobre lo que consiste este estudiom


In [6]:
print(metadata['study_desc']['study_info']['abstract'],)

El objetivo de la ENIGH es proporcionar un panorama estadí­stico del comportamiento de los ingresos y gastos de los hogares en cuanto a su monto, procedencia y distribución; adicionalmente ofrece información sobre las caracterí­sticas ocupacionales y sociodemográficas de los integrantes del hogar, así­ como las caracterí­sticas de la infraestructura de la vivienda y el equipamiento del hogar. 

Desde 1984, cuando el INEGI comenzó a levantar la encuesta, hasta el dí­a de hoy, se han venido desarrollando tanto nuevas metodologí­as, emitido recomendaciones internacionales y documentado buenas prácticas para la generación de información de ingresos y gastos de los hogares por medio de encuestas.

En este periodo se han realizado adiciones en la temá¡tica de la encuesta, actualizaciones metodológicas e innovaciones en los procesos, para obtener resultados que reflejen la realidad, tomando en cuenta las recomendaciones internacionales y los requerimientos de información de los diferentes usu

Algunas estructuras de diccionarios (y JSONs) son compatibles en el constructor de pandas.DataFrame, por ejemplo, la siguiente lista de diccionarios con la estructura
list(dict(**keys**=_'values'_)) genera el DataFrame de columnas **keys**, y de valores _'values'_


In [7]:
metadata['doc_desc']['producers']

[{'name': '', 'abbreviation': 'INEGI', 'affiliation': '', 'role': ''},
 {'name': 'Dirección General de Estadísticas Sociodemográficas',
  'abbreviation': 'DGES',
  'affiliation': '',
  'role': ''},
 {'name': 'Dirección General Adjunta de Encuestas Sociodemográficas',
  'abbreviation': 'DGAES',
  'affiliation': '',
  'role': ''},
 {'name': 'Dirección de Encuestas Regulares en Hogares',
  'abbreviation': '',
  'affiliation': '',
  'role': ''},
 {'name': 'Subdirección de Generación de Estadísticas de Encuestas de Ingresos y Gastos',
  'abbreviation': '',
  'affiliation': '',
  'role': 'Documentación de la encuesta y revisión del metadato.'}]

In [8]:
pd.DataFrame(metadata['doc_desc']['producers'])

Unnamed: 0,name,abbreviation,affiliation,role
0,,INEGI,,
1,Dirección General de Estadísticas Sociodemográ...,DGES,,
2,Dirección General Adjunta de Encuestas Sociode...,DGAES,,
3,Dirección de Encuestas Regulares en Hogares,,,
4,Subdirección de Generación de Estadísticas de ...,,,Documentación de la encuesta y revisión del me...


## 1.0 Limpieza de datos

La información que se presenta a continuación es una muestra de los folios totales de la ENIG, con motivo de que no existan complicaciones de saturar la memoria RAM de nuestras maquinas, el primer paso de esta prueba consiste en limpiar la información haciendo uso de funciones, realiza las intrucciones expuestas en los apartados

> x) apartado


In [3]:
df = pd.read_csv('gastoshogar.txt'
                 ,dtype={x:'str' for x in ['clave', 'forma_pag1', 'forma_pag2', 'forma_pag3', 'frecuencia', 'inst_1', 'inst_2', 'lugar_comp', 'orga_inst', 'tipo_gasto', 'mes_dia', 'fecha_adqu', 'fecha_pago', 'folioviv', 'foliohog']}
                 ,na_values=['0000','00','0'] 
                 ,quotechar="'"
                 )

  df = pd.read_csv('gastoshogar.txt'


In [5]:
lista_num = ['cantidad', 'gasto', 'pago_mp', 'costo' , 'orga_inst', 'frecuencia', 'num_meses', 'num_pagos', 'gasto_tri', 'gasto_nm', 'gas_nm_tri']

In [6]:
df.head(50)

Unnamed: 0,folioviv,foliohog,clave,tipo_gasto,mes_dia,forma_pag1,forma_pag2,forma_pag3,lugar_comp,orga_inst,frecuencia,fecha_adqu,fecha_pago,cantidad,gasto,pago_mp,costo,inmujer,inst_1,inst_2,num_meses,num_pagos,ultim_pago,gasto_tri,gasto_nm,gas_nm_tri,imujer_tri
0,100013606,1,C001,G1,,1,,,6.0,,,,,,100,,,,,,,,,300.0,,,
1,100013606,1,C003,G1,,1,,,6.0,,,,,,40,,,,,,,,,120.0,,,
2,100013606,1,C004,G1,,1,,,6.0,,,,,,44,,,,,,,,,132.0,,,
3,100013606,1,C005,G1,,1,,,6.0,,,,,,46,,,,,,,,,138.0,,,
4,100013606,1,C006,G1,,1,,,6.0,,,,,,32,,,,,,,,,96.0,,,
5,100013606,1,C010,G1,,1,,,6.0,,,,,,10,,,,,,,,,30.0,,,
6,100013606,1,C016,G1,,1,,,6.0,,,,,,36,,,,,,,,,108.0,,,
7,100013606,1,D001,G1,,1,,,6.0,,,,,,112,,,-1.0,,,,,,336.0,,,-1.0
8,100013606,1,D003,G1,,1,,,6.0,,,,,,60,,,-1.0,,,,,,180.0,,,-1.0
9,100013606,1,D005,G1,,1,,,6.0,,,,,,148,,,-1.0,,,,,,444.0,,,-1.0


In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1409409 entries, 0 to 1409408
Data columns (total 27 columns):
 #   Column      Non-Null Count    Dtype 
---  ------      --------------    ----- 
 0   folioviv    1409409 non-null  object
 1   foliohog    1409409 non-null  object
 2   clave       1409409 non-null  object
 3   tipo_gasto  1409409 non-null  object
 4   mes_dia     705526 non-null   object
 5   forma_pag1  1261869 non-null  object
 6   forma_pag2  1310 non-null     object
 7   forma_pag3  23 non-null       object
 8   lugar_comp  1135288 non-null  object
 9   orga_inst   9660 non-null     object
 10  frecuencia  80555 non-null    object
 11  fecha_adqu  5311 non-null     object
 12  fecha_pago  5311 non-null     object
 13  cantidad    1409409 non-null  object
 14  gasto       1408685 non-null  object
 15  pago_mp     1341741 non-null  object
 16  costo       1409409 non-null  object
 17  inmujer     1357647 non-null  object
 18  inst_1      1409409 non-null  object
 19  

In [13]:
muestra = df.sample(n=100)
muestra.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100 entries, 1322497 to 475672
Data columns (total 27 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   folioviv    100 non-null    object
 1   foliohog    100 non-null    object
 2   clave       100 non-null    object
 3   tipo_gasto  100 non-null    object
 4   mes_dia     53 non-null     object
 5   forma_pag1  86 non-null     object
 6   forma_pag2  0 non-null      object
 7   forma_pag3  0 non-null      object
 8   lugar_comp  77 non-null     object
 9   orga_inst   0 non-null      object
 10  frecuencia  3 non-null      object
 11  fecha_adqu  0 non-null      object
 12  fecha_pago  0 non-null      object
 13  cantidad    100 non-null    object
 14  gasto       100 non-null    object
 15  pago_mp     97 non-null     object
 16  costo       100 non-null    object
 17  inmujer     93 non-null     object
 18  inst_1      100 non-null    object
 19  inst_2      100 non-null    object
 20  n

> 1.1) Valores numéricos. Crea una función que reciba un DataFrame y una lista de columnas que deban ser convertidas de tipo de dato str a float, la función debe devolver el dataframe con todas sus columnas, cambiando el tipo de dato de las seleccionadas **(1 punto)**


In [4]:
# El siguiente es un ejemplo de la respuesta esperada, sin embargo, para conseguir el punto debe encontrar el error en la función

def valores_numericos(data:pd.DataFrame, columnas:list):
    """Recibe un DataFrame y un listado de columnas y transforma el tipo de dato de estas ultimas a flotante"""
    data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
    for columna in columnas:
        data_out[columna] = pd.to_numeric(data_out[columna],errors='coerce').astype(float)
    return data_out

In [8]:
cols_num = ['cantidad', 'gasto', 'pago_mp', 'costo', 'inmujer', 'num_meses', 'num_pagos', 'gasto_tri', 'gasto_nm', 'gas_nm_tri', 'imujer_tri']
cols_nonum = ['clave', 'tipo_gasto', 'mes_dia', 'forma_pag1','forma_pag2', 'forma_pag3', 'lugar_comp', 'orga_inst', 'frecuencia','fecha_adqu', 'fecha_pago', 'inst_1', 'inst_2', 'ultim_pago']

In [9]:
num_vals = valores_numericos(df,cols_num)

In [10]:
num_vals.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1409409 entries, 0 to 1409408
Data columns (total 27 columns):
 #   Column      Non-Null Count    Dtype  
---  ------      --------------    -----  
 0   folioviv    1409409 non-null  object 
 1   foliohog    1409409 non-null  object 
 2   clave       1409409 non-null  object 
 3   tipo_gasto  1409409 non-null  object 
 4   mes_dia     705526 non-null   object 
 5   forma_pag1  1261869 non-null  object 
 6   forma_pag2  1310 non-null     object 
 7   forma_pag3  23 non-null       object 
 8   lugar_comp  1135288 non-null  object 
 9   orga_inst   9660 non-null     object 
 10  frecuencia  80555 non-null    object 
 11  fecha_adqu  5311 non-null     object 
 12  fecha_pago  5311 non-null     object 
 13  cantidad    705526 non-null   float64
 14  gasto       1280294 non-null  float64
 15  pago_mp     98976 non-null    float64
 16  costo       113008 non-null   float64
 17  inmujer     208353 non-null   float64
 18  inst_1      1409409 no

In [18]:
num_vals.head(5)

Unnamed: 0,folioviv,foliohog,clave,tipo_gasto,mes_dia,forma_pag1,forma_pag2,forma_pag3,lugar_comp,orga_inst,frecuencia,fecha_adqu,fecha_pago,cantidad,gasto,pago_mp,costo,inmujer,inst_1,inst_2,num_meses,num_pagos,ultim_pago,gasto_tri,gasto_nm,gas_nm_tri,imujer_tri
0,100013606,1,C001,G1,,1,,,6,,,,,,100.0,,,,,,,,,300.0,,,
1,100013606,1,C003,G1,,1,,,6,,,,,,40.0,,,,,,,,,120.0,,,
2,100013606,1,C004,G1,,1,,,6,,,,,,44.0,,,,,,,,,132.0,,,
3,100013606,1,C005,G1,,1,,,6,,,,,,46.0,,,,,,,,,138.0,,,
4,100013606,1,C006,G1,,1,,,6,,,,,,32.0,,,,,,,,,96.0,,,


> 1.2) Columnas nulas. Crea una función que reciba un DataFrame y un cutoff para determinar el porcentaje mínimo de valores no nulos en la tabla para cada columna, elimina las columnas que tengan más de dicho porcentaje nulo (_% de valores no nulos_ > min_pct_no_nulo) **(1 punto)**


In [5]:
# El siguiente es un ejemplo de la respuesta esperada, sin embargo, para conseguir el punto debe encontrar el error en la función
def no_nulo(data:pd.DataFrame, min_pct_no_nulo:float=0.60):
    """Recibe un DataFrame y un listado de columnas y transforma el tipo de dato de estas ultimas a flotante"""
    data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
    drop_cols = []
    
    for column in range(len(data_out.columns)):
        if (data_out.iloc[:,column].isnull().sum() / len(data_out.iloc[:,column]) ) > min_pct_no_nulo:
            drop_cols.append(data_out.columns[column])
            
        else:
            pass
    
    data_out = data_out.drop(axis=1,labels=drop_cols)
    return data_out

In [20]:
no_nulls = no_nulo(num_vals, 0.7)
no_nulls.head(5)

Unnamed: 0,folioviv,foliohog,clave,tipo_gasto,mes_dia,forma_pag1,lugar_comp,cantidad,gasto,inst_1,inst_2,ultim_pago,gasto_tri
0,100013606,1,C001,G1,,1,6,,100.0,,,,300.0
1,100013606,1,C003,G1,,1,6,,40.0,,,,120.0
2,100013606,1,C004,G1,,1,6,,44.0,,,,132.0
3,100013606,1,C005,G1,,1,6,,46.0,,,,138.0
4,100013606,1,C006,G1,,1,6,,32.0,,,,96.0


In [21]:
no_nulls.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1409409 entries, 0 to 1409408
Data columns (total 13 columns):
 #   Column      Non-Null Count    Dtype  
---  ------      --------------    -----  
 0   folioviv    1409409 non-null  object 
 1   foliohog    1409409 non-null  object 
 2   clave       1409409 non-null  object 
 3   tipo_gasto  1409409 non-null  object 
 4   mes_dia     705526 non-null   object 
 5   forma_pag1  1261869 non-null  object 
 6   lugar_comp  1135288 non-null  object 
 7   cantidad    705526 non-null   float64
 8   gasto       1280294 non-null  float64
 9   inst_1      1409409 non-null  object 
 10  inst_2      1409409 non-null  object 
 11  ultim_pago  1409409 non-null  object 
 12  gasto_tri   1278856 non-null  float64
dtypes: float64(3), object(10)
memory usage: 139.8+ MB


> 1.3) Columnas unarias. Crea una función que reciba un DataFrame, una lista de columnas y un cutoff. el uso de esta función determinara que columnas de variables discretas tienen un "único" valor, si el valor más frecuente se repite más del porcentaje determinado en el cutoff, la columna se remueve del DataFrame resultante **(1 punto)**


In [22]:
discretas = ['clave', 'tipo_gasto', 'forma_pag1', 'lugar_comp', 'inst_1', 'inst_2']

In [23]:
cols_nonum = ['clave', 'tipo_gasto', 'mes_dia', 'forma_pag1','forma_pag2', 'forma_pag3', 'lugar_comp', 'orga_inst', 'frecuencia','fecha_adqu', 'fecha_pago', 'inst_1', 'inst_2', 'ultim_pago']

In [24]:
no_nulls['ultim_pago'].value_counts().max()

1336215

In [6]:
def no_unarias(data:pd.DataFrame, columnas:list, max_pct_repeticion:float=0.90):
    data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
    drop_cols = []

    for columna in columnas:
        if columna in data_out.columns:
            if (data_out[columna].value_counts().max() / len(data_out.iloc[:,1]) ) > max_pct_repeticion:
                drop_cols.append(columna)
            else:
                pass
        else:
            pass
    
    data_out = data_out.drop(axis=1,labels=drop_cols)
    return data_out

In [26]:
no_unarias_df = no_unarias(no_nulls, cols_nonum, 0.9)

In [27]:
no_unarias_df.head(5)

Unnamed: 0,folioviv,foliohog,clave,mes_dia,forma_pag1,lugar_comp,cantidad,gasto,gasto_tri
0,100013606,1,C001,,1,6,,100.0,300.0
1,100013606,1,C003,,1,6,,40.0,120.0
2,100013606,1,C004,,1,6,,44.0,132.0
3,100013606,1,C005,,1,6,,46.0,138.0
4,100013606,1,C006,,1,6,,32.0,96.0


> 1.4) Limpieza de datos. Crea una función que le aplique las funciones de limpieza al DataFrame en el orden de: valores_numericos, no_nulo, no_unarias, por lo que los parametros son las usadas en la funciones previas **(1 punto)**


In [7]:
cols_num = ['cantidad', 'gasto', 'pago_mp', 'costo', 'inmujer', 'num_meses', 'num_pagos', 'gasto_tri', 'gasto_nm', 'gas_nm_tri', 'imujer_tri']
cols_nonum = ['clave', 'tipo_gasto', 'mes_dia', 'forma_pag1','forma_pag2', 'forma_pag3', 'lugar_comp', 'orga_inst', 'frecuencia','fecha_adqu', 'fecha_pago', 'inst_1', 'inst_2', 'ultim_pago']

In [8]:
def limpieza_de_datos(data:pd.DataFrame, columnas_numericas:list, columnas_no_numericas:list, min_pct_no_nulo:float=0.60, max_pct_repeticion:float=0.90):
    data_out = data.copy() #recuerda hacer un copy de la tabla a manipular en la función para evitar problemas de relación
    
    num_vals = valores_numericos(data_out,columnas_numericas)
    print('numeric values are now FLOATS')
    
    sin_null = no_nulo(num_vals, min_pct_no_nulo=min_pct_no_nulo)
    print('null values removed')
    
    
    for c in columnas_no_numericas:
        if c in sin_null.columns:
            data_out = no_unarias(sin_null, columnas_no_numericas, max_pct_repeticion=max_pct_repeticion)
        else:
            pass
    print('var disccretas limpias')
    
    return data_out

# Hint: algunas columnas no numericas serán eliminadas por la función de no_nulo, por lo que al querer borrarlas en no_unarias puede producir que no encuentre la columna

In [None]:
df_muestra = limpieza_de_datos(
    data=muestra
    ,columnas_numericas=cols_num
    ,columnas_no_numericas=cols_nonum
    ,min_pct_no_nulo=0.7
    ,max_pct_repeticion=0.9
    )
df_muestra.head(5)

In [None]:
df_muestra.head(5)

In [9]:
df_f = limpieza_de_datos(
    data=df
    ,columnas_numericas=cols_num
    ,columnas_no_numericas=cols_nonum
    ,min_pct_no_nulo=0.7
    ,max_pct_repeticion=0.9
    )
df_f.head()

numeric values are now FLOATS
null values removed
var disccretas limpias


Unnamed: 0,folioviv,foliohog,clave,mes_dia,forma_pag1,lugar_comp,cantidad,gasto,gasto_tri
0,100013606,1,C001,,1,6,,100.0,300.0
1,100013606,1,C003,,1,6,,40.0,120.0
2,100013606,1,C004,,1,6,,44.0,132.0
3,100013606,1,C005,,1,6,,46.0,138.0
4,100013606,1,C006,,1,6,,32.0,96.0


In [32]:
df_f.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1409409 entries, 0 to 1409408
Data columns (total 9 columns):
 #   Column      Non-Null Count    Dtype  
---  ------      --------------    -----  
 0   folioviv    1409409 non-null  object 
 1   foliohog    1409409 non-null  object 
 2   clave       1409409 non-null  object 
 3   mes_dia     705526 non-null   object 
 4   forma_pag1  1261869 non-null  object 
 5   lugar_comp  1135288 non-null  object 
 6   cantidad    705526 non-null   float64
 7   gasto       1280294 non-null  float64
 8   gasto_tri   1278856 non-null  float64
dtypes: float64(3), object(6)
memory usage: 96.8+ MB


#### Sigue ejecutando las celdas hasta la sección 2.0


In [None]:
no_unarias_df.head()

In [10]:
columnas_numericas = ['cantidad', 'gasto', 'pago_mp', 'costo', 'inmujer', 'num_meses', 'num_pagos', 'gasto_tri', 'gasto_nm', 'gas_nm_tri', 'imujer_tri']
columnas_no_numericas = ['clave', 'tipo_gasto', 'mes_dia', 'forma_pag1','forma_pag2', 'forma_pag3', 'lugar_comp', 'orga_inst', 'frecuencia','fecha_adqu', 'fecha_pago', 'inst_1', 'inst_2', 'ultim_pago']

In [11]:
columnas_numericas = [x for x in columnas_numericas if x in df_f.columns]
columnas_no_numericas = [x for x in columnas_no_numericas if x in df_f.columns]

In [12]:
print(columnas_numericas)
print(columnas_no_numericas)

['cantidad', 'gasto', 'gasto_tri']
['clave', 'mes_dia', 'forma_pag1', 'lugar_comp']


## 2.0 cruce de tablas


Los microdatos generados por INEGI vienen acompañados de catálogos, sin los cuales no se puede interpretar los datos, para esta encuesta los catálogos se encuentran dentro de JSONs en la subcarpeta catálogos


In [13]:
catalogos = os.listdir('./catalogos/')

In [38]:
catalogos

['clave.json',
 'forma_pag1.json',
 'forma_pag2.json',
 'forma_pag3.json',
 'frecuencia.json',
 'inst_1.json',
 'inst_2.json',
 'lugar_comp.json',
 'orga_inst.json',
 'tipo_gasto.json']

El siguiente bucle genera un diccionario de tablas con los valores de los catálogos


In [14]:
cat = dict()
for x in catalogos:
    read = open(f'./catalogos/{x}','r')
    json_r = json.loads(read.read())
    read.close()
    json_r = pd.DataFrame(json_r['var_catgry'])
    name = x.split('.')[0]
    json_r.rename(columns={'value':name,'labl':f'{name} codificación'},inplace=True)
    cat[name] = json_r[[name,f'{name} codificación']]

In [21]:
cat['forma_pag1']

Unnamed: 0,forma_pag1,forma_pag1 codificación
0,0,No aplica
1,1,Efectivo
2,2,Fiado (persona particular o establecimiento co...
3,3,Domiciliación
4,4,Transferencia electrónica de fondos
5,5,Tarjeta de crédito
6,6,Tarjeta de débito
7,7,Cheque
8,8,Vale
9,9,Pago móvil


In [42]:
cat['lugar_comp']

Unnamed: 0,lugar_comp,lugar_comp codificación
0,0,No aplica
1,1,Mercado
2,2,Tianguis o mercado sobre ruedas
3,3,Vendedores ambulantes
4,4,Tiendas de abarrotes
5,5,Tiendas específicas del ramo
6,6,Supermercados
7,7,Tiendas departamentales
8,8,Compras fuera del país
9,9,Tiendas con membresía


In [43]:
cat['clave'][cat['clave']['clave codificación'] == 'Gas licuado de petróleo']

Unnamed: 0,clave,clave codificación
360,G009,Gas licuado de petróleo


In [44]:
cat['clave']

Unnamed: 0,clave,clave codificación
0,A001,Maíz en grano (de todo tipo y color)
1,A002,"Harina de maíz, maicena, fécula, nixtamalizada..."
2,A003,Masa de maíz (de todo tipo y color)
3,A004,Tortilla de maíz (de todo tipo y color)
4,A005,"Tostadas, raspadas, tostitos, totopos, tlayudas"
...,...,...
757,T912,Enseres domésticos y mantenimiento de la vivienda
758,T913,Artículos de esparcimiento
759,T914,Artículos o servicios destinados al transporte
760,T915,Gastos diversos


In [45]:
cat['lugar_comp'][cat['lugar_comp']['lugar_comp codificación'] == 'Supermercados']

Unnamed: 0,lugar_comp,lugar_comp codificación
6,6,Supermercados


> 2.1) Genera un bucle que, para todas las `columnas_no_numericas` de los cuales se cuenta con un catálogo en el diccionario `cat` se agregue su columna con el valor codificado de las columnas **(1 punto)**


In [15]:
for col in columnas_no_numericas:
    try:
        df_f = df_f.merge(cat[col],how='left')
    except:
        None

In [16]:
df_f.head(5)

Unnamed: 0,folioviv,foliohog,clave,mes_dia,forma_pag1,lugar_comp,cantidad,gasto,gasto_tri,clave codificación,forma_pag1 codificación,lugar_comp codificación
0,100013606,1,C001,,1,6,,100.0,300.0,"Detergentes (polvo, líquido, pasta, gel)",Efectivo,Supermercados
1,100013606,1,C003,,1,6,,40.0,120.0,Blanqueadores,Efectivo,Supermercados
2,100013606,1,C004,,1,6,,44.0,132.0,Suavizantes de telas,Efectivo,Supermercados
3,100013606,1,C005,,1,6,,46.0,138.0,Limpiadores (en polvo o líquido),Efectivo,Supermercados
4,100013606,1,C006,,1,6,,32.0,96.0,Servilletas y papel absorbente,Efectivo,Supermercados


In [1]:
df_f.info()

NameError: name 'df_f' is not defined

In [None]:
df_f.to_csv("data_limpia.csv", index=False)

## 3.0 Formulario

Responda el formulario con base a la tabla final


2.Después de la limpieza de la tabla y el cruce contra catálogos, ¿cuál es el tamaño del DataFrame final?
(1 Point)

**(1409409,12)**


3.¿Cuál es el número total de hogares unicos en la tabla?
(1 Point)

20000

1409409

25000

**25364 <--**


In [48]:
df_f[['foliohog', 'folioviv']].groupby(['folioviv', 'foliohog']).nunique()

folioviv,foliohog
0100013606,1
0100017804,1
0100017805,1
0100021405,1
0100044701,1
...,...
3260770212,2
3260770519,1
3260770714,1
3260770716,1


In [49]:
df_f['foliohog'].nunique()

4

4.¿Cuál es la **combinación** de forma de pago 1 y lugar de compra **con mayor gasto**?
(1 Point)

**La combinación de forma de pago 1 y lugar de compra que en conjunto tuvieron mayor gasto fue pago en efectivo y lugar "Tiendas específicas del ramo"**

Transferencia electrónica de fondos; Tianguis o mercado sobre ruedas

Tarjeta de crédito; Internet

Tarjeta de crédito; null

**Efectivo; null <-- (efectivo ; "Tiendas específicas del ramo")**

Vale; Diconsa

Tarjeta de crédito; Tiendas con membresía


In [19]:
fpag_lug_sum = df_f.groupby(['forma_pag1 codificación', 'lugar_comp codificación']).sum('gasto')

In [20]:
fpag_lug_sum

Unnamed: 0_level_0,Unnamed: 1_level_0,cantidad,gasto,gasto_tri
forma_pag1 codificación,lugar_comp codificación,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Cheque,Internet,0.000,1000.00,491.80
Cheque,Persona particular,0.000,1000.00,635.86
Cheque,Supermercados,0.200,143.00,488.69
Cheque,Tianguis o mercado sobre ruedas,0.700,7.00,89.99
Cheque,Tiendas de abarrotes,3.500,78.00,1002.84
...,...,...,...,...
Vale,Tiendas de abarrotes,132.730,34628.48,144352.86
Vale,Tiendas de conveniencia,50.718,1700.60,13227.98
Vale,Tiendas departamentales,0.000,22731.00,15762.22
Vale,Tiendas específicas del ramo,66.885,84210.97,97836.45


In [21]:
## agregados
fpag_lug_sum[fpag_lug_sum['gasto']==fpag_lug_sum['gasto'].max()]

Unnamed: 0_level_0,Unnamed: 1_level_0,cantidad,gasto,gasto_tri
forma_pag1 codificación,lugar_comp codificación,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Efectivo,Tiendas específicas del ramo,278654.811,69836395.35,135173500.0


In [18]:
## respuesta
df_f.groupby(['forma_pag1 codificación','lugar_comp codificación'],as_index=False,dropna=False).agg({'gasto':'sum'}).sort_values('gasto',ascending=False)

Unnamed: 0,forma_pag1 codificación,lugar_comp codificación,gasto
34,Efectivo,,75282939.00
32,Efectivo,Tiendas específicas del ramo,69836395.35
139,,,64853950.60
23,Efectivo,Persona particular,37410921.35
26,Efectivo,Supermercados,19168826.59
...,...,...,...
35,Fiado (persona particular o establecimiento co...,Cafeterías,36.00
8,Domiciliación,Mercado,35.00
49,Fiado (persona particular o establecimiento co...,Tiendas de conveniencia,10.00
69,Pago móvil,Tiendas de abarrotes,9.00


5.¿Cuál es el gasto promedio por hogar (no vivienda)?
(1 Point)

$13,837.90

$13,854.37

$13,791.04

$13,521.37

**$13,639.31 <--**

$13,497.84


In [53]:
df_f.groupby(['folioviv'])['gasto'].sum().mean()

13837.900337999974

In [54]:
df_f.groupby(['folioviv', 'foliohog'])['gasto'].sum().mean()

13639.31195592175

In [23]:
df_f.groupby(['folioviv','foliohog'],dropna=False).agg({'gasto':'sum'})['gasto'].mean()


13639.311955921778

6.¿Cuál es el top 3 en gasto de productos, bienes o servicios adquirido?
(1 Point)
(los valores están separados por punto y coma (;)

Piezas sueltas de recámara: camas, tocadores, literas, buró, etcétera; Servicio fotográfico, revelado e impresión; Otros transportes: lancha, panga o peaje, coche, camioneta, pick up

Gastos turísticos: paquetes, hospedajes, alimentos, tours, etcétera; Chabacano, durazno, melocotón; Chorizo de pollo, jamón y nugget, salchicha, mortadela, etcétera

Medicamentos sin receta para: vitaminas; Playeras para niña de 0 a 4 años; Otros: donas y mariposas para el cabello, limas de uñas, pasadores, moños, estuche de manicure, etcétera

Algodón, gasas, vendas, jeringas, etcétera; Concentrados y polvos para preparar bebidas; Col y repollo

Ron añejo, blanco, con limón; Harina de trigo; Toronja

**Automóvil y/o guayín; Ayuda a parientes y personas ajenas al hogar, pago de renta a otro hogar; Gasolina Magna <--**


In [56]:
bybienes = df_f.groupby(['clave codificación'])['gasto'].sum()

In [57]:
bybienes.sort_values(ascending = False)

clave codificación
Automóvil y/o guayín                                                        24633290.0
Ayuda a parientes y personas ajenas al hogar, pago de renta a otro hogar    24238660.0
Gasolina Magna                                                              14374510.0
Energía eléctrica                                                           11976521.0
Camioneta (pick up)                                                         11224960.0
                                                                               ...    
Metro o tren ligero                                                                0.0
Estimación del alquiler de vivienda propia y se está pagando                       0.0
Compra de terrenos, casas o condominios que habita el hogar                        0.0
Compra de casas, condominios, locales o terrenos que no habita el hogar            0.0
Taxi, radio-taxi (sitio)                                                           0.0
Name: gasto, Length: 739

7.¿Cuál es el número total de viviendas unicas en la tabla?
(1 Point)

1409409

25364

20000

**25000 <--**


In [58]:
df_f['folioviv'].nunique()

25000

8.¿Para los productos, bienes y servicios en las claves ['D002','G009','A227','A093'] cuales son las formas de pago 1 con mayor gasto?
(1 Point)
(el carácter "&" une el producto con la forma de pago, el ";" separa las combinaciones)

Enseñanza adicional & Tarjeta de débito; Seguro de vida capitalizable & ; Insecticidas líquido, en polvo, pastilla, raid eléctrico & Pago móvil; Piezas sueltas para sala (mesa de centro) & ;

Seguro de vida capitalizable & ; Insecticidas líquido, en polvo, pastilla, raid eléctrico & Pago móvil; Piezas sueltas para sala (mesa de centro) & ; Gas licuado de petróleo & Efectivo;

Piezas sueltas para sala (mesa de centro) & ; Gas licuado de petróleo & Efectivo; Lociones y perfumes & Efectivo; Huevo de gallina blanco y rojo & Efectivo;

Cigarros & Tarjeta de crédito; Enseñanza adicional & Tarjeta de débito; Seguro de vida capitalizable & ; Insecticidas líquido, en polvo, pastilla, raid eléctrico & Pago móvil;

Insecticidas líquido, en polvo, pastilla, raid eléctrico & Pago móvil; Piezas sueltas para sala (mesa de centro) & ; Gas licuado de petróleo & Efectivo; Lociones y perfumes & Efectivo;

**Gas licuado de petróleo & Efectivo; Lociones y perfumes & Efectivo; Huevo de gallina blanco y rojo & Efectivo; Licor o cremas de frutas & Tarjeta de débito; <--**


In [59]:
prods = ['D002','G009','A227','A093']
#columnas = [x for x in df.columns[2:]]

In [60]:
prod_select = df_f[df_f['clave'].apply(lambda x: x in prods)]


prod_select.groupby(['clave codificación'])['gasto'].sum().sort_values(ascending = False)

clave codificación
Gas licuado de petróleo           5421915.00
Lociones y perfumes                887303.00
Huevo de gallina blanco y rojo     750677.79
Licor o cremas de frutas              250.00
Name: gasto, dtype: float64

In [61]:
prod_select.groupby(['clave codificación']).sum('gasto').sort_values(by='gasto',ascending = False)

Unnamed: 0_level_0,cantidad,gasto,gasto_tri
clave codificación,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Gas licuado de petróleo,0.0,5421915.0,15918859.5
Lociones y perfumes,0.0,887303.0,2604078.65
Huevo de gallina blanco y rojo,24870.212,750677.79,9651426.73
Licor o cremas de frutas,4.0,250.0,3214.28


respuesta


In [26]:
df_f['clave'].sample(n=5)

31920     H028
449714    D014
181765    N008
178975    H057
983295    A107
Name: clave, dtype: object

In [30]:
df_f[['clave codificación','forma_pag1 codificación']].drop_duplicates().sample(n=30).to_clipboard()

In [31]:
(df_f[df_f['clave'].isin(['D002','G009','A227','A093'])]
 .groupby(['clave codificación','forma_pag1 codificación'],dropna=False,as_index=False)
 .agg({'gasto':'sum'}).sort_values('gasto',ascending=False)
 .drop_duplicates(['clave codificación'])).dropna()

Unnamed: 0,clave codificación,forma_pag1 codificación,gasto
1,Gas licuado de petróleo,Efectivo,5374999.0
19,Lociones y perfumes,Efectivo,789835.0
10,Huevo de gallina blanco y rojo,Efectivo,733310.03
17,Licor o cremas de frutas,Tarjeta de débito,250.0


9.¿De los usuarios con un gasto mayor que cero en "Gas licuado de petróleo", cual es el porcentaje de gasto en "Gas licuado de petróleo" de dichos clientes?
(1 Point)

97.25%

3.14%

1.57%

2.75%

**3.65% <--**

98.43%


In [62]:
cat['clave'][cat['clave']['clave codificación'] == 'Gas licuado de petróleo']

Unnamed: 0,clave,clave codificación
360,G009,Gas licuado de petróleo


In [63]:
gas = df_f[(df_f['clave'] == 'G009') & (df_f['gasto'] > 0)]
gas_viv = list(gas['folioviv'])

In [64]:
len(gas_viv)

13449

In [68]:
len(set(gas_viv))

13318

In [69]:
gas_select = df_f[df_f['folioviv'].apply(lambda x: x in gas_viv)]

In [70]:
gas_select.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 794933 entries, 32 to 1409408
Data columns (total 12 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   folioviv                 794933 non-null  object 
 1   foliohog                 794933 non-null  object 
 2   clave                    794933 non-null  object 
 3   mes_dia                  391575 non-null  object 
 4   forma_pag1               723674 non-null  object 
 5   lugar_comp               652417 non-null  object 
 6   cantidad                 391575 non-null  float64
 7   gasto                    733816 non-null  float64
 8   gasto_tri                733030 non-null  float64
 9   clave codificación       794933 non-null  object 
 10  forma_pag1 codificación  723674 non-null  object 
 11  lugar_comp codificación  652417 non-null  object 
dtypes: float64(3), object(9)
memory usage: 78.8+ MB


In [71]:
gas_select.sort_values(by='folioviv').head(5)

Unnamed: 0,folioviv,foliohog,clave,mes_dia,forma_pag1,lugar_comp,cantidad,gasto,gasto_tri,clave codificación,forma_pag1 codificación,lugar_comp codificación
32,100017805,1,C001,,1,4,,120.0,360.0,"Detergentes (polvo, líquido, pasta, gel)",Efectivo,Tiendas de abarrotes
677969,100017805,1,A012,1023.0,1,4,0.4,24.0,308.57,"Pan blanco: bolillo, telera, baguete, etcétera",Efectivo,Tiendas de abarrotes
677970,100017805,1,A012,1024.0,1,4,0.4,24.0,308.57,"Pan blanco: bolillo, telera, baguete, etcétera",Efectivo,Tiendas de abarrotes
677971,100017805,1,A019,1019.0,1,4,1.0,18.0,231.42,Arroz en grano,Efectivo,Tiendas de abarrotes
677972,100017805,1,A048,1019.0,1,4,1.2,68.0,874.28,Chicharrón de puerco,Efectivo,Tiendas de abarrotes


In [89]:
tot_viv = gas_select.groupby(['folioviv']).sum().sort_values(by='folioviv')
tot_viv.head()

Unnamed: 0_level_0,cantidad,gasto,gasto_tri
folioviv,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
100017805,32.4,6056.5,20512.46
100045302,31.5,14097.0,37707.33
100058705,67.094,8158.6,24533.62
100058706,25.72,22673.0,38667.51
100061503,32.322,70368.9,62618.92


In [84]:
gas_viv = df_f[df_f['clave'] == 'G009'].groupby('folioviv').sum().sort_values(by='folioviv')
gas_viv.head()

Unnamed: 0_level_0,cantidad,gasto,gasto_tri
folioviv,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
100017805,0.0,600.0,1800.0
100045302,0.0,600.0,1741.93
100058705,0.0,100.0,300.0
100058706,0.0,602.0,1806.0
100061503,0.0,600.0,1741.93


In [85]:
porcentaje = gas_viv / tot_viv

In [88]:
porcentaje.head().mean()

cantidad     0.000000
gasto        0.037793
gasto_tri    0.044140
dtype: float64

respuesta


In [34]:
glp = df_f[df_f['folioviv'].isin(df_f[(df_f['clave codificación']=='Gas licuado de petróleo')&(df_f['gasto']>0)]['folioviv'])].copy()
glp['flg'] = glp['clave codificación']=='Gas licuado de petróleo'
glp.groupby('flg').agg({'gasto':'sum'})/glp['gasto'].sum()


Unnamed: 0_level_0,gasto
flg,Unnamed: 1_level_1
False,0.972547
True,0.027453


10.Para la forma de pago 1 con Tarjeta de crédito ¿Cuál es **el gasto** más grande?
(1 Point)

Otras azúcares y mieles

**Camioneta (pick up) <--**

Otros productos de maíz (excepto cereal)

Automóvil y/o guayín

Pitahaya y tuna

Televisión color (incluye portátil), LCD y plasma

Motoneta, motocicleta

Chícharo

Computadora, tabletas


In [90]:
df_f[df_f['forma_pag1'] == '05'].sort_values(by='gasto', ascending=False).head(1)

Unnamed: 0,folioviv,foliohog,clave,mes_dia,forma_pag1,lugar_comp,cantidad,gasto,gasto_tri,clave codificación,forma_pag1 codificación,lugar_comp codificación
109154,601142205,1,M008,,5,5,,550000.0,271978.02,Camioneta (pick up),Tarjeta de crédito,Tiendas específicas del ramo


In [35]:
# respuesta
df_f[df_f['forma_pag1 codificación']=='Tarjeta de crédito'].groupby('clave codificación').agg({'gasto':'sum'}).sort_values('gasto')

Unnamed: 0_level_0,gasto
clave codificación,Unnamed: 1_level_1
Yerbas de olor,11.9
Otras azúcares y mieles,12.1
Pitahaya y tuna,14.0
Otros productos de maíz (excepto cereal),17.2
Chícharo,18.0
...,...
"Motoneta, motocicleta",482960.0
Camioneta (pick up),550000.0
Automóvil y/o guayín,557600.0
"Televisión color (incluye portátil), LCD y plasma",559450.0


11.¿Cuál es el porcentaje de gasto que representa el lugar de compra en Supermercados?
(1 Point)

**6.33% <--**

23.50%

4.44%

5.07%

1.43%

7.44%


In [91]:
cat['lugar_comp'][cat['lugar_comp']['lugar_comp codificación'] == 'Supermercados']

Unnamed: 0,lugar_comp,lugar_comp codificación
6,6,Supermercados


In [24]:
supermerc = df_f[df_f['lugar_comp'] == '06']['gasto']
supermerc.head()

0    100.0
1     40.0
2     44.0
3     46.0
4     32.0
Name: gasto, dtype: float64

In [26]:
supermerc.sum()

21901424.01

In [25]:
total = df_f['gasto']
total.sum()

345947508.4500004

In [28]:
supermerc.sum()/total.sum()*100

6.33085178388137

In [36]:
# respuesta
df_f[df_f['lugar_comp codificación']=='Supermercados']['gasto'].sum()/df_f['gasto'].sum()

0.0633085178388137