# 2019

Ahora realizaremos la extracción de los diccionarios de datos para la base de datos del ENUT del 2019

In [1]:
import pandas as pd

enut19 = pd.read_excel('data\\enut_2019_fd.xlsx',sheet_name= None)
sheets = list(enut19.keys())

In [2]:
sheet = enut19[sheets[0]]
sheet.head(n = 20)

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,,Encuesta Nacional sobre Uso del Tiempo (ENUT) ...,,,,,
1,,ESTRUCTURA DEL ARCHIVO,,,,,
2,,TVivienda,,,,,
3,,Versión [usuario],,,,,
4,,,,,,,
5,,[1] Corresponde a la pregunta textual del inst...,,,,,
6,,[2] Código simbólico fácil de interpretar y de...,,,,,
7,,[3] Características del campo.,,,,,
8,,[4] Es el número de caracteres que ocupa el ca...,,,,,
9,,"[5] Símbolos convencionales, ya sea alfabético...",,,,,


Vemos que esta posee un formato distinto a las anteriores por lo que habrá que rehacer la implementación, sin embargo, la idea es la misma.

In [3]:
temp_cols = [f'C{i}' for i in range(sheet.shape[1])]
sheet.columns = temp_cols
temp_cols

['C0', 'C1', 'C2', 'C3', 'C4', 'C5', 'C6']

Como detalle, renombraremos las columas para evitarnos usar nombres tan largos. 

In [4]:
sheet.head(n = 20)

Unnamed: 0,C0,C1,C2,C3,C4,C5,C6
0,,Encuesta Nacional sobre Uso del Tiempo (ENUT) ...,,,,,
1,,ESTRUCTURA DEL ARCHIVO,,,,,
2,,TVivienda,,,,,
3,,Versión [usuario],,,,,
4,,,,,,,
5,,[1] Corresponde a la pregunta textual del inst...,,,,,
6,,[2] Código simbólico fácil de interpretar y de...,,,,,
7,,[3] Características del campo.,,,,,
8,,[4] Es el número de caracteres que ocupa el ca...,,,,,
9,,"[5] Símbolos convencionales, ya sea alfabético...",,,,,


Aquí, podemos ver que se preserva el nombre de la tabla en la segunda columna. Entonces procederemos de forma similar al caso del ENADID. 

In [5]:
sheet.loc[:,'C0'] = sheet.isna().sum(axis = 1)
n_cols = sheet.loc[:, 'C0'].max()
table_index = list(sheet[sheet['C0'] == n_cols - 1].index)
table_names = list(sheet[sheet['C0'] == n_cols - 1].loc[:,'C1'])
table_names

['Encuesta Nacional sobre Uso del Tiempo (ENUT) 2019',
 'ESTRUCTURA DEL ARCHIVO',
 'TVivienda',
 'Versión [usuario]',
 '[1] Corresponde a la pregunta textual del instrumento de captación.',
 '[2] Código simbólico fácil de interpretar y de recordar.',
 '[3] Características del campo.',
 '[4] Es el número de caracteres que ocupa el campo.',
 '[5] Símbolos convencionales, ya sea alfabético, numérico o iconográfico, asignados para facilitar la interpretación de una representación a otra.',
 '[6] Descripción de las opciones de respuesta de cada pregunta del instrumento de captación.',
 'LLAVE',
 'SECCIÓN I. CARACTERÍSTICAS DE LA VIVIENDA',
 'SECCIÓN II. IDENTIFICACIÓN Y CARACTERÍSTICAS DEL HOGAR',
 'VARIABLES DERIVADAS',
 'VARIABLES DE DISEÑO ESTADÍSTICO']

Ya tenemos los nombres de las columnas, incrustados con el encabezado del libro. Entonces debemos usar una forma de seleccionar los que nos interesan. Usaremos uno del los métodos que se usaron en el ENADID. 

In [6]:
compare_set = ['Pregunta', '[1]']
compare_list = [[tn] + compare_set for tn in table_names]
sheet_list = [sheet.loc[ti: ti + 2,'C1'] for ti in table_index]
equals = [(sheet_list[i] == compare_list[i]).sum() for i in range(len(sheet_list))]
equals_index = []
for i in range(len(equals)):
    if equals[i] == 3:
        equals_index.append(table_index[i])
equals_index

[12, 18, 87, 96, 107]

Una vez tenemos la lista de los indices que nos interesan, almacenamos los dataframes.

In [7]:
dflt = [sheet.loc[equals_index[i]: equals_index[i + 1] - 1 ,:] for i in range(len(equals_index) - 1)]
dflt.append(sheet.loc[equals_index[-1]: ,:])

Una vez tenemos los dataframes guardados, les damos una mejor apariencia. 

In [8]:
subdf = dflt[0]
new_name = subdf.iloc[0,1]  # Nombre de la tabla
new_cols = subdf.iloc[1,:]  # Colocamos las columnas correspondientes.
subdf.columns = new_cols.astype(str) 
subdf = subdf.drop(columns='1.0').dropna(axis = 0, how='all').iloc[3:,:].ffill()
# Eliminamos la primer columna, eliminamos los renglones con NA, quitamos el encabezado, acompletamos con el texto superior.

Finalmente, agrupamos todos los dataframes. 

In [9]:
sheet_df = pd.DataFrame()
for df in dflt:
    new_name = df.iloc[0,1]  # Nombre de la tabla
    new_cols = df.iloc[1,:]  # Colocamos las columnas correspondientes.
    df.columns = new_cols.astype(str) 
    df = df.drop(columns='1.0').dropna(axis = 0, how='all').iloc[3:,:].ffill()
    df['SubNombre'] = new_name
    sheet_df = pd.concat([sheet_df,df])

sheet_df.to_excel('results//sheet_one.xlsx')

Ahora haremos esto para cada hoja del excel. 

In [10]:
enut19_all = pd.DataFrame()
for sh in sheets:
    sheet = enut19[sh]
    temp_cols = [f'C{i}' for i in range(sheet.shape[1])]
    sheet.columns = temp_cols
    sheet.loc[:,'C0'] = sheet.isna().sum(axis = 1)
    n_cols = sheet.loc[:, 'C0'].max()
    table_index = list(sheet[sheet['C0'] == n_cols - 1].index)
    table_names = list(sheet[sheet['C0'] == n_cols - 1].loc[:,'C1'])
    compare_set = ['Pregunta', '[1]']
    compare_list = [[tn] + compare_set for tn in table_names]
    sheet_list = [sheet.loc[ti: ti + 2,'C1'] for ti in table_index]
    equals = [(sheet_list[i] == compare_list[i]).sum() for i in range(len(sheet_list))]
    equals_index = []
    for i in range(len(equals)):
        if equals[i] == 3:
            equals_index.append(table_index[i])
    dflt = [sheet.loc[equals_index[i]: equals_index[i + 1] - 1 ,:] for i in range(len(equals_index) - 1)]
    dflt.append(sheet.loc[equals_index[-1]: ,:])
    sheet_df = pd.DataFrame()
    for df in dflt:
        new_name = df.iloc[0,1]  # Nombre de la tabla
        new_cols = df.iloc[1,:]  # Colocamos las columnas correspondientes.
        df.columns = new_cols.astype(str) 
        df = df.iloc[:, 1:]
        df = df.dropna(axis = 0, how='all').iloc[3:,:].ffill()
        df['SubNombre'] = new_name
        sheet_df = pd.concat([sheet_df,df])
    sheet_df['Nombre'] = sh
    enut19_all = pd.concat([enut19_all, sheet_df])

enut19_all.to_excel("results\\enadid19_all.xlsx")