# 2014
La Encuesta Nacional de la Dinámica Demográfica (ENADID) 2014 fue un proyecto estadístico destinado a enriquecer la oferta de información de interés nacional vinculada al Subsistema Nacional de Información Demográfica y Social.

La encuesta se llevó a cabo con la finalidad de actualizar la información estadística relacionada con el nivel y comportamiento de los componentes de la dinámica demográfica: fecundidad, mortalidad y migración (interna e internacional), así como otros temas referidos a la población, los hogares y las viviendas de México
Partiremos de los descriptores más actualizados, ya que posiblemente los anteriores puedan descartarse por antiguiedad.

# Descarga de los Datos. 
Los datos fueron descargados de forma manual, se prevee automatizarlo en un futuro. 

In [27]:
import pandas as pd  # Importación de Librerias. 
import numpy as np


# Leemos el libro de Excel que contiene los datos, importante llamar todas las hojas del libro. 
enadid = pd.read_excel("data\\fd_enadid14.xlsx", sheet_name=None)


# Extraemos el nombre de las hojas.
dict_sheets = list(enadid.keys())
dict_sheets

['TVivienda',
 'THogar',
 'TSDem',
 'TMigrante',
 'TMMujer1',
 'TMMujer2',
 'TFec_Hemb']

Finalmente, tomamos una base de datos para hacer pruebas. 

In [28]:
df_test = enadid[dict_sheets[0]]
df = df_test.copy()  # Hacemos una copia de los datos para trabajar sin temor a perder los originales.

## Manejo de Datos
El manejo de datos se divide en 3 campos. 
* Análisis de Datos: Observar los datos a fin de buscar propiedades útiles y pensar como separarlas del resto del documento. 
* Manipulación de Datos: La manipulación de la base da datos original para obtener la parte que nos interesa. 
* Almacenaje de Datos. Pensar el formato que le daremos para el guardado.

Entonces, partiremos del Análisis.

In [29]:
df.head(n = 20)

Unnamed: 0,INEGI. Encuesta Nacional de la Dinámica Demográfica 2014. Descripción de archivos. 2015.,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8
0,,,,,,,,,
1,,ESTRUCTURA DEL ARCHIVO,,,,,,,
2,,ENCUESTA NACIONAL DE LA DINÁMICA DEMOGRÁFICA 2014,,,,,,,
3,,Tabla de datos: TVivienda,,,,,,,
4,,,,,,,,,
5,,(1),Corresponde a la descripción ampliada de la pr...,,,,,,
6,,(2),Corresponde al nombre de la variable en el ins...,,,,,,
7,,(3),Código simbólico fácil de interpretar y de rec...,,,,,,
8,,(4),Características del campo.,,,,,,
9,,(5),Es el número de caracteres que ocupa el campo.,,,,,,


A simple vista, que las columnas presentan otro orden. Entonces deberemos seguir la idea del caso de 2018, pero con los cambios incorporados. 

In [30]:
fixed = df['Unnamed: 1'].isna()
r = 0
i_r = 0
while r < 3:
    if fixed[i_r] == True:
        r +=1
    i_r = i_r + 1
print(i_r)

13


Ya tenemos la parte que vamos a borrar más adelante. Ahora intentaremos atrapar las tablas dentro de la hoja actual. 

In [31]:
df['INEGI. Encuesta Nacional de la Dinámica Demográfica 2014. Descripción de archivos. 2015.'] = df.isna().sum(axis = 1)
n_cols = df['INEGI. Encuesta Nacional de la Dinámica Demográfica 2014. Descripción de archivos. 2015.'].max()
df.head(n = i_r + 1)

Unnamed: 0,INEGI. Encuesta Nacional de la Dinámica Demográfica 2014. Descripción de archivos. 2015.,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8
0,9,,,,,,,,
1,8,ESTRUCTURA DEL ARCHIVO,,,,,,,
2,8,ENCUESTA NACIONAL DE LA DINÁMICA DEMOGRÁFICA 2014,,,,,,,
3,8,Tabla de datos: TVivienda,,,,,,,
4,9,,,,,,,,
5,7,(1),Corresponde a la descripción ampliada de la pr...,,,,,,
6,7,(2),Corresponde al nombre de la variable en el ins...,,,,,,
7,7,(3),Código simbólico fácil de interpretar y de rec...,,,,,,
8,7,(4),Características del campo.,,,,,,
9,7,(5),Es el número de caracteres que ocupa el campo.,,,,,,


Para ello usaremos el número de NaN que posee cada columna, en particular vemos que donde se encuentra los nombres de las tablas, solo hay un espacio ocupado. Entonces 

In [32]:
dfn_1 = df[df['INEGI. Encuesta Nacional de la Dinámica Demográfica 2014. Descripción de archivos. 2015.'] == n_cols - 1]
vi = np.array(dfn_1.index)

section_code = ['Pregunta','(1)']
compares_list = [[df.iloc[i ,1]] + section_code for i in vi]

# print(dfn_1['Unnamed: 1'].head(n = 10))

i_tables = []
for i in range(len(compares_list)):
    dvi = df.iloc[vi[i]: vi[i]+ 3,1]
    ld = len(dvi)
    if len(dvi) == 3:
        eq = (dvi == compares_list[i]).sum()
        # print(dvi == compares_list[i])
        if eq == 3:
            i_tables.append(i)
set_index = dfn_1.iloc[i_tables, :]
i_tables  = list(set_index.index)
i_tables

[14, 24, 37, 174, 186, 211, 219]

Una vez terminamos de ubicar las tablas que nos interesan, las guardamos en una lista.

In [33]:
ldfs = []
for i in range(len(i_tables) - 1):
    ldfs.append(df.iloc[i_tables[i]:i_tables[i + 1], :])
new_cols = list(ldfs[0].iloc[1,:])
ldfs[0]


Unnamed: 0,INEGI. Encuesta Nacional de la Dinámica Demográfica 2014. Descripción de archivos. 2015.,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8
14,8,Llave y variables de identificación de la vivi...,,,,,,,
15,2,Pregunta,,Descripción,Nemónico,Tipo,Long.,Códigos Válidos,Concepto
16,2,(1),,(2),(3),(4),(5),(6),(7)
17,8,Identificación de vivienda,,,,,,,
18,3,,,Control,CONTROL,Caracter,7,0100001…3260039,Control de identificación de la vivienda en mu...
19,9,,,,,,,,
20,3,,,Vivienda seleccionada,VIV_SEL,Caracter,2,01…40,Identificador de la vivienda seleccionada en m...
21,9,,,,,,,,
22,9,,,,,,,,
23,9,,,,,,,,


Las tablas no tienen el formato que buscamos, entonces vamos a corregir eso. 

In [34]:

for i, df in enumerate(ldfs):
    df.columns = new_cols  # Corregimos las columnas.
    ldfs[i] = df.iloc[3:,1:].dropna(axis = 1, how = 'all').dropna(axis = 0, how = 'all').ffill().iloc[1:,:]
    df['SubNombre'] = df.iloc[0, 1]  # Agregamos el nombre de la tabla al final.
ldfs[0]

Unnamed: 0,Pregunta,Descripción,Nemónico,Tipo,Long.,Códigos Válidos,Concepto
18,Identificación de vivienda,Control,CONTROL,Caracter,7.0,0100001…3260039,Control de identificación de la vivienda en mu...
20,Identificación de vivienda,Vivienda seleccionada,VIV_SEL,Caracter,2.0,01…40,Identificador de la vivienda seleccionada en m...


Ahora solo queda agruparlas en un solo dataframe.

In [35]:
all_df = pd.DataFrame()
for df in ldfs:
    all_df = pd.concat([all_df, df])


Finalmente lo exportamos a un archivo Excel. 

In [36]:
all_df.to_excel('results\\secondsheet.xlsx')

Esto fue para UNA de las hojas. Ahora haremos esto para el resto de las hojas.

In [37]:
dict_sheets = list(enadid.keys())
print(dict_sheets)
sheet = dict_sheets[0]
test = enadid[sheet]
test.head()

['TVivienda', 'THogar', 'TSDem', 'TMigrante', 'TMMujer1', 'TMMujer2', 'TFec_Hemb']


Unnamed: 0,INEGI. Encuesta Nacional de la Dinámica Demográfica 2014. Descripción de archivos. 2015.,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8
0,,,,,,,,,
1,,ESTRUCTURA DEL ARCHIVO,,,,,,,
2,,ENCUESTA NACIONAL DE LA DINÁMICA DEMOGRÁFICA 2014,,,,,,,
3,,Tabla de datos: TVivienda,,,,,,,
4,,,,,,,,,


In [38]:
def get_indextables(data):
    data['INEGI. Encuesta Nacional de la Dinámica Demográfica 2014. Descripción de archivos. 2015.'] = data.isna().sum(axis = 1)
    n_cols = data['INEGI. Encuesta Nacional de la Dinámica Demográfica 2014. Descripción de archivos. 2015.'].max()
    dfn_1 = data[data['INEGI. Encuesta Nacional de la Dinámica Demográfica 2014. Descripción de archivos. 2015.'] == n_cols - 1]
    vi = np.array(dfn_1.index)

    section_code = ['Pregunta','(1)']
    compares_list = [[data.iloc[i ,1]] + section_code for i in vi]

    i_tables = []
    for i in range(len(compares_list)):
        dvi = data.iloc[vi[i]: vi[i]+ 3,1]
        if len(dvi) == 3:
            eq = (dvi == compares_list[i]).sum()
            if eq == 3:
                i_tables.append(i)
    set_index = dfn_1.iloc[i_tables, :]
    i_tables  = list(set_index.index)
    return i_tables

def get_subtables(data: pd.DataFrame, i_tables: list):
    ldfs = []
    for i in range(len(i_tables) - 1):
        ldfs.append(data.iloc[i_tables[i]:i_tables[i + 1], :])
    new_cols = list(ldfs[0].iloc[1,:])
    return new_cols, ldfs

def clean_tables(ldfs: list, new_cols: list):
    for i, df in enumerate(ldfs):
        df.columns = new_cols  # Corregimos las columnas.
        ldfs[i] = df.iloc[3:,1:].dropna(axis = 1, how = 'all').dropna(axis = 0, how = 'all').ffill().iloc[1:,:]
        sub_name = df.iloc[0, 1]
        df['SubNombre'] = sub_name  # Agregamos el nombre de la tabla al final.

def expt_df(ldfs: list,save_to: str):
    all_df = pd.DataFrame()
    for df in ldfs:
        all_df = pd.concat([all_df, df])
    all_df.to_excel('results\\' + save_to)


Finalmente, juntamos todo. 

In [39]:
for sheet in dict_sheets:
    print(sheet)
    du = enadid[sheet]
    df = du.copy()
    itab = get_indextables(df)
    nc, ls = get_subtables(df, itab)
    clean_tables(ls, nc)
    expt_df(ls, 'enadid14_all.xlsx')


TVivienda
THogar
TSDem


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['SubNombre'] = sub_name  # Agregamos el nombre de la tabla al final.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['SubNombre'] = sub_name  # Agregamos el nombre de la tabla al final.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['SubNombre'] = sub_name  # Agregamos el nombre de la tabla

TMigrante
TMMujer1


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['SubNombre'] = sub_name  # Agregamos el nombre de la tabla al final.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['SubNombre'] = sub_name  # Agregamos el nombre de la tabla al final.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['SubNombre'] = sub_name  # Agregamos el nombre de la tabla

TMMujer2
TFec_Hemb


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['SubNombre'] = sub_name  # Agregamos el nombre de la tabla al final.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['SubNombre'] = sub_name  # Agregamos el nombre de la tabla al final.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['SubNombre'] = sub_name  # Agregamos el nombre de la tabla