# DOCUMENTACIÓN


Aquí encontrarás las definiciones e información sobre el uso de funciones, modúlo u otras herramientas creadas para faciltar el trabajo de análisis en el proyecto

**diccionario_dataset**

Es un módulo creado dentro del área global del repositorio con la finalidad de guardar funciones que pueden ser usadas en los notebooks para consultar información de soporte

*diccionario_dataset.atajos("ver")*

Esta sentencia imprime la abreviación que se usa en los datasets 'datos...'  y muestra el nombre completo de las columnas al que hacen referencia las abreviaturas de las columnas de los datasets.

Se recomeinda usarla cuando se necesite conocer cuál es el significado de las cabeceras de las columnas 

*print(diccionario_dataset.info_features("  "))*

Esta sentencia imprime la información necesaria para enteder cada feature de los datset 'datos...' desde a que hace referencia, como a los valores asignados por el INEGI y su significado.

Esta sentencia usa como parametro los nombres de las columnas del dataset. Para que la sentencia llame la información asociada a cada nombre de columna o feature se debe ingresar el nombre de dicha columna en los parentesis 'internos' y entre comillas simples o dobles.

Se envuelve la sentencia en la función "print()" para facilitar la visualizzación de la información y que esta sea presentada en formato parrafo. La sentencia funciona aún si esta no se envuelve en la función 'print'.

**diccionario_variables**

Es una utilidad creada para proporcionar información de las variables creadas en el notebook 

*print(diccionario_variables(" "))*

Esta sentencia imprime la información necesaria sobre las variables usadas en el notebook

La sentencia usa como parametros los nombres de las variables que se registran en la función 'diccionario_variables' y que corresponden a las usadas en el notebook. Para que la sentencia llame la información asociada a cada variable del notebook la variable debe existir en el diccionario de la función y se debe ingresar el nombre de dicha variable en los parentesis 'internos' de la sentencia y entre comillas simples o dobles.

Se envuelve la sentencia en la función "print()" para facilitar la visualizzación de la información y que esta sea presentada en formato parrafo. La sentencia funciona aún si esta no se envuelve en la función 'print', por ejemplo:

print(diccionario_variables("ruta_data"))

# UTILIDADES

In [4]:
def diccionario_variables(a):

    #Función que imprime información sobre las variables que se usan en el notebook

    variable = {

        # Variables de rutas para acceder a la data

        'ruta_data' : 'Significado: Ruta al directorio de datos \nDescripción: Guarda la ruta del directorio donde se encuentra la data',
        'file_path_2018' : 'Significado: Ruta al archivo de datos del año 2018 \nDescripción: Guarda la ruta especifica del archivo en formato .csv que contiene los datos de interes para el año 2018',
        'file_path_2019' : 'Significado: Ruta al archivo de datos del año 2019 \nDescripción: Guarda la ruta especifica del archivo en formato .csv que contiene los datos de interes para el año 2019',
        'file_path_2020' : 'Significado: Ruta al archivo de datos del año 2020 \nDescripción: Guarda la ruta especifica del archivo en formato .csv que contiene los datos de interes para el año 2020',
        'file_path_2021' : 'Significado: Ruta al archivo de datos del año 2021 \nDescripción: Guarda la ruta especifica del archivo en formato .csv que contiene los datos de interes para el año 2021',
        'file_path_2022' : 'Significado: Ruta al archivo de datos del año 2022 \nDescripción: Guarda la ruta especifica del archivo en formato .csv que contiene los datos de interes para el año 2022',

        # Dataframes

        'df_divorcios_2018' : 'Significado: Data Frame de divorcios correspondientes al 2018 \nDescripción: Guarda la conversión del archivo conjunto_de_datos_2018.csv en un Pandas Data Frame',
        'df_divorcios_2019' : 'Significado: Data Frame de divorcios correspondientes al 2019 \nDescripción: Guarda la conversión del archivo conjunto_de_datos_2019.csv en un Pandas Data Frame',
        'df_divorcios_2020' : 'Significado: Data Frame de divorcios correspondientes al 2020 \nDescripción: Guarda la conversión del archivo conjunto_de_datos_2020.csv en un Pandas Data Frame',
        'df_divorcios_2021' : 'Significado: Data Frame de divorcios correspondientes al 2021 \nDescripción: Guarda la conversión del archivo conjunto_de_datos_2021.csv en un Pandas Data Frame',
        'df_divorcios_2022' : 'Significado: Data Frame de divorcios correspondientes al 2022 \nDescripción: Guarda la conversión del archivo conjunto_de_datos_2022.csv en un Pandas Data Frame',
    }

    if a in variable:
        print(f"Información de la variable {a}")

        return(variable[a])
    else: 
        print(f"La variable {a} no se encuentra registrada")
    
    diccionario_variables("ruta_data")

# IMPORTACIÓN DE RECURSOS 

In [5]:
# Librerías para interactuar con el sistema operativo y el entorno en el que se ejecuta el script de Python

import sys
import os


In [6]:
# Librería para la manipulación de datos, cálculos numéricos y análisis científico

import pandas as pd
import numpy as np
import scipy

In [7]:
# Librerías para el uso de gráficos estadísticos 

import seaborn as sns
import matplotlib.pyplot as plt

In [8]:
# Se añade el directorio utilidades a la lista de directorios o path para poder ser usado en el notebook con una instrucción 'import'

sys.path.append(os.path.abspath('../utilidades'))


In [44]:
# Módulo creado para consultar de forma más répida información del proyecto como el significado de los nombres de las columnas
import diccionario_dataset


In [10]:
import glob

# ADQUISICIÓN DE DATOS 

In [11]:
ruta_data = '../datasets'

In [12]:
file_path_2018 = os.path.join(ruta_data, 'datos_2018/conjunto_de_datos/conjunto_de_datos_divorcios_2018.csv')
file_path_2019 = os.path.join(ruta_data, 'datos_2019/conjunto_de_datos/conjunto_de_datos_divorcios_2019.csv')
file_path_2020 = os.path.join(ruta_data, 'datos_2020/conjunto_de_datos/conjunto_de_datos_divorcios_2020.csv')
file_path_2021 = os.path.join(ruta_data, 'datos_2021/conjunto_de_datos/conjunto_de_datos_divorcios_2021.csv')
file_path_2022 = os.path.join(ruta_data, 'datos_2022/conjunto_de_datos/conjunto_de_datos_divorcios_2022.csv')

In [13]:
df_divorcios_2018 = pd.read_csv(file_path_2018)
df_divorcios_2019 = pd.read_csv(file_path_2019)
df_divorcios_2020 = pd.read_csv(file_path_2020)
df_divorcios_2021 = pd.read_csv(file_path_2021)
df_divorcios_2022 = pd.read_csv(file_path_2022)

# EDA PRELIMINAR

## Revisión de la forma de los datasets

In [14]:
df_divorcios_2018.shape

(156556, 64)

In [15]:
df_divorcios_2018.shape

(156556, 64)

In [16]:
df_divorcios_2019.shape

(160107, 64)

In [17]:
df_divorcios_2020.shape

(92739, 64)

In [18]:
df_divorcios_2021.shape

(149675, 64)

In [19]:
df_divorcios_2022.shape

(166766, 64)

In [20]:
df_originales = {

    '2018' : df_divorcios_2018,
    '2019' : df_divorcios_2019,
    '2020' : df_divorcios_2020,
    '2021' : df_divorcios_2021,
    '2022' : df_divorcios_2022
}

In [21]:
forma = {elemento: df.shape for elemento, df in df_originales.items()}

In [22]:
df_forma = pd.DataFrame.from_dict(forma, orient='index', columns=['Filas', 'Columnas'])


In [23]:
print(df_forma)

       Filas  Columnas
2018  156556        64
2019  160107        64
2020   92739        64
2021  149675        64
2022  166766        64


**Observaciones:**

Se comprobó que los dataset cuentan con la misma cantidad de columnas 

## Verificación de existencia de columnas comunes entre data sets

In [30]:
l_columns_2018 = df_divorcios_2018.columns.to_list()
l_columns_2019 = df_divorcios_2019.columns.to_list()
l_columns_2020 = df_divorcios_2020.columns.to_list()
l_columns_2021 = df_divorcios_2021.columns.to_list()
l_columns_2022 = df_divorcios_2022.columns.to_list()

In [32]:
#Convierte las listas de 'Etiquetas de columnas' y las convierte DataFrames

df_columns_2018 = pd.DataFrame({"2018" : l_columns_2018})
df_columns_2019 = pd.DataFrame({"2019" : l_columns_2019})
df_columns_2020 = pd.DataFrame({'2020': l_columns_2020}) 
df_columns_2021 = pd.DataFrame({'2021' : l_columns_2021})
df_columns_2022 = pd.DataFrame({'2022': l_columns_2022})

In [41]:
#Concatena o une todos los dataframes 'df_coloumns_...' creados en la celda anterior( celda 32)

df_columnas = pd.concat([df_columns_2018,df_columns_2019,df_columns_2020,df_columns_2021,df_columns_2022], axis=1)
df_columnas

Unnamed: 0,2018,2019,2020,2021,2022
0,tipo_div,tipo_div,tipo_div,tipo_div,tipo_div
1,ent_regis,ent_regis,ent_regis,ent_regis,ent_regis
2,mun_regis,mun_regis,mun_regis,mun_regis,mun_regis
3,loc_regis,loc_regis,loc_regis,loc_regis,loc_regis
4,tloc_regis,tloc_regis,tloc_regis,tloc_regis,tloc_regis
...,...,...,...,...,...
59,dura_leg,dura_leg,dura_leg,dura_leg,dura_leg
60,edad_mdiv1,edad_mdiv1,edad_mdiv1,edad_mdiv1,edad_mdiv1
61,edad_mdiv2,edad_mdiv2,edad_mdiv2,edad_mdiv2,edad_mdiv2
62,t_dvante,t_dvante,t_dvante,t_dvante,t_dvante


In [43]:
def comparar_listas_ordenadas(*listas):

    #Función que determina si las listas de 'etiquetas de columnas' de los dataframes son iguales

    primera_lista = listas[0]
    for lista in listas[1:]:
        if lista != primera_lista:
            return False
    return True

# Llamar a la función
resultado = comparar_listas_ordenadas(l_columns_2018, l_columns_2019, l_columns_2020, l_columns_2021, l_columns_2022)
print("Todas las listas tienen el mismo contenido y orden:", resultado)

Todas las listas tienen el mismo contenido y orden: True


**Conclusión**

Se comprueba que las columnas existente en los dataframes contienen los mismos nombres de columnas