# Data Types 2.0

We realize that in each data file we have different categories for the same meaning in the survey response, so in this jupyter notebook our job is to unify the characteristics of the questions.

We start by loading the libraries:

In [195]:
import pandas as pd
import os
import numpy as np
import warnings

We load our final notebook file "2.01_kgm_data_types" and check the types of each column:

In [196]:
path_parquet = os.path.join('..','data', 'interim', 'Ensanut-data.parquet')
df = pd.read_parquet(path_parquet)
df.dtypes

Folio                                   object
Edad                                     int64
Sexo                                     int64
C_Entidad                                int32
Entidad                                 object
Fecha                           datetime64[ns]
Atentar_contras_si                    category
Depresion                             category
Tristeza                              category
Cuantos cigarrillos (numero)             Int64
Frecuencia emborrachar                category
dtype: object

In the following four cells all the categories are unified for the columns 'Atentar_contras_si', 'Depresion', 'Tristeza' y 'Frecuencia emborrachar', respectively:

In [197]:
# Function to perform filtering and replacement
def filtrar_y_reemplazar(df, anios, edad_condicion):
    # Filter by years and age condition
    if  edad_condicion == 19:
        df_sub = df[(df['Fecha'].dt.year.isin(anios)) & (df['Edad'] < 20)].copy()
    
    # Perform the replacement on the column 'Atentar_contras_si'
        df_sub['Atentar_contras_si'] = df_sub['Atentar_contras_si'].replace({'1.0': '1', '2.0': '1', '3.0': '2', '9.0': '9', '1': '1', '2': '1', '3': '2'})
    else:
        df_sub = df[(df['Fecha'].dt.year.isin(anios)) & (df['Edad'] > 19)].copy()
        df_sub['Atentar_contras_si'] = df_sub['Atentar_contras_si'].replace({'1.0': '1', '2.0': '1', '3.0': '2', '9.0': '9', '1': '1', '2': '1', '3': '2'})
    
    # Concatenate the modified DataFrame back to the original
    with warnings.catch_warnings():
        warnings.simplefilter(action='ignore', category=FutureWarning)
        df = pd.concat([df[~df.index.isin(df_sub.index)], df_sub]).sort_index()
    return df

# Apply the function for each age group and age conditions
for anios, edad in [([1999, 2000], 19), ([2006], 19), ([2012], 19), ([2018], 19), ([2020], 19), ([2021], 19), ([2022], 19), ([2023], 19),([1999, 2000], 20), ([2006], 20), ([2012], 20), ([2018], 20), ([2020], 20), ([2021], 20), ([2022], 20), ([2023], 20)]:
    df = filtrar_y_reemplazar(df, anios, edad)

In [198]:
def filtrar_y_reemplazar(df, anios, edad_condicion):
    if  edad_condicion == 19:
        df_sub = df[(df['Fecha'].dt.year.isin(anios)) & (df['Edad'] < 20)].copy()

        df_sub['Depresion'] = df_sub['Depresion'].replace({'1.0': '1', '2.0': '2', '3.0': '3', '4.0': '4','1': '1', '2': '3', '3': '3', '4': '4'})
    else:
        df_sub = df[(df['Fecha'].dt.year.isin(anios)) & (df['Edad'] > 19)].copy()
        df_sub['Depresion'] = df_sub['Depresion'].replace({'1.0': '1', '2.0': '2', '3.0': '3', '4.0': '4','1': '1', '2': '2', '3': '3', '4': '4'})
    with warnings.catch_warnings():
        warnings.simplefilter(action='ignore', category=FutureWarning)
        df = pd.concat([df[~df.index.isin(df_sub.index)], df_sub]).sort_index()
    return df

for anios, edad in [([1999, 2000], 19), ([2006], 19), ([2012], 19), ([2018], 19), ([2020], 19), ([2021], 19), ([2022], 19), ([2023], 19),([1999, 2000], 20), ([2006], 20), ([2012], 20), ([2018], 20), ([2020], 20), ([2021], 20), ([2022], 20), ([2023], 20)]:
    df = filtrar_y_reemplazar(df, anios, edad)

In [199]:
def filtrar_y_reemplazar(df, anios, edad_condicion):
    if  edad_condicion == 19:
        df_sub = df[(df['Fecha'].dt.year.isin(anios)) & (df['Edad'] < 20)].copy()
    
        df_sub['Tristeza'] = df_sub['Tristeza'].replace({'1.0': '1', '2.0': '2', '3.0': '3', '4.0': '4','1': '1', '2': '2', '3': '3', '4': '4'})
    else:
        df_sub = df[(df['Fecha'].dt.year.isin(anios)) & (df['Edad'] > 19)].copy()
        df_sub['Tristeza'] = df_sub['Tristeza'].replace({'1.0': '1', '2.0': '2', '3.0': '3', '4.0': '4','1': '1', '2': '2', '3': '3', '4': '4'})
    
    with warnings.catch_warnings():
        warnings.simplefilter(action='ignore', category=FutureWarning)
        df = pd.concat([df[~df.index.isin(df_sub.index)], df_sub]).sort_index()
    return df

for anios, edad in [([1999, 2000], 19), ([2006], 19), ([2012], 19), ([2018], 19), ([2020], 19), ([2021], 19), ([2022], 19), ([2023], 19),([1999, 2000], 20), ([2006], 20), ([2012], 20), ([2018], 20), ([2020], 20), ([2021], 20), ([2022], 20), ([2023], 20)]:
    df = filtrar_y_reemplazar(df, anios, edad)

In [200]:
def filtrar_y_reemplazar(df, anios, edad_condicion):
    if  edad_condicion < 20:
        df_sub = df[(df['Fecha'].dt.year.isin(anios)) & (df['Edad'] < 20)].copy()
        if anios == [1999,2000]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace( {'0':'5', '1': '4', '2': '4', '3': '4', '4': '3', '5':'3','6': '2', '7': '2', '8': '1', '9': '6', '00':'5', '01': '4', '02': '4', '03': '4', '04': '3', '05':'3','06': '2', '07': '2', '08': '1', '09': '6', '88':'6', '99':'6'})
        elif anios == [2006]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'0':'5', '1': '1', '2': '2', '3': '2', '4': '3', '5':'4','6': '4', '7': '4', '8': '6', '9': '6','00':'5', '01': '1', '02': '2', '03': '2', '04': '3', '05':'4','06': '4', '07': '4', '08': '6', '09': '6'})

        elif anios == [2012]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1':'1', '2': '1', '3': '1', '4': '1', '5':'2','6': '2', '7': '3', '8': '3', '9': '4', '10':'4', '11': '4', '12': '4', '13': '5', '01': '1', '02': '1', '03': '1', '04': '3', '05':'2','06': '2', '07': '3', '08': '3', '09': '4', '99':'6'})

        elif anios == [2018]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1':'1', '2': '1', '3': '1', '4': '1', '5':'2','6': '2', '7': '3', '8': '3', '9': '4', '10':'4', '11': '4', '12': '4', '13': '5', '01': '1', '02': '1', '03': '1', '04': '3', '05':'2','06': '2', '07': '3', '08': '3', '09': '4', '99':'6'})

        elif anios == [2020]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1': '1', '2': '2', '3': '3', '4': '4', '5':'5','6': '6','9': '6', '01': '1', '02': '2', '03': '3', '04': '4', '05':'5', '06': '6','09': '6'})

        elif anios == [2021]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1': '1', '2': '2', '3': '3', '4': '4', '5':'5','6': '6','9': '6', '01': '1', '02': '2', '03': '3', '04': '4', '05':'5','06': '6','09': '6'})
            
            
        elif anios == [2022]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1': '1', '2': '2', '3': '3', '4': '4', '5':'5','6': '6','9': '6', '01': '1', '02': '2', '03': '3', '04': '4', '05':'5','06': '6','09': '6'})

        elif anios == [2023]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1': '1', '2': '2', '3': '3', '4': '4', '5':'5','6': '6','9': '6', '01': '1', '02': '2', '03': '3', '04': '4', '05':'5','06': '6','09': '6'})
    
        
    else:
        df_sub = df[(df['Fecha'].dt.year.isin(anios)) & (df['Edad'] > 19)].copy()
        if anios == [1999,2000]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1': '1', '2': '3', '01': '1', '02': '3',  '9':'6', '8':'5'})

        elif anios == [2006]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({ '1': '1', '2': '2', '3':'3','4':'4', '8':'6', '9':'6', '01': '1', '02': '2', '03':'03','04':'4', '08':'6','09':'6'})

        elif anios == [2012]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1':'1', '2': '1', '3': '1', '4': '1', '5':'2','6': '2', '7': '3', '8': '3', '9': '4', '10':'4', '11': '4', '12': '4', '13': '5', '01': '1', '02': '1', '03': '1', '04': '3', '05':'2','06': '2', '07': '3', '08': '3', '09': '4', '99':'6'})

        elif anios == [2018]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1': '1', '2': '2', '3':'3','4':'4', '8':'6','9':'6', '01': '1', '02': '2', '03':'03','04':'4', '08':'6','09':'6'})

        elif anios == [2020]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1': '1', '2': '2', '3': '3', '4': '4', '5':'6','6': '6','9': '6', '01': '1', '02': '2', '03': '3', '04': '4', '05':'6','06': '6','09': '6'})

        elif anios == [2021]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1': '1', '2': '2', '3': '3', '4': '4', '5':'5','8': '5','9': '6', '01': '1', '02': '2', '03': '3', '04': '4', '05':'5','08': '5','09': '6'})
            
        elif anios == [2022]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1': '1', '2': '2', '3': '3', '4': '4', '5':'5','8': '5','9': '6', '01': '1', '02': '2', '03': '3', '04': '4', '05':'5','08': '5','09': '6'})

        elif anios == [2023]:
            df_sub['Frecuencia emborrachar'] = df_sub['Frecuencia emborrachar'].replace({'1': '1', '2': '2', '3': '3', '4': '4', '5':'5','8': '5','9': '6', '01': '1', '02': '2', '03': '3', '04': '4', '05':'5','08': '5','09': '6'})


    with warnings.catch_warnings():
        warnings.simplefilter(action='ignore', category=FutureWarning)
        df = pd.concat([df[~df.index.isin(df_sub.index)], df_sub]).sort_index()
    return df


for anios, edad in [([1999, 2000], 19), ([2006], 19), ([2012], 19), ([2018], 19), ([2020], 19), ([2021], 19), ([2022], 19), ([2023], 19),([1999, 2000], 20), ([2006], 20), ([2012], 20), ([2018], 20), ([2020], 20), ([2021], 20), ([2022], 20), ([2023], 20)]:
    df = filtrar_y_reemplazar(df, anios, edad)
df['Frecuencia emborrachar'] = df['Frecuencia emborrachar'].replace({'9':'6'})

Let's see the type of data we get after the changes:

In [201]:
df.dtypes

Folio                                   object
Edad                                     int64
Sexo                                     int64
C_Entidad                                int32
Entidad                                 object
Fecha                           datetime64[ns]
Atentar_contras_si                      object
Depresion                               object
Tristeza                                object
Cuantos cigarrillos (numero)             Int64
Frecuencia emborrachar                  object
dtype: object

Since the data type information was lost we have to change the type of the corresponding columns:

In [202]:
df['Sexo'] = df['Sexo'].astype('category')
df['Atentar_contras_si'] = df['Atentar_contras_si'].astype('category')
df['Depresion'] = df['Depresion'].astype('category')
df['Tristeza'] = df['Tristeza'].astype('category')
df['Frecuencia emborrachar'] = df['Frecuencia emborrachar'].astype('category')
df['C_Entidad'] = df['C_Entidad'].astype('category')
df.dtypes

Folio                                   object
Edad                                     int64
Sexo                                  category
C_Entidad                             category
Entidad                                 object
Fecha                           datetime64[ns]
Atentar_contras_si                    category
Depresion                             category
Tristeza                              category
Cuantos cigarrillos (numero)             Int64
Frecuencia emborrachar                category
dtype: object

Now, let's check if the columns are unified:

In [203]:
for column in df.select_dtypes(include='category').columns:
    print(f"Categorías en '{column}':")
    print(df[column].cat.categories)
    print("\n")

Categorías en 'Sexo':
Index([1, 2], dtype='int64')


Categorías en 'C_Entidad':
Index([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17, 18,
       19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32],
      dtype='int32')


Categorías en 'Atentar_contras_si':
Index(['1', '2', '9'], dtype='object')


Categorías en 'Depresion':
Index(['1', '2', '3', '4'], dtype='object')


Categorías en 'Tristeza':
Index(['1', '2', '3', '4', '9'], dtype='object')


Categorías en 'Frecuencia emborrachar':
Index(['1', '2', '3', '4', '5', '6'], dtype='object')




Finally, let's save the file and add a new Ydata report to "docs/docs":

Note: The catalog of this file and subsequent files can be found in the "references" directory.

In [205]:
path_save = os.path.join('..','data', 'interim', 'Ensanut-data-2.csv')
path_save_parquet = os.path.join('..','data', 'interim', 'Ensanut-data-2.parquet')
df.to_csv(path_save, index=False)
df.to_parquet(path_save_parquet)

ruta_output_y = os.path.join('..','docs', 'docs', 'interim-MH-data.html')
title = "ENSANUT YData Profiling Report"
#Ydata
df = pd.read_parquet(path_save_parquet)
profile_ensa_ydata = ProfileReport(df, title=title, explorative=True, minimal = True)
profile_ensa_ydata.to_file(ruta_output_y)
print(f"YData report save: {ruta_output_y}")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

YData report save: ..\docs\docs\interim-MH-data.html
