# Data Types

In this notebook we are going to correct the data types, to obtain a new .csv file in data\processed, then a Ydata analysis is done to see missing data and anomalies.

We import the libraries that help us in this phase.

In [17]:
import pandas as pd
import os
import datetime
import numpy as np
from ydata_profiling import ProfileReport

We start by loading the dataset that has the concatenated data and a column with the state name.

In [18]:
path = os.path.join('..', 'data', 'interim', 'Ensanut-data-p.parquet') # Direccion del archivo

df = pd.read_parquet(path) # Cargamos dataframe

Since our file is large, it may not have been loaded with the correct data type, so let's check the data type of the columns:

In [19]:
print(df.dtypes)

Folio                           object
Edad                             int64
Sexo                             int64
C_Entidad                        int32
Entidad                         object
Fecha                           object
Atentar_contras_si              object
Depresion                       object
Tristeza                        object
Cuantos cigarrillos (numero)    object
Frecuencia emborrachar          object
dtype: object


We proceed to set the correct data type:

In [20]:
df.replace(["", " "], np.nan, inplace=True)
# Cambiar los tipos de datos
df['Edad'] = df['Edad'].astype('int64')    # Asegurar que es entero
df['Sexo'] = df['Sexo'].astype('category')  # Convertir a categoría
df['C_Entidad'] = df['C_Entidad'].astype('category')  # Convertir a categoría
df['Fecha'] = pd.to_datetime(df['Fecha'], errors='coerce')  # Convertir a fecha
df['Atentar_contras_si'] = df['Atentar_contras_si'].astype('category')  # Convertir a categoría
df['Depresion'] = df['Depresion'].astype('category')  # Convertir a categoría
df['Tristeza'] = df['Tristeza'].astype('category')  # Convertir a categoría
df['Cuantos cigarrillos (numero)'] = pd.to_numeric(df['Cuantos cigarrillos (numero)'], errors='coerce').astype('Int64')  # Convertir a entero con NaN permitido
df['Frecuencia emborrachar'] = df['Frecuencia emborrachar'].astype('category')  # Convertir a categoría

# Verificar los tipos de datos después de la conversión
print(df.dtypes)

Folio                                   object
Edad                                     int64
Sexo                                  category
C_Entidad                             category
Entidad                                 object
Fecha                           datetime64[ns]
Atentar_contras_si                    category
Depresion                             category
Tristeza                              category
Cuantos cigarrillos (numero)             Int64
Frecuencia emborrachar                category
dtype: object


We save the file (csv and parquet to lose less information):

In [21]:
path_save = os.path.join('..','data', 'interim', 'Ensanut-data.csv')
path_save_parquet = os.path.join('..','data', 'interim', 'Ensanut-data.parquet')
df.to_csv(path_save, index=False)
df.to_parquet(path_save_parquet)