# Tipos de datos

En esta libreta vamos a corregir los tipos de datos, para obtener un nuevo archivo .csv en data\processed, posteriormente se hace un analisis Ydata para ver datos faltantes y anomalias.

Importamos las librerias que nos ayudan en esta fase.

In [65]:
import pandas as pd
import os
import datetime
from ydata_profiling import ProfileReport

Comenzamos por cargar el dataset que tiene los datos concatenados y con una columna del nombre del estado.

In [66]:
path = os.path.join('..', 'data', 'interim', 'Ensanut-data-p.csv') # Direccion del archivo

df = pd.read_csv(path, low_memory =False) # Cargamos dataframe

Dado que nuestro archivo es grande puede ser que no se haya cargado con el tipo de dat correcto, asi que verifiquemos el tipo de dato de las columnas:

In [67]:
print(df.dtypes)

Folio                           object
Edad                             int64
Sexo                             int64
C_Entidad                        int64
Entidad                         object
Fecha                           object
Atentar_contras_si              object
Depresion                       object
Tristeza                        object
Cuantos cigarrillos (numero)    object
Frecuencia emborrachar          object
dtype: object


Procedemos a poner el tipo de dato correcto

In [68]:
# Cambiar los tipos de datos
df['Edad'] = df['Edad'].astype(int)    # Asegurar que es entero
df['Sexo'] = df['Sexo'].astype('category')  # Convertir a categoría
df['C_Entidad'] = df['C_Entidad'].astype('category')  # Convertir a categoría
df['Fecha'] = pd.to_datetime(df['Fecha'], errors='coerce')  # Convertir a fecha
df['Atentar_contras_si'] = df['Atentar_contras_si'].astype('category')  # Convertir a categoría
df['Depresion'] = df['Depresion'].astype('category')  # Convertir a categoría
df['Tristeza'] = df['Tristeza'].astype('category')  # Convertir a categoría
df['Cuantos cigarrillos (numero)'] = pd.to_numeric(df['Cuantos cigarrillos (numero)'], errors='coerce').astype('Int64')  # Convertir a entero con NaN permitido
df['Frecuencia emborrachar'] = df['Frecuencia emborrachar'].astype('category')  # Convertir a categoría

# Verificar los tipos de datos después de la conversión
print(df.dtypes)

Folio                                   object
Edad                                     int32
Sexo                                  category
C_Entidad                             category
Entidad                                 object
Fecha                           datetime64[ns]
Atentar_contras_si                    category
Depresion                             category
Tristeza                              category
Cuantos cigarrillos (numero)             Int64
Frecuencia emborrachar                category
dtype: object


Guardamos el archivo:

In [69]:
path_save = os.path.join('..','data', 'interim', 'Ensanut-data.csv')
path_save_parquet = os.path.join('..','data', 'interim', 'Ensanut-data.parquet')
df.to_csv(path_save, index=False)
df.to_parquet(path_save_parquet)

Creamos un reporte Ydata para nuestro nuesto archivo, el nuevo reporte se guarda en docs\docs

In [70]:
ruta_output_y = os.path.join('..','docs', 'docs', 'interim-MH-data.html')
title = "ENSANUT YData Profiling Report"
#Ydata
df = pd.read_parquet(path_save_parquet)
profile_ensa_ydata = ProfileReport(df, title=title, explorative=True, minimal = True)
profile_ensa_ydata.to_file(ruta_output_y)
print(f"YData report save: {ruta_output_y}")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

YData report save: ..\docs\docs\interim-MH-data.html
