## 📦 Librerías y Configuración Inicial

Para nuestros ejemplos, usaremos las siguientes librerías esenciales en ingeniería de datos:

In [35]:
import pandas as pd          # Manipulación y análisis de datos
import sqlite3              # Base de datos SQL ligera
import numpy as np          # Operaciones numéricas
import json                 # Manejo de datos JSON
import logging              # Sistema de logs
from datetime import datetime, timedelta
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

# Configuración de logging para monitorear el pipeline
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Extraemos los datos atravez de la base de datos en excel

In [36]:
def extract_from_database() -> pd.DataFrame:

    try:
        logger.info("Iniciando extracción de datos...")
        
        # Cargar los datos
         # Cargar los datos
        file_path = '..\\data\\raw\\Paper1_WebData_Final.csv'
        df = pd.read_csv(file_path)
        
        print("--- 1. Datos Crudos Extraídos ---")
        print(f"Registros extraídos: {len(df)}")
        print(f"Columnas: {list(df.columns)}")
        print("\nPrimeras filas:")
        print(df)
        print("\nInformación del DataFrame:")
        print(df.info())
        print('')
        
        logger.info(f"Extracción completada: {len(df)} registros")
        
        return df
        
    except Exception as e:
        logger.error(f"Error en la extracción: {str(e)}")
        raise

# Testeamos la extraccion de los datos

In [37]:
df = extract_from_database()

2025-09-06 21:37:52,128 - INFO - Iniciando extracción de datos...


--- 1. Datos Crudos Extraídos ---
Registros extraídos: 1114966
Columnas: ['test_date', 'nid', 'L500k', 'L1k', 'L2k', 'L3k', 'L4k', 'L6k', 'L8k', 'R500k', 'R1k', 'R2k', 'R3k', 'R4k', 'R6k', 'R8k', 'gender', 'naics', 'age_group', 'region', 'NAICS_descr']

Primeras filas:


2025-09-06 21:37:54,535 - INFO - Extracción completada: 1114966 registros


           test_date      nid  L500k   L1k   L2k   L3k   L4k   L6k   L8k  \
0        12-FEB-2007        1   10.0   5.0   5.0  15.0   5.0   0.0  20.0   
1        29-FEB-2008        2   15.0   5.0  15.0  20.0  20.0  15.0  15.0   
2        08-FEB-2006        3   25.0  20.0  15.0  20.0  35.0  25.0  15.0   
3        29-FEB-2008        6   10.0  10.0  10.0  35.0  50.0  30.0  10.0   
4        08-FEB-2006        8   15.0  15.0   5.0  15.0  45.0  30.0  20.0   
...              ...      ...    ...   ...   ...   ...   ...   ...   ...   
1114961  11-DEC-2001  3214185   20.0  15.0  20.0  15.0  25.0  15.0  25.0   
1114962  02-DEC-2002  3214186    5.0   5.0  15.0  50.0  60.0  55.0  25.0   
1114963  31-JAN-2001  3214187   10.0   5.0   5.0   0.0  10.0  10.0  10.0   
1114964  13-MAR-2001  3214189   10.0   0.0   5.0   0.0  10.0  15.0  10.0   
1114965  13-MAR-2001  3214191    5.0   5.0  10.0  15.0  10.0  15.0  35.0   

         R500k  ...   R2k   R3k   R4k   R6k   R8k  gender   naics  age_group  \
0      

## Parte del proceso EDA: Exploración de los datos

En esta etapa del análisis exploratorio de datos (EDA), nos enfocamos en examinar el tipo de datos con los que estamos trabajando, así como en entender sus distribuciones y su significado.

In [38]:
def ver_distribucion(df: pd.DataFrame):
    try:
        logger.info("Verificando distribución de datos...")
        print(df.describe(include='all'))
        logger.info("Distribución verificada.")
    except Exception as e:
        logger.error(f"Error al verificar distribución: {str(e)}")
        raise
ver_distribucion(df)

2025-09-06 21:37:54,558 - INFO - Verificando distribución de datos...
2025-09-06 21:37:56,104 - INFO - Distribución verificada.


          test_date           nid         L500k           L1k           L2k  \
count       1114966  1.114966e+06  1.114910e+06  1.114900e+06  1.114905e+06   
unique         3137           NaN           NaN           NaN           NaN   
top     05-MAR-2008           NaN           NaN           NaN           NaN   
freq           2879           NaN           NaN           NaN           NaN   
mean            NaN  1.793365e+06  9.533200e+00  8.793782e+00  1.138195e+01   
std             NaN  1.113799e+06  2.050912e+01  2.181823e+01  2.547234e+01   
min             NaN  1.000000e+00 -1.000000e+01 -1.000000e+01 -1.000000e+01   
25%             NaN  4.963842e+05  5.000000e+00  5.000000e+00  5.000000e+00   
50%             NaN  2.311976e+06  1.000000e+01  5.000000e+00  1.000000e+01   
75%             NaN  2.644766e+06  1.500000e+01  1.000000e+01  1.500000e+01   
max             NaN  3.214191e+06  9.990000e+02  9.990000e+02  9.990000e+02   

                 L3k           L4k           L6k   

# Ahora vamos a verificar el tipo de dato de todas las colunas y si es necesario cambiarlo :
columna | tipo de dato
- test_date      String (fecha)
- nid           numerico
- L500k         numerico
- L1k           numerico
- L2k           numerico
- L3k           numerico
- L4k           numerico
- L6k           numerico
- L8k           numerico
- R500k         numerico
- R1k           numerico
- R2k           numerico
- R3k           numerico
- R4k           numerico
- R6k           numerico
- R8k           numerico
- gender         String
- naics          Numerico #North American Industry Classification System 2007 code
- age_group      Numerico #Age group (1= 1825 years; 2 = 2635; 3 = 3645; 4 = 4655; 5 = 5665)
- region         String
- NAICS_descr    String North American Industry Classification System 2007 code industry title

In [39]:
def check_type_data(df:pd.DataFrame) -> pd.DataFrame:
    type_data = df.dtypes
    type_df = pd.DataFrame({'Data Type': type_data})
    print("\n--- 3. Tipo de Datos por Columna ---")
    print(type_df)

    print("\nParceamos los tipo de dato")
    columnas_numericas = ["nid",'naics','L500k', 'L1k', 'L2k', 'L3k', 'L4k', 'L6k', 'L8k', 'R500k', 'R1k', 'R2k', 'R3k', 'R4k', 'R6k', 'R8k' ,"age_group"]
    columnas_string = ["gender","region","NAICS_descr"]
    columnas_fecha = ["test_date"] 

    for col in df.columns:
        if col in columnas_numericas:
            df[col] = pd.to_numeric(df[col], errors='coerce')
        elif col in columnas_string:
            df[col] = df[col].astype('string')
        elif col in columnas_fecha:
            df[col] = pd.to_datetime(df[col], format='%d-%m-%Y', errors='coerce')
        else:
            print(f"Columna no categorizada: {col}")

    print("\n--- 4. Tipo de Datos Después del Parseo ---")
    print(type_df)
    return df
df = check_type_data(df)


--- 3. Tipo de Datos por Columna ---
            Data Type
test_date      object
nid             int64
L500k         float64
L1k           float64
L2k           float64
L3k           float64
L4k           float64
L6k           float64
L8k           float64
R500k         float64
R1k           float64
R2k           float64
R3k           float64
R4k           float64
R6k           float64
R8k           float64
gender         object
naics           int64
age_group       int64
region         object
NAICS_descr    object

Parceamos los tipo de dato

--- 4. Tipo de Datos Después del Parseo ---
            Data Type
test_date      object
nid             int64
L500k         float64
L1k           float64
L2k           float64
L3k           float64
L4k           float64
L6k           float64
L8k           float64
R500k         float64
R1k           float64
R2k           float64
R3k           float64
R4k           float64
R6k           float64
R8k           float64
gender         object
naics    

## Ahora vamos a hallar los datos vacios y los vamos a remplazar con medidas de tendencia central (esto es parte de la transformacaón (EDA))
hay algunos datos como 999 998 997 los cuales representan ademas de los datos nulos:
- 997 = refusal to test (esta fila la podemos eliminar)
- 998 = no response at maximum value (podemos remplazarlo con el dato maximo)
- 999 = not tested (podemos remplazarlo con medidas de tendencia central)


In [40]:

# miramos cuantos datos nulos hay en cada columna
def check_missing_data(df):
    missing_data = df.isnull().sum()
    # buscamos 997 998 999 en las columnas de frecuencias de la audiometria
    colums_to_check = ['L500k', 'L1k', 'L2k', 'L3k', 'L4k', 'L6k', 'L8k', 'R500k', 'R1k', 'R2k', 'R3k', 'R4k', 'R6k', 'R8k', 'gender']
    for col in colums_to_check:
        if col in df.columns:
            missing_data += df[col].isin([997, 998, 999]).sum()
    missing_percentage = (missing_data / len(df)) * 100
    missing_df = pd.DataFrame({'Missing Values': missing_data, 'Percentage': missing_percentage})
    missing_df = missing_df[missing_df['Missing Values'] > 0].sort_values(by='Missing Values', ascending=False)
    
    print("\n--- 2. Datos Faltantes por Columna ---")
    print(missing_df)
    
    return missing_df

check_missing_data(df)


--- 2. Datos Faltantes por Columna ---
             Missing Values  Percentage
test_date           1755373  157.437357
region               668463   59.953667
gender               643651   57.728307
R8k                  642714   57.644269
L8k                  642693   57.642386
R6k                  640505   57.446146
L6k                  640484   57.444263
R2k                  640480   57.443904
R1k                  640477   57.443635
R500k                640476   57.443545
R3k                  640474   57.443366
L1k                  640473   57.443276
L2k                  640468   57.442828
L3k                  640468   57.442828
L500k                640463   57.442379
R4k                  640459   57.442021
L4k                  640441   57.440406
nid                  640407   57.437357
naics                640407   57.437357
age_group            640407   57.437357
NAICS_descr          640407   57.437357


Unnamed: 0,Missing Values,Percentage
test_date,1755373,157.437357
region,668463,59.953667
gender,643651,57.728307
R8k,642714,57.644269
L8k,642693,57.642386
R6k,640505,57.446146
L6k,640484,57.444263
R2k,640480,57.443904
R1k,640477,57.443635
R500k,640476,57.443545


## Ahora vemos ha usar tecnicas de imputacion de datos para remplazar los datos falantes
- tambien se va a realizar el cambio de nombres de las columnas


In [41]:
def transform_data(df:pd.DataFrame):
    try:
        
        logger.info("Iniciando transformación de datos...")
    
        df.replace([997, 998, 999], np.nan, inplace=True)

        # Hallamos el promedio de las columnas de frecuencias de la audiometria que no son nulas
        columnas_frecuencias =['L500k', 'L1k', 'L2k', 'L3k', 'L4k', 'L6k', 'L8k', 'R500k', 'R1k', 'R2k', 'R3k', 'R4k', 'R6k', 'R8k']
        promedios = df[columnas_frecuencias].mean()


        # Rellenar NaN con el promedio correspondiente
        df[columnas_frecuencias] = df[columnas_frecuencias].fillna(promedios)
        logger.info("Transformación completada exitosamente.")

        return df

    except Exception as e:
        logger.error(f"Error en la transformación: {str(e)}")
        raise

df = transform_data(df)

2025-09-06 21:37:58,427 - INFO - Iniciando transformación de datos...
2025-09-06 21:37:59,837 - INFO - Transformación completada exitosamente.
