## 📦 Librerías y Configuración Inicial

Para nuestros ejemplos, usaremos las siguientes librerías esenciales en ingeniería de datos:

In [35]:
import pandas as pd          # Manipulación y análisis de datos
import sqlite3              # Base de datos SQL ligera
import numpy as np          # Operaciones numéricas
import json                 # Manejo de datos JSON
import logging              # Sistema de logs
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Configuración de logging para monitorear el pipeline
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Extraemos los datos atravez de la base de datos en excel

In [None]:
 # Cargar los datos
file_path = '..\\data\\raw\\Paper1_WebData_Final.csv'
df = pd.read_csv(file_path)

In [44]:
def extract_from_database(df: pd.DataFrame) -> pd.DataFrame:

    try:
        logger.info("Iniciando extracción de datos...")
        
        # Cargar los datos
        df = df
        
        print("--- 1. Datos Crudos Extraídos ---")
        print(f"Registros extraídos: {len(df)}")
        print(f"Columnas: {list(df.columns)}")
        print("\nPrimeras filas:")
        print(df)
        print("\nInformación del DataFrame:")
        print(df.info())
        print('')
        
        logger.info(f"Extracción completada: {len(df)} registros")
        
        return df
        
    except Exception as e:
        logger.error(f"Error en la extracción: {str(e)}")
        raise

# Testeamos la extraccion de los datos

In [45]:
extract_from_database(df)

2025-09-06 11:52:14,077 - INFO - Iniciando extracción de datos...
2025-09-06 11:52:14,260 - INFO - Extracción completada: 1114966 registros


--- 1. Datos Crudos Extraídos ---
Registros extraídos: 1114966
Columnas: ['test_date', 'nid', 'L500k', 'L1k', 'L2k', 'L3k', 'L4k', 'L6k', 'L8k', 'R500k', 'R1k', 'R2k', 'R3k', 'R4k', 'R6k', 'R8k', 'gender', 'naics', 'age_group', 'region', 'NAICS_descr']

Primeras filas:
         test_date      nid    L500k   L1k   L2k   L3k   L4k   L6k   L8k  R500k   R1k   R2k   R3k   R4k   R6k   R8k gender   naics  age_group region                    NAICS_descr                    
0        12-FEB-2007        1  10.0    5.0   5.0  15.0   5.0   0.0  20.0  20.0   20.0  10.0  10.0  25.0  30.0  45.0    M    331512      4       MA                           Steel Investment Foundries
1        29-FEB-2008        2  15.0    5.0  15.0  20.0  20.0  15.0  15.0  10.0    0.0  10.0  15.0  30.0  20.0  15.0    M    331512      3       MA                           Steel Investment Foundries
2        08-FEB-2006        3  25.0   20.0  15.0  20.0  35.0  25.0  15.0  20.0   20.0  10.0  15.0  40.0  30.0  30.0    M    331512

Unnamed: 0,test_date,nid,L500k,L1k,L2k,L3k,L4k,L6k,L8k,R500k,R1k,R2k,R3k,R4k,R6k,R8k,gender,naics,age_group,region,NAICS_descr
0,12-FEB-2007,1,10.0,5.0,5.0,15.0,5.0,0.0,20.0,20.0,20.0,10.0,10.0,25.0,30.0,45.0,M,331512,4,MA,Steel Investment Foundries
1,29-FEB-2008,2,15.0,5.0,15.0,20.0,20.0,15.0,15.0,10.0,0.0,10.0,15.0,30.0,20.0,15.0,M,331512,3,MA,Steel Investment Foundries
2,08-FEB-2006,3,25.0,20.0,15.0,20.0,35.0,25.0,15.0,20.0,20.0,10.0,15.0,40.0,30.0,30.0,M,331512,3,MA,Steel Investment Foundries
3,29-FEB-2008,6,10.0,10.0,10.0,35.0,50.0,30.0,10.0,10.0,10.0,5.0,30.0,35.0,25.0,20.0,M,331512,4,MA,Steel Investment Foundries
4,08-FEB-2006,8,15.0,15.0,5.0,15.0,45.0,30.0,20.0,15.0,15.0,5.0,40.0,50.0,20.0,5.0,M,331512,3,MA,Steel Investment Foundries
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1114961,11-DEC-2001,3214185,20.0,15.0,20.0,15.0,25.0,15.0,25.0,15.0,15.0,10.0,15.0,20.0,20.0,15.0,M,334418,3,MW,Printed Circuit Assembly (Electronic Assembly)...
1114962,02-DEC-2002,3214186,5.0,5.0,15.0,50.0,60.0,55.0,25.0,10.0,15.0,30.0,55.0,60.0,55.0,50.0,M,334418,4,MW,Printed Circuit Assembly (Electronic Assembly)...
1114963,31-JAN-2001,3214187,10.0,5.0,5.0,0.0,10.0,10.0,10.0,5.0,0.0,0.0,5.0,5.0,15.0,10.0,M,334418,1,MW,Printed Circuit Assembly (Electronic Assembly)...
1114964,13-MAR-2001,3214189,10.0,0.0,5.0,0.0,10.0,15.0,10.0,5.0,0.0,5.0,5.0,10.0,10.0,10.0,F,334418,1,MW,Printed Circuit Assembly (Electronic Assembly)...


## Ahora vamos a hallar los datos vacios y los vamos a remplazar con medidas de tendencia central
hay algunos datos como 999 998 997 los cuales representan ademas de los datos nulos:
- 997 = refusal to test (esta fila la podemos eliminar)
- 998 = no response at maximum value (podemos remplazarlo con el dato maximo)
- 999 = not tested (podemos remplazarlo con medidas de tendencia central)


In [None]:

# miramos cuantos datos nulos hay en cada columna
def check_missing_data(df):
    missing_data = df.isnull().sum()
    # buscamos 997 998 999 en las columnas de frecuencias de la audiometria
    colums_to_check = ['L500k', 'L1k', 'L2k', 'L3k', 'L4k', 'L6k', 'L8k', 'R500k', 'R1k', 'R2k', 'R3k', 'R4k', 'R6k', 'R8k', 'gender']
    for col in colums_to_check:
        if col in df.columns:
            missing_data += df[col].isin([997, 998, 999]).sum()
    missing_percentage = (missing_data / len(df)) * 100
    missing_df = pd.DataFrame({'Missing Values': missing_data, 'Percentage': missing_percentage})
    missing_df = missing_df[missing_df['Missing Values'] > 0].sort_values(by='Missing Values', ascending=False)
    
    print("\n--- 2. Datos Faltantes por Columna ---")
    print(missing_df)
    
    return missing_df

check_missing_data(df)

2025-09-06 10:57:02,063 - INFO - Iniciando extracción de datos...
2025-09-06 10:57:04,103 - INFO - Extracción completada: 1114966 registros


         test_date      nid    L500k   L1k   L2k   L3k   L4k   L6k   L8k  R500k   R1k   R2k   R3k   R4k   R6k   R8k gender   naics  age_group region                    NAICS_descr                    
0        12-FEB-2007        1  10.0    5.0   5.0  15.0   5.0   0.0  20.0  20.0   20.0  10.0  10.0  25.0  30.0  45.0    M    331512      4       MA                           Steel Investment Foundries
1        29-FEB-2008        2  15.0    5.0  15.0  20.0  20.0  15.0  15.0  10.0    0.0  10.0  15.0  30.0  20.0  15.0    M    331512      3       MA                           Steel Investment Foundries
2        08-FEB-2006        3  25.0   20.0  15.0  20.0  35.0  25.0  15.0  20.0   20.0  10.0  15.0  40.0  30.0  30.0    M    331512      3       MA                           Steel Investment Foundries
3        29-FEB-2008        6  10.0   10.0  10.0  35.0  50.0  30.0  10.0  10.0   10.0   5.0  30.0  35.0  25.0  20.0    M    331512      4       MA                           Steel Investment Foundries


Unnamed: 0,Missing Values,Percentage
region,668463,59.953667
gender,643651,57.728307
R8k,642714,57.644269
L8k,642693,57.642386
R6k,640505,57.446146
L6k,640484,57.444263
R2k,640480,57.443904
R1k,640477,57.443635
R500k,640476,57.443545
R3k,640474,57.443366


## Ahora vemos ha usar tecnicas de imputacion de datos para remplazar los datos falantes