# Notebook 02: Limpieza de Datos

**Hito 1 - An√°lisis de Redes y Consumo de Servicios**

Este notebook realiza:
1. Carga del dataset snapshot desde `data/processed/`
2. Validaci√≥n de esquema y dominios
3. Normalizaci√≥n de texto (espacios, may√∫sculas, acentos)
4. Deduplicaci√≥n y manejo de nulos
5. Exportaci√≥n de datos limpios y log de limpieza

## 1. Importaci√≥n de Librer√≠as

In [42]:
import sys
from pathlib import Path
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# A√±adir src/ al path
sys.path.insert(0, str(Path.cwd().parent / 'src'))

# Limpiar m√≥dulos cargados anteriormente si existen
modules_to_reload = ['config_loader', 'logging_setup', 'io_utils', 'validate', 'cleaning', 'network_prep', 'eda_basic']
for mod in modules_to_reload:
    if mod in sys.modules:
        del sys.modules[mod]

# Importar m√≥dulos del proyecto
import config_loader
import logging_setup
import io_utils
import validate
import cleaning

# Imports espec√≠ficos para usar directamente
from config_loader import load_config, get_absolute_path
from logging_setup import get_etl_logger, log_section
from io_utils import find_data_file, read_data_file, write_data_file
from validate import full_validation
from cleaning import clean_data_pipeline, export_cleaning_log

print("‚úì Librer√≠as importadas correctamente")

‚úì Librer√≠as importadas correctamente


## 2. Carga de Configuraci√≥n y Datos

In [43]:
# Cargar configuraci√≥n
config = load_config()

# Inicializar logger
logger = get_etl_logger(config)
log_section(logger, "NOTEBOOK 02: LIMPIEZA DE DATOS")

print("‚úì Configuraci√≥n cargada")

2025-10-27 23:44:03 | INFO     | etl_pipeline |   NOTEBOOK 02: LIMPIEZA DE DATOS
‚úì Configuraci√≥n cargada
2025-10-27 23:44:03 | INFO     | etl_pipeline |   NOTEBOOK 02: LIMPIEZA DE DATOS
‚úì Configuraci√≥n cargada


In [44]:
# Cargar snapshot desde data/processed/
processed_path = get_absolute_path(config, 'data_processed')
snapshot_file = find_data_file(processed_path, pattern='snapshot')

data = read_data_file(snapshot_file)

logger.info(f"Snapshot cargado: {snapshot_file.name}")
print(f"üìÅ Datos cargados: {data.shape}")
print(f"\nPrimeras filas:")
display(data.head())

2025-10-27 23:44:03 | INFO     | etl_pipeline | Snapshot cargado: datosRed_snapshot.csv
üìÅ Datos cargados: (10384, 6)

Primeras filas:
üìÅ Datos cargados: (10384, 6)

Primeras filas:


Unnamed: 0,A√ëO,PERSONA,TIPO DE SERVICIO,NOMBRE DE LA TAREA,MODALIDAD,COMPLEJIDAD
0,2019,ID_1,SERV_1,TAREA_1.1,PRESENCIAL,BAJA
1,2019,ID_2,SERV_1,TAREA_1.1,PRESENCIAL,BAJA
2,2019,ID_3,SERV_1,TAREA_1.1,PRESENCIAL,BAJA
3,2019,ID_4,SERV_1,TAREA_1.1,PRESENCIAL,BAJA
4,2019,ID_5,SERV_1,TAREA_1.1,PRESENCIAL,BAJA


## 3. Validaci√≥n Pre-Limpieza

In [45]:
# Validar esquema, dominios y duplicados
key_columns = ['PERSONA', 'TIPO DE SERVICIO', 'A√ëO', 'NOMBRE DE LA TAREA', 'MODALIDAD']

validation_report = full_validation(
    data,
    config,
    key_columns=key_columns
)

print("\n" + "="*60)
print("REPORTE DE VALIDACI√ìN PRE-LIMPIEZA")
print("="*60)
validation_report.print_report()


REPORTE DE VALIDACI√ìN PRE-LIMPIEZA
Estado: ‚úó RECHAZADO
Errores: 3
Advertencias: 0

Errores detectados:
  [DOMAIN] Columna MODALIDAD: 10384 registros con valores fuera del dominio
    Detalles: {'valores_invalidos': ['PRESENCIAL', 'VIRTUAL'], 'valores_permitidos': ['Presencial', 'Virtual'], 'registros_afectados': np.int64(10384)}
  [DOMAIN] Columna COMPLEJIDAD: 10384 registros con valores fuera del dominio
    Detalles: {'valores_invalidos': ['MEDIANA', 'BAJA', 'ALTA'], 'valores_permitidos': ['Baja', 'Alta', 'Mediana'], 'registros_afectados': np.int64(10384)}
  [DUPLICATES] 3797 registros duplicados en clave ['PERSONA', 'TIPO DE SERVICIO', 'A√ëO', 'NOMBRE DE LA TAREA', 'MODALIDAD']
    Detalles: {'n_duplicados': np.int64(3797)}


## 4. Pipeline de Limpieza

In [46]:
# Ejecutar pipeline completo de limpieza
data_clean, cleaning_log = clean_data_pipeline(
    data,
    config,
    key_columns=key_columns
)

print("\n" + "="*60)
print("LIMPIEZA COMPLETADA")
print("="*60)
print(f"Registros antes:  {cleaning_log.before_stats['n_rows']:,}")
print(f"Registros despu√©s: {cleaning_log.after_stats['n_rows']:,}")
print(f"Removidos:        {cleaning_log.before_stats['n_rows'] - cleaning_log.after_stats['n_rows']:,}")


LIMPIEZA COMPLETADA
Registros antes:  10,384
Registros despu√©s: 7,955
Removidos:        2,429


## 5. Validaci√≥n Post-Limpieza

In [47]:
# Revalidar datos limpios
validation_clean = full_validation(
    data_clean,
    config,
    key_columns=key_columns
)

print("\n" + "="*60)
print("REPORTE DE VALIDACI√ìN POST-LIMPIEZA")
print("="*60)
validation_clean.print_report()

if validation_clean.passed:
    print("\n‚úì Todos los contratos de calidad aprobados")
else:
    print("\n‚ö†Ô∏è  A√∫n existen problemas de calidad")


REPORTE DE VALIDACI√ìN POST-LIMPIEZA
Estado: ‚úì APROBADO
Errores: 0
Advertencias: 0

‚úì Todos los contratos de calidad aprobados


## 6. Exportaci√≥n de Datos Limpios

In [48]:
# Exportar datos limpios
clean_file_path = processed_path / config['outputs']['datos_limpios']
write_data_file(data_clean, clean_file_path)

logger.info(f"Datos limpios exportados: {clean_file_path}")
print(f"‚úì Datos limpios guardados: {clean_file_path.name}")

2025-10-27 23:44:04 | INFO     | etl_pipeline | Datos limpios exportados: /Users/kanyewest/Documents/ComplexNetworks/ComplexNetworks_TP/data/processed/datos_limpios.csv
‚úì Datos limpios guardados: datos_limpios.csv
‚úì Datos limpios guardados: datos_limpios.csv


## 7. Exportaci√≥n de Log de Limpieza

In [49]:
# Exportar log de limpieza
reports_path = get_absolute_path(config, 'reports')
export_cleaning_log(cleaning_log, reports_path, config)

print("‚úì Logs de limpieza exportados")
print(f"  - {config['outputs']['limpieza_log_csv']}")
print(f"  - {config['outputs']['limpieza_log_md']}")

print("\n" + "="*60)
print("LIMPIEZA FINALIZADA")
print("="*60)

‚úì Logs de limpieza exportados
  - limpieza_log.csv
  - limpieza_log.md

LIMPIEZA FINALIZADA
