# 5. Exploración de Reportes y Visualizaciones

Este notebook explora los reportes y visualizaciones generados por el pipeline de reportes, incluyendo:
- Reportes de calidad de datos
- Visualizaciones de features temporales
- Reporte final consolidado
- Análisis de parámetros de reportes


In [2]:
# Inicializar Kedro
import sys
import os
from pathlib import Path

# Ruta absoluta al directorio del proyecto
project_root = Path(r'C:\ProyectoML2\proyecto-ml')
os.chdir(project_root)
sys.path.append('src')

from kedro.framework.session import KedroSession
from kedro.framework.startup import bootstrap_project

# Bootstrap del proyecto
bootstrap_project('.')

# Crear sesión
session = KedroSession.create()
context = session.load_context()
catalog = context.catalog
params = context.params

print("Kedro inicializado correctamente")
print(f"Parametros cargados: {len(params)} secciones")
print("Catalogo disponible: Datasets cargados correctamente")


Kedro inicializado correctamente
Parametros cargados: 10 secciones
Catalogo disponible: Datasets cargados correctamente


In [3]:
# Cargar reporte de calidad de datos
try:
    reporte_calidad = catalog.load('reporte_calidad_datos')
    print(" Reporte de calidad cargado exitosamente")
    print(f" Estructura del reporte: {list(reporte_calidad.keys())}")
    
    # Mostrar resumen del reporte
    print("\n RESUMEN DEL REPORTE DE CALIDAD:")
    for key, value in reporte_calidad.items():
        if isinstance(value, dict):
            print(f"  {key}:")
            for subkey, subvalue in value.items():
                print(f"    {subkey}: {subvalue}")
        else:
            print(f"  {key}: {value}")
except Exception as e:
    print(f" Error cargando reporte de calidad: {e}")
    reporte_calidad = None


 Reporte de calidad cargado exitosamente
 Estructura del reporte: ['resumen_ejecutivo', 'metricas_detalladas', 'recomendaciones', 'estado_general']

 RESUMEN DEL REPORTE DE CALIDAD:
  resumen_ejecutivo:
    defunciones: {'total_registros': 1246214, 'completitud': 0, 'duplicados': np.int64(0), 'outliers': 0}
  metricas_detalladas:
    defunciones: {'total_registros': 1246214, 'total_columnas': 15, 'valores_nulos': np.int64(0), 'duplicados': np.int64(0), 'rango_fechas': {'inicio': '2014-01-01', 'fin': '2024-09-28'}, 'años_unicos': 11, 'regiones_unicas': 17}
    nacimientos: {'total_registros': 9, 'total_columnas': 5, 'valores_nulos': np.int64(0), 'duplicados': np.int64(0), 'años_unicos': 9}
    problemas_criticos: []
    estado: APROBADO
  recomendaciones: ['Defunciones: Completitud baja, revisar valores faltantes']
  estado_general: REQUIERE_ATENCION


In [4]:
# Cargar reporte de features temporales
try:
    reporte_features = catalog.load('reporte_features_temporales')
    print(" Reporte de features temporales cargado exitosamente")
    print(f" Estructura del reporte: {list(reporte_features.keys())}")
    
    # Mostrar resumen del reporte
    print("\n RESUMEN DEL REPORTE DE FEATURES:")
    for key, value in reporte_features.items():
        if isinstance(value, dict):
            print(f"  {key}:")
            for subkey, subvalue in value.items():
                print(f"    {subkey}: {subvalue}")
        else:
            print(f"  {key}: {value}")
except Exception as e:
    print(f" Error cargando reporte de features: {e}")
    reporte_features = None


 Reporte de features temporales cargado exitosamente
 Estructura del reporte: ['resumen_features', 'analisis_ciclicos', 'distribucion_temporal', 'recomendaciones']

 RESUMEN DEL REPORTE DE FEATURES:
  resumen_features:
    total_features: 31
    features_ciclicos: 8
    features_especiales: 3
    total_registros: 1246214
  analisis_ciclicos:
  distribucion_temporal:
    años_cubiertos: 11
    rango_años: 2014-2024
  recomendaciones: ['Features cíclicos completos para modelado temporal']


In [None]:
# Cargar visualizaciones de calidad
try:
    visualizaciones_calidad = catalog.load('visualizaciones_calidad')
    print(" Visualizaciones de calidad cargadas exitosamente")
    print(f" Archivos generados: {list(visualizaciones_calidad.keys())}")
    
    # Mostrar información de las visualizaciones
    print("\n INFORMACIÓN DE VISUALIZACIONES:")
    for nombre, info in visualizaciones_calidad.items():
        print(f"  {nombre}:")
        if isinstance(info, dict):
            for key, value in info.items():
                print(f"    {key}: {value}")
        else:
            print(f"    Info: {info}")
except Exception as e:
    print(f" Error cargando visualizaciones de calidad: {e}")
    visualizaciones_calidad = None


In [5]:
# Cargar visualizaciones de features
try:
    visualizaciones_features = catalog.load('visualizaciones_features')
    print(" Visualizaciones de features cargadas exitosamente")
    print(f" Archivos generados: {list(visualizaciones_features.keys())}")
    
    # Mostrar información de las visualizaciones
    print("\n INFORMACIÓN DE VISUALIZACIONES DE FEATURES:")
    for nombre, info in visualizaciones_features.items():
        print(f"  {nombre}:")
        if isinstance(info, dict):
            for key, value in info.items():
                print(f"    {key}: {value}")
        else:
            print(f"    Info: {info}")
except Exception as e:
    print(f" Error cargando visualizaciones de features: {e}")
    visualizaciones_features = None


 Visualizaciones de features cargadas exitosamente
 Archivos generados: ['features_ciclicos', 'distribucion_temporal']

 INFORMACIÓN DE VISUALIZACIONES DE FEATURES:
  features_ciclicos:
    Info: data\08_reporting\features_ciclicos.png
  distribucion_temporal:
    Info: data\08_reporting\distribucion_temporal.png


In [6]:
# Cargar reporte final consolidado
try:
    reporte_final = catalog.load('reporte_final_consolidado')
    print(" Reporte final consolidado cargado exitosamente")
    print(f" Estructura del reporte: {list(reporte_final.keys())}")
    
    # Mostrar resumen del reporte final
    print("\n RESUMEN DEL REPORTE FINAL:")
    for key, value in reporte_final.items():
        if isinstance(value, dict):
            print(f"  {key}:")
            for subkey, subvalue in value.items():
                print(f"    {subkey}: {subvalue}")
        else:
            print(f"  {key}: {value}")
except Exception as e:
    print(f" Error cargando reporte final: {e}")
    reporte_final = None


 Reporte final consolidado cargado exitosamente
 Estructura del reporte: ['informacion_general', 'resumen_ejecutivo', 'reportes_detallados', 'archivos_generados', 'recomendaciones_generales']

 RESUMEN DEL REPORTE FINAL:
  informacion_general:
    fecha_generacion: 2025-09-24 14:41:49
    version: 1.0
    metodologia: CRISP-DM - Fase 3: Preparación de Datos
  resumen_ejecutivo:
    estado_calidad: REQUIERE_ATENCION
    features_generados: 31
    visualizaciones_generadas: 5
  reportes_detallados:
    calidad_datos: {'resumen_ejecutivo': {'defunciones': {'total_registros': 1246214, 'completitud': 0, 'duplicados': np.int64(0), 'outliers': 0}}, 'metricas_detalladas': {'defunciones': {'total_registros': 1246214, 'total_columnas': 15, 'valores_nulos': np.int64(0), 'duplicados': np.int64(0), 'rango_fechas': {'inicio': '2014-01-01', 'fin': '2024-09-28'}, 'años_unicos': 11, 'regiones_unicas': 17}, 'nacimientos': {'total_registros': 9, 'total_columnas': 5, 'valores_nulos': np.int64(0), 'duplica

In [7]:
# Análisis de parámetros de reportes
print(" PARÁMETROS DE REPORTES UTILIZADOS")
print("\n Parámetros de reportes:")
if 'reportes' in params:
    for key, value in params['reportes'].items():
        print(f"  {key}: {value}")

print("\n Parámetros de validación:")
if 'validacion' in params:
    for key, value in params['validacion'].items():
        print(f"  {key}: {value}")

print("\n Parámetros de performance:")
if 'performance' in params:
    for key, value in params['performance'].items():
        print(f"  {key}: {value}")


 PARÁMETROS DE REPORTES UTILIZADOS

 Parámetros de reportes:
  calidad: {'metricas_requeridas': ['completitud', 'duplicados', 'valores_nulos', 'consistencia_temporal'], 'umbrales_alerta': {'completitud_minima': 0.9, 'duplicados_maximo': 0.1, 'valores_nulos_maximo': 0.05}}
  visualizaciones: {'formato_imagen': 'png', 'dpi': 300, 'estilo': 'default', 'paleta_colores': 'husl', 'tamaño_figura': {'ancho': 12, 'alto': 8}}

 Parámetros de validación:
  checks_calidad: ['verificar_completitud', 'verificar_duplicados', 'verificar_rango_fechas', 'verificar_valores_nulos', 'verificar_consistencia_temporal']
  umbrales_validacion: {'completitud_minima': 0.95, 'duplicados_maximo': 0.05, 'valores_nulos_maximo': 0.03}

 Parámetros de performance:
  chunk_size: 10000
  max_memory_usage: 2GB
  parallel_processing: False
  cache_intermediate_results: True


In [8]:
# Verificar archivos de visualizaciones generados
import os

print(" VERIFICACIÓN DE ARCHIVOS GENERADOS")
print("\n Directorio de reportes:")
directorio_reportes = "data/08_reporting"
if os.path.exists(directorio_reportes):
    archivos = os.listdir(directorio_reportes)
    print(f"  Archivos encontrados: {len(archivos)}")
    for archivo in archivos:
        ruta_completa = os.path.join(directorio_reportes, archivo)
        tamaño = os.path.getsize(ruta_completa)
        print(f"    {archivo}: {tamaño} bytes")
else:
    print(f"   Directorio {directorio_reportes} no existe")

print("\n Directorio de datos intermedios:")
directorio_intermedios = "data/02_intermediate"
if os.path.exists(directorio_intermedios):
    archivos = os.listdir(directorio_intermedios)
    print(f"  Archivos encontrados: {len(archivos)}")
    for archivo in archivos:
        ruta_completa = os.path.join(directorio_intermedios, archivo)
        tamaño = os.path.getsize(ruta_completa)
        print(f"    {archivo}: {tamaño} bytes")
else:
    print(f"   Directorio {directorio_intermedios} no existe")


 VERIFICACIÓN DE ARCHIVOS GENERADOS

 Directorio de reportes:
  Archivos encontrados: 11
    .gitkeep: 0 bytes
    completitud_datos.png: 91064 bytes
    distribucion_temporal.png: 138066 bytes
    duplicados_datos.png: 92510 bytes
    features_ciclicos.png: 264991 bytes
    reporte_calidad_datos.pkl: 692 bytes
    reporte_features_temporales.pkl: 298 bytes
    reporte_final_consolidado.pkl: 1752 bytes
    valores_nulos_datos.png: 90219 bytes
    visualizaciones_calidad.pkl: 186 bytes
    visualizaciones_features.pkl: 148 bytes

 Directorio de datos intermedios:
  Archivos encontrados: 17
    .gitkeep: 0 bytes
    dataset_defunciones_indexado.csv: 244106628 bytes
    dataset_extendido_con_edad.csv: 2550 bytes
    dataset_extendido_indexado.csv: 12093 bytes
    dataset_modelado_defunciones.csv: 232294698 bytes
    dataset_modelado_defunciones_normalizado.csv: 380975831 bytes
    dataset_modelado_indexado.csv: 199826029 bytes
    dataset_tendencias_indexado.csv: 18393 bytes
    dataset_t

In [10]:
# Resumen final de reportes
print("RESUMEN FINAL DE REPORTES Y VISUALIZACIONES")

print("\nReportes generados:")
try:
    reporte_calidad = catalog.load('reporte_calidad_datos')
    print(f"  Reporte de calidad: OK")
except:
    print(f"  Reporte de calidad: No disponible")

try:
    reporte_features = catalog.load('reporte_features_temporales')
    print(f"  Reporte de features: OK")
except:
    print(f"  Reporte de features: No disponible")

try:
    reporte_final = catalog.load('reporte_final_consolidado')
    print(f"  Reporte final: OK")
except:
    print(f"  Reporte final: No disponible")

print("\nVisualizaciones generadas:")
try:
    visualizaciones_calidad = catalog.load('visualizaciones_calidad')
    print(f"  Visualizaciones de calidad: {len(visualizaciones_calidad)} archivos")
except:
    print(f"  Visualizaciones de calidad: No disponible")

try:
    visualizaciones_features = catalog.load('visualizaciones_features')
    print(f"  Visualizaciones de features: {len(visualizaciones_features)} archivos")
except:
    print(f"  Visualizaciones de features: No disponible")

print("\nParametros utilizados:")
if 'reportes' in params:
    print(f"  Configuracion de reportes: OK")
if 'validacion' in params:
    print(f"  Configuracion de validacion: OK")
if 'performance' in params:
    print(f"  Configuracion de performance: OK")

print("\nExploracion de reportes completada exitosamente!")
print("\nPROXIMOS PASOS:")
print("  1. Revisar los archivos de visualizaciones en data/08_reporting/")
print("  2. Analizar los reportes generados para insights de calidad")
print("  3. Usar los datasets finales para modelado de ML")
print("  4. Ajustar parametros en parameters.yml si es necesario")


RESUMEN FINAL DE REPORTES Y VISUALIZACIONES

Reportes generados:


  Reporte de calidad: OK


  Reporte de features: OK


  Reporte final: OK

Visualizaciones generadas:


  Visualizaciones de calidad: 3 archivos


  Visualizaciones de features: 2 archivos

Parametros utilizados:
  Configuracion de reportes: OK
  Configuracion de validacion: OK
  Configuracion de performance: OK

Exploracion de reportes completada exitosamente!

PROXIMOS PASOS:
  1. Revisar los archivos de visualizaciones en data/08_reporting/
  2. Analizar los reportes generados para insights de calidad
  3. Usar los datasets finales para modelado de ML
  4. Ajustar parametros en parameters.yml si es necesario
