# Demo: Auditor√≠a de Calidad de Datos

Este script demuestra el funcionamiento del sistema de auditor√≠a de calidad de datos.
El sistema permite:
- An√°lisis de valores nulos: Identificar y cuantificar datos faltantes
- An√°lisis de unicidad: Detectar duplicados y valores √∫nicos
- An√°lisis estad√≠stico: Calcular m√©tricas descriptivas
- An√°lisis de fechas: Validar coherencia temporal
- Generaci√≥n de informes: Crear reportes en m√∫ltiples formatos
- Configuraci√≥n flexible: Reglas definidas en archivos YAML

>El sistema sigue principios de Clean Architecture y est√° dise√±ado para ser
extensible y mantenible.

## SECCI√ìN 1: IMPORTS

In [None]:
import sys
import json
from pathlib import Path

# ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† A√±adir el directorio ra√≠z al path para importar el m√≥dulo src ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
project_root = Path().absolute().parent
sys.path.insert(0, str(project_root))

# ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Importar componentes del sistema ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
try:
    from src import (
        QualityAuditor,
        CSVReader,
        QualityRulesReader,
        QualityReport,
        CSVValidator,
        SchemaValidator
    )

    print("‚úÖ Todos los componentes importados correctamente")
except ImportError as e:
    print(f"‚ùå Error al importar componentes: {e}")
    print(f"üìÅ Directorio actual: {Path().absolute()}")
    print(f"üìÅ Directorio ra√≠z intentado: {project_root}")

    # ‚ñ≤‚ñ≤‚ñ≤‚ñ≤‚ñ≤‚ñ≤ Mostrar primeros paths ‚ñ≤‚ñ≤‚ñ≤‚ñ≤‚ñ≤‚ñ≤
    print(f"üìÅ Path actual: {sys.path[:3]}")

## SECCI√ìN 2: CARGA DE DATOS

In [None]:
print("\n" + "‚ñ¢‚ñ£" * 20)
print("üìä CARGA DE DATOS")
print("‚ñ¢‚ñ£" * 20)

# ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Definir rutas de archivos ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
data_path = project_root / "data" / "input" / "sample_data.csv"
config_path = project_root / "schemas" / "quality_rules.yaml"
schema_path = project_root / "schemas" / "default_schema.yaml"

print(f"üìÅ Ruta de datos: {data_path}")
print(f"‚öôÔ∏è Ruta de configuraci√≥n: {config_path}")
print(f"üìã Ruta de esquema: {schema_path}")

# ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Verificar que los archivos existen ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
if not data_path.exists():
    print(f"‚ùå Error: No se encuentra el archivo de datos en {data_path}")

if not config_path.exists():
    print(f"‚ùå Error: No se encuentra el archivo de configuraci√≥n en {config_path}")

print("‚úÖ Archivo de datos encontrado")
print("‚úÖ Archivo de configuraci√≥n encontrado")

# ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Cargar datos usando CSVReader ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
try:
    reader = CSVReader()
    data = list(reader.read_rows(str(data_path)))

    print(f"\nüìä Datos cargados exitosamente:")
    print(f"   - Total de filas: {len(data)}")
    if data:
        print(f"   - Columnas: {list(data[0].keys())}")
        print(f"   - Primeras 3 filas:")
        for i, row in enumerate(data[:3]):
            print(f"     {i + 1}: {row}")

except Exception as e:
    print(f"‚ùå Error al cargar datos: {e}")

## SECCI√ìN 3: AUDITOR√çA B√ÅSICA

In [None]:
print("\n" + "‚ñ¢‚ñ£" * 20)
print("üîç AUDITOR√çA B√ÅSICA")
print("‚ñ¢‚ñ£" * 20)

if not data:
    print("‚ùå No hay datos para analizar")

try:
    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Ejecutar auditor√≠a b√°sica (sin configuraci√≥n) ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    print("üîç Ejecutando auditor√≠a b√°sica...")
    basic_results = QualityAuditor.quality_audit(data)

    print("‚úÖ Auditor√≠a b√°sica completada")
    print(f"üìà Resultados b√°sicos:")
    print(f"   - Total de filas procesadas: {basic_results.get('total_rows', 'N/A')}")
    print(f"   - An√°lisis de nulos: {'‚úÖ' if 'null_analysis' in basic_results else '‚ùå'}")
    print(f"   - An√°lisis de unicidad: {'‚úÖ' if 'uniqueness_analysis' in basic_results else '‚ùå'}")
    print(f"   - An√°lisis estad√≠stico: {'‚úÖ' if 'statistical_analysis' in basic_results else '‚ùå'}")
    print(f"   - An√°lisis de fechas: {'‚úÖ' if 'date_analysis' in basic_results else '‚ùå'}")

except Exception as e:
    print(f"‚ùå Error en auditor√≠a b√°sica: {e}")

## SECCI√ìN 4: AUDITOR√çA CON CONFIGURACI√ìN

In [None]:
print("\n" + "‚ñ¢‚ñ£" * 20)
print("‚öôÔ∏è AUDITOR√çA CON CONFIGURACI√ìN")
print("‚ñ¢‚ñ£" * 20)

if not data or not config_path:
    print("‚ùå No hay datos o configuraci√≥n no disponible")

try:
    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Cargar configuraci√≥n desde YAML ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    print("‚öôÔ∏è Cargando configuraci√≥n desde YAML...")
    config = QualityRulesReader.load_configs(str(config_path))

    print("‚úÖ Configuraci√≥n cargada:")
    print(f"   - Secciones: {list(config.keys())}")
    if 'quality_rules' in config:
        rules = config['quality_rules']
        print(f"   - Reglas de calidad: {list(rules.keys())}")

    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Ejecutar auditor√≠a con configuraci√≥n ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    print("\nüîç Ejecutando auditor√≠a con configuraci√≥n...")
    config_results = QualityAuditor.quality_audit(data, str(config_path))

    print("‚úÖ Auditor√≠a con configuraci√≥n completada")
    print(f"üìà Resultados configurados:")
    print(f"   - Total de filas: {config_results.get('total_rows', 'N/A')}")
    print(f"   - Configuraci√≥n aplicada: {config_results.get('config_applied', {})}")

except Exception as e:
    print(f"‚ùå Error en auditor√≠a con configuraci√≥n: {e}")

## Secci√≥n 5: Impresi√≥n de resultados

### 5.1. VISUALIZACI√ìN DE RESULTADOS

In [None]:
def display_results(results, title="Resultados de Auditor√≠a"):
    """
    Muestra los resultados de la auditor√≠a de forma clara y legible.
    :param results: Resultados de la auditor√≠a
    :param title: Titulo de la visualizacion de resultados
    :return:
    """
    print("\n" + "‚ñ¢‚ñ£" * 20)
    print(f"üìä {title}")
    print("‚ñ¢‚ñ£" * 20)

    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Informaci√≥n general ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    total_rows = results.get('total_rows', 0)
    print(f"üìã Informaci√≥n General:")
    print(f"   - Total de filas: {total_rows}")

    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† An√°lisis de nulos ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    if 'null_analysis' in results:
        null_analysis = results['null_analysis']
        print(f"\nüîç An√°lisis de Nulos:")
        for column, info in null_analysis.items():
            if isinstance(info, dict):
                count = info.get('count', 0)
                percentage = info.get('percentage', 0)
                print(f"   - {column}: {count} nulos ({percentage:.1f}%)")

    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† An√°lisis de unicidad ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    if 'uniqueness_analysis' in results:
        uniqueness = results['uniqueness_analysis']
        print(f"\nüéØ An√°lisis de Unicidad:")
        for column, info in uniqueness.items():
            if isinstance(info, dict):
                unique_count = info.get('unique_count', 0)
                percentage = info.get('unique_percentage', 0)
                classification = info.get('classification', 'unknown')
                print(f"   - {column}: {unique_count} √∫nicos ({percentage:.1f}%) - {classification}")

    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† An√°lisis estad√≠stico ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    if 'statistical_analysis' in results:
        stats = results['statistical_analysis']
        print(f"\nüìà An√°lisis Estad√≠stico:")
        for column, info in stats.items():
            if isinstance(info, dict) and 'numeric_stats' in info:
                num_stats = info['numeric_stats']
                print(f"   - {column}:")
                print(f"     * Media: {num_stats.get('mean', 'N/A'):.2f}")
                print(f"     * Mediana: {num_stats.get('median', 'N/A'):.2f}")
                print(f"     * Desviaci√≥n est√°ndar: {num_stats.get('std_dev', 'N/A'):.2f}")
                print(f"     * M√≠nimo: {num_stats.get('min', 'N/A')}")
                print(f"     * M√°ximo: {num_stats.get('max', 'N/A')}")

    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† An√°lisis de fechas ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    if 'date_analysis' in results:
        dates = results['date_analysis']
        print(f"\nüìÖ An√°lisis de Fechas:")
        for column, info in dates.items():
            if isinstance(info, dict):
                valid_dates = info.get('valid_dates', 0)
                invalid_dates = info.get('invalid_dates', 0)
                date_range = info.get('date_range', {})
                print(f"   - {column}: {valid_dates} v√°lidas, {invalid_dates} inv√°lidas")
                if date_range.get('start') and date_range.get('end'):
                    print(f"     * Rango: {date_range['start']} a {date_range['end']}")

In [None]:
def visualize_results(basic_results, config_results):
    """
    Muestra los resultados de ambas auditor√≠as.
    :param basic_results: Resultados basicos
    :param config_results: Resultados con configuracion de auditoria de calidad
    :return:
    """
    print("\n" + "‚ñ¢‚ñ£" * 20)
    print("üìà VISUALIZACI√ìN DE RESULTADOS")
    print("‚ñ¢‚ñ£" * 20)

    if basic_results:
        display_results(basic_results, "Auditor√≠a B√°sica")

    if config_results and config_results != basic_results:
        display_results(config_results, "Auditor√≠a con Configuraci√≥n")

### 5.2. GENERACI√ìN DE INFORME

In [None]:
def generate_reports(results):
    """
    Crea informes en diferentes formatos usando los generadores de reportes del sistema.
    """
    print("\n" + "‚ñ¢‚ñ£" * 20)
    print("üìù GENERACI√ìN DE INFORME")
    print("‚ñ¢‚ñ£" * 20)

    if not results:
        print("‚ùå No hay resultados para generar informes")

    try:
        print("üìù Generando informes...")

        # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Informe resumido ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
        summary_report = QualityReport.generate_summary_report(results)
        print("\nüìã Informe Resumido:")
        print("-" * 40)
        print(summary_report)

        # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Informe detallado ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
        detailed_report = QualityReport.generate_detail_report(results)
        print("\nüìÑ Informe Detallado (primeros 500 caracteres):")
        print("-" * 40)
        print(detailed_report[:500] + "..." if len(detailed_report) > 500 else detailed_report)

        # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Informe JSON ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
        json_report = QualityReport.generate_json_report(results)
        print("\nüìä Informe JSON (estructura):")
        print("-" * 40)
        json_data = json.loads(json_report)
        print(f"Claves principales: {list(json_data.keys())}")

        # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Guardar informes en archivos ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
        output_dir = project_root / "data" / "output"
        output_dir.mkdir(exist_ok=True)

        # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Guardar informe con timestamp ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
        saved_file = QualityReport.save_report_with_timestamp(
            results,
            f"{str(output_dir)}/demo_quality_report",
            "txt"
        )
        print(f"\nüíæ Informe guardado en: {saved_file}")

    except Exception as e:
        print(f"‚ùå Error al generar informes: {e}")

### 5.3 ALERTAS

In [None]:
def generate_alerts(results):
    """
    Genera alertas basadas en los resultados de la auditor√≠a.
    :param results: Resultados
    :return:
    """
    alerts = []

    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Alertas de nulos ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    if 'null_analysis' in results:
        for column, info in results['null_analysis'].items():
            if isinstance(info, dict):
                percentage = info.get('percentage', 0)
                if percentage > 20:  # Umbral del 20%
                    alerts.append(f"‚ö†Ô∏è ALTA: Columna '{column}' tiene {percentage:.1f}% de valores nulos")
                elif percentage > 10:  # Umbral del 10%
                    alerts.append(f"‚ö†Ô∏è MEDIA: Columna '{column}' tiene {percentage:.1f}% de valores nulos")

    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Alertas de unicidad ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    if 'uniqueness_analysis' in results:
        for column, info in results['uniqueness_analysis'].items():
            if isinstance(info, dict):
                classification = info.get('classification', '')
                if classification == 'identifier':
                    alerts.append(f"‚úÖ INFO: Columna '{column}' funciona como identificador √∫nico")
                elif classification == 'high_uniqueness':
                    alerts.append(f"üìä INFO: Columna '{column}' tiene alta unicidad")
                elif classification == 'low_uniqueness':
                    alerts.append(f"‚ö†Ô∏è BAJA: Columna '{column}' tiene baja unicidad (posible campo categ√≥rico)")

    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Alertas generales ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    total_rows = results.get('total_rows', 0)
    if total_rows == 0:
        alerts.append("‚ùå CR√çTICA: No hay datos para analizar")
    elif total_rows < 10:
        alerts.append(f"‚ö†Ô∏è BAJA: Dataset muy peque√±o ({total_rows} filas)")

    return alerts

In [None]:
def show_alerts(results):
    """
    Muestra las alertas generadas basadas en los resultados.
    :param results: Resultados de la auditoria.
    :return:
    """
    print("\n" + "‚ñ¢‚ñ£" * 20)
    print("üö® ALERTAS")
    print("‚ñ¢‚ñ£" * 20)

    if not results:
        print("‚ùå No hay resultados para generar alertas")
        return

    print("üö® Generando alertas...")
    alerts = generate_alerts(results)

    if alerts:
        print(f"\nüìä Se generaron {len(alerts)} alertas:")
        for i, alert in enumerate(alerts, 1):
            print(f"   {i}. {alert}")
    else:
        print("\n‚úÖ No se generaron alertas (todo parece estar en orden)")

    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Tambi√©n podemos usar la funcion de alertas del sistema si est√° disponible ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    try:
        if hasattr(QualityReport, 'generate_alerts'):
            system_alerts = QualityReport.generate_alerts(results)
            if system_alerts:
                print(f"\nüîî Alertas del sistema ({len(system_alerts)}):")
                for alert in system_alerts:
                    print(f"   - {alert}")

    # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† La funcion podr√≠a no estar implementado ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
    except:
        pass

### 5.4. VALIDACI√ìN CSV (OPCIONAL)

In [None]:
def validate_csv(data_path, schema_path):
    """
    Demostraci√≥n del sistema de validaci√≥n de esquemas CSV.
    """
    print("\n" + "‚ñ¢‚ñ£" * 20)
    print("üîç VALIDACI√ìN CSV (OPCIONAL)")
    print("‚ñ¢‚ñ£" * 20)

    if not schema_path.exists() or not data_path.exists():
        print("‚è≠Ô∏è Saltando validaci√≥n CSV (archivos no disponibles)")
        return

    try:
        print("üîç Ejecutando validaci√≥n de esquema CSV...")

        # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Cargar esquema YAML ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
        from readers.quality_rules_reader import QualityRulesReader
        schema = QualityRulesReader.load_configs(str(schema_path))

        print(f"üìã Esquema cargado: {list(schema.keys())}")

        # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Validar estructura del esquema ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
        schema_validator = SchemaValidator()
        is_valid = schema_validator.validate_schema_structure(schema)

        if is_valid:
            print("‚úÖ Estructura del esquema v√°lida")

            # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Obtener informaci√≥n del esquema ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
            required_fields = schema_validator.get_required_fields(schema)
            all_fields = schema_validator.get_all_field_names(schema)

            print(f"   - Campos totales: {len(all_fields)}")
            print(f"   - Campos requeridos: {len(required_fields)}")
            print(f"   - Campos obligatorios: {required_fields}")

            # ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Validar archivo CSV contra esquema ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
            csv_validator = CSVValidator()
            validation_errors = csv_validator.validate_file(str(data_path), schema)

            if validation_errors:
                print(f"\n‚ùå Se encontraron {len(validation_errors)} errores de validaci√≥n:")
                for i, error in enumerate(validation_errors, 1):
                    print(f"   {i}. {error}")
            else:
                print("\n‚úÖ Validaci√≥n CSV exitosa - No se encontraron errores")
        else:
            print("‚ùå El esquema tiene errores de estructura")

    except Exception as e:
        print(f"‚ùå Error en validaci√≥n CSV: {e}")

## Secci√≥n 6: Funci√≥n principal

In [None]:
print("üöÄ INICIANDO DEMOSTRACI√ìN DE AUDITOR√çA DE CALIDAD DE DATOS")
print("‚ñ¢‚ñ£" * 20)

# ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Validaci√≥n de esquema CSV (opcional) ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
validate_csv(project_root / "data" / "input" / "sample_data.csv", schema_path)

if not data:
    print("‚ùå No se pudieron cargar los datos. Abortando demostraci√≥n.")

# ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Usar los resultados configurados si est√°n disponibles, si no los b√°sicos ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
main_results = config_results if config_results else basic_results

# ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Visualizar resultados ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
visualize_results(basic_results, config_results)

# ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Generar informes ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
generate_reports(main_results)

# ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ† Mostrar alertas ‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†‚ñ†
show_alerts(main_results)

print("\nüéâ DEMOSTRACI√ìN COMPLETADA EXITOSAMENTE")

## Conclusiones

En esta demostraci√≥n hemos mostrado:

1. ‚úÖ Importaci√≥n de Componentes: Carga exitosa de todas las clases principales del sistema
2. üìä Carga de Datos: Lectura de archivos CSV usando el lector especializado
3. üîç Auditor√≠a B√°sica: An√°lisis de calidad sin configuraci√≥n personalizada
4. ‚öôÔ∏è Auditor√≠a con Configuraci√≥n: An√°lisis avanzado usando reglas YAML
5. üìà Visualizaci√≥n de Resultados: Presentaci√≥n clara de m√©tricas y an√°lisis
6. üìù Generaci√≥n de Informes: Creaci√≥n de reportes en m√∫ltiples formatos
7. üö® Sistema de Alertas: Detecci√≥n autom√°tica de problemas de calidad
8. ‚úÖ Validaci√≥n CSV: Verificaci√≥n estructural contra esquemas (opcional)

### Caracter√≠sticas Clave del Sistema

- üèóÔ∏è Arquitectura Modular: Cada componente tiene una responsabilidad clara
- ‚öôÔ∏è Configuraci√≥n Flexible: Reglas externas en archivos YAML
- üìä An√°lisis Completo: Nulos, unicidad, estad√≠sticas, fechas y m√°s
- üìù Informes Variados: TXT, JSON, HTML y formatos personalizados
- üîç Detecci√≥n de Problemas: Alertas autom√°ticas basadas en umbrales
- ‚úÖ Testing FIRST: Sistema robusto con pruebas completas
- üßπ Clean Code: C√≥digo legible y mantenible

### Pr√≥ximos Pasos

- Extender Analizadores: A√±adir nuevos tipos de an√°lisis
- Personalizar Configuraci√≥n: Crear reglas espec√≠ficas para tus datos
- Integrar en Pipelines: Usar el sistema en flujos de ETL
- Automatizar Informes: Programar generaci√≥n peri√≥dica de reportes

¬°El sistema est√° listo para producci√≥n y puede adaptarse a tus necesidades espec√≠ficas! üöÄ