In [8]:
import json
import pandas as pd
import os

print("--- Iniciando Validación de Datos de Entrada ---")

# --- Validación del Codebook ---
codebook_path = 'data/codebook.json'
print(f"\n[1/2] Validando '{codebook_path}'...")

try:
    with open(codebook_path, 'r', encoding='utf-8') as f:
        codebook = json.load(f)
    
    if isinstance(codebook, dict) and codebook:
        print(f"✅ Éxito: '{codebook_path}' cargado correctamente como un diccionario.")
        num_codes = len(codebook)
        print(f"   - Total de códigos unificados en el codebook: {num_codes}")
        print("   - Mostrando 3 códigos de ejemplo:")
        for i, (code_id, code_info) in enumerate(codebook.items()):
            if i >= 3:
                break
            print(f"     - {code_id}: {code_info}")
    else:
        print(f"⚠️ Advertencia: '{codebook_path}' no es un diccionario válido o está vacío.")

except FileNotFoundError:
    print(f"❌ ERROR: No se encontró el archivo '{codebook_path}'. Asegúrate de que está en el directorio 'data/'.")
except json.JSONDecodeError:
    print(f"❌ ERROR: El archivo '{codebook_path}' no es un JSON válido.")
except Exception as e:
    print(f"❌ ERROR: Ocurrió un error inesperado al leer el codebook: {e}")


# --- Validación de los Resultados del Análisis ---
analysis_path = 'data/analysis_results.jsonl'
print(f"\n[2/2] Validando '{analysis_path}'...")

try:
    if os.path.exists(analysis_path):
        analysis_df = pd.read_json(analysis_path, lines=True)
        print(f"✅ Éxito: '{analysis_path}' cargado correctamente en un DataFrame.")
        print("\n   --- Información del DataFrame (analysis_df.info()) ---")
        analysis_df.info()
        
        print("\n   --- Primeras 5 filas (analysis_df.head()) ---")
        print(analysis_df.head())

        # Chequeos de columnas clave
        required_cols = ['insight_id', 'unified_code_ids']
        if all(col in analysis_df.columns for col in required_cols):
            print("\n✅ Éxito: Las columnas requeridas ('insight_id', 'unified_code_ids') están presentes.")
        else:
            print(f"\n❌ ERROR: Faltan una o más columnas requeridas. Se necesitan: {required_cols}")

    else:
        print(f"❌ ERROR: No se encontró el archivo '{analysis_path}'. Asegúrate de que está en el directorio 'data/'.")

except Exception as e:
    print(f"❌ ERROR: Ocurrió un error inesperado al leer el archivo de análisis: {e}")

print("\n--- Validación Completada ---")

--- Iniciando Validación de Datos de Entrada ---

[1/2] Validando 'data/codebook.json'...
✅ Éxito: 'data/codebook.json' cargado correctamente como un diccionario.
   - Total de códigos unificados en el codebook: 2
   - Mostrando 3 códigos de ejemplo:
     - codes: [{'id': 'code_fa34d4e6-81d2-4b95-a60b-9877cfacacd3', 'label': 'Percibiendo inequidad salarial', 'count': 12, 'embedding': [0.05963228, -0.046669, -0.058757048, 0.020448547, 0.080981165, 0.054298833, 0.032683995, -0.043630987, -0.029326972, 0.063350454, -0.022184381, 0.0032827219, -0.06031145, 0.0425199, -0.003470369, 0.015189155, 0.0295866, 0.0168228, 0.0113780685, -0.019367717, 0.034316264, 0.020280404, 0.0037329744, -0.0026046382, 0.008067258, -0.008667006, 0.006785279, -0.05544977, -0.049861662, -0.008843123, -0.0297558, 0.02347521, -0.018462574, 0.0049163997, 0.03158592, -0.018408665, -0.04173457, -0.014306146, 0.0058182445, 0.011512304, -0.012914773, -0.028383937, -0.041502208, 0.027907642, 0.025811164, -0.017840328, -0.