# 04_agent_prototype.ipynb
## (Refactorizado) Prototipo del Pipeline Completo (Pasos 1-6)

**Objetivo:** Orquestar el pipeline completo de RAG Multimodal en un solo lugar, desde la ingesta de archivos hasta la consulta del agente.

**Flujo:**
1.  **FASE 1: INDEXACIÓN**
    -   Paso 1: Convertir Excel -> PNG
    -   Paso 2: Extraer Markdown (PDFs y PNGs) con API ADE
    -   Paso 3: Convertir Markdown -> JSON (con LLM)
    -   Paso 4: Generar Embeddings (con CLIP)
    -   Paso 5: Indexar en ChromaDB
2.  **FASE 2: CONSULTA**
    -   Paso 6: Probar el Agente RAG

In [2]:
import sys
import logging
from pathlib import Path
import json
import time

# --- Celda de Configuración Estándar ---
PROJECT_ROOT = Path.cwd().parent
if str(PROJECT_ROOT) not in sys.path:
    sys.path.insert(0, str(PROJECT_ROOT))

# 1. Importar la config (esto carga el .env automáticamente)
import src.utils.config 
from src.utils.config import OPENAI_API_KEY, LANDING_AI_API_KEY

# 2. Configurar logging básico para el notebook
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

print(f"Raíz del proyecto establecida en: {PROJECT_ROOT}")
print("✅ Entorno configurado. Logging listo.")

# 3. Verificar API Keys (Mejor Práctica del Análisis)
if not LANDING_AI_API_KEY or "..." in LANDING_AI_API_KEY:
    logger.error("Falta LANDING_AI_API_KEY en .env. El Paso 2 fallará.")
if not OPENAI_API_KEY or "..." in OPENAI_API_KEY:
    logger.error("Falta OPENAI_API_KEY en .env. El Paso 3 y 6 fallarán.")

Raíz del proyecto establecida en: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent
✅ Entorno configurado. Logging listo.


## FASE 1: INDEXACIÓN (Pasos 1-5)

### Paso 1: Convertir Excel -> PNG

In [2]:
from src.preprocessors import process_all_excels

print("Iniciando [Paso 1]... (Excel -> PNG)")
start_time = time.time()
excel_results = process_all_excels()
elapsed = time.time() - start_time
print(f"  Resultado: {len([r for r in excel_results if r.get('status') == 'success'])} Excel procesados en {elapsed:.2f}s")

INFO:src.preprocessors.excel_to_image:Encontrados 2 archivos Excel
INFO:src.preprocessors.excel_to_image:Iniciando conversión de Excel (en chunks): c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\input\excel\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1).xlsx


Iniciando [Paso 1]... (Excel -> PNG)


INFO:src.preprocessors.excel_to_image:Usando rango total: B1:JC223
INFO:src.preprocessors.excel_to_image:Excel procesado y guardado como 8 chunks PNG.
INFO:src.preprocessors.excel_to_image:Metadata de Excel guardada: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_metadata.json
INFO:src.preprocessors.excel_to_image:Iniciando conversión de Excel (en chunks): c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\input\excel\~$10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1).xlsx
ERROR:src.preprocessors.excel_to_image:Error al convertir Excel a imagen: [Errno 13] Permission denied: 'c:\\Users\\Usuario\\Documents\\UTEC\\Liquidaciones Agent\\multidoc-agent\\data\\input\\excel\\~$10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1).xlsx'
Traceback (most recent call last):
  File "c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\src\preprocessors\excel_to_image.py", line 35, in

  Resultado: 1 Excel procesados en 50.61s


### Paso 2: Extraer Markdown (API ADE)

In [3]:
from src.extractors import process_all_documents

print("Iniciando [Paso 2]... (PDF/PNG -> Markdown con API ADE)")
start_time = time.time()
ade_results = process_all_documents()
elapsed = time.time() - start_time
print(f"  Resultado: {len([r for r in ade_results if r.get('status') == 'success'])} documentos procesados por ADE en {elapsed:.2f}s")

  from .autonotebook import tqdm as notebook_tqdm


Iniciando [Paso 2]... (PDF/PNG -> Markdown con API ADE)
2025-11-08 11:44:21,222 - src.extractors.ocr_extractor - INFO - Iniciando PASO 3: Extracción de Markdown (ADE) de todos los documentos...


INFO:src.extractors.ocr_extractor:Iniciando PASO 3: Extracción de Markdown (ADE) de todos los documentos...


2025-11-08 11:44:21,224 - src.extractors.ocr_extractor - INFO - Extractor OCR iniciado con el proveedor: landing_ai


INFO:src.extractors.ocr_extractor:Extractor OCR iniciado con el proveedor: landing_ai


2025-11-08 11:44:21,226 - src.extractors.ocr_extractor - INFO - Se encontraron 1 PDFs originales para procesar.


INFO:src.extractors.ocr_extractor:Se encontraron 1 PDFs originales para procesar.


2025-11-08 11:44:21,229 - src.extractors.ocr_extractor - INFO - Se encontraron 8 imágenes de Excel para procesar.


INFO:src.extractors.ocr_extractor:Se encontraron 8 imágenes de Excel para procesar.


2025-11-08 11:44:21,230 - src.extractors.ocr_extractor - INFO - Se procesarán 9 documentos en total.


INFO:src.extractors.ocr_extractor:Se procesarán 9 documentos en total.


2025-11-08 11:44:21,231 - src.extractors.ocr_extractor - INFO - Extrayendo contenido de: 25105 25106 25107 & 25108 MV SKY KNIGHT - VAL TISUR.pdf


INFO:src.extractors.ocr_extractor:Extrayendo contenido de: 25105 25106 25107 & 25108 MV SKY KNIGHT - VAL TISUR.pdf


2025-11-08 11:44:32,357 - src.extractors.ocr_extractor - INFO - ADE (PDF) completado para: 25105 25106 25107 & 25108 MV SKY KNIGHT - VAL TISUR.pdf


INFO:src.extractors.ocr_extractor:ADE (PDF) completado para: 25105 25106 25107 & 25108 MV SKY KNIGHT - VAL TISUR.pdf


2025-11-08 11:44:32,365 - src.extractors.ocr_extractor - INFO - Markdown guardado en: 25105 25106 25107 & 25108 MV SKY KNIGHT - VAL TISUR_text.json


INFO:src.extractors.ocr_extractor:Markdown guardado en: 25105 25106 25107 & 25108 MV SKY KNIGHT - VAL TISUR_text.json


2025-11-08 11:44:32,367 - src.extractors.ocr_extractor - INFO - Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c0.png


INFO:src.extractors.ocr_extractor:Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c0.png


2025-11-08 11:45:11,821 - src.extractors.ocr_extractor - INFO - ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c0.png


INFO:src.extractors.ocr_extractor:ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c0.png


2025-11-08 11:45:11,977 - src.extractors.ocr_extractor - INFO - Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c0_text.json


INFO:src.extractors.ocr_extractor:Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c0_text.json


2025-11-08 11:45:11,979 - src.extractors.ocr_extractor - INFO - Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c200.png


INFO:src.extractors.ocr_extractor:Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c200.png


2025-11-08 11:45:33,708 - src.extractors.ocr_extractor - INFO - ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c200.png


INFO:src.extractors.ocr_extractor:ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c200.png


2025-11-08 11:45:33,725 - src.extractors.ocr_extractor - INFO - Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c200_text.json


INFO:src.extractors.ocr_extractor:Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c200_text.json


2025-11-08 11:45:33,730 - src.extractors.ocr_extractor - INFO - Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c250.png


INFO:src.extractors.ocr_extractor:Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c250.png


2025-11-08 11:45:49,145 - src.extractors.ocr_extractor - INFO - ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c250.png


INFO:src.extractors.ocr_extractor:ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c250.png


2025-11-08 11:45:49,240 - src.extractors.ocr_extractor - INFO - Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c250_text.json


INFO:src.extractors.ocr_extractor:Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c250_text.json


2025-11-08 11:45:49,243 - src.extractors.ocr_extractor - INFO - Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r100_c0.png


INFO:src.extractors.ocr_extractor:Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r100_c0.png


2025-11-08 11:46:26,959 - src.extractors.ocr_extractor - INFO - ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r100_c0.png


INFO:src.extractors.ocr_extractor:ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r100_c0.png


2025-11-08 11:46:27,077 - src.extractors.ocr_extractor - INFO - Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r100_c0_text.json


INFO:src.extractors.ocr_extractor:Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r100_c0_text.json


2025-11-08 11:46:27,080 - src.extractors.ocr_extractor - INFO - Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r150_c0.png


INFO:src.extractors.ocr_extractor:Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r150_c0.png


2025-11-08 11:46:51,482 - src.extractors.ocr_extractor - INFO - ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r150_c0.png


INFO:src.extractors.ocr_extractor:ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r150_c0.png


2025-11-08 11:46:51,584 - src.extractors.ocr_extractor - INFO - Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r150_c0_text.json


INFO:src.extractors.ocr_extractor:Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r150_c0_text.json


2025-11-08 11:46:51,586 - src.extractors.ocr_extractor - INFO - Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c0.png


INFO:src.extractors.ocr_extractor:Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c0.png


2025-11-08 11:47:32,199 - src.extractors.ocr_extractor - INFO - ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c0.png


INFO:src.extractors.ocr_extractor:ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c0.png


2025-11-08 11:47:32,430 - src.extractors.ocr_extractor - INFO - Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c0_text.json


INFO:src.extractors.ocr_extractor:Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c0_text.json


2025-11-08 11:47:32,432 - src.extractors.ocr_extractor - INFO - Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c200.png


INFO:src.extractors.ocr_extractor:Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c200.png


2025-11-08 11:47:50,354 - src.extractors.ocr_extractor - INFO - ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c200.png


INFO:src.extractors.ocr_extractor:ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c200.png


2025-11-08 11:47:50,373 - src.extractors.ocr_extractor - INFO - Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c200_text.json


INFO:src.extractors.ocr_extractor:Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c200_text.json


2025-11-08 11:47:50,380 - src.extractors.ocr_extractor - INFO - Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c250.png


INFO:src.extractors.ocr_extractor:Extrayendo contenido de: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c250.png


2025-11-08 11:48:16,980 - src.extractors.ocr_extractor - INFO - ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c250.png


INFO:src.extractors.ocr_extractor:ADE (Imagen) completado para: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c250.png


2025-11-08 11:48:17,063 - src.extractors.ocr_extractor - INFO - Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c250_text.json


INFO:src.extractors.ocr_extractor:Markdown guardado en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c250_text.json


2025-11-08 11:48:17,067 - src.extractors.ocr_extractor - INFO - Extracción de Markdown completada. 9 archivos procesados.


INFO:src.extractors.ocr_extractor:Extracción de Markdown completada. 9 archivos procesados.


  Resultado: 9 documentos procesados por ADE en 235.85s


### Paso 3: Convertir Markdown -> JSON (LLM)

In [4]:
from src.extractors import process_all_extracted_text

print("Iniciando [Paso 3]... (Markdown -> JSON con LLM)")
start_time = time.time()
parser_results = process_all_extracted_text()
elapsed = time.time() - start_time
print(f"  Resultado: {len([r for r in parser_results if r.get('status') == 'success'])} JSONs estructurados en {elapsed:.2f}s")

Iniciando [Paso 3]... (Markdown -> JSON con LLM)
2025-11-08 11:48:35,821 - src.extractors.structure_parser - INFO - Iniciando PASO 4: Parseo y Estructuración (Markdown a JSON)...


INFO:src.extractors.structure_parser:Iniciando PASO 4: Parseo y Estructuración (Markdown a JSON)...


2025-11-08 11:48:37,619 - src.extractors.structure_parser - INFO - StructureParser inicializado con el esquema: LiquidacionData


INFO:src.extractors.structure_parser:StructureParser inicializado con el esquema: LiquidacionData


2025-11-08 11:48:37,622 - src.extractors.structure_parser - INFO - Se encontraron 9 archivos de Markdown para parsear.


INFO:src.extractors.structure_parser:Se encontraron 9 archivos de Markdown para parsear.


2025-11-08 11:48:37,666 - src.extractors.structure_parser - INFO - Iniciando parseo estructurado de texto (Markdown)...


INFO:src.extractors.structure_parser:Iniciando parseo estructurado de texto (Markdown)...
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


2025-11-08 11:48:54,292 - src.extractors.structure_parser - INFO - Parseo y validación de esquema completados exitosamente.


INFO:src.extractors.structure_parser:Parseo y validación de esquema completados exitosamente.


2025-11-08 11:48:54,298 - src.extractors.structure_parser - INFO - Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c0_structure.json


INFO:src.extractors.structure_parser:Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c0_structure.json


2025-11-08 11:48:54,332 - src.extractors.structure_parser - INFO - Iniciando parseo estructurado de texto (Markdown)...


INFO:src.extractors.structure_parser:Iniciando parseo estructurado de texto (Markdown)...
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


2025-11-08 11:49:07,057 - src.extractors.structure_parser - INFO - Parseo y validación de esquema completados exitosamente.


INFO:src.extractors.structure_parser:Parseo y validación de esquema completados exitosamente.


2025-11-08 11:49:07,060 - src.extractors.structure_parser - INFO - Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c200_structure.json


INFO:src.extractors.structure_parser:Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c200_structure.json


2025-11-08 11:49:07,084 - src.extractors.structure_parser - INFO - Iniciando parseo estructurado de texto (Markdown)...


INFO:src.extractors.structure_parser:Iniciando parseo estructurado de texto (Markdown)...
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


2025-11-08 11:49:34,284 - src.extractors.structure_parser - ERROR - La salida del LLM no validó contra el esquema Pydantic. Error: 2 validation errors for LiquidacionData
items_detalle
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing
resumen_financiero
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing


ERROR:src.extractors.structure_parser:La salida del LLM no validó contra el esquema Pydantic. Error: 2 validation errors for LiquidacionData
items_detalle
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing
resumen_financiero
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing


2025-11-08 11:49:34,287 - src.extractors.structure_parser - ERROR - Ocurrió un error inesperado durante el parseo: Datos del LLM no válidos: 2 validation errors for LiquidacionData
items_detalle
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing
resumen_financiero
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing
Traceback (most recent call last):
  File "c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\src\extractors\structure_parser.py", line 161, in parse_document
    validated_data = self.target_schema.model_validate(parsed_json)
  File "c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\.venv\Lib\site-packages\pydantic\main.py", line 716, in model_validate
    return cl

ERROR:src.extractors.structure_parser:Ocurrió un error inesperado durante el parseo: Datos del LLM no válidos: 2 validation errors for LiquidacionData
items_detalle
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing
resumen_financiero
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing
Traceback (most recent call last):
  File "c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\src\extractors\structure_parser.py", line 161, in parse_document
    validated_data = self.target_schema.model_validate(parsed_json)
  File "c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\.venv\Lib\site-packages\pydantic\main.py", line 716, in model_validate
    return cls.__pydantic_validator__.valid

2025-11-08 11:49:34,292 - src.extractors.structure_parser - ERROR - Fallo al parsear el archivo 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c250_text.json: Datos del LLM no válidos: 2 validation errors for LiquidacionData
items_detalle
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing
resumen_financiero
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing
Traceback (most recent call last):
  File "c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\src\extractors\structure_parser.py", line 161, in parse_document
    validated_data = self.target_schema.model_validate(parsed_json)
  File "c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\.

ERROR:src.extractors.structure_parser:Fallo al parsear el archivo 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c250_text.json: Datos del LLM no válidos: 2 validation errors for LiquidacionData
items_detalle
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing
resumen_financiero
  Field required [type=missing, input_value={'$defs': {'LiquidacionIt...Data', 'type': 'object'}, input_type=dict]
    For further information visit https://errors.pydantic.dev/2.12/v/missing
Traceback (most recent call last):
  File "c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\src\extractors\structure_parser.py", line 161, in parse_document
    validated_data = self.target_schema.model_validate(parsed_json)
  File "c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\.venv\Lib\site-packages\pydanti

2025-11-08 11:49:34,336 - src.extractors.structure_parser - INFO - Iniciando parseo estructurado de texto (Markdown)...


INFO:src.extractors.structure_parser:Iniciando parseo estructurado de texto (Markdown)...
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


2025-11-08 11:49:46,073 - src.extractors.structure_parser - INFO - Parseo y validación de esquema completados exitosamente.


INFO:src.extractors.structure_parser:Parseo y validación de esquema completados exitosamente.


2025-11-08 11:49:46,080 - src.extractors.structure_parser - INFO - Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r100_c0_structure.json


INFO:src.extractors.structure_parser:Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r100_c0_structure.json


2025-11-08 11:49:46,182 - src.extractors.structure_parser - INFO - Iniciando parseo estructurado de texto (Markdown)...


INFO:src.extractors.structure_parser:Iniciando parseo estructurado de texto (Markdown)...
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


2025-11-08 11:49:54,428 - src.extractors.structure_parser - INFO - Parseo y validación de esquema completados exitosamente.


INFO:src.extractors.structure_parser:Parseo y validación de esquema completados exitosamente.


2025-11-08 11:49:54,434 - src.extractors.structure_parser - INFO - Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r150_c0_structure.json


INFO:src.extractors.structure_parser:Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r150_c0_structure.json


2025-11-08 11:49:54,527 - src.extractors.structure_parser - INFO - Iniciando parseo estructurado de texto (Markdown)...


INFO:src.extractors.structure_parser:Iniciando parseo estructurado de texto (Markdown)...
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


2025-11-08 11:50:06,230 - src.extractors.structure_parser - INFO - Parseo y validación de esquema completados exitosamente.


INFO:src.extractors.structure_parser:Parseo y validación de esquema completados exitosamente.


2025-11-08 11:50:06,239 - src.extractors.structure_parser - INFO - Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c0_structure.json


INFO:src.extractors.structure_parser:Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c0_structure.json


2025-11-08 11:50:06,281 - src.extractors.structure_parser - INFO - Iniciando parseo estructurado de texto (Markdown)...


INFO:src.extractors.structure_parser:Iniciando parseo estructurado de texto (Markdown)...
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


2025-11-08 11:50:13,793 - src.extractors.structure_parser - INFO - Parseo y validación de esquema completados exitosamente.


INFO:src.extractors.structure_parser:Parseo y validación de esquema completados exitosamente.


2025-11-08 11:50:13,797 - src.extractors.structure_parser - INFO - Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c200_structure.json


INFO:src.extractors.structure_parser:Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c200_structure.json


2025-11-08 11:50:13,829 - src.extractors.structure_parser - INFO - Iniciando parseo estructurado de texto (Markdown)...


INFO:src.extractors.structure_parser:Iniciando parseo estructurado de texto (Markdown)...
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


2025-11-08 11:50:22,869 - src.extractors.structure_parser - INFO - Parseo y validación de esquema completados exitosamente.


INFO:src.extractors.structure_parser:Parseo y validación de esquema completados exitosamente.


2025-11-08 11:50:22,877 - src.extractors.structure_parser - INFO - Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c250_structure.json


INFO:src.extractors.structure_parser:Estructura JSON guardada en: 10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c250_structure.json


2025-11-08 11:50:22,924 - src.extractors.structure_parser - INFO - Iniciando parseo estructurado de texto (Markdown)...


INFO:src.extractors.structure_parser:Iniciando parseo estructurado de texto (Markdown)...
INFO:httpx:HTTP Request: POST https://api.openai.com/v1/chat/completions "HTTP/1.1 200 OK"


2025-11-08 11:50:31,891 - src.extractors.structure_parser - INFO - Parseo y validación de esquema completados exitosamente.


INFO:src.extractors.structure_parser:Parseo y validación de esquema completados exitosamente.


2025-11-08 11:50:31,894 - src.extractors.structure_parser - INFO - Estructura JSON guardada en: 25105 25106 25107 & 25108 MV SKY KNIGHT - VAL TISUR_structure.json


INFO:src.extractors.structure_parser:Estructura JSON guardada en: 25105 25106 25107 & 25108 MV SKY KNIGHT - VAL TISUR_structure.json


2025-11-08 11:50:31,897 - src.extractors.structure_parser - INFO - Parseo completado: 9 archivos procesados.


INFO:src.extractors.structure_parser:Parseo completado: 9 archivos procesados.


  Resultado: 8 JSONs estructurados en 116.08s


### Paso 4: Generar Embeddings (CLIP)

In [5]:
from src.embeddings import process_all_multimodal

print("Iniciando [Paso 4]... (Generando Embeddings con CLIP)")
start_time = time.time()
embedding_results = process_all_multimodal()
elapsed = time.time() - start_time
print(f"  Resultado: {embedding_results.get('total_embeddings', 0)} embeddings generados en {elapsed:.2f}s")
print(f"     Imágenes: {embedding_results.get('image_count', 0)}")
print(f"     Textos (JSON): {embedding_results.get('text_count', 0)}")

Iniciando [Paso 4]... (Generando Embeddings con CLIP)
2025-11-08 11:50:45,685 - src.embeddings.clip_encoder - INFO - Cargando modelo CLIP: openai/clip-vit-base-patch32


INFO:src.embeddings.clip_encoder:Cargando modelo CLIP: openai/clip-vit-base-patch32


2025-11-08 11:50:45,687 - src.embeddings.clip_encoder - INFO - Usando device: cpu


INFO:src.embeddings.clip_encoder:Usando device: cpu
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.


2025-11-08 11:50:50,752 - src.embeddings.clip_encoder - INFO - CLIP encoder cargado exitosamente


INFO:src.embeddings.clip_encoder:CLIP encoder cargado exitosamente


2025-11-08 11:50:50,754 - src.embeddings.clip_encoder - INFO - Procesando 8 imágenes totales (solo Excel)


INFO:src.embeddings.clip_encoder:Procesando 8 imágenes totales (solo Excel)


2025-11-08 11:50:50,755 - src.embeddings.clip_encoder - INFO - Batch encoding de 8 imágenes


INFO:src.embeddings.clip_encoder:Batch encoding de 8 imágenes


2025-11-08 11:50:50,756 - src.embeddings.clip_encoder - INFO - Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c0.png


INFO:src.embeddings.clip_encoder:Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c0.png


2025-11-08 11:50:51,648 - src.embeddings.clip_encoder - INFO - Imagen codificada. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Imagen codificada. Dimensión: (512,)


2025-11-08 11:50:51,672 - src.embeddings.clip_encoder - INFO - Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c200.png


INFO:src.embeddings.clip_encoder:Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c200.png


2025-11-08 11:50:52,638 - src.embeddings.clip_encoder - INFO - Imagen codificada. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Imagen codificada. Dimensión: (512,)


2025-11-08 11:50:52,660 - src.embeddings.clip_encoder - INFO - Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c250.png


INFO:src.embeddings.clip_encoder:Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r0_c250.png


2025-11-08 11:50:52,977 - src.embeddings.clip_encoder - INFO - Imagen codificada. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Imagen codificada. Dimensión: (512,)


2025-11-08 11:50:52,981 - src.embeddings.clip_encoder - INFO - Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r100_c0.png


INFO:src.embeddings.clip_encoder:Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r100_c0.png


2025-11-08 11:50:53,851 - src.embeddings.clip_encoder - INFO - Imagen codificada. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Imagen codificada. Dimensión: (512,)


2025-11-08 11:50:53,867 - src.embeddings.clip_encoder - INFO - Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r150_c0.png


INFO:src.embeddings.clip_encoder:Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r150_c0.png


2025-11-08 11:50:54,458 - src.embeddings.clip_encoder - INFO - Imagen codificada. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Imagen codificada. Dimensión: (512,)


2025-11-08 11:50:54,470 - src.embeddings.clip_encoder - INFO - Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c0.png


INFO:src.embeddings.clip_encoder:Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c0.png


2025-11-08 11:50:55,391 - src.embeddings.clip_encoder - INFO - Imagen codificada. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Imagen codificada. Dimensión: (512,)


2025-11-08 11:50:55,406 - src.embeddings.clip_encoder - INFO - Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c200.png


INFO:src.embeddings.clip_encoder:Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c200.png


2025-11-08 11:50:56,252 - src.embeddings.clip_encoder - INFO - Imagen codificada. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Imagen codificada. Dimensión: (512,)


2025-11-08 11:50:56,265 - src.embeddings.clip_encoder - INFO - Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c250.png


INFO:src.embeddings.clip_encoder:Codificando imagen: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\images\excel_images\10841- INFORME GENERAL - MN - SKY KNIGHT  -  LAS BAMBAS   - 09 -10 -2025 (1)_chunk_r50_c250.png


2025-11-08 11:50:56,565 - src.embeddings.clip_encoder - INFO - Imagen codificada. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Imagen codificada. Dimensión: (512,)


2025-11-08 11:50:56,603 - src.embeddings.clip_encoder - INFO - Procesando 8 textos (desde JSON estructurados)


INFO:src.embeddings.clip_encoder:Procesando 8 textos (desde JSON estructurados)


2025-11-08 11:50:56,606 - src.embeddings.clip_encoder - INFO - Batch encoding de 8 textos


INFO:src.embeddings.clip_encoder:Batch encoding de 8 textos


2025-11-08 11:50:56,607 - src.embeddings.clip_encoder - INFO - Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


INFO:src.embeddings.clip_encoder:Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


2025-11-08 11:50:56,709 - src.embeddings.clip_encoder - INFO - Texto codificado. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Texto codificado. Dimensión: (512,)


2025-11-08 11:50:56,712 - src.embeddings.clip_encoder - INFO - Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


INFO:src.embeddings.clip_encoder:Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


2025-11-08 11:50:56,767 - src.embeddings.clip_encoder - INFO - Texto codificado. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Texto codificado. Dimensión: (512,)


2025-11-08 11:50:56,770 - src.embeddings.clip_encoder - INFO - Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


INFO:src.embeddings.clip_encoder:Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


2025-11-08 11:50:56,833 - src.embeddings.clip_encoder - INFO - Texto codificado. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Texto codificado. Dimensión: (512,)


2025-11-08 11:50:56,837 - src.embeddings.clip_encoder - INFO - Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


INFO:src.embeddings.clip_encoder:Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


2025-11-08 11:50:56,908 - src.embeddings.clip_encoder - INFO - Texto codificado. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Texto codificado. Dimensión: (512,)


2025-11-08 11:50:56,912 - src.embeddings.clip_encoder - INFO - Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


INFO:src.embeddings.clip_encoder:Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


2025-11-08 11:50:56,982 - src.embeddings.clip_encoder - INFO - Texto codificado. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Texto codificado. Dimensión: (512,)


2025-11-08 11:50:56,986 - src.embeddings.clip_encoder - INFO - Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


INFO:src.embeddings.clip_encoder:Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


2025-11-08 11:50:57,056 - src.embeddings.clip_encoder - INFO - Texto codificado. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Texto codificado. Dimensión: (512,)


2025-11-08 11:50:57,059 - src.embeddings.clip_encoder - INFO - Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


INFO:src.embeddings.clip_encoder:Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


2025-11-08 11:50:57,123 - src.embeddings.clip_encoder - INFO - Texto codificado. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Texto codificado. Dimensión: (512,)


2025-11-08 11:50:57,128 - src.embeddings.clip_encoder - INFO - Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


INFO:src.embeddings.clip_encoder:Codificando texto (primeros 50 chars): {"numero_factura": null, "fecha_emision": null, "c


2025-11-08 11:50:57,192 - src.embeddings.clip_encoder - INFO - Texto codificado. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Texto codificado. Dimensión: (512,)


2025-11-08 11:50:57,217 - src.embeddings.clip_encoder - INFO - Embeddings guardados: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\embeddings\image_embeddings.json


INFO:src.embeddings.clip_encoder:Embeddings guardados: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\embeddings\image_embeddings.json


2025-11-08 11:50:57,235 - src.embeddings.clip_encoder - INFO - Embeddings guardados: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\embeddings\text_embeddings.json


INFO:src.embeddings.clip_encoder:Embeddings guardados: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\data\embeddings\text_embeddings.json


  Resultado: 16 embeddings generados en 11.62s
     Imágenes: 8
     Textos (JSON): 8


### Paso 5: Indexar en ChromaDB

In [3]:
from src.vectorstore import index_all_embeddings, MultimodalIndexer

print("Iniciando [Paso 5]... (Indexando en ChromaDB)")
start_time = time.time()
index_results = index_all_embeddings()
elapsed = time.time() - start_time
print(f"  Resultado: {index_results.get('total_indexed', 0)} documentos indexados en {elapsed:.2f}s")

# Verificar estadísticas (como en el análisis)
try:
    indexer = MultimodalIndexer()
    stats = indexer.get_collection_stats()
    print("\n--- Estadísticas de ChromaDB ---")
    print(json.dumps(stats, indent=2))
    print("---------------------------------")
except Exception as e:
    logger.error(f"Error al obtener estadísticas de ChromaDB: {e}")

  from .autonotebook import tqdm as notebook_tqdm
INFO:src.vectorstore.multimodal_indexer:Iniciando PASO 5: Indexación de todos los embeddings...
INFO:src.vectorstore.multimodal_indexer:No se proveyó ClipEncoder, creando instancia por defecto...


Iniciando [Paso 5]... (Indexando en ChromaDB)
2025-11-08 12:13:26,186 - src.embeddings.clip_encoder - INFO - Cargando modelo CLIP: openai/clip-vit-base-patch32


INFO:src.embeddings.clip_encoder:Cargando modelo CLIP: openai/clip-vit-base-patch32


2025-11-08 12:13:26,188 - src.embeddings.clip_encoder - INFO - Usando device: cpu


INFO:src.embeddings.clip_encoder:Usando device: cpu
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.


2025-11-08 12:13:32,397 - src.embeddings.clip_encoder - INFO - CLIP encoder cargado exitosamente


INFO:src.embeddings.clip_encoder:CLIP encoder cargado exitosamente
INFO:src.vectorstore.multimodal_indexer:Instancia de ClipEncoder por defecto creada.
INFO:src.vectorstore.multimodal_indexer:No se proveyó ChromaManager, usando get_chroma_manager() por defecto...
INFO:src.vectorstore.chroma_manager:Creando nueva instancia de ChromaManager...
INFO:src.vectorstore.chroma_manager:Inicializando ChromaManager para el directorio: c:\Users\Usuario\Documents\UTEC\Liquidaciones Agent\multidoc-agent\chromadb_storage
INFO:src.vectorstore.chroma_manager:Colección 'multidoc_collection' cargada/creada exitosamente con métrica 'cosine'.
INFO:src.vectorstore.chroma_manager:Instancia de ChromaManager creada y cacheada.
INFO:src.vectorstore.multimodal_indexer:Instancia de ChromaManager por defecto obtenida.
INFO:src.vectorstore.multimodal_indexer:MultimodalIndexer inicializado y listo.
INFO:src.vectorstore.multimodal_indexer:Procesando 8 embeddings de imágenes...
INFO:src.vectorstore.multimodal_indexer:

  Resultado: 0 documentos indexados en 6.95s
2025-11-08 12:13:33,139 - src.embeddings.clip_encoder - INFO - Cargando modelo CLIP: openai/clip-vit-base-patch32


INFO:src.embeddings.clip_encoder:Cargando modelo CLIP: openai/clip-vit-base-patch32


2025-11-08 12:13:33,140 - src.embeddings.clip_encoder - INFO - Usando device: cpu


INFO:src.embeddings.clip_encoder:Usando device: cpu


2025-11-08 12:13:36,472 - src.embeddings.clip_encoder - INFO - CLIP encoder cargado exitosamente


INFO:src.embeddings.clip_encoder:CLIP encoder cargado exitosamente
INFO:src.vectorstore.multimodal_indexer:Instancia de ClipEncoder por defecto creada.
INFO:src.vectorstore.multimodal_indexer:No se proveyó ChromaManager, usando get_chroma_manager() por defecto...
INFO:src.vectorstore.multimodal_indexer:Instancia de ChromaManager por defecto obtenida.
INFO:src.vectorstore.multimodal_indexer:MultimodalIndexer inicializado y listo.
INFO:src.vectorstore.multimodal_indexer:Obteniendo estadísticas de la colección 'multidoc_collection'...
INFO:src.vectorstore.multimodal_indexer:Estadísticas obtenidas: {'total_documents': 8, 'image_documents': 8, 'text_documents': 0, 'multimodal': False}



--- Estadísticas de ChromaDB ---
{
  "total_documents": 8,
  "image_documents": 8,
  "text_documents": 0,
  "multimodal": false
}
---------------------------------


## FASE 2: CONSULTA (Paso 6)

### Paso 6: Probar el Agente RAG

In [5]:
from src.agent import run_agent_query

print("Iniciando [Paso 6]... (Prueba de consulta del Agente)")
query = "¿Cuál es el tonelaje para el lote 25105?"
print(f"\nQuery: '{query}'")

start_time = time.time()
result = run_agent_query(query)
elapsed = time.time() - start_time

print(f"\n--- Respuesta del Agente ({elapsed:.2f}s) ---")
# Imprimir la respuesta formateada
if result.get('status') == 'success':
    response_data = result.get('response', {})
    print(f"Respuesta: {response_data.get('answer', 'Sin respuesta.')}")
    print(f"Confianza: {response_data.get('quality_score', 0) * 100:.1f}%")
    print(f"Fuentes usadas ({len(response_data.get('sources', []))}):\n{json.dumps(response_data.get('sources', []), indent=2)}")
else:
    print(f"❌ Error del Agente: {result.get('error', 'Error desconocido')}")
print("---------------------------------")

Iniciando [Paso 6]... (Prueba de consulta del Agente)

Query: '¿Cuál es el tonelaje para el lote 25105?'
2025-11-08 12:14:08,958 - src.agent.graph_agent - INFO - Ejecutando agente con query: ¿Cuál es el tonelaje para el lote 25105?


INFO:src.agent.graph_agent:Ejecutando agente con query: ¿Cuál es el tonelaje para el lote 25105?


2025-11-08 12:14:08,967 - src.agent.nodes - INFO - Query node - Query: ¿Cuál es el tonelaje para el lote 25105?


INFO:src.agent.nodes:Query node - Query: ¿Cuál es el tonelaje para el lote 25105?


2025-11-08 12:14:08,972 - src.agent.nodes - INFO - Query preparada: ¿Cuál es el tonelaje para el lote 25105?


INFO:src.agent.nodes:Query preparada: ¿Cuál es el tonelaje para el lote 25105?


2025-11-08 12:14:08,978 - src.agent.nodes - INFO - Retrieve node - Buscando documentos


INFO:src.agent.nodes:Retrieve node - Buscando documentos


2025-11-08 12:14:08,982 - src.embeddings.clip_encoder - INFO - Cargando modelo CLIP: openai/clip-vit-base-patch32


INFO:src.embeddings.clip_encoder:Cargando modelo CLIP: openai/clip-vit-base-patch32


2025-11-08 12:14:08,986 - src.embeddings.clip_encoder - INFO - Usando device: cpu


INFO:src.embeddings.clip_encoder:Usando device: cpu


2025-11-08 12:14:12,444 - src.embeddings.clip_encoder - INFO - CLIP encoder cargado exitosamente


INFO:src.embeddings.clip_encoder:CLIP encoder cargado exitosamente
INFO:src.vectorstore.multimodal_indexer:No se proveyó ClipEncoder, creando instancia por defecto...


2025-11-08 12:14:12,447 - src.embeddings.clip_encoder - INFO - Cargando modelo CLIP: openai/clip-vit-base-patch32


INFO:src.embeddings.clip_encoder:Cargando modelo CLIP: openai/clip-vit-base-patch32


2025-11-08 12:14:12,449 - src.embeddings.clip_encoder - INFO - Usando device: cpu


INFO:src.embeddings.clip_encoder:Usando device: cpu


2025-11-08 12:14:15,827 - src.embeddings.clip_encoder - INFO - CLIP encoder cargado exitosamente


INFO:src.embeddings.clip_encoder:CLIP encoder cargado exitosamente
INFO:src.vectorstore.multimodal_indexer:Instancia de ClipEncoder por defecto creada.
INFO:src.vectorstore.multimodal_indexer:No se proveyó ChromaManager, usando get_chroma_manager() por defecto...
INFO:src.vectorstore.multimodal_indexer:Instancia de ChromaManager por defecto obtenida.
INFO:src.vectorstore.multimodal_indexer:MultimodalIndexer inicializado y listo.


2025-11-08 12:14:15,831 - src.embeddings.clip_encoder - INFO - Codificando texto (primeros 50 chars): ¿Cuál es el tonelaje para el lote 25105?


INFO:src.embeddings.clip_encoder:Codificando texto (primeros 50 chars): ¿Cuál es el tonelaje para el lote 25105?


2025-11-08 12:14:15,896 - src.embeddings.clip_encoder - INFO - Texto codificado. Dimensión: (512,)


INFO:src.embeddings.clip_encoder:Texto codificado. Dimensión: (512,)


2025-11-08 12:14:15,898 - src.agent.nodes - ERROR - Error durante retrieval: 'MultimodalIndexer' object has no attribute 'search_by_embedding'


ERROR:src.agent.nodes:Error durante retrieval: 'MultimodalIndexer' object has no attribute 'search_by_embedding'


2025-11-08 12:14:15,918 - src.agent.nodes - INFO - Reason node - Razonando con LLM


INFO:src.agent.nodes:Reason node - Razonando con LLM






2025-11-08 12:14:15,925 - src.agent.nodes - INFO - Format node - Formateando respuesta


INFO:src.agent.nodes:Format node - Formateando respuesta


2025-11-08 12:14:15,927 - src.agent.nodes - INFO - Respuesta formateada


INFO:src.agent.nodes:Respuesta formateada


2025-11-08 12:14:15,930 - src.agent.graph_agent - INFO - Ejecución del agente completada


INFO:src.agent.graph_agent:Ejecución del agente completada



--- Respuesta del Agente (6.98s) ---
Respuesta: No se encontraron documentos relevantes
Confianza: 70.0%
Fuentes usadas (0):
[]
---------------------------------


### Fin del Prototipo
Si todas las celdas se ejecutaron, el pipeline completo funciona.

**Próximo paso:** `05_agent_query.ipynb` para consultas interactivas.