# 04_agent_prototype.ipynb
## Prototipo del Agente Completo End-to-End

Pipeline completo:
- Imagen ‚Üí OCR ‚Üí Embedding ‚Üí ChromaDB ‚Üí Agente ‚Üí Respuesta

In [None]:
import sys
from pathlib import Path
import json
import time

sys.path.insert(0, str(Path.cwd()))

from src.preprocessors import process_all_excels, process_all_pdfs
from src.extractors import process_all_images, process_all_extracted_text
from src.embeddings import process_all_multimodal
from src.vectorstore import index_all_embeddings, MultimodalIndexer, get_chroma_manager
from src.agent import run_agent_query
from src.utils.logger import get_logger

logger = get_logger(__name__)
print("‚úÖ Todas las dependencias importadas")

## FASE 1: Indexaci√≥n Completa

### 1.1 Verificar datos de entrada

In [None]:
from src.utils.config import INPUT_EXCEL_DIR, INPUT_PDF_DIR

excel_files = list(INPUT_EXCEL_DIR.glob("*.xlsx"))
pdf_files = list(INPUT_PDF_DIR.glob("*.pdf"))

print("Verificaci√≥n de datos de entrada:")
print(f"  - Archivos Excel: {len(excel_files)}")
print(f"  - Archivos PDF: {len(pdf_files)}")
print(f"  - Total: {len(excel_files) + len(pdf_files)}")

if len(excel_files) + len(pdf_files) == 0:
    print("\n‚ö†Ô∏è ADVERTENCIA: No hay archivos de entrada")
    print("   Coloca archivos en:")
    print(f"   - Excel: {INPUT_EXCEL_DIR}")
    print(f"   - PDF: {INPUT_PDF_DIR}")
else:
    print("\n‚úÖ Datos listos para indexaci√≥n")

### 1.2 Paso 1: Convertir a Im√°genes

In [None]:
print("\n" + "="*60)
print("PASO 1: CONVERSI√ìN A IM√ÅGENES")
print("="*60)

start_time = time.time()

print("\n[1a] Procesando Excel...")
excel_results = process_all_excels()
excel_success = len([r for r in excel_results if r.get('status') == 'success'])
print(f"  Resultado: {excel_success}/{len(excel_files)} exitosos")

print("\n[1b] Procesando PDF...")
pdf_results = process_all_pdfs()
pdf_success = len([r for r in pdf_results if r.get('status') == 'success'])
print(f"  Resultado: {pdf_success}/{len(pdf_files)} exitosos")

elapsed = time.time() - start_time
print(f"\n‚è±Ô∏è Tiempo: {elapsed:.2f}s")

### 1.3 Paso 2: Extraer Texto (OCR)

In [None]:
print("\n" + "="*60)
print("PASO 2: EXTRACCI√ìN OCR")
print("="*60)

start_time = time.time()

print("\nExtrayendo texto de im√°genes...")
ocr_results = process_all_images()
ocr_success = len([r for r in ocr_results if r.get('status') == 'success'])
print(f"  Resultado: {ocr_success}/{len(ocr_results)} exitosos")

elapsed = time.time() - start_time
print(f"\n‚è±Ô∏è Tiempo: {elapsed:.2f}s")

### 1.4 Paso 3: Parsear y Estructurar

In [None]:
print("\n" + "="*60)
print("PASO 3: PARSING Y ESTRUCTURACI√ìN")
print("="*60)

start_time = time.time()

print("\nEstructurando texto extra√≠do...")
parser_results = process_all_extracted_text()
parser_success = len([r for r in parser_results if r.get('status') == 'success'])
print(f"  Resultado: {parser_success}/{len(parser_results)} exitosos")

elapsed = time.time() - start_time
print(f"\n‚è±Ô∏è Tiempo: {elapsed:.2f}s")

### 1.5 Paso 4: Generar Embeddings CLIP (‚≠ê Multimodal)

In [None]:
print("\n" + "="*60)
print("PASO 4: EMBEDDINGS CLIP (ESPACIO MULTIMODAL)")
print("="*60)

start_time = time.time()

print("\nGenerando embeddings con CLIP...")
print("  - Codificando im√°genes...")
print("  - Codificando textos...")
print("  - Verificando espacio compartido...")

embedding_results = process_all_multimodal()

print(f"\nResultados:")
print(f"  - Im√°genes: {embedding_results.get('image_count', 0)}")
print(f"  - Textos: {embedding_results.get('text_count', 0)}")
print(f"  - Total: {embedding_results.get('total_embeddings', 0)}")
print(f"  - Espacio compartido: {'‚úÖ Verificado' if embedding_results.get('shared_space_verified') else '‚ùå No'}")

elapsed = time.time() - start_time
print(f"\n‚è±Ô∏è Tiempo: {elapsed:.2f}s")

### 1.6 Paso 5: Indexar en ChromaDB

In [None]:
print("\n" + "="*60)
print("PASO 5: INDEXACI√ìN CHROMADB")
print("="*60)

start_time = time.time()

print("\nIndexando embeddings en ChromaDB...")
index_results = index_all_embeddings()

print(f"\nResultados:")
print(f"  - Im√°genes indexadas: {index_results.get('images_indexed', 0)}")
print(f"  - Textos indexados: {index_results.get('texts_indexed', 0)}")

if index_results.get('errors'):
    print(f"  - Errores: {len(index_results['errors'])}")
    for error in index_results['errors'][:3]:
        print(f"    ‚Ä¢ {error}")

# Obtener estad√≠sticas
indexer = MultimodalIndexer()
stats = indexer.get_collection_stats()

print(f"\nEstad√≠sticas ChromaDB:")
print(f"  - Total documentos: {stats.get('total_documents', 0)}")
print(f"  - Documentos imagen: {stats.get('image_documents', 0)}")
print(f"  - Documentos texto: {stats.get('text_documents', 0)}")
print(f"  - Multimodal: {'‚úÖ S√≠' if stats.get('multimodal') else '‚ùå No'}")

elapsed = time.time() - start_time
print(f"\n‚è±Ô∏è Tiempo: {elapsed:.2f}s")

print("\n" + "="*60)
print("‚úÖ INDEXACI√ìN COMPLETADA")
print("="*60)

## FASE 2: Pruebas del Agente

### 2.1 Verificar ChromaDB

In [None]:
print("\nVerificando ChromaDB...")
chroma_mgr = get_chroma_manager()

collection_info = chroma_mgr.get_collection_info()
print(f"\nInformaci√≥n de Colecci√≥n:")
print(json.dumps(collection_info, indent=2))

if collection_info.get('document_count', 0) == 0:
    print("\n‚ö†Ô∏è ADVERTENCIA: ChromaDB est√° vac√≠o")
    print("   Ejecuta los pasos de indexaci√≥n arriba primero")
else:
    print(f"\n‚úÖ ChromaDB listo con {collection_info.get('document_count')} documentos")

### 2.2 Test 1: B√∫squeda por Similitud

In [None]:
from src.embeddings import CLIPEncoder
import numpy as np

print("\n" + "="*60)
print("TEST 1: B√öSQUEDA POR SIMILITUD")
print("="*60)

encoder = CLIPEncoder()
indexer = MultimodalIndexer()

# Query de prueba
query = "¬øCu√°l es el total de la liquidaci√≥n?"
print(f"\nQuery: '{query}'")

# Convertir a embedding
query_embedding = encoder.encode_text(query)
print(f"Embedding generado: {query_embedding.shape}")

# Buscar en ChromaDB
print(f"\nBuscando en ChromaDB...")
results = indexer.search_by_embedding(query_embedding.tolist(), top_k=3)

print(f"\nResultados encontrados: {results.get('count', 0)}")

for i, doc in enumerate(results.get('documents', []), 1):
    print(f"\n[{i}] Documento:")
    print(f"    ID: {doc.get('id')}")
    print(f"    Tipo: {doc.get('metadata', {}).get('type', 'unknown')}")
    print(f"    Relevancia: {1 - doc.get('distance', 0):.4f}")
    print(f"    Contenido: {doc.get('document', '')[:100]}...")

### 2.3 Test 2: B√∫squeda por Metadata

In [None]:
print("\n" + "="*60)
print("TEST 2: B√öSQUEDA POR METADATA")
print("="*60)

# B√∫squeda por tipo (imagen)
print("\nBuscando documentos de tipo 'image'...")
results_images = indexer.search_by_metadata({"type": "image"}, top_k=5)

print(f"Encontrados: {results_images.get('count', 0)}")
for doc in results_images.get('documents', []):
    print(f"  - {doc.get('metadata', {}).get('fuente', 'N/A')}")

# B√∫squeda por tipo (texto)
print(f"\nBuscando documentos de tipo 'text'...")
results_texts = indexer.search_by_metadata({"type": "text"}, top_k=5)

print(f"Encontrados: {results_texts.get('count', 0)}")

### 2.4 Test 3: Agente Completo (LangGraph)

In [None]:
print("\n" + "="*60)
print("TEST 3: AGENTE COMPLETO (LANGGRAPH)")
print("="*60)

queries = [
    "¬øCu√°l es el total de la liquidaci√≥n?",
    "¬øQu√© conceptos se liquidaron?",
    "¬øCu√°les fueron las fechas de pago?",
]

print(f"\nEjecutando {len(queries)} queries en el agente...\n")

for i, query in enumerate(queries, 1):
    print(f"\n[Query {i}] '{query}'")
    
    start_time = time.time()
    result = run_agent_query(query)
    elapsed = time.time() - start_time
    
    print(f"Status: {result.get('status')}")
    print(f"Documentos recuperados: {result.get('documents_retrieved', 0)}")
    print(f"Tiempo: {elapsed:.2f}s")
    
    if result.get('status') == 'success':
        response = result.get('response', {})
        print(f"\nRespuesta:")
        print(f"  {response.get('answer', 'Sin respuesta')[:200]}...")
        
        sources = response.get('sources', [])
        if sources:
            print(f"\nFuentes ({len(sources)}):")
            for src in sources:
                print(f"  - Tipo: {src.get('type')} | Confianza: {src.get('confidence'):.2%}")

### 2.5 Test 4: Informaci√≥n del Grafo

In [None]:
from src.agent import get_agent

print("\n" + "="*60)
print("TEST 4: INFORMACI√ìN DEL GRAFO LANGGRAPH")
print("="*60)

agent = get_agent()
grafo_info = agent.get_graph_info()

print(f"\nNodos del grafo:")
for node in grafo_info.get('nodes', []):
    print(f"  - {node}")

print(f"\nEdges (transiciones):")
for edge in grafo_info.get('edges', []):
    print(f"  {edge[0]} ‚Üí {edge[1]}")

print(f"\nEstado: {'‚úÖ Compilado' if grafo_info.get('compiled') else '‚ùå No compilado'}")

## FASE 3: Evaluaci√≥n y M√©tricas

### 3.1 M√©tricas de Indexaci√≥n

In [None]:
print("\n" + "="*60)
print("M√âTRICAS DE INDEXACI√ìN")
print("="*60)

stats = indexer.get_collection_stats()

print(f"\nDocumentos indexados:")
print(f"  - Total: {stats.get('total_documents', 0)}")
print(f"  - Im√°genes: {stats.get('image_documents', 0)}")
print(f"  - Textos: {stats.get('text_documents', 0)}")
print(f"  - Relaci√≥n: {stats.get('image_documents', 0)} img + {stats.get('text_documents', 0)} txt = {stats.get('total_documents', 0)} total")

if stats.get('total_documents', 0) > 0:
    img_pct = stats.get('image_documents', 0) / stats.get('total_documents', 0) * 100
    text_pct = stats.get('text_documents', 0) / stats.get('total_documents', 0) * 100
    print(f"\nDistribuci√≥n:")
    print(f"  - Im√°genes: {img_pct:.1f}%")
    print(f"  - Textos: {text_pct:.1f}%")

print(f"\nCaracter√≠sticas:")
print(f"  - Multimodal: {'‚úÖ S√≠' if stats.get('multimodal') else '‚ùå No'}")
print(f"  - Espacio compartido: ‚úÖ CLIP (512 dims)")

### 3.2 Resumen General

In [None]:
print("\n" + "="*70)
print(" RESUMEN: AGENTE MULTIMODAL - PIPELINE COMPLETO")
print("="*70)

print(f"\n‚úÖ FASE 1: INDEXACI√ìN")
print(f"   [1] Excel/PDF ‚Üí Im√°genes: {'‚úÖ' if excel_results else '‚ùå'}")
print(f"   [2] Im√°genes ‚Üí OCR: {'‚úÖ' if ocr_results else '‚ùå'}")
print(f"   [3] Texto ‚Üí Parser: {'‚úÖ' if parser_results else '‚ùå'}")
print(f"   [4] Todo ‚Üí CLIP Embeddings: {'‚úÖ' if embedding_results.get('total_embeddings', 0) > 0 else '‚ùå'}")
print(f"   [5] Embeddings ‚Üí ChromaDB: {'‚úÖ' if index_results.get('images_indexed', 0) + index_results.get('texts_indexed', 0) > 0 else '‚ùå'}")

print(f"\n‚úÖ FASE 2: AGENTE")
print(f"   - Nodos: query ‚Üí retrieve ‚Üí reason ‚Üí format")
print(f"   - Herramientas: 5 disponibles")
print(f"   - Queries ejecutadas: {len(queries)}")
print(f"   - Documentos recuperados: M√∫ltiples por query")

print(f"\nüìä ESTAD√çSTICAS FINALES")
print(f"   - Im√°genes indexadas: {index_results.get('images_indexed', 0)}")
print(f"   - Textos indexados: {index_results.get('texts_indexed', 0)}")
print(f"   - Total ChromaDB: {stats.get('total_documents', 0)}")
print(f"   - Espacio vectorial: 512 dimensiones (CLIP)")
print(f"   - Multimodalidad: IMAGEN + TEXTO en MISMO espacio")

print(f"\nüéØ CONCEPTOS IMPLEMENTADOS")
print(f"   ‚úÖ Multimodalidad (imagen + texto)")
print(f"   ‚úÖ CLIP Encoder (espacio compartido)")
print(f"   ‚úÖ RAG Multimodal (retrieval + reasoning)")
print(f"   ‚úÖ LangGraph (agente con grafo)")
print(f"   ‚úÖ ChromaDB (vector store)")
print(f"   ‚úÖ OCR Integration (Landing AI/DeepSeek)")
print(f"   ‚úÖ Herramientas especializadas")

print(f"\nüöÄ ESTADO: ‚úÖ LISTO PARA PRODUCCI√ìN")
print("="*70)

## Pruebas Adicionales (Opcional)

### Listar todos los documentos indexados

In [None]:
print("\nDocumentos en ChromaDB:\n")

all_docs = indexer.list_documents(limit=20)

for i, doc in enumerate(all_docs.get('documents', []), 1):
    print(f"[{i}] ID: {doc.get('id')}")
    print(f"    Tipo: {doc.get('metadata', {}).get('type')}")
    print(f"    Fuente: {doc.get('metadata', {}).get('fuente')}")
    print()

### Exportar estad√≠sticas finales

In [None]:
# Guardar reporte final
report = {
    "timestamp": time.strftime("%Y-%m-%d %H:%M:%S"),
    "indexacion": {
        "archivos_excel": len(excel_files),
        "archivos_pdf": len(pdf_files),
        "imagenes_generadas": excel_success + pdf_success,
        "textos_extraidos": ocr_success,
        "textos_parseados": parser_success
    },
    "embeddings": embedding_results,
    "chromadb": stats,
    "agente": {
        "nodos": ["query_node", "retrieve_node", "reason_node", "format_node"],
        "herramientas": 5,
        "queries_ejecutadas": len(queries)
    }
}

with open('agent_report.json', 'w', encoding='utf-8') as f:
    json.dump(report, f, ensure_ascii=False, indent=2)

print("‚úÖ Reporte guardado: agent_report.json")
print(json.dumps(report, indent=2))