# **Sistemas Multi-Agente y ChromaDB con LlamaIndex** ü§ñüóÑÔ∏è

Este notebook forma parte del curso de **IA Generativa** de la [Fundaci√≥n GoodJob](https://www.fundaciongoodjob.org/).  
En √©l, los alumnos aprender√°n a crear **sistemas multi-agente** avanzados que pueden trabajar con **bases de datos vectoriales** y **m√∫ltiples fuentes de informaci√≥n**.  

<p align="center">
  <img src="../notebooks/sources/llamaindex.png" alt="LlamaIndex" style="width:100%; height:auto;"/>
</p>


## ¬øQu√© vamos a aprender hoy? üéØ

En el notebook anterior aprendimos a crear agentes b√°sicos con herramientas simples. ¬°Ahora vamos a dar un salto a agentes m√°s complejos! 

Hoy construiremos:

- üóÑÔ∏è **Bases de datos vectoriales** con ChromaDB para almacenar conocimiento
- üë• **Sistemas multi-agente** con especialistas para diferentes tareas
- üß† **Agentes inteligentes** que pueden consultar documentos, APIs y hacer c√°lculos
- üéØ **Routers** que deciden qu√© agente usar para cada consulta
- üîÑ **Orquestaci√≥n** para combinar m√∫ltiples fuentes de informaci√≥n

¬°Empezamos esta aventura! üåü


## Prerrequisitos y configuraci√≥n inicial üîß

Antes de empezar, necesitamos instalar algunas dependencias adicionales para trabajar con bases de datos vectoriales y sistemas multi-agente.


In [3]:
# Install additional dependencies if needed
# Check if we have everything we need
import os
import sys
from pathlib import Path

print("üîç Verificando configuraci√≥n del entorno...")

# Check if data directory exists
data_dir = Path("../data")
if not data_dir.exists():
    print("üìÅ Creando directorio de datos...")
    data_dir.mkdir(exist_ok=True)
    (data_dir / "pdfs").mkdir(exist_ok=True)
    print("‚úÖ Directorios creados: ../data/pdfs")
else:
    print("‚úÖ Directorio de datos encontrado")

# Check if ChromaDB directory exists
chroma_dir = Path("../chroma_db")
if not chroma_dir.exists():
    print("üóÑÔ∏è Preparando directorio para ChromaDB...")
    chroma_dir.mkdir(exist_ok=True)
    print("‚úÖ Directorio ChromaDB creado")
else:
    print("‚úÖ Directorio ChromaDB encontrado")

print("üéâ ¬°Configuraci√≥n inicial completada!")


üîç Verificando configuraci√≥n del entorno...
‚úÖ Directorio de datos encontrado
‚úÖ Directorio ChromaDB encontrado
üéâ ¬°Configuraci√≥n inicial completada!


## 1. ¬øQu√© es una base de datos vectorial? üß†

### El problema que resuelven

Imagina que tienes **miles de documentos PDF** con informaci√≥n importante de tu empresa. Un usuario te pregunta: *"¬øCu√°l es la pol√≠tica de reembolsos para clientes internacionales?"*

Con m√©todos tradicionales tendr√≠as que:
1. üò∞ Buscar manualmente en cada documento
2. üîç Usar b√∫squeda por palabras clave (que puede fallar si usan sin√≥nimos)
3. ‚è∞ Invertir horas en encontrar la respuesta

### La soluci√≥n: Bases de datos vectoriales

Una **base de datos vectorial** convierte tus textos en **vectores num√©ricos** (embeddings) que capturan el **significado sem√°ntico**. Esto permite:

- üéØ **B√∫squeda sem√°ntica**: Encuentra contenido por significado, no solo palabras exactas
- ‚ö° **Velocidad**: Consultas en milisegundos, incluso con millones de documentos  
- üß† **Inteligencia**: Entiende sin√≥nimos, contexto y relaciones conceptuales
- üíæ **Persistencia**: Guarda todo para reutilizar sin reprocesar

### ¬øPor qu√© ChromaDB?

**ChromaDB** es perfecto para aprender y proyectos porque es:
- üöÄ **F√°cil de instalar**: Un simple `pip install`
- üíæ **Persistente**: Guarda tus datos localmente
- üîß **Integrado**: Funciona perfectamente con LlamaIndex
- üÜì **Gratuito**: Sin costos de infraestructura

```
üìÑ PDF ‚Üí üìù Chunks ‚Üí üßÆ Embeddings ‚Üí üóÑÔ∏è ChromaDB ‚Üí üîç Consulta ‚Üí ü§ñ LLM ‚Üí ‚ú® Respuesta
```

Aunque en este curso utilizaremos **ChromaDB** por su simplicidad y porque requiere pocos recursos, existen muchas otras opciones muy v√°lidas y potentes para bases de datos vectoriales. Algunas alternativas populares incluyen:
 
 - [Qdrant](https://qdrant.tech/): Motor de base de datos vectorial de alto rendimiento, open source y con muchas integraciones.
 - [Weaviate](https://weaviate.io/): Plataforma de base de datos vectorial con capacidades de b√∫squeda sem√°ntica y m√≥dulos de IA integrados.
 - [Pinecone](https://www.pinecone.io/): Servicio gestionado en la nube, muy utilizado en producci√≥n.
 - [Milvus](https://milvus.io/): Sistema open source escalable para gesti√≥n de vectores.
 - [PostgreSQL + pgvector](https://github.com/pgvector/pgvector): Extensi√≥n para PostgreSQL que permite almacenar y consultar vectores en una base de datos relacional tradicional.
 
Todas estas opciones son ampliamente utilizadas en la industria y pueden ser m√°s adecuadas para proyectos en producci√≥n o con necesidades espec√≠ficas.



## 1.1 ¬øQu√© es Top-K en B√∫squeda Vectorial? üéØ

El **Top-K** es un concepto fundamental en las bases de datos vectoriales que determina **cu√°ntos documentos similares** devolver para cada consulta.

### üîç ¬øC√≥mo funciona Top-K?

Cuando haces una consulta en una base de datos vectorial:

1. **üìù Tu consulta** se convierte en un vector (embedding)
2. **üìä Se calcula la similitud** entre tu vector y todos los vectores almacenados
3. **üèÜ Se ordenan por similitud** (m√°s similar = menor distancia)
4. **üéØ Se devuelven los K m√°s similares** (donde K es el n√∫mero que configures)

<p align="center">
  <img src="sources/tok_k.jpg" alt="Funcionamiento Top-K en Base de Datos Vectorial" style="width:80%; height:auto;"/>
</p>

**Flujo de datos:**
- Los **Text Chunks** (documentos fragmentados) se procesan con **Encoders**
- Cada chunk genera su **Embedding** correspondiente
- Todos los embeddings se almacenan en la **Vector DB**
- Al consultar, se comparan similitudes y se devuelven los **Top-K m√°s relevantes**

### ‚öôÔ∏è Configurando Top-K: ¬øQu√© valor usar?

| **Top-K** | **Uso Recomendado** | **Ventajas** | **Desventajas** |
|-----------|-------------------|-------------|----------------|
| **1-3** | Respuestas muy espec√≠ficas | üéØ M√°xima precisi√≥n, respuestas concisas | ‚ö†Ô∏è Puede perder contexto importante |
| **3-5** | Uso general (Recomendado) | ‚öñÔ∏è Buen balance precisi√≥n/contexto | ‚úÖ Ideal para la mayor√≠a de casos |
| **5-8** | An√°lisis profundo | üìö Contexto rico, an√°lisis completo | üêå Respuestas m√°s largas |
| **8+** | Investigaci√≥n exhaustiva | üîç Contexto m√°ximo | ‚ö†Ô∏è Riesgo de informaci√≥n irrelevante |

### üí° Factores que Influyen en Top-K

1. **üìè Longitud del contexto del LLM**: Modelos con m√°s contexto pueden procesar m√°s chunks
2. **üéØ Tipo de consulta**: Preguntas espec√≠ficas necesitan menos chunks
3. **üìä Calidad de los embeddings**: Mejores embeddings = mejor precisi√≥n con menos chunks
4. **‚ö° Rendimiento**: M√°s chunks = m√°s tiempo de procesamiento



## 1.2 ¬øC√≥mo se Calcula la Similitud entre Embeddings? üìê

Para que una base de datos vectorial funcione, necesita una forma de **medir qu√© tan similares** son dos vectores. La m√©trica m√°s com√∫n y efectiva es la **similitud del coseno**.

### üßÆ Similitud del Coseno: La Matem√°tica Detr√°s de la Magia

La similitud del coseno mide el **√°ngulo entre dos vectores**, no su magnitud. Esto es perfecto para embeddings porque nos interesa la **direcci√≥n** (significado) m√°s que la "intensidad".

<p align="center">
  <img src="sources/cosine_similarity.png" alt="C√°lculo de Similitud del Coseno" style="width:85%; height:auto;"/>
</p>


#### F√≥rmula Matem√°tica:

$
\cos(\theta) = \frac{A \cdot B}{\|A\| \, \|B\|}
$


Donde:
- **A ¬∑ B**: Producto de los vectores
- **||A||**: Magnitud (norma) del vector A  
- **||B||**: Magnitud (norma) del vector B
- **Œ∏**: √Ångulo entre los vectores

### üéØ ¬øPor qu√© Coseno y no Distancia Euclidiana?

#### ‚úÖ Similitud del Coseno (Recomendada)
- üéØ **Insensible a magnitud**: Solo importa la direcci√≥n
- üìù **Ideal para texto**: Captura significado sem√°ntico
- üî¢ **Rango normalizado**: Siempre entre 0 y 1
- ‚ö° **Eficiente**: C√°lculo optimizado

#### ‚ùå Distancia Euclidiana (Menos ideal para texto)
- üìè **Sensible a magnitud**: Vectores largos parecen m√°s diferentes
- üîç **Mejor para coordenadas**: Ideal para datos espaciales
- üìä **Rango variable**: No est√° normalizada



## 1.3 Tipos de conexiones de bases de datos vectoriales con ChromaDB

ChromaDB ofrece m√∫ltiples formas de conectarse y almacenar datos, cada una optimizada para diferentes casos de uso. Vamos a explorar las tres opciones principales:

### üîß Opci√≥n 1: ChromaDB Persistente (Recomendado para desarrollo)

Esta es la opci√≥n que usaremos principalmente en el curso. Los datos se guardan en disco y persisten entre sesiones:

**Ventajas:**
- üíæ **Persistencia**: Los datos se mantienen entre sesiones
- üîÑ **Reutilizaci√≥n**: No necesitas reprocesar documentos
- üè† **Local**: Todo funciona sin conexi√≥n a internet
- üìÅ **Organizaci√≥n**: F√°cil backup y gesti√≥n de datos

**Cu√°ndo usar:**
- Desarrollo y experimentaci√≥n
- Proyectos personales
- Cuando necesitas persistir datos localmente

In [5]:
# OPCI√ìN 1: ChromaDB Persistente - Los datos se guardan en disco
import chromadb
from llama_index.vector_stores.chroma import ChromaVectorStore
from llama_index.core import StorageContext

# Crear cliente persistente (los datos se guardan en ../chroma_db)
client = chromadb.PersistentClient(path="../chroma_db")
collection = client.get_or_create_collection("company_policies_persistent")

print("‚úÖ ChromaDB Persistente configurado")
print("üíæ Los datos se guardar√°n en: ../chroma_db")
print("üîÑ Los datos persistir√°n entre sesiones")


‚úÖ ChromaDB Persistente configurado
üíæ Los datos se guardar√°n en: ../chroma_db
üîÑ Los datos persistir√°n entre sesiones


### ‚ö° Opci√≥n 2: ChromaDB en Memoria (Para experimentos r√°pidos)

Ideal para testing y experimentos donde no necesitas persistir los datos:

**Ventajas:**
- ‚ö° **Velocidad m√°xima**: Todo en RAM
- üß™ **Testing**: Perfecto para pruebas r√°pidas
- üßπ **Limpieza autom√°tica**: No deja archivos residuales
- üîÑ **Reinicio limpio**: Cada ejecuci√≥n empieza desde cero

**Cu√°ndo usar:**
- Pruebas y experimentos temporales
- Desarrollo de prototipos
- Cuando no necesitas persistir datos
- Testing automatizado


In [6]:
# OPCI√ìN 2: ChromaDB en Memoria - M√°xima velocidad, datos temporales
import chromadb

# Crear cliente en memoria (los datos se pierden al reiniciar)
client_memory = chromadb.Client()  # Sin path = en memoria
collection_memory = client_memory.get_or_create_collection("temp_policies")

print("‚úÖ ChromaDB en Memoria configurado")
print("‚ö° M√°xima velocidad de acceso")
print("‚ö†Ô∏è Los datos se perder√°n al reiniciar el programa")

# Ejemplo de uso r√°pido
collection_memory.add(
    documents=["Documento de prueba en memoria"],
    ids=["test_1"]
)

# Se usar√° un modelo de embeddings local para ahorrar costes
results = collection_memory.query(
    query_texts=["documento"],
    n_results=1
)
print(f"üß™ Test exitoso: {len(results['documents'][0])} documento encontrado")


‚úÖ ChromaDB en Memoria configurado
‚ö° M√°xima velocidad de acceso
‚ö†Ô∏è Los datos se perder√°n al reiniciar el programa
üß™ Test exitoso: 1 documento encontrado


### üê≥ Opci√≥n 3: ChromaDB con Docker (Para producci√≥n)

Docker permite ejecutar ChromaDB como un servicio independiente, ideal para producci√≥n y equipos:

**¬øPor qu√© Docker?**
- üîí **Aislamiento**: La base de datos corre en su propio contenedor
- üöÄ **Escalabilidad**: F√°cil de escalar y gestionar recursos
- üë• **Colaboraci√≥n**: Mismo entorno para todo el equipo
- üîÑ **CI/CD**: Integraci√≥n perfecta con pipelines de despliegue
- üåê **Acceso remoto**: M√∫ltiples clientes pueden conectarse

**Comandos Docker para ChromaDB:**

```bash
# 1. Ejecutar ChromaDB en Docker
docker run -p 8000:8000 chromadb/chroma

# 2. Con persistencia de datos
docker run -p 8000:8000 -v ./chroma_data:/chroma/chroma chromadb/chroma

# 3. Con docker-compose (recomendado para producci√≥n)
# Crear archivo docker-compose.yml con configuraci√≥n completa
```

**Conexi√≥n Python**


In [7]:
# OPCI√ìN 3: ChromaDB con Docker - Para producci√≥n y equipos
import chromadb

# Conectar a ChromaDB ejecut√°ndose en Docker
# Nota: Primero debes ejecutar: docker run -p 8000:8000 chromadb/chroma

try:
    # Conectar al servidor ChromaDB en Docker
    client_docker = chromadb.HttpClient(host='localhost', port=8000)
    collection_docker = client_docker.get_or_create_collection("production_policies")
    
    print("‚úÖ ChromaDB Docker configurado")
    print("üê≥ Conectado al contenedor en localhost:8000")
    print("üè¢ Listo para producci√≥n")
    
except Exception as e:
    print("‚ö†Ô∏è ChromaDB Docker no disponible")
    print("üí° Para usar esta opci√≥n, ejecuta: docker run -p 8000:8000 chromadb/chroma")
    print(f"üìù Error: {e}")

# Ejemplo de docker-compose.yml para producci√≥n:
docker_compose_example = """
version: '3.8'
services:
  chromadb:
    image: chromadb/chroma:latest
    ports:
      - "8000:8000"
    volumes:
      - ./chroma_data:/chroma/chroma
    environment:
      - CHROMA_SERVER_HOST=0.0.0.0
      - CHROMA_SERVER_PORT=8000
"""

print("üìã Ejemplo de docker-compose.yml:")
print(docker_compose_example)


‚ö†Ô∏è ChromaDB Docker no disponible
üí° Para usar esta opci√≥n, ejecuta: docker run -p 8000:8000 chromadb/chroma
üìù Error: Could not connect to a Chroma server. Are you sure it is running?
üìã Ejemplo de docker-compose.yml:

version: '3.8'
services:
  chromadb:
    image: chromadb/chroma:latest
    ports:
      - "8000:8000"
    volumes:
      - ./chroma_data:/chroma/chroma
    environment:
      - CHROMA_SERVER_HOST=0.0.0.0
      - CHROMA_SERVER_PORT=8000



> ### üí° Consejos Pr√°cticos  
> Para desarrollo local usa Persistente (cambia a Memoria en tests r√°pidos), colabora con Docker para compartir configuraci√≥n, recuerda que solo Persistente y Docker mantienen datos entre reinicios, y ten en cuenta que en rendimiento: Memoria > Docker > Persistente.  




## 2. Configurando nuestro LLM y embeddings üîß

Primero, vamos a configurar nuestro modelo de lenguaje y el modelo de embeddings que convertir√° nuestros textos en vectores.


In [None]:
from huggingface_hub import InferenceClient

from sklearn.metrics.pairwise import cosine_similarity


def get_embedding(text: str) -> list[float]:
    client = InferenceClient(
    provider="nebius"
    )

    result = client.feature_extraction(
        text,
        model="Qwen/Qwen3-Embedding-8B",
    )
    return result[0]

king_embedding = get_embedding("King")
queen_embedding = get_embedding("Queen")
cat_embedding = get_embedding("Cat")

print(cosine_similarity([king_embedding], [queen_embedding]))
print(cosine_similarity([king_embedding], [cat_embedding]))



[[0.7313868]]
[[0.5848896]]


> ‚ö†Ô∏è Nota para el curso: Este bloque solo debe ejecutarse si tienes cr√©ditos en Hugging Face o si deseas usar un modelo local.


In [None]:
from llama_index.core import Settings
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.embeddings.openai import OpenAIEmbedding
import sys
import os

sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))

from src.embeddings.base_embedding import HuggingFaceInferenceEmbedding
from dotenv import load_dotenv


# Configure embeddings - using a LOCAL open model . Requiere GPU!!
model_name = "Qwen/Qwen3-Embedding-8B"
# Settings.embed_model = HuggingFaceEmbedding(
#     model_name= model_name
# )
Settings.embed_model = HuggingFaceInferenceEmbedding(
    model=model_name,
    provider="nebius"
)

model_name = "text-embedding-ada-002"
Settings.embed_model = OpenAIEmbedding(embed_batch_size=10)

print(f"‚úÖ Modelo de embeddings configurado: {model_name}")
print("üéâ ¬°Configuraci√≥n completada!")

‚úÖ Modelo de embeddings configurado: text-embedding-3-small
üéâ ¬°Configuraci√≥n completada!


<div align="center">
  <iframe src="https://projector.tensorflow.org/" width="1000" height="600"></iframe>
</div>


## 3. Creando nuestra primera base de datos vectorial üóÑÔ∏è

Ahora vamos a crear una base de datos vectorial con ChromaDB. Para este ejemplo, vamos a crear algunos documentos de prueba que simulen pol√≠ticas empresariales.
M√°s adelante en el curso profundizaremos en el parseo seguro de documentos utilizando `Pydantic` para garantizar la validez y estructura de los datos.


In [12]:
from llama_index.core import Document, VectorStoreIndex, StorageContext
from llama_index.core.node_parser import SentenceSplitter
from llama_index.vector_stores.chroma import ChromaVectorStore
import chromadb

# Create sample documents (in a real scenario, you'd load PDFs)
sample_docs = [
    Document(text="""
    POL√çTICA DE TRANSFERENCIAS INTERNACIONALES
    
    Las transferencias SWIFT a pa√≠ses de la Uni√≥n Europea tienen una comisi√≥n fija de 15 EUR 
    m√°s el 0.2% del importe transferido. Para transferencias a Estados Unidos, la comisi√≥n 
    es de 25 USD m√°s el 0.3% del importe. Las transferencias SEPA dentro de la eurozona 
    son gratuitas para importes superiores a 1000 EUR, y tienen una comisi√≥n de 2 EUR 
    para importes inferiores.
    """),
    
    Document(text="""
    POL√çTICA DE REEMBOLSOS Y DEVOLUCIONES
    
    Los reembolsos se procesan en un plazo m√°ximo de 5 d√≠as laborables para clientes 
    nacionales y 10 d√≠as laborables para clientes internacionales. Se aplica una 
    comisi√≥n de gesti√≥n del 1% sobre el importe reembolsado, con un m√≠nimo de 5 EUR. 
    Los reembolsos superiores a 10,000 EUR requieren aprobaci√≥n del departamento de 
    riesgo y pueden tardar hasta 15 d√≠as laborables.
    """),
    
    Document(text="""
    TIPOS DE CAMBIO Y CONVERSIONES
    
    Los tipos de cambio se actualizan cada hora durante el horario comercial. 
    Para conversiones EUR/USD se aplica un spread del 0.5%, para EUR/GBP del 0.3% 
    y para otras divisas del 0.8%. Las conversiones autom√°ticas se realizan al 
    tipo de cambio vigente en el momento de la transacci√≥n m√°s el spread correspondiente.
    """)
]

print(f"üìÑ Documentos de ejemplo creados: {len(sample_docs)}")

# Parse documents into chunks
parser = SentenceSplitter(chunk_size=500, chunk_overlap=50)
nodes = parser.get_nodes_from_documents(sample_docs)
print(f"üìù Chunks generados: {len(nodes)}")

# Create ChromaDB client and collection
client = chromadb.PersistentClient(path="../chroma_db")
collection = client.get_or_create_collection("company_policies")

# Create vector store and index
vector_store = ChromaVectorStore(chroma_collection=collection)
storage_context = StorageContext.from_defaults(vector_store=vector_store)

# Create the index (this will generate embeddings and store them)
print("üßÆ Generando embeddings y almacenando en ChromaDB...")
index_docs = VectorStoreIndex(nodes, storage_context=storage_context)

# Create query engine
qe_docs = index_docs.as_query_engine(similarity_top_k=3)

print("‚úÖ ¬°Base de datos vectorial creada y lista para consultas!")
print("üíæ Los datos est√°n persistidos en ../chroma_db")


üìÑ Documentos de ejemplo creados: 3
üìù Chunks generados: 3
üßÆ Generando embeddings y almacenando en ChromaDB...
‚úÖ ¬°Base de datos vectorial creada y lista para consultas!
üíæ Los datos est√°n persistidos en ../chroma_db


### ¬°Probemos nuestra base de datos vectorial! üîç

Ahora vamos a hacer algunas consultas para ver c√≥mo funciona la b√∫squeda sem√°ntica:


In [5]:
# Test our vector database with semantic search
print("üîç Probando b√∫squeda sem√°ntica en nuestra base de datos vectorial...\n")

# Test queries
test_queries = [
    "¬øCu√°nto cuesta enviar dinero a Estados Unidos?",
    "¬øCu√°l es el tiempo de procesamiento para devoluciones internacionales?",
    "¬øQu√© spread se aplica para cambiar euros a libras?"
]

for i, query in enumerate(test_queries, 1):
    print(f"üìù Consulta {i}: {query}")
    response = qe_docs.query(query)
    print(f"ü§ñ Respuesta: {response.response}")
    print("-" * 80)

print("‚ú® ¬°Incre√≠ble! La base de datos vectorial entiende el significado de nuestras preguntas")


üîç Probando b√∫squeda sem√°ntica en nuestra base de datos vectorial...

üìù Consulta 1: ¬øCu√°nto cuesta enviar dinero a Estados Unidos?
ü§ñ Respuesta: Sending money to the United States costs 25 USD plus 0.3% of the transfer amount.
--------------------------------------------------------------------------------
üìù Consulta 2: ¬øCu√°l es el tiempo de procesamiento para devoluciones internacionales?
ü§ñ Respuesta: El tiempo de procesamiento para devoluciones internacionales es de 10 d√≠as laborables.
--------------------------------------------------------------------------------
üìù Consulta 3: ¬øQu√© spread se aplica para cambiar euros a libras?
ü§ñ Respuesta: El spread del 0.3% se aplica para cambiar euros a libras.
--------------------------------------------------------------------------------
‚ú® ¬°Incre√≠ble! La base de datos vectorial entiende el significado de nuestras preguntas



Seg√∫n la documentaci√≥n oficial, el `ResponseSynthesizer` es el componente que genera la respuesta final usando un LLM, a partir de los fragmentos recuperados y la consulta del usuario.

Si no defines un LLM expl√≠citamente ni un response_synthesizer, LlamaIndex utiliza los valores globales por defecto de Settings:
   - El LLM por defecto es Settings.llm (si no lo configuras, llama-index impondr√° un modelo b√°sico).
   - El modo de s√≠ntesis de respuesta por defecto es 'compact', aunque hay otros modos distintos que puedes explorar (ver en la [documentaci√≥n](https://docs.llamaindex.ai/en/stable/module_guides/querying/response_synthesizers/)).
 


## 4 Sistemas Multi-agente ü§ñ
Los sistemas multiagente en LlamaIndex permiten coordinar m√∫ltiples agentes inteligentes, cada uno especializado en tareas o dominios espec√≠ficos, para resolver problemas complejos de manera colaborativa. Estos sistemas combinan modelos de lenguaje, herramientas y flujos de trabajo personalizados, facilitando la creaci√≥n de soluciones avanzadas y adaptables en entornos empresariales y de investigaci√≥n.

### 4.1 Fundamentos de Agentes en LlamaIndex 

Antes de crear nuestro sistema multi-agente, es importante entender la **anatom√≠a de agentes** en LlamaIndex.

#### üß† Anatom√≠a de un Agente

Todos los agentes en LlamaIndex tienen estos componentes clave:

```
ü§ñ AGENTE = üß† LLM + üõ†Ô∏è Tools + üìã System Prompt + üîÑ Workflow Logic
```

- **üß† LLM**: El "cerebro" que toma decisiones
- **üõ†Ô∏è Tools**: Las "manos" que ejecutan acciones  
- **üìã System Prompt**: Las "instrucciones" de comportamiento
- **üîÑ Workflow Logic**: El "proceso" de razonamiento

##### üéØ Agentes Especializados vs Generales

**üéØ Agentes Especializados** (Recomendado):
- Un agente por dominio espec√≠fico
- Mayor precisi√≥n en su √°rea
- M√°s f√°cil de debuggear y optimizar

**üåê Agentes Generales**:
- Un agente con todas las herramientas
- M√°s simple de configurar
- Puede confundirse con muchas opciones y/o contextos largos


### 4.2 Creando nuestros agentes especialistas üë•

Ahora viene la parte emocionante: vamos a crear un equipo de agentes especialistas. Cada uno ser√° experto en un √°rea espec√≠fica:
- üí∏ TransferenciasAgent: Especialista en transferencias bancarias
- üí∞ ReembolsosAgent: Experto en gesti√≥n de reembolsos  
- üí± CambiosAgent: Especialista en tipos de cambio y conversiones

In [None]:
from llama_index.core.tools import QueryEngineTool, ToolMetadata, FunctionTool
from llama_index.core.agent import ReActAgent
from llama_index.core.agent.workflow import FunctionAgent, AgentWorkflow
from llama_index.core.workflow import Context

from typing import Literal, Optional
from llama_index.core import Settings

from llama_index.llms.openai import OpenAI


llm = OpenAI(
    model="gpt-4o-mini",
    temperature=0.0,
    # api_key="some key",  # uses OPENAI_API_KEY env var by default
)
Settings.llm = llm

# 1. DOCS AGENT TOOLS - Wrapping our query engine as a tool
policy_tool = QueryEngineTool.from_defaults(
    query_engine=qe_docs,
    name="policies_search",
    description=(
        "Busca informaci√≥n en las pol√≠ticas y documentos de la empresa sobre "
        "transferencias, reembolsos, tipos de cambio y comisiones."
    ),
)

# ---------------------------------------------------------------------------
# Tools de C√ÅLCULO (para complementar al RAG)
# ---------------------------------------------------------------------------
def calcular_comision_swift(region: Literal["UE","US"], importe: float) -> str:
    """
    Pol√≠tica:
    - UE: 15 EUR + 0.2%
    - US: 25 USD + 0.3%
    """
    if region == "UE":
        total = 15.0 + 0.002 * importe
        return f"Comisi√≥n SWIFT (UE) para {importe:.2f} EUR: {total:.2f} EUR"
    if region == "US":
        total = 25.0 + 0.003 * importe
        return f"Comisi√≥n SWIFT (US) para {importe:.2f} USD: {total:.2f} USD"
    return "Regi√≥n no soportada. Usa 'UE' o 'US'."

def calcular_comision_sepa(importe_eur: float) -> str:
    """
    SEPA: gratis si importe >= 1000 EUR; si no, 2 EUR.
    """
    fee = 0.0 if importe_eur >= 1000 else 2.0
    return f"Comisi√≥n SEPA para {importe_eur:.2f} EUR: {fee:.2f} EUR"

def calcular_conversion(spread_pct: float, tipo_base: float, cantidad_base: float, pair: Optional[str]=None) -> str:
    """
    Devuelve tipo efectivo (tipo_base*(1+spread)) y cantidad convertida.
    """
    tipo_efectivo = tipo_base * (1.0 + spread_pct)
    convertido = cantidad_base * tipo_efectivo
    par = f" ({pair})" if pair else ""
    return f"Tipo efectivo{par}: {tipo_efectivo:.6f}; Resultado: {convertido:.4f}"

async def save_state(ctx: Context, response: str):
    async with ctx.store.edit_state() as ctx_state:
        ctx_state["state"]["final_response"] = response
    return "Response recorded."

swift_tool = FunctionTool.from_defaults(
    fn=calcular_comision_swift,
    name="calcular_comision_swift",
    description="Calcula comisi√≥n SWIFT para UE o US seg√∫n importe."
)
sepa_tool = FunctionTool.from_defaults(
    fn=calcular_comision_sepa,
    name="calcular_comision_sepa",
    description="Calcula comisi√≥n SEPA seg√∫n importe (gratis >=1000 EUR; si no, 2 EUR)."
)
fx_calc_tool = FunctionTool.from_defaults(
    fn=calcular_conversion,
    name="calcular_conversion_fx",
    description="Calcula tipo efectivo y resultado con spread, tipo base y cantidad."
)

save_state_tool = FunctionTool.from_defaults(
    fn=save_state,
    name="save_state",
    description="Guarda la respuesta final en el estado."
)

# ---------------------------------------------------------------------------
# Agentes del Workflow (todos comparten 'policies_search')
# ---------------------------------------------------------------------------
TRANSFER_SYSTEM = (
 "Eres agente especializado en transferencias (SWIFT/SEPA). "
 "PASOS: (1) Llama SIEMPRE a 'policies_search' para citar la norma; "
 "(2) Si hay importe/regi√≥n, usa 'calcular_comision_swift' o 'calcular_comision_sepa'; "
 "(3) Responde T√ö con cifra final + cita breve (1 l√≠nea). "
)

transfer_agent = FunctionAgent(
    name="TransferenciasAgent",
    description="agente especializado en transferencias.",
    tools=[policy_tool, swift_tool, sepa_tool, save_state_tool],
    # can_handoff_to=[],  # <-- SIN handoff
)
transfer_agent.system_prompt = TRANSFER_SYSTEM

REFUNDS_SYSTEM = (
 "Eres agente especializado en reembolsos. "
 "Llama SIEMPRE a 'policies_search' para plazos/comisi√≥n/riesgo y responde T√ö con s√≠ntesis + cita breve. "
)

refunds_agent = FunctionAgent(
    name="ReembolsosAgent",
    description="agente especializado en reembolsos.",
    tools=[policy_tool, save_state_tool],
    # can_handoff_to=[],  # <-- SIN handoff
)
refunds_agent.system_prompt = REFUNDS_SYSTEM

CAMBIOS_SYSTEM = (
 "Eres especialista en FX. "
 "Llama SIEMPRE a 'policies_search' para obtener el spread; luego usa 'calcular_conversion_fx'. "
 "Responde T√ö con tipo efectivo + resultado + cita breve. "
)

cambios_agent = FunctionAgent(
    name="CambiosAgent",
    description="agente especializado en FX.",
    tools=[policy_tool, fx_calc_tool, save_state_tool],
    can_handoff_to=[],  # <-- SIN handoff
)
cambios_agent.system_prompt = CAMBIOS_SYSTEM

router_agent = FunctionAgent(
    name="RouterAgent",
    description=(
        "Eres un agente de IA que act√∫a como Orquestrador/Router. Clasifica la intenci√≥n y hace handoff a un agente especializado que debe usar tools para responder la pregunta: "
        "TransferenciasAgent, ReembolsosAgent o CambiosAgent. "
        "No responde contenido de negocio al principio, solo clasifica y hace handoff.Sin embargo, la respuesta final debe ser una respuesta completa y coherente."
        "Debes mandar responder la pregunta al agente que corresponda, para que pueda responder correctamente, o delegar la tarea al siguiente agente."
    ),
    tools=[],  # sin tools
    can_handoff_to=["TransferenciasAgent", "ReembolsosAgent", "CambiosAgent"],
    
)

# ---------------------------------------------------------------------------
# Construcci√≥n del flujo
# ---------------------------------------------------------------------------
agent_flow = AgentWorkflow(
    agents=[router_agent, transfer_agent, refunds_agent, cambios_agent],
    root_agent="RouterAgent",
    initial_state={
        "final_response": ""
    }
)

print("‚úÖ ¬°Todos los agentes generales y especializados est√°n listos!")


üßÆ Herramienta de c√°lculo creada
‚úÖ ¬°Todas las herramientas especializadas est√°n listas!


### ¬°Probemos nuestro sistema multi-agente! üöÄ

Ahora vamos a probar c√≥mo nuestro router inteligente dirige las consultas a los agentes apropiados:

In [60]:

from llama_index.core.agent.workflow import (
    AgentInput,
    AgentOutput,
    ToolCall,
    ToolCallResult,
    AgentStream,
)

tests = [
        # Transferencias (SWIFT UE) -> consulta + c√°lculo
        "Calcula la comisi√≥n total de una transferencia SWIFT de 5,000 EUR a la UE y c√≠tame la pol√≠tica.",
        # SEPA (dos importes)
        "¬øCu√°nto cuesta una transferencia SEPA de 300 EUR y otra de 1,500 EUR?",
        # FX (EUR/USD con spread de pol√≠tica 0.5%)
        "Convierte 2,000 EUR a USD con tipo base 1.0870 aplicando el spread de la pol√≠tica para EUR/USD.",
        # Reembolsos (plazos y gesti√≥n)
        "¬øQu√© plazos de reembolso aplican a clientes internacionales y qu√© comisi√≥n de gesti√≥n corresponde?",
        # Caso encadenado (reembolso alto + riesgo)
        "Solicito reembolso de 12,500 EUR equivalentes. ¬øRequiere aprobaci√≥n de riesgo y cu√°nto tardar√≠a?"
    ]
for q in tests:
    handler = agent_flow.run(user_msg=q)
    print("\n" + "="*80)
    print("Q:", q)
    current_agent = None
    current_tool_calls = ""
    async for event in handler.stream_events():
        if (
            hasattr(event, "current_agent_name")
            and event.current_agent_name != current_agent
        ):
            current_agent = event.current_agent_name
            print(f"\n{'='*50}")
            print(f"ü§ñ Agent: {current_agent}")
            print(f"{'='*50}\n")

        if isinstance(event, AgentStream):
            if event.delta:
                print(event.delta, end="", flush=True)
        elif isinstance(event, AgentInput):
            print("üì• Input:", event.input)
        elif isinstance(event, AgentOutput):
            if event.response.content:
                print("üì§ Output:", event.response.content)
            if event.tool_calls:
                print(
                    "üõ†Ô∏è  Planning to use tools:",
                    [call.tool_name for call in event.tool_calls],
                )
        elif isinstance(event, ToolCallResult):
            print(f"üîß Tool Result ({event.tool_name}):")
            print(f"  Arguments: {event.tool_kwargs}")
            print(f"  Output: {event.tool_output}")
        elif isinstance(event, ToolCall):
            print(f"üî® Calling Tool: {event.tool_name}")
            print(f"  With arguments: {event.tool_kwargs}")
        
    # print("A:", str(resp))
    # state = await handler.ctx.store.get("state")
    # print("Final response:", state["final_response"])


Q: Calcula la comisi√≥n total de una transferencia SWIFT de 5,000 EUR a la UE y c√≠tame la pol√≠tica.

ü§ñ Agent: RouterAgent

üì• Input: [ChatMessage(role=<MessageRole.USER: 'user'>, additional_kwargs={}, blocks=[TextBlock(block_type='text', text="Current state:\n{'final_response': 'El reembolso de 12,500 EUR requiere aprobaci√≥n del departamento de riesgo y puede tardar hasta 15 d√≠as laborables en procesarse.'}\n\nCurrent message:\nCalcula la comisi√≥n total de una transferencia SWIFT de 5,000 EUR a la UE y c√≠tame la pol√≠tica.\n")])]
üõ†Ô∏è  Planning to use tools: ['handoff']
üî® Calling Tool: handoff
  With arguments: {'to_agent': 'CambiosAgent', 'reason': 'El usuario solicita informaci√≥n sobre la comisi√≥n de una transferencia SWIFT y la pol√≠tica relacionada.'}
üîß Tool Result (handoff):
  Arguments: {'to_agent': 'CambiosAgent', 'reason': 'El usuario solicita informaci√≥n sobre la comisi√≥n de una transferencia SWIFT y la pol√≠tica relacionada.'}
  Output: Agent CambiosA

## 5. El Router Inteligente: El Director del Equipo üéØ

Como podemos observar en el flujo mostrado arriba, hay un agente fundamental que a√∫n no hemos mencionado: el **router_agent**.

El **router_agent** es el encargado de analizar cada consulta del usuario y decidir, de manera inteligente, qu√© agente especialista debe gestionarla. Su funci√≥n principal es dirigir el mensaje al agente m√°s adecuado, optimizando as√≠ la eficiencia y precisi√≥n de las respuestas.

### 5.1 Importancia de Guardar el Estado en Sistemas Multi-Agente üíæ

En sistemas multi-agente, guardar el estado permite depurar, auditar y coordinar agentes, as√≠ como recuperar el sistema tras errores. Es √∫til para mantener contexto, registrar decisiones y asegurar continuidad. No es necesario para consultas simples o informaci√≥n sensible. Por ejemplo, una herramienta como `save_state_tool` almacena respuestas parciales, c√°lculos y consultas externas. El estado es la memoria del sistema multi-agente.

## 6. Arquitecturas de Sistemas Multi-agentes

Ahora que entendemos los fundamentos, exploramos patrones m√°s sofisticados.  
Cada arquitectura define **c√≥mo se organizan y coordinan los agentes** para resolver tareas complejas.

### 1. Arquitectura Jer√°rquica (Supervisor ‚Üí Especialistas)

El **Router/Director** recibe la consulta y decide qu√© agente especialista la ejecuta.  
Es clara, auditada y f√°cil de controlar.

<div style="text-align: center;">
  <img src="sources/router_diagram.svg" alt="router_diagram" style="width:60%; height:auto;">
</div>

---

### 2. Arquitectura Colaborativa

Los agentes se comunican **entre ellos** y comparten informaci√≥n, con un **coordinador** que consolida resultados.
√ötil para problemas que requieren varias perspectivas.

<div style="text-align: center;">
  <img src="sources/collaborative_diagram.svg" alt=collaborative_diagram" style="width:40%; height:auto;">
</div>

---

### 3. Arquitectura Pipeline (Secuencial)

Cada agente procesa y pasa la salida al siguiente.
Muy eficiente para flujos lineales de datos o tareas repetitivas.

<div style="text-align: center;">
  <img src="sources/sequencial_diagram.svg" alt="sequencial_diagram" style="width:80%; height:auto;">
</div>
---

### 4. Arquitectura de Debate / Consenso

Dos o m√°s agentes discuten y un **juez** selecciona o sintetiza la mejor respuesta.
Robusta frente a alucinaciones y √∫til en contextos cr√≠ticos.

<div style="text-align: center;">
  <img src="sources/judge_diagram.svg" alt="judge_diagram" style="width:60%; height:auto;">
</div>

---

### 5. Arquitectura Blackboard (Pizarra Compartida)

Todos los agentes leen/escriben en un **espacio de memoria com√∫n**.
Ideal para problemas abiertos y creativos.

<div style="text-align: center;">
  <img src="sources/blackboard_diagram.svg" alt="Diagrama Blackboard" style="width:40%; height:auto;">
</div>

---

### 6. Arquitectura Contract Net (Mercado de Agentes)

Un **anunciante** publica la tarea; los agentes interesados hacen ofertas; se selecciona al mejor postor.
Eficiente en entornos distribuidos con recursos variables.

<div style="text-align: center;">
  <img src="sources/contract_net_diagram.svg" alt=contract_net_diagram" style="width:60%; height:auto;">
</div>

---

### Resumen r√°pido

| Arquitectura | Idea principal                     | Pros                   | Contras                 | Casos t√≠picos          |
| ------------ | ---------------------------------- | ---------------------- | ----------------------- | ---------------------- |
| Jer√°rquica   | Supervisor asigna tareas           | Control, trazabilidad  | Cuello de botella       | QA, compliance         |
| Colaborativa | Agentes se comunican + coordinador | Diversidad de enfoques | Complejo de coordinar   | Investigaci√≥n          |
| Pipeline     | Flujo secuencial                   | Simple, eficiente      | Poco flexible           | ETL, an√°lisis de datos |
| Debate       | Varias propuestas + juez           | Robustez factual       | Coste mayor             | Contenido cr√≠tico      |
| Blackboard   | Memoria compartida                 | Fusi√≥n creativa        | Gesti√≥n de memoria      | I+D, s√≠ntesis          |
| Contract Net | Subasta de tareas                  | Asignaci√≥n eficiente   | Overhead de negociaci√≥n | Sistemas distribuidos  |


### üìö Enlaces de inter√©s

- [Multi-Agent System Architectures: A Developer's Guide (AgentHunter)](https://www.agenthunter.io/blog/multi-agent-systems-architecture)  
  Gu√≠a para entender arquitecturas jer√°rquicas, descentralizadas y blackboard en sistemas multi-agente.

- [Four Design Patterns for Event-Driven, Multi-Agent Systems (Confluent)](https://www.confluent.io/blog/event-driven-multi-agent-systems/)  
  Explica patrones de orquestador, colaboraci√≥n y mercado aplicados a sistemas distribuidos.

- [Contract Net Protocol (Wikipedia)](https://en.wikipedia.org/wiki/Contract_Net_Protocol)  
  Descripci√≥n del protocolo cl√°sico de subasta y asignaci√≥n de tareas entre agentes.


## 9. Recursos para Expandir tu Base de Datos üìö

Para practicar con documentos reales, aqu√≠ tienes algunas fuentes p√∫blicas donde puedes descargar PDFs:

### Fuentes Recomendadas:

1. **üìú EUR-Lex / Diario Oficial de la UE**
   - Documentos legales multiling√ºes
   - Ideal para practicar con pol√≠ticas y regulaciones

2. **üèõÔ∏è Oficina de Publicaciones de la UE (op.europa.eu)**
   - Informes, gu√≠as y estudios oficiales
   - Gran variedad tem√°tica

3. **üìä SEC EDGAR (Estados Unidos)**
   - Informes financieros 10-K/10-Q
   - Perfecto para an√°lisis financiero

4. **üî¨ arXiv**
   - Papers cient√≠ficos en PDF
   - Excelente para contenido t√©cnico

5. **üè• PubMed Central (Open Access)**
   - Art√≠culos biom√©dicos
   - Ideal para dominio m√©dico

6. **üåç UN/World Bank/OECD**
   - Informes y an√°lisis internacionales
   - Datos econ√≥micos y sociales


## 10. FAQ y Mejores Pr√°cticas ü§ù

**¬øPor qu√© ChromaDB?**  
Por su instalaci√≥n sencilla (`pip install chromadb`), persistencia local sin infraestructura extra, integraci√≥n nativa con LlamaIndex y utilidad para prototipos y aprendizaje.  

**¬øCu√°ntos documentos recuperar (`top-k`)?**  
Generalmente entre 3 y 5 para respuestas concretas, 5 a 8 para an√°lisis m√°s detallados y m√°s de 8 solo en investigaciones extensas, teniendo en cuenta el l√≠mite de contexto el precio/token.  

**¬øC√≥mo combinar colecciones?**  
Se recomienda crear un `QueryEngine` por cada tema, exponerlos como `QueryEngineTool` y dejar que un router de agentes seleccione la mejor opci√≥n.  

**¬øC√≥mo evitar alucinaciones?**  
Con descripciones claras de herramientas, validaciones de entradas y salidas, l√≠mites en iteraciones y buen registro de logs.  

En cuanto a las **mejores pr√°cticas**: dise√±a agentes especializados por dominio, valida siempre inputs y outputs, activa observabilidad desde el inicio, usa persistencia con ChromaDB y prueba continuamente con datasets etiquetados.  


## üîç **Extra: LlamaTrace ‚Äì Observabilidad y Debugging Profesional**

**LlamaTrace** es la soluci√≥n de observabilidad integrada en **LlamaIndex**, dise√±ada para monitorizar, analizar y optimizar agentes y aplicaciones de IA de manera estructurada y eficiente.

### ‚öôÔ∏è Funcionalidades Principales de LlamaTrace

**1. üìù Trazabilidad y Registro**
- Permite el seguimiento detallado de cada decisi√≥n y acci√≥n tomada por los agentes.
- Proporciona un historial completo de razonamiento y uso de herramientas.
- Genera logs exhaustivos de todas las interacciones.

**2. üìä M√©tricas en Tiempo Real**
- Mide la latencia de cada componente del sistema.
- Calcula los costos asociados a cada consulta y uso de tokens.
- Ofrece indicadores de uso de recursos, rendimiento y calidad de las respuestas(LLM como jueces o tests).

**3. üñ•Ô∏è Debugging Visual y Anal√≠tico**
- Dispone de una interfaz web para explorar trazas y analizar el flujo de decisiones.
- Presenta visualizaciones como √°rboles de decisi√≥n y gr√°ficos de rendimiento.


#### üéØ Aplicaciones T√≠picas

- **Desarrollo y depuraci√≥n:** Identificaci√≥n de cuellos de botella, optimizaci√≥n de prompts y herramientas, y detecci√≥n de errores l√≥gicos.  
- **Monitoreo en producci√≥n:** Seguimiento de rendimiento, an√°lisis de costos y control de calidad.  
- **Experimentaci√≥n:** Comparaci√≥n de modelos, pruebas A/B y ajuste de par√°metros.  

#### üí° Recomendaciones de Uso

- Mantenerlo activo en producci√≥n para un monitoreo continuo y detecci√≥n temprana de incidencias.  
- Emplearlo en procesos de optimizaci√≥n y debugging para validar mejoras y resolver problemas.  

<div style="text-align: center;">
  <img src="https://huggingface.co/datasets/agents-course/course-images/resolve/main/en/unit2/llama-index/arize.png" 
       alt="LlamaTrace Dashboard" style="width:100%; height:auto;">
</div>




## ¬°Felicidades! üéâ Has creado un sistema multi-agente avanzado

### üèÜ ¬øQu√© has logrado hoy?

En este notebook construiste un sistema completo: una **base vectorial con ChromaDB** para b√∫squeda sem√°ntica, un **conjunto de agentes especializados** en distintos dominios y un **router inteligente** que dirige cada consulta al agente adecuado. Adem√°s, aprendiste a orquestar m√∫ltiples agentes en consultas complejas y a usar persistencia para reutilizar datos sin reprocesamiento.  


### üöÄ ¬øPor qu√© es esto revolucionario?

Porque se apoya en **inteligencia distribuida**, donde cada agente aporta su especializaci√≥n; mejora la eficiencia mediante enrutamiento; permite escalar f√°cilmente a√±adiendo nuevos agentes y herramientas; aprovecha la persistencia para ahorrar recursos; y aumenta la precisi√≥n de las respuestas.  



### üõ£Ô∏è ¬øQu√© sigue?

En los pr√≥ximos notebooks aprender√°s:

- ‚úÖ ‚ú® **Introducci√≥n a LLMs, agentes y tools**
- ‚úÖ ü§ñ **Sistemas multi-agente y ChromaDB**
- ‚¨ú üìÑ **Parseo avanzado de documentos**
- ‚¨ú üèóÔ∏è **Validaci√≥n con Pydantic**
- ‚¨ú üöÄ **Despliegue en producci√≥n**


¬°Esto es solo el comienzo de lo que puedes construir con IA Generativa! üåü

**¬°Sigue experimentando y construyendo el futuro! üöÄ**
