# Router Query Engine

#### Esta lección muestra cómo usar LlamaIndex para crear un Agente RAG simple que use un Router Query Engine 
para responder preguntas de un conjunto de documentos.

Para esto, explicaremos cada una de las partes que necesitamos para construir el Agente RAG, y como cada uno de esto
pasos influyen en el resultado final y funcionamiento de nuestro modelo.

#### Paso 1: Preparar el entorno de ejecución

Para simplificar este ejercicio, usaremos uno de los modelos de OpenAI, por lo que necesitamos una llave API para poder
acceder a sus servicios. Esta debe encontrarse en un archivo .env en la raíz del proyecto, o en su defecto, debe estar
ya en las variables de entorno de su sistema operativo.

Sí se encuentra en un archivo .env, ejecutamos la siguiente celda para cargar las variables de entorno:

In [2]:
import dotenv
%load_ext dotenv
%dotenv

Dado que nos encontramos en un entorno de Jupyter, y que LlamaIndex usa asyncio para diveras funcionalidades usaremos **nest_asyncio**.

In [1]:
import nest_asyncio
nest_asyncio.apply()

#### Paso 2: Cargar los documentos

Para cargar documentos utilizando LlamaIndex, tienes varias opciones dependiendo de tus necesidades y la estructura de tus datos. 
Aquí te explico dos métodos comunes:

##### 1. Cargar documentos automáticamente con **SimpleDirectoryReader**
Si tus documentos están almacenados en un directorio y quieres cargarlos automáticamente, puedes utilizar **SimpleDirectoryReader**. 
Este método es útil cuando tienes muchos archivos de texto en una carpeta y deseas cargarlos todos de una vez.

```python
from llama_index import SimpleDirectoryReader

# Ruta al directorio donde están almacenados tus documentos
path_to_documents = "./data"

# Cargar todos los documentos del directorio especificado
documents = SimpleDirectoryReader(path_to_documents).load_data()
```

##### 2. Crear documentos manualmente
Si prefieres tener un control más detallado sobre cómo se crean tus documentos, o si necesitas incluir metadatos específicos en el 
momento de la creación, puedes construir los documentos manualmente.

```python
from llama_index import Document

# Lista de textos que quieres convertir en documentos
text_list = ["Texto del documento 1", "Texto del documento 2", ...]

# Crear documentos manualmente
documents = [Document(text=t) for t in text_list]
```

##### Personalización adicional
**Añadir metadatos**
Puedes añadir metadatos útiles en el momento de la creación del documento para facilitar la indexación y recuperación posterior.

```python
document = Document(
    text="Ejemplo de texto del documento",
    metadata={"filename": "nombre_del_archivo.txt", "category": "categoría"}
)
```

**Establecer ID del documento**
Si necesitas gestionar y referenciar documentos específicos de manera eficiente, puedes establecer un identificador único para 
cada documento.

```python
document.doc_id = "ID_único_del_documento"
```

##### 3. Carga de documentos desde una base de datos
Si tus documentos están almacenados en una base de datos, puedes escribir un script para extraerlos y cargarlos en LlamaIndex. Esto es útil cuando los documentos 
ya están organizados y accesibles a través de sistemas de gestión de bases de datos.

```python
import sqlite3
from llama_index import Document

# Conectar a la base de datos SQLite
conn = sqlite3.connect('tu_base_de_datos.db')
cursor = conn.cursor()

# Consultar los documentos
cursor.execute("SELECT texto FROM documentos")
rows = cursor.fetchall()

# Cargar los documentos en LlamaIndex
documents = [Document(text=row[0]) for row in rows]
```

##### 4. Integración con APIs
Si los documentos están disponibles a través de una API, puedes escribir un script que haga solicitudes a la API, reciba los documentos y los cargue en LlamaIndex. 
Esto es especialmente útil para documentos que se actualizan con frecuencia o están en plataformas de terceros.

```python
import requests
from llama_index import Document

# URL de la API que devuelve documentos
api_url = 'https://api.ejemplo.com/documentos'

# Hacer la solicitud a la API
response = requests.get(api_url)
data = response.json()

# Cargar los documentos en LlamaIndex
documents = [Document(text=d['contenido']) for d in data['documentos']]
```

##### 5. Procesamiento y transformación de documentos
Antes de cargar los documentos en LlamaIndex, es posible que desees procesarlos o transformarlos para mejorar la calidad de la indexación o adaptarlos a tus necesidades 
específicas. Esto puede incluir la eliminación de etiquetas HTML, la corrección ortográfica, o la extracción de información específica.

```python
from llama_index import Document
import re

# Función para limpiar HTML
def limpiar_html(texto):
    return re.sub('<[^<]+?>', '', texto)

# Lista de documentos HTML
html_docs = ["<p>Documento 1</p>", "<div>Documento 2</div>"]

# Limpiar y cargar documentos
documents = [Document(text=limpiar_html(doc)) for doc in html_docs]
```

Estos métodos adicionales te ofrecen flexibilidad para adaptar la carga y gestión de documentos a diferentes entornos y fuentes de datos, maximizando la eficiencia y efectividad de tu implementación de LlamaIndex.

In [5]:
from llama_index.core import SimpleDirectoryReader

# load lora_paper.pdf documents
documents = SimpleDirectoryReader(input_files=["./documents/lora_paper.pdf"]).load_data()

In [22]:
from llama_index.core.schema import MetadataMode
print(documents[4].get_content(metadata_mode=MetadataMode.LLM))

page_label: 5
file_path: documents\lora_paper.pdf

guarantees that we do not introduce any additional latency during inference compared to a ﬁne-tuned
model by construction.
4.2 A PPLYING LORA TOTRANSFORMER
In principle, we can apply LoRA to any subset of weight matrices in a neural network to reduce the
number of trainable parameters. In the Transformer architecture, there are four weight matrices in
the self-attention module ( Wq,Wk,Wv,Wo) and two in the MLP module. We treat Wq(orWk,Wv)
as a single matrix of dimension dmodel×dmodel , even though the output dimension is usually sliced
into attention heads. We limit our study to only adapting the attention weights for downstream
tasks and freeze the MLP modules (so they are not trained in downstream tasks) both for simplicity
and parameter-efﬁciency.We further study the effect on adapting different types of attention weight
matrices in a Transformer in Section 7.1. We leave the empirical investigation of adapting the MLP
layers, LayerN

In [6]:
from llama_index.core.node_parser import SentenceSplitter

# chunk_size of 1024 is a good default value
splitter = SentenceSplitter(chunk_size=1024)
# Create nodes from documents
nodes = splitter.get_nodes_from_documents(documents)

In [7]:
node_metadata = nodes[1].get_content(metadata_mode=True)
print(node_metadata)

page_label: 2
file_name: lora_paper.pdf
file_path: documents\lora_paper.pdf
file_type: application/pdf
file_size: 1609513
creation_date: 2024-08-02
last_modified_date: 2024-08-02

often introduce inference latency (Houlsby et al., 2019; Rebufﬁ et al., 2017) by extending model
depth or reduce the model’s usable sequence length (Li & Liang, 2021; Lester et al., 2021; Ham-
bardzumyan et al., 2020; Liu et al., 2021) (Section 3). More importantly, these method often fail to
match the ﬁne-tuning baselines, posing a trade-off between efﬁciency and model quality.
We take inspiration from Li et al. (2018a); Aghajanyan et al. (2020) which show that the learned
over-parametrized models in fact reside on a low intrinsic dimension. We hypothesize that the
change in weights during model adaptation also has a low “intrinsic rank”, leading to our proposed
Low-RankAdaptation (LoRA) approach. LoRA allows us to train some dense layers in a neural
network indirectly by optimizing rank decomposition matric

In [8]:
from llama_index.core import Settings
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding

# LLM model
Settings.llm = OpenAI(model="gpt-3.5-turbo")
# embedding model
Settings.embed_model = OpenAIEmbedding(model="text-embedding-ada-002")