# Compresión y optimización de datos obtenidos en BD mediante LLM's


En un flujo típico de trabajo con modelos de lenguaje y documentos largos, se pasa por varias etapas antes de obtener una respuesta útil y precisa. Uno de los pasos más importantes es **optimizar o comprimir la información recuperada** para que el modelo pueda utilizarla de manera efectiva.

### Flujo general de trabajo

1. **Carga del documento**
   - Se utiliza un loader para cargar archivos desde diversas fuentes de datos (PDF, CSV, Google Drive, etc.).

2. **División en fragmentos (chunks)**
   - Los documentos se dividen en fragmentos de texto manejables mediante transformadores como `CharacterTextSplitter`.

3. **Generación de vectores**
   - Cada fragmento se convierte en un vector numérico utilizando una función de *embedding*. Estos vectores representan el significad


4. **Almacenamiento en una base de datos vectorial**
- Los vectores generados se almacenan en una Vector DB (como FAISS, Chroma o SKLearnVectorStore) para realizar búsquedas por similitud.

5. **Búsqueda por similitud**
- Ante una consulta del usuario, se genera un vector y se comparan distancias con los vectores almacenados.
- Se devuelve un *ranking* con los fragmentos más similares.

6. **Compresión u optimización con un LLM**
- En lugar de pasar toda la información recuperada al modelo, se puede utilizar el LLM para generar una **respuesta más corta y rel
  evante**.
- Este paso no es una compresión en el sentido técnico de reducir tamaño de archivo, sino en el sentido semántico: el LLM sintetiza el contenido para dar una **respuesta más enfocada, útil y clara**.

### ¿Por qué es importante esta optimización?

- **Limita la cantidad de tokens que se envían al modelo**, lo cual puede afectar el costo y rendimiento.
- **Mejora la precisión y relevancia de la respuesta final**, al evitar que el modelo se "distraiga" con información irrelevante.
- **Permite construir asistentes más eficientes**, como chatbots que respondan basándose solo en los fragmentos más significativos del documento original.

Este enfoque es especialmente útil para aplicaciones de recuperación aumentada por generación (*Retrieval-Augmented Generation* o RAG), donde se utiliza información externa para mejorar las respuestas de los modelos de lenguaje.
oo de vectores:


In [None]:
# importamos las lirerías

from langchain.document_loaders import WikipediaLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import TextLoader
from langchain_community.vectorstores import SKLearnVectorStore

## Carga documentos

- Vamos a realizar una consulta puntual sobre Python, para lo cual, iniciamos cargando la información disponible en wikipedia

In [None]:
loader = WikipediaLoader(query = 'Lenguaje Python', lang = 'es')
documents = loader.load()

In [None]:
#documents

In [None]:
len(documents)

## Split de documentos

In [None]:
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(chunk_size = 500)

In [None]:
docs = text_splitter.split_documents(documents)

In [None]:
len(docs)

## Cargar el modelo embeddings

In [None]:
import torch
from langchain_huggingface import HuggingFaceEmbeddings

# Detectar GPU si está disponible
device = "cuda" if torch.cuda.is_available() else "cpu"

# Instanciar LaBSE
funcion_embedding = HuggingFaceEmbeddings(
    model_name="sentence-transformers/LaBSE",
    model_kwargs={"device": device},
    encode_kwargs={"normalize_embeddings": True}
)


## Incustar documentos en BD de vectores

In [None]:
persist_path = "./ejemplo_wiki_bd"  # ruta donde se guarda la BD vectorizada

# Se crea la BD de vectores a partir de los documentos y la función de embeddings
vector_store = SKLearnVectorStore.from_documents(
    documents = docs,
    embedding = funcion_embedding,
    persist_path = persist_path,
    serializer = "parquet"
)
    


In [None]:
vector_store.persist()

## Consulta normal similitud del coseno


- **Creamos un nuevo documento que será la consulta para buscar la mayor similitud en la BD usando la distancia del coseno**

In [None]:
consulta = "¿A que se debe el nombre del Lenguaje de programación Pyhton?"
docs = vector_store.similarity_search(consulta)
print(docs[0].page_content)


## Compresión Contextual de Documentos con LangChain y LLM´s

Cuando realizamos una búsqueda en una base de datos vectorial, los resultados pueden incluir múltiples fragmentos de texto relevantes. Sin embargo, no siempre es eficiente pasar todo ese contenido al modelo. Para resolver esto, LangChain ofrece herramientas que permiten **comprimir y optimizar** esos fragmentos antes de enviarlos al LLM.

Dos componentes clave para esto son:

### `ContextualCompressionRetriever`

Esta clase actúa como un *envoltorio* (wrapper) alrededor de otro retriever. Su objetivo es mejorar los resultados originales aplicando un proceso de compresión o filtrado adicional. Lo que hace es:

- Recuperar documentos normalmente desde una base vectorial.
- Pasar esos documentos a un *compresor* (por ejemplo, un LLM).
- Devolver solo la versión comprimida o más relevante al modelo final.

Se usa para reducir la cantidad de texto innecesario que se le envía al LLM, optimizando tanto el rendimiento como la calidad de las respuestas.

### `LLMChainExtractor`

Este es un tipo de *compresor de documentos* que utiliza un modelo de lenguaje (LLM) para extraer la parte más relevante de cada fragmento. En lugar de devolver el texto completo, devuelve una versión resumida, filtrada o ajustada del contenido.

- Funciona como una cadena (`Chain`) de LangChain con un prompt predefinido.
- Es útil para cuando se necesita pasar solo el *contexto esencial* al modelo, especialmente en aplicaciones tipo pregunta-respuesta (Q&A).

---

### ¿Cómo se usan juntos?

Ambas clases se combinan para construir un flujo donde se recuperan documentos y luego se comprimen antes de enviarlos al modelo:


In [None]:

from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor

- **Conectamos con el modelo**

In [None]:
# Creamos un nuevo documento que será la consulta para buscar la mayor similitud en la BD usando la distancia del coseno
import os
from dotenv import load_dotenv
from langchain_groq import ChatGroq

# Cargar la API key desde .env
load_dotenv(override=True)

# Crear conexión con Groq
chat = ChatGroq(
    model="llama3-70b-8192",   # También puedes usar "mixtral-8x7b-32768"
    temperature=0.2
)

# Probar conexión
respuesta = chat.invoke("Hola, ¿cómo estás?, ¿quién eres?")
print(respuesta.content)

- **Instanciamos el compressor**

In [None]:
compressor = LLMChainExtractor.from_llm(chat)

- **Se instancia el recuperador, dando como argumentos el compressor y la base de datos donde se buscara**

In [None]:
compression_retriever = ContextualCompressionRetriever(base_compressor = compressor, base_retriever = vector_store.as_retriever())

In [None]:
Respuesta_comprimida = compression_retriever.invoke("¿A que se debe el nombre del Lenguaje de programación Pyhton?")

In [None]:
Respuesta_comprimida[0].page_content