# Práctica: Optimización en Sistemas RAG – Llevando la Generación a Producción

Objetivos de la práctica

Comprender los desafíos de eficiencia, relevancia y costo en sistemas RAG.

Aplicar técnicas de optimización en el Retriever y el Generator.

Implementar búsqueda híbrida, re-ranking, compresión de contexto y caching en un flujo básico.

Evaluar las respuestas generadas según fidelidad, relevancia y latencia.

⚙️ Requisitos previos

Instalar las siguientes dependencias:

In [None]:
# pip install chromadb sentence-transformers faiss-cpu

## PARTE 1 – Problema inicial: RAG sin optimización

Crea una pequeña base de conocimiento con textos de distintos temas (mínimo 8).
Ejemplo: fragmentos de manuales técnicos, descripciones de productos o artículos breves.

Usa ChromaDB para almacenar los embeddings y permitir búsqueda semántica.

Implementa un flujo RAG básico:

Retriever: devuelve los documentos más similares a una consulta.

Generator: (simulado) muestra el texto más relevante concatenado como “respuesta”.

Mide el tiempo total de la búsqueda (latencia) y observa los resultados.

🧭 Pregunta para reflexionar:
¿La respuesta es coherente y relevante o aparecen fragmentos irrelevantes?

## PARTE 2 – Optimización del Retriever 

### Ejercicio 1: Chunking Estratégico

Divide tu base de conocimiento en “chunks” lógicos (por secciones o párrafos), no solo por longitud.

Implementa una superposición de 10–20% entre chunks para mantener continuidad.

👉 Tarea: compara el número total de chunks generados y observa si mejora la calidad de recuperación.

### Ejercicio 2: Re-ranking

Simula un re-ranking simple:

Recupera los 10 resultados más similares.

Calcula una nueva similitud con otro modelo (por ejemplo all-MiniLM-L6-v2 o mpnet-base).

Elige los 3 más relevantes.

👉 Tarea: guarda la latencia antes y después del re-ranking y comenta si el resultado mejora la relevancia.

### Ejercicio 3: Búsqueda Híbrida

Implementa un esquema de búsqueda combinada:

Búsqueda por palabras clave (filtrado simple con in o BM25 si lo deseas).

Búsqueda semántica con embeddings.

Combina ambas puntuaciones (por ejemplo, promedio).

👉 Tarea: prueba con una consulta que contenga palabras clave específicas (ej. “errores del Bluetooth”)
y observa si los resultados son más precisos que solo con búsqueda semántica.

## PARTE 3 – Optimización del Generator y Flujo 

#### Ejercicio 4: Prompt Engineering

Crea un prompt template claro que simule un rol, por ejemplo:
"Eres un experto técnico. Usa solo el texto recuperado para responder la siguiente pregunta: {pregunta}".

👉 Tarea: explica por qué los prompts bien diseñados reducen la “alucinación” del modelo.

### Ejercicio 5: Compresión del Contexto

Si un chunk es muy largo (>300 palabras), genera un resumen o selección de frases clave (usa un modelo o método simple).

Usa ese resumen como contexto para la respuesta final.

👉 Tarea: mide cuánto se reduce el tamaño del contexto y si cambia el tiempo de ejecución.

### Ejercicio 6: Caching de Consultas

Implementa un sistema de cache simple usando un diccionario Python ({consulta: respuesta}).

Si una pregunta se repite, devuelve la respuesta almacenada sin volver a consultar la base vectorial.

👉 Tarea: mide cuántas veces se usa la caché y cuánto tiempo se ahorra.

## PARTE 4 – Evaluación y Métricas 📊

1. Define tres métricas de evaluación del sistema RAG:

- Fidelidad (Faithfulness): ¿la respuesta usa información real del contexto?

- Relevancia: ¿los textos recuperados están relacionados con la pregunta?

- Latencia: tiempo total en segundos del flujo completo.

2. Crea una tabla comparando los resultados antes y después de las optimizaciones:

Métrica	Sin Optimización	Con Optimización
Fidelidad		
Relevancia		
Latencia		

👉 Tarea: escribe tus conclusiones breves (3–4 líneas).

## PARTE 5 – Caso de Uso Integrado 💼

Simula un Chatbot de Soporte Técnico RAG:

1. Base de conocimiento: FAQs o descripciones técnicas de productos.

2. Flujo:

- Recuperación híbrida + re-ranking.

- Compresión de contexto.

- Prompt claro (“Eres un técnico de soporte…”).

- Caching activado.

3. Realiza tres consultas y registra:

- Tiempo de respuesta.

- Relevancia percibida.

- Si el sistema reutilizó la caché.

## Reflexión final

¿Cuál técnica tuvo el mayor impacto en la relevancia de las respuestas?

¿Cuál fue más efectiva para reducir la latencia?

¿Cómo aplicarías este flujo en un entorno real (empresa, educación, salud, etc.)?