# Pr√°ctica: Optimizaci√≥n en Sistemas RAG ‚Äì Llevando la Generaci√≥n a Producci√≥n

Objetivos de la pr√°ctica

Comprender los desaf√≠os de eficiencia, relevancia y costo en sistemas RAG.

Aplicar t√©cnicas de optimizaci√≥n en el Retriever y el Generator.

Implementar b√∫squeda h√≠brida, re-ranking, compresi√≥n de contexto y caching en un flujo b√°sico.

Evaluar las respuestas generadas seg√∫n fidelidad, relevancia y latencia.

Requisitos previos

Instalar las siguientes dependencias:

In [None]:
# pip install chromadb sentence-transformers faiss-cpu

## PARTE 1 ‚Äì Problema inicial: RAG sin optimizaci√≥n

Crea una peque√±a base de conocimiento con textos de distintos temas (m√≠nimo 8).
Ejemplo: fragmentos de manuales t√©cnicos, descripciones de productos o art√≠culos breves.

Usa ChromaDB para almacenar los embeddings y permitir b√∫squeda sem√°ntica.

Implementa un flujo RAG b√°sico:

Retriever: devuelve los documentos m√°s similares a una consulta.

Generator: (simulado) muestra el texto m√°s relevante concatenado como ‚Äúrespuesta‚Äù.

Mide el tiempo total de la b√∫squeda (latencia) y observa los resultados.

üß≠ Pregunta para reflexionar:
¬øLa respuesta es coherente y relevante o aparecen fragmentos irrelevantes?

## PARTE 2 ‚Äì Optimizaci√≥n del Retriever 

### Ejercicio 1: Chunking Estrat√©gico

Divide tu base de conocimiento en ‚Äúchunks‚Äù l√≥gicos (por secciones o p√°rrafos), no solo por longitud.

Implementa una superposici√≥n de 10‚Äì20% entre chunks para mantener continuidad.

üëâ Tarea: compara el n√∫mero total de chunks generados y observa si mejora la calidad de recuperaci√≥n.

### Ejercicio 2: Re-ranking

Simula un re-ranking simple:

Recupera los 10 resultados m√°s similares.

Calcula una nueva similitud con otro modelo (por ejemplo all-MiniLM-L6-v2 o mpnet-base).

Elige los 3 m√°s relevantes.

üëâ Tarea: guarda la latencia antes y despu√©s del re-ranking y comenta si el resultado mejora la relevancia.

### Ejercicio 3: B√∫squeda H√≠brida

Implementa un esquema de b√∫squeda combinada:

B√∫squeda por palabras clave (filtrado simple con in o BM25 si lo deseas).

B√∫squeda sem√°ntica con embeddings.

Combina ambas puntuaciones (por ejemplo, promedio).

üëâ Tarea: prueba con una consulta que contenga palabras clave espec√≠ficas (ej. ‚Äúerrores del Bluetooth‚Äù)
y observa si los resultados son m√°s precisos que solo con b√∫squeda sem√°ntica.

## PARTE 3 ‚Äì Optimizaci√≥n del Generator y Flujo 

#### Ejercicio 4: Prompt Engineering

Crea un prompt template claro que simule un rol, por ejemplo:
"Eres un experto t√©cnico. Usa solo el texto recuperado para responder la siguiente pregunta: {pregunta}".

üëâ Tarea: explica por qu√© los prompts bien dise√±ados reducen la ‚Äúalucinaci√≥n‚Äù del modelo.

### Ejercicio 5: Compresi√≥n del Contexto

Si un chunk es muy largo (>300 palabras), genera un resumen o selecci√≥n de frases clave (usa un modelo o m√©todo simple).

Usa ese resumen como contexto para la respuesta final.

üëâ Tarea: mide cu√°nto se reduce el tama√±o del contexto y si cambia el tiempo de ejecuci√≥n.

### Ejercicio 6: Caching de Consultas

Implementa un sistema de cache simple usando un diccionario Python ({consulta: respuesta}).

Si una pregunta se repite, devuelve la respuesta almacenada sin volver a consultar la base vectorial.

üëâ Tarea: mide cu√°ntas veces se usa la cach√© y cu√°nto tiempo se ahorra.

## PARTE 4 ‚Äì Evaluaci√≥n y M√©tricas üìä

1. Define tres m√©tricas de evaluaci√≥n del sistema RAG:

- Fidelidad (Faithfulness): ¬øla respuesta usa informaci√≥n real del contexto?

- Relevancia: ¬ølos textos recuperados est√°n relacionados con la pregunta?

- Latencia: tiempo total en segundos del flujo completo.

2. Crea una tabla comparando los resultados antes y despu√©s de las optimizaciones:

M√©trica	Sin Optimizaci√≥n	Con Optimizaci√≥n
Fidelidad		
Relevancia		
Latencia		

üëâ Tarea: escribe tus conclusiones breves (3‚Äì4 l√≠neas).

## PARTE 5 ‚Äì Caso de Uso Integrado üíº

Simula un Chatbot de Soporte T√©cnico RAG:

1. Base de conocimiento: FAQs o descripciones t√©cnicas de productos.

2. Flujo:

- Recuperaci√≥n h√≠brida + re-ranking.

- Compresi√≥n de contexto.

- Prompt claro (‚ÄúEres un t√©cnico de soporte‚Ä¶‚Äù).

- Caching activado.

3. Realiza tres consultas y registra:

- Tiempo de respuesta.

- Relevancia percibida.

- Si el sistema reutiliz√≥ la cach√©.