# Optimización de un sistema RAG para consultas frecuentes y contexto largo

Una empresa tiene un sistema RAG interno que responde preguntas sobre documentación técnica de productos.
Actualmente, el sistema es funcional, pero enfrenta problemas:

* Algunas consultas frecuentes consumen demasiados recursos.

* Las respuestas a veces son largas y contienen información irrelevante.

* El costo de la API LLM es alto debido a inputs grandes.

El objetivo de la práctica es optimizar el flujo del generator y del retriever, aplicando técnicas de Prompt Engineering, compresión de contexto, caching y medición de métricas.

## Datos a utilizar

Para realizar la práctica, se usarán dos CSVs de ejemplo:

1. documentacion_auditoria.csv

Contiene documentos relacionados con auditorías, normativa y riesgos financieros.

Usar este dataset para consultas sobre auditoría, normativa, riesgos o control interno.


2. documentacion_tecnica.csv

Contiene documentos relacionados con sistemas RAG, arquitectura de software y optimización de procesos.

Usar este dataset para consultas sobre implementación técnica, arquitectura, procesamiento de datos o RAG multimodal.

## Objetivos de la práctica

1. Implementar Prompt Engineering avanzado:

- Diseñar prompts que obliguen al LLM a citar el contenido recuperado.

- Establecer roles, por ejemplo: “Eres un experto técnico que redacta informes precisos”.

2. Aplicar compresión de contexto:

- Reducir la cantidad de tokens enviados al LLM extrayendo solo la información relevante de los documentos recuperados.

- Comparar eficiencia y costo antes y después de la compresión.

3. Implementar caching de respuestas:

- Guardar respuestas a consultas frecuentes y reutilizarlas sin invocar al LLM nuevamente.

- Medir reducción de latencia y uso de recursos.

4. Medir métricas de calidad:

- Fidelidad (Faithfulness): verificar que la respuesta esté basada en los documentos recuperados.

- Contexto relevante: asegurar que solo se use información necesaria.

- Respuesta relevante: verificar que la consulta esté contestada correctamente.

5. Experimentación iterativa (MLOps):

- Probar distintos modelos de embeddings y LLM para evaluar trade-offs entre calidad y costo.

- Ajustar número de documentos recuperados, re-ranking y tamaño de chunks.

- Comparar dos versiones del sistema (A/B Testing) y reportar mejoras.

6. Opcional avanzado – RAG Multimodal:

- Indexar documentos con imágenes/diagramas y permitir consultas que incluyan referencias visuales.

- Generar respuestas que incluyan la descripción del diagrama relevante.

## Preguntas 

- Diseñar prompts claros que obliguen a citar fuentes y reduzcan alucinaciones.

- Determinar qué partes del contexto son esenciales y aplicar compresión eficaz.

- Implementar cache y decidir cuándo reutilizar respuestas.

- Evaluar métricas de calidad para mejorar iterativamente el sistema.

- Decidir parámetros de recuperación, chunking y re-ranking para optimizar latencia y costo.