# RAG vs Agentic RAG con Batman

## Objetivo
Comparar dos arquitecturas de retrieval-augmented generation:
- **Vanilla RAG**: Retrieve -> Generate.
- **Agentic RAG**: Route -> Rewrite -> Retrieve -> Filter -> Generate -> Grounding Check.

Usamos `gpt-5-mini` para generacion y `text-embedding-3-small` para retrieval.

In [None]:
from pathlib import Path
import sys
import pandas as pd

ROOT = Path.cwd()
if str(ROOT) not in sys.path:
    sys.path.append(str(ROOT))

from scripts.rag_pipelines import VanillaRAG, AgenticRAG
from scripts.vector_store_lab import build_index_from_json
from scripts.evaluation import (
    build_eval_questions,
    plot_architecture_difference,
    plot_pipeline_comparison,
    run_benchmark,
)

DATA_PATH = ROOT / 'data' / 'batman_comics.json'
OUTPUTS_DIR = ROOT / 'outputs'
OUTPUTS_DIR.mkdir(parents=True, exist_ok=True)

In [None]:
db, chunks, index_stats, chunk_stats = build_index_from_json(
    json_path=DATA_PATH,
    persist_dir=OUTPUTS_DIR / 'chroma_batman_rag',
    collection_name='batman_rag_lab',
    chunk_size=800,
    chunk_overlap=120,
    embedding_model='text-embedding-3-small',
)

print(index_stats)
print(chunk_stats)

## Marco teorico: Groundedness y decisiones de parametros

### Que es groundedness (en este contexto)

La metrica de **groundedness** que usamos es un **proxy heuristico basado en token-overlap**: mide la proporcion de tokens unicos en la respuesta del LLM que tambien aparecen en los documentos de contexto recuperados.

```
groundedness = |tokens_respuesta ∩ tokens_contexto| / |tokens_respuesta|
```

**Limitaciones importantes** de este enfoque:
- **No detecta parafrasis**: si el LLM reformula una idea del contexto con sinonimos, el overlap baja aunque la respuesta sea correcta.
- **No detecta alucinaciones elaboradas**: si el LLM inventa datos usando vocabulario del contexto, el overlap sube aunque la respuesta sea incorrecta.
- **No es un LLM-judge**: metodos mas sofisticados (como NLI-based groundedness o LLM-as-judge) son mas precisos pero tambien mas costosos y lentos.

Para un laboratorio educativo, el token-overlap es un proxy util y transparente: los estudiantes pueden inspeccionar exactamente que tokens contribuyen al score, lo cual no es posible con un LLM-judge opaco.

### Por que el threshold de grounding es 0.18

En experimentos con textos narrativos en espanol (como estos comics), observamos que:
- Respuestas con **groundedness < 0.15** casi siempre contienen informacion inventada o generalizada.
- Respuestas con **groundedness > 0.25** suelen estar fuertemente ancladas al contexto.
- El rango **0.15–0.25** es una zona gris donde la calidad depende del tipo de pregunta.

El valor **0.18** es empirico, no universal. Es un punto de corte conservador que balancea:
- Evitar regeneraciones innecesarias (falsos positivos de baja calidad).
- Detectar respuestas que realmente no estan sustentadas en el contexto.

En produccion, este threshold deberia calibrarse con un dataset de evaluacion etiquetado por humanos.

### Por que Agentic RAG usa k=6 vs Vanilla RAG k=4

El pipeline Agentic RAG incluye un paso de **filtrado por relevancia** (`_filter_relevant_docs`) que elimina documentos con bajo overlap lexico con la query. Esto significa que de los `k` documentos recuperados, solo un subconjunto llega al LLM.

- **Vanilla RAG (k=4)**: todos los documentos recuperados se envian al LLM. No hay filtro, por lo que `k` debe ser conservador para no diluir el contexto con documentos irrelevantes.
- **Agentic RAG (k=6)**: el pool inicial es mas grande porque el filtrado posterior reduce la cantidad. Si el filtro elimina 2-3 documentos, aun quedan 3-4 relevantes para la generacion.

Este es un patron comun en pipelines RAG de produccion: **over-retrieve + filter > retrieve exacto**.

In [None]:
vanilla = VanillaRAG(
    vector_db=db,
    model='gpt-5-mini',
    embedding_model='text-embedding-3-small',
    k=4,
)

agentic = AgenticRAG(
    vector_db=db,
    model='gpt-5-mini',
    embedding_model='text-embedding-3-small',
    k=6,
    min_docs_after_filter=3,
)

print('Pipelines initialized.')

In [None]:
query = 'Compara como Batman enfrenta a Bane en Knightfall versus su enfoque contra el Joker en The Killing Joke.'

vanilla_result = vanilla.run(query)
agentic_result = agentic.run(query)

comparison_preview = pd.DataFrame([
    {
        'pipeline': vanilla_result.pipeline,
        'latency_seconds': vanilla_result.latency_seconds,
        'groundedness': vanilla_result.groundedness,
        'retrieved_docs': len(vanilla_result.docs),
        'route': vanilla_result.route,
        'llm_provider': vanilla_result.llm_provider,
    },
    {
        'pipeline': agentic_result.pipeline,
        'latency_seconds': agentic_result.latency_seconds,
        'groundedness': agentic_result.groundedness,
        'retrieved_docs': len(agentic_result.docs),
        'route': agentic_result.route,
        'llm_provider': agentic_result.llm_provider,
    },
])
comparison_preview

## Diferencia estructural de pipelines

```mermaid
flowchart TD
  A["User Query"] --> B["Retrieve"] --> C["Generate"]

  D["User Query"] --> E["Route"] --> F["Rewrite"] --> G["Retrieve"] --> H["Filter"] --> I["Generate"] --> J["Grounding Check"]
```

In [None]:
questions = build_eval_questions()
benchmark_df = run_benchmark(vanilla=vanilla, agentic=agentic, queries=questions)
benchmark_df.head()

In [None]:
summary_df = plot_pipeline_comparison(
    benchmark_df,
    output_path=OUTPUTS_DIR / 'rag_vs_agentic_rag_metrics.png',
)
plot_architecture_difference(OUTPUTS_DIR / 'rag_vs_agentic_architecture.png')
summary_df

In [None]:
csv_path = OUTPUTS_DIR / 'rag_vs_agentic_benchmark.csv'
benchmark_df.to_csv(csv_path, index=False)
print(f'Saved benchmark rows: {len(benchmark_df)}')
print(f'CSV: {csv_path}')
print(f'Metrics plot: {OUTPUTS_DIR / "rag_vs_agentic_rag_metrics.png"}')
print(f'Architecture plot: {OUTPUTS_DIR / "rag_vs_agentic_architecture.png"}')

## Interpretacion orientada a ingenieria

- Si Agentic RAG mejora groundedness sin deteriorar demasiado latencia, suele ser la opcion de produccion para consultas complejas.
- Si el dominio es muy cerrado y estable, Vanilla RAG puede ser suficiente y mas barato.
- El punto clave no es "agentes por moda", sino el costo-beneficio medible por caso de uso.

### Que mirar en los resultados del benchmark

- **Groundedness proxy**: compara las medias entre pipelines. Si Agentic RAG no supera a Vanilla, el overhead de routing/filtering no se justifica.
- **Latencia**: Agentic RAG sera siempre mas lento (mas pasos). La pregunta es si el delta de latencia es aceptable para la ganancia en calidad.
- **Steps ejecutados**: revisa si `regenerate_if_low_grounding` se activa frecuentemente. Si lo hace, indica que el retrieval inicial necesita mejora (mejor chunking, mejor query rewriting, o mas documentos).

## Cierre didactico

### Conceptos clave de esta notebook

- **Vanilla RAG es un baseline, no un strawman**: su simplicidad es una ventaja real en produccion (menos puntos de falla, menor latencia, mas facil de debuggear).
- **Agentic RAG agrega valor solo cuando sus pasos adicionales producen mejoras medibles**: routing sin beneficio, filtering que no filtra, o grounding checks con thresholds mal calibrados son overhead puro.
- **Groundedness basado en token-overlap es un proxy pragmatico**, no una metrica de evaluacion definitiva. En produccion, se complementa con LLM-judges, evaluacion humana, o metricas de NLI (Natural Language Inference).
- **El parametro `k` no es un numero magico**: depende de la estrategia del pipeline. Over-retrieve + filter es un patron valido cuando el filtrado agrega valor.

### Conexion con la siguiente notebook

En la siguiente notebook aplicamos **routing entre dominios** (Batman vs Spider-Man) para ver como un orquestador simple puede dirigir consultas al pipeline correcto. La pregunta central: *cuando routing heuristico es suficiente y cuando necesitas routing semantico?*