# Sesión 2 – Evaluación de RAG con ragas

Evalúa una canalización RAG mínima utilizando las métricas de ragas: relevancia de la respuesta, fidelidad, precisión del contexto.


# Escenario
Este escenario evalúa localmente un pipeline mínimo de Recuperación y Generación Aumentada (RAG). Nosotros:
- Definimos un pequeño corpus sintético de documentos.
- Generamos embeddings de los documentos e implementamos un recuperador de similitud básico.
- Generamos respuestas fundamentadas utilizando un modelo local (Foundry Local / compatible con OpenAI).
- Calculamos métricas de RAGAS (`answer_relevancy`, `faithfulness`, `context_precision`).
- Soportamos un modo RÁPIDO (variable de entorno `RAG_FAST=1`) para calcular únicamente la relevancia de la respuesta y facilitar iteraciones rápidas.

Utiliza este notebook para validar que tu modelo local + pila de embeddings produce respuestas fundamentadas antes de escalar a corpus más grandes.


### Explicación: Instalación de Dependencias
Instala las bibliotecas necesarias:
- `foundry-local-sdk` para la gestión de modelos locales.
- Interfaz cliente de `openai`.
- `sentence-transformers` para incrustaciones densas.
- `ragas` + `datasets` para evaluación y cálculo de métricas.
- Adaptador `langchain-openai` para la interfaz LLM de ragas.

Es seguro volver a ejecutar; omitir si el entorno ya está preparado.


In [1]:
# Install libraries (ragas pulls datasets, evaluate, etc.)
!pip install -q foundry-local-sdk openai sentence-transformers ragas datasets numpy langchain-openai

### Explicación: Importaciones principales y métricas
Carga las bibliotecas principales y las métricas de ragas. Puntos clave:
- SentenceTransformer para embeddings.
- `evaluate` + métricas seleccionadas de ragas.
- `Dataset` para construir el corpus de evaluación.
Estas importaciones no activan llamadas remotas (excepto la posible carga de caché del modelo para embeddings).


In [2]:
import os, numpy as np
from sentence_transformers import SentenceTransformer
from foundry_local import FoundryLocalManager
from openai import OpenAI
from ragas import evaluate
from ragas.metrics import answer_relevancy, faithfulness, context_precision
from datasets import Dataset

### Explicación: Corpus de Juguete y Respuestas Verdaderas para QA
Define un corpus en memoria de tamaño reducido (`DOCS`), un conjunto de preguntas de usuarios y las respuestas verdaderas esperadas. Esto permite un cálculo rápido y determinista de métricas sin necesidad de obtener datos externos. En escenarios reales, se tomarían muestras de consultas de producción y respuestas seleccionadas.


In [3]:
DOCS = [
 'Foundry Local exposes a local OpenAI-compatible endpoint.',
 'RAG retrieves relevant context snippets before generation.',
 'Local inference improves privacy and reduces latency.',
]
QUESTIONS = [
 'What advantage does local inference offer?',
 'How does RAG improve grounding?',
]
GROUND_TRUTH = [
 'It reduces latency and preserves privacy.',
 'It adds retrieved context snippets for factual grounding.',
]

### Explicación: Inicio del Servicio, Embeddings y Parche de Seguridad
Inicializa el gestor local de Foundry, aplica un parche de seguridad para desviaciones de esquema en `promptTemplate`, resuelve el ID del modelo, crea un cliente compatible con OpenAI y pre-computa embeddings densos para el corpus de documentos. Esto configura un estado reutilizable para recuperación + generación.


In [4]:
import os
from foundry_local import FoundryLocalManager
from foundry_local.models import FoundryModelInfo
from openai import OpenAI

# --- Safe monkeypatch for potential null promptTemplate field (schema drift guard) ---
_original_from_list_response = FoundryModelInfo.from_list_response

def _safe_from_list_response(response):  # type: ignore
    try:
        if isinstance(response, dict) and response.get("promptTemplate") is None:
            response["promptTemplate"] = {}
    except Exception as e:  # pragma: no cover
        print(f"Warning normalizing promptTemplate: {e}")
    return _original_from_list_response(response)

if getattr(FoundryModelInfo.from_list_response, "__name__", "") != "_safe_from_list_response":
    FoundryModelInfo.from_list_response = staticmethod(_safe_from_list_response)  # type: ignore
# --- End monkeypatch ---

alias = os.getenv('FOUNDRY_LOCAL_ALIAS','phi-3.5-mini')
manager = FoundryLocalManager(alias)
print(f"Service running: {manager.is_service_running()} | Endpoint: {manager.endpoint}")
print('Cached models:', manager.list_cached_models())
model_info = manager.get_model_info(alias)
model_id = model_info.id
print(f"Using model id: {model_id}")

# OpenAI-compatible client
client = OpenAI(base_url=manager.endpoint, api_key=manager.api_key or 'not-needed')

from sentence_transformers import SentenceTransformer
embedder = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
import numpy as np
doc_emb = embedder.encode(DOCS, convert_to_numpy=True, normalize_embeddings=True)


Service running: True | Endpoint: http://127.0.0.1:57127/v1
Cached models: [FoundryModelInfo(alias=gpt-oss-20b, id=gpt-oss-20b-cuda-gpu:1, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=9882 MB, license=apache-2.0), FoundryModelInfo(alias=phi-3.5-mini, id=Phi-3.5-mini-instruct-cuda-gpu:1, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=2181 MB, license=MIT), FoundryModelInfo(alias=phi-4-mini, id=Phi-4-mini-instruct-cuda-gpu:4, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=3686 MB, license=MIT), FoundryModelInfo(alias=qwen2.5-0.5b, id=qwen2.5-0.5b-instruct-cuda-gpu:3, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=528 MB, license=apache-2.0), FoundryModelInfo(alias=qwen2.5-7b, id=qwen2.5-7b-instruct-cuda-gpu:3, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=4843 MB, license=apache-2.0), FoundryModelInfo(alias=qwen2.5-coder-7b, id=qwen2.5-coder-7b-instruct-cuda-gpu:3, execution_p

  attn_output = torch.nn.functional.scaled_dot_product_attention(


### Explicación: Función Retriever
Define un recuperador de similitud de vectores simple utilizando el producto punto sobre embeddings normalizados. Devuelve los k documentos principales (k=2 por defecto). En producción, reemplazar con un índice ANN (FAISS, Chroma, Milvus) para mayor escala y menor latencia.


In [5]:
def retrieve(query, k=2):
    q = embedder.encode([query], convert_to_numpy=True, normalize_embeddings=True)[0]
    sims = doc_emb @ q
    return [DOCS[i] for i in sims.argsort()[::-1][:k]]

### Explicación: Función de Generación
`generate` construye un mensaje restringido (el sistema indica usar ÚNICAMENTE el contexto) y llama al modelo local. Una temperatura baja (0.1) favorece la extracción fiel sobre la creatividad. Devuelve el texto de la respuesta recortado.


In [6]:
def generate(query, contexts):
    ctx = "\n".join(contexts)
    messages = [
        {'role':'system','content':'Answer using ONLY the provided context.'},
        {'role':'user','content':f"Context:\n{ctx}\n\nQuestion: {query}"}
    ]
    resp = client.chat.completions.create(model=model_id, messages=messages, max_tokens=120, temperature=0.1)
    return resp.choices[0].message.content.strip()


### Explicación: Inicialización de Cliente de Respaldo
Garantiza que `client` exista incluso si se omitió o falló la celda de inicialización anterior, evitando un error de tipo NameError durante pasos posteriores de evaluación.


In [7]:
# Fallback client initialization (added after patch failure)
try:
    client  # type: ignore
except NameError:
    from openai import OpenAI
    client = OpenAI(base_url=manager.endpoint, api_key=manager.api_key or 'not-needed')
    print('Initialized OpenAI-compatible client (late init).')


### Explicación: Bucle de Evaluación y Métricas
Construye el conjunto de datos de evaluación (columnas requeridas: pregunta, respuesta, contextos, verdades fundamentales, referencia) y luego itera las métricas seleccionadas de ragas.

Optimización:
- FAST_MODE se limita a la relevancia de la respuesta para pruebas rápidas.
- El bucle por métrica evita la recomputación completa cuando una métrica falla.

Devuelve un diccionario de métrica -> puntuación (NaN en caso de fallo).


In [8]:
# Build evaluation dataset with required columns (including 'reference' for context_precision)
records = []
for q, gt in zip(QUESTIONS, GROUND_TRUTH):
    ctxs = retrieve(q)
    ans = generate(q, ctxs)
    records.append({
        'question': q,
        'answer': ans,
        'contexts': ctxs,
        'ground_truths': [gt],
        'reference': gt
    })

from datasets import Dataset
from ragas import evaluate
from ragas.metrics import answer_relevancy, faithfulness, context_precision
from langchain_openai import ChatOpenAI
from ragas.run_config import RunConfig
import math, time, os
import numpy as np

ragas_llm = ChatOpenAI(model=model_id, base_url=manager.endpoint, api_key=manager.api_key or 'not-needed', temperature=0.0, timeout=60)

class LocalEmbeddings:
    def embed_documents(self, texts):
        return embedder.encode(texts, convert_to_numpy=True, normalize_embeddings=True).tolist()
    def embed_query(self, text):
        return embedder.encode([text], convert_to_numpy=True, normalize_embeddings=True)[0].tolist()

# Fast mode: only answer_relevancy unless RAG_FAST=0
FAST_MODE = os.getenv('RAG_FAST','1') == '1'
metrics = [answer_relevancy] if FAST_MODE else [answer_relevancy, faithfulness, context_precision]

base_timeout = 45 if FAST_MODE else 120

ds = Dataset.from_list(records)
print('Evaluation dataset columns:', ds.column_names)
print('Metrics to compute:', [m.name for m in metrics])

results_dict = {}
for metric in metrics:
    t0 = time.time()
    try:
        cfg = RunConfig(timeout=base_timeout, max_workers=1)
        partial = evaluate(ds, metrics=[metric], llm=ragas_llm, embeddings=LocalEmbeddings(), run_config=cfg, show_progress=False)
        raw_val = partial[metric.name]
        if isinstance(raw_val, list):
            numeric = [v for v in raw_val if isinstance(v, (int, float))]
            score = float(np.nanmean(numeric)) if numeric else math.nan
        else:
            score = float(raw_val)
        results_dict[metric.name] = score
    except Exception as e:
        results_dict[metric.name] = math.nan
        print(f"Metric {metric.name} failed: {e}")
    finally:
        print(f"{metric.name} finished in {time.time()-t0:.1f}s -> {results_dict[metric.name]}")

print('RAG evaluation results:', results_dict)
results_dict

Evaluation dataset columns: ['question', 'answer', 'contexts', 'ground_truths', 'reference']
Metrics to compute: ['answer_relevancy']


LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.
LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.
LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.


answer_relevancy finished in 78.1s -> 0.6975427764759168
RAG evaluation results: {'answer_relevancy': 0.6975427764759168}


{'answer_relevancy': 0.6975427764759168}


---

**Descargo de responsabilidad**:  
Este documento ha sido traducido utilizando el servicio de traducción automática [Co-op Translator](https://github.com/Azure/co-op-translator). Aunque nos esforzamos por garantizar la precisión, tenga en cuenta que las traducciones automatizadas pueden contener errores o imprecisiones. El documento original en su idioma nativo debe considerarse como la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por humanos. No nos hacemos responsables de malentendidos o interpretaciones erróneas que puedan surgir del uso de esta traducción.
