# Sessão 2 – Avaliação RAG com ragas

Avaliar um pipeline RAG minimalista utilizando as métricas do ragas: relevância da resposta, fidelidade, precisão do contexto.


# Cenário
Este cenário avalia localmente um pipeline minimalista de Recuperação e Geração Aumentada (RAG). Nós:
- Definimos um pequeno corpus sintético de documentos.
- Incorporamos os documentos e implementamos um recuperador de similaridade simples.
- Geramos respostas fundamentadas utilizando um modelo local (Foundry Local / compatível com OpenAI).
- Calculamos métricas ragas (`answer_relevancy`, `faithfulness`, `context_precision`).
- Suportamos um modo RÁPIDO (variável de ambiente `RAG_FAST=1`) para calcular apenas a relevância da resposta, permitindo uma iteração mais rápida.

Utilize este notebook para validar que o seu modelo local + stack de embeddings produz respostas factualmente fundamentadas antes de escalar para corpora maiores.


### Explicação: Instalação de Dependências
Instala as bibliotecas necessárias:
- `foundry-local-sdk` para gestão de modelos locais.
- Interface cliente `openai`.
- `sentence-transformers` para embeddings densos.
- `ragas` + `datasets` para avaliação e cálculo de métricas.
- Adaptador `langchain-openai` para interface LLM do ragas.

Seguro para executar novamente; pode ser ignorado se o ambiente já estiver preparado.


In [1]:
# Install libraries (ragas pulls datasets, evaluate, etc.)
!pip install -q foundry-local-sdk openai sentence-transformers ragas datasets numpy langchain-openai

### Explicação: Importações Principais e Métricas
Carrega bibliotecas principais e métricas ragas. Elementos-chave:
- SentenceTransformer para embeddings.
- `evaluate` + métricas ragas selecionadas.
- `Dataset` para construir o corpus de avaliação.
Estas importações não acionam chamadas remotas (exceto o possível carregamento de cache de modelo para embeddings).


In [2]:
import os, numpy as np
from sentence_transformers import SentenceTransformer
from foundry_local import FoundryLocalManager
from openai import OpenAI
from ragas import evaluate
from ragas.metrics import answer_relevancy, faithfulness, context_precision
from datasets import Dataset

### Explicação: Corpus de Brinquedo & Respostas de Referência para QA
Define um corpus em memória reduzido (`DOCS`), um conjunto de perguntas de utilizadores e respostas de referência esperadas. Estes permitem cálculos de métricas rápidos e determinísticos sem necessidade de buscar dados externos. Em cenários reais, irias selecionar consultas de produção e respostas curadas.


In [3]:
DOCS = [
 'Foundry Local exposes a local OpenAI-compatible endpoint.',
 'RAG retrieves relevant context snippets before generation.',
 'Local inference improves privacy and reduces latency.',
]
QUESTIONS = [
 'What advantage does local inference offer?',
 'How does RAG improve grounding?',
]
GROUND_TRUTH = [
 'It reduces latency and preserves privacy.',
 'It adds retrieved context snippets for factual grounding.',
]

### Explicação: Inicialização do Serviço, Embeddings e Patch de Segurança
Inicializa o gestor local do Foundry, aplica um patch de segurança para desvio de esquema no `promptTemplate`, resolve o ID do modelo, cria um cliente compatível com OpenAI e pré-computa embeddings densos para o corpus de documentos. Isto configura um estado reutilizável para recuperação + geração.


In [4]:
import os
from foundry_local import FoundryLocalManager
from foundry_local.models import FoundryModelInfo
from openai import OpenAI

# --- Safe monkeypatch for potential null promptTemplate field (schema drift guard) ---
_original_from_list_response = FoundryModelInfo.from_list_response

def _safe_from_list_response(response):  # type: ignore
    try:
        if isinstance(response, dict) and response.get("promptTemplate") is None:
            response["promptTemplate"] = {}
    except Exception as e:  # pragma: no cover
        print(f"Warning normalizing promptTemplate: {e}")
    return _original_from_list_response(response)

if getattr(FoundryModelInfo.from_list_response, "__name__", "") != "_safe_from_list_response":
    FoundryModelInfo.from_list_response = staticmethod(_safe_from_list_response)  # type: ignore
# --- End monkeypatch ---

alias = os.getenv('FOUNDRY_LOCAL_ALIAS','phi-3.5-mini')
manager = FoundryLocalManager(alias)
print(f"Service running: {manager.is_service_running()} | Endpoint: {manager.endpoint}")
print('Cached models:', manager.list_cached_models())
model_info = manager.get_model_info(alias)
model_id = model_info.id
print(f"Using model id: {model_id}")

# OpenAI-compatible client
client = OpenAI(base_url=manager.endpoint, api_key=manager.api_key or 'not-needed')

from sentence_transformers import SentenceTransformer
embedder = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
import numpy as np
doc_emb = embedder.encode(DOCS, convert_to_numpy=True, normalize_embeddings=True)


Service running: True | Endpoint: http://127.0.0.1:57127/v1
Cached models: [FoundryModelInfo(alias=gpt-oss-20b, id=gpt-oss-20b-cuda-gpu:1, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=9882 MB, license=apache-2.0), FoundryModelInfo(alias=phi-3.5-mini, id=Phi-3.5-mini-instruct-cuda-gpu:1, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=2181 MB, license=MIT), FoundryModelInfo(alias=phi-4-mini, id=Phi-4-mini-instruct-cuda-gpu:4, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=3686 MB, license=MIT), FoundryModelInfo(alias=qwen2.5-0.5b, id=qwen2.5-0.5b-instruct-cuda-gpu:3, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=528 MB, license=apache-2.0), FoundryModelInfo(alias=qwen2.5-7b, id=qwen2.5-7b-instruct-cuda-gpu:3, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=4843 MB, license=apache-2.0), FoundryModelInfo(alias=qwen2.5-coder-7b, id=qwen2.5-coder-7b-instruct-cuda-gpu:3, execution_p

  attn_output = torch.nn.functional.scaled_dot_product_attention(


### Explicação: Função Retriever
Define um retriever simples de similaridade vetorial utilizando o produto interno sobre embeddings normalizados. Retorna os top-k documentos (k=2 por defeito). Em produção, substitua por um índice ANN (FAISS, Chroma, Milvus) para maior escala e menor latência.


In [5]:
def retrieve(query, k=2):
    q = embedder.encode([query], convert_to_numpy=True, normalize_embeddings=True)[0]
    sims = doc_emb @ q
    return [DOCS[i] for i in sims.argsort()[::-1][:k]]

### Explicação: Função de Geração
`generate` constrói um prompt restrito (o sistema instrui a usar APENAS o contexto) e chama o modelo local. Uma temperatura baixa (0.1) favorece a extração fiel em vez da criatividade. Retorna o texto da resposta aparado.


In [6]:
def generate(query, contexts):
    ctx = "\n".join(contexts)
    messages = [
        {'role':'system','content':'Answer using ONLY the provided context.'},
        {'role':'user','content':f"Context:\n{ctx}\n\nQuestion: {query}"}
    ]
    resp = client.chat.completions.create(model=model_id, messages=messages, max_tokens=120, temperature=0.1)
    return resp.choices[0].message.content.strip()


### Explicação: Inicialização de Cliente de Reserva
Garante que `client` exista mesmo que a célula de inicialização anterior tenha sido ignorada ou falhado—previne o erro NameError durante etapas posteriores de avaliação.


In [7]:
# Fallback client initialization (added after patch failure)
try:
    client  # type: ignore
except NameError:
    from openai import OpenAI
    client = OpenAI(base_url=manager.endpoint, api_key=manager.api_key or 'not-needed')
    print('Initialized OpenAI-compatible client (late init).')


### Explicação: Ciclo de Avaliação & Métricas
Cria o conjunto de dados de avaliação (colunas obrigatórias: pergunta, resposta, contextos, verdades absolutas, referência) e, em seguida, itera pelas métricas de ragas selecionadas.

Otimização:
- FAST_MODE limita-se à relevância da resposta para testes rápidos.
- O ciclo por métrica evita a recomputação completa quando uma métrica falha.

Produz um dicionário de métrica -> pontuação (NaN em caso de falha).


In [8]:
# Build evaluation dataset with required columns (including 'reference' for context_precision)
records = []
for q, gt in zip(QUESTIONS, GROUND_TRUTH):
    ctxs = retrieve(q)
    ans = generate(q, ctxs)
    records.append({
        'question': q,
        'answer': ans,
        'contexts': ctxs,
        'ground_truths': [gt],
        'reference': gt
    })

from datasets import Dataset
from ragas import evaluate
from ragas.metrics import answer_relevancy, faithfulness, context_precision
from langchain_openai import ChatOpenAI
from ragas.run_config import RunConfig
import math, time, os
import numpy as np

ragas_llm = ChatOpenAI(model=model_id, base_url=manager.endpoint, api_key=manager.api_key or 'not-needed', temperature=0.0, timeout=60)

class LocalEmbeddings:
    def embed_documents(self, texts):
        return embedder.encode(texts, convert_to_numpy=True, normalize_embeddings=True).tolist()
    def embed_query(self, text):
        return embedder.encode([text], convert_to_numpy=True, normalize_embeddings=True)[0].tolist()

# Fast mode: only answer_relevancy unless RAG_FAST=0
FAST_MODE = os.getenv('RAG_FAST','1') == '1'
metrics = [answer_relevancy] if FAST_MODE else [answer_relevancy, faithfulness, context_precision]

base_timeout = 45 if FAST_MODE else 120

ds = Dataset.from_list(records)
print('Evaluation dataset columns:', ds.column_names)
print('Metrics to compute:', [m.name for m in metrics])

results_dict = {}
for metric in metrics:
    t0 = time.time()
    try:
        cfg = RunConfig(timeout=base_timeout, max_workers=1)
        partial = evaluate(ds, metrics=[metric], llm=ragas_llm, embeddings=LocalEmbeddings(), run_config=cfg, show_progress=False)
        raw_val = partial[metric.name]
        if isinstance(raw_val, list):
            numeric = [v for v in raw_val if isinstance(v, (int, float))]
            score = float(np.nanmean(numeric)) if numeric else math.nan
        else:
            score = float(raw_val)
        results_dict[metric.name] = score
    except Exception as e:
        results_dict[metric.name] = math.nan
        print(f"Metric {metric.name} failed: {e}")
    finally:
        print(f"{metric.name} finished in {time.time()-t0:.1f}s -> {results_dict[metric.name]}")

print('RAG evaluation results:', results_dict)
results_dict

Evaluation dataset columns: ['question', 'answer', 'contexts', 'ground_truths', 'reference']
Metrics to compute: ['answer_relevancy']


LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.
LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.
LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.


answer_relevancy finished in 78.1s -> 0.6975427764759168
RAG evaluation results: {'answer_relevancy': 0.6975427764759168}


{'answer_relevancy': 0.6975427764759168}


---

**Aviso**:  
Este documento foi traduzido utilizando o serviço de tradução por IA [Co-op Translator](https://github.com/Azure/co-op-translator). Embora nos esforcemos pela precisão, tenha em atenção que traduções automáticas podem conter erros ou imprecisões. O documento original na sua língua nativa deve ser considerado a fonte autoritária. Para informações críticas, recomenda-se uma tradução profissional realizada por humanos. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas decorrentes da utilização desta tradução.
