# Session 2 – Utvärdering av RAG med ragas

Utvärdera minimal RAG-pipeline med ragas-mått: svarrelevans, trovärdighet, kontextprecision.


# Scenario
Det här scenariot utvärderar en minimal Retrieval Augmented Generation (RAG)-pipeline lokalt. Vi:
- Definierar en liten syntetisk dokumentkorpus.
- Skapar embedding för dokumenten och implementerar en enkel likhetsbaserad sökfunktion.
- Genererar faktabaserade svar med hjälp av en lokal modell (Foundry Local / OpenAI-kompatibel).
- Beräknar ragas-mått (`answer_relevancy`, `faithfulness`, `context_precision`).
- Stödjer ett SNABBT läge (miljövariabel `RAG_FAST=1`) för att endast beräkna svarens relevans för snabbare iteration.

Använd den här notebooken för att verifiera att din lokala modell + embeddings-stack producerar faktabaserade svar innan du skalar upp till större korpusar.


### Förklaring: Installation av beroenden
Installerar nödvändiga bibliotek:
- `foundry-local-sdk` för lokal modellhantering.
- `openai` klientgränssnitt.
- `sentence-transformers` för täta inbäddningar.
- `ragas` + `datasets` för utvärdering och beräkning av mått.
- `langchain-openai` adapter för ragas LLM-gränssnitt.

Säkert att köra igen; hoppa över om miljön redan är förberedd.


In [1]:
# Install libraries (ragas pulls datasets, evaluate, etc.)
!pip install -q foundry-local-sdk openai sentence-transformers ragas datasets numpy langchain-openai

### Förklaring: Kärnimporter och Mätvärden
Laddar kärnbibliotek och ragas-mätvärden. Viktiga delar:
- SentenceTransformer för inbäddningar.
- `evaluate` + utvalda ragas-mätvärden.
- `Dataset` för att bygga utvärderingskorpus.
Dessa importer utlöser inga fjärranrop (förutom eventuell modellcache-laddning för inbäddningar).


In [2]:
import os, numpy as np
from sentence_transformers import SentenceTransformer
from foundry_local import FoundryLocalManager
from openai import OpenAI
from ragas import evaluate
from ragas.metrics import answer_relevancy, faithfulness, context_precision
from datasets import Dataset

### Förklaring: Litet Corpus & QA Facit
Definierar ett litet corpus i minnet (`DOCS`), en uppsättning användarfrågor och förväntade facitsvar. Dessa möjliggör snabb och deterministisk beräkning av mått utan att hämta extern data. I verkliga scenarier skulle du använda produktionsfrågor och noggrant utvalda svar.


In [3]:
DOCS = [
 'Foundry Local exposes a local OpenAI-compatible endpoint.',
 'RAG retrieves relevant context snippets before generation.',
 'Local inference improves privacy and reduces latency.',
]
QUESTIONS = [
 'What advantage does local inference offer?',
 'How does RAG improve grounding?',
]
GROUND_TRUTH = [
 'It reduces latency and preserves privacy.',
 'It adds retrieved context snippets for factual grounding.',
]

### Förklaring: Service Init, Embeddings & Safety Patch
Initierar Foundry Local manager, tillämpar en säkerhetsuppdatering för schema-drift för `promptTemplate`, löser modell-ID, skapar en OpenAI-kompatibel klient och förberäknar täta embeddings för dokumentkorpusen. Detta skapar återanvändbar status för hämtning + generering.


In [4]:
import os
from foundry_local import FoundryLocalManager
from foundry_local.models import FoundryModelInfo
from openai import OpenAI

# --- Safe monkeypatch for potential null promptTemplate field (schema drift guard) ---
_original_from_list_response = FoundryModelInfo.from_list_response

def _safe_from_list_response(response):  # type: ignore
    try:
        if isinstance(response, dict) and response.get("promptTemplate") is None:
            response["promptTemplate"] = {}
    except Exception as e:  # pragma: no cover
        print(f"Warning normalizing promptTemplate: {e}")
    return _original_from_list_response(response)

if getattr(FoundryModelInfo.from_list_response, "__name__", "") != "_safe_from_list_response":
    FoundryModelInfo.from_list_response = staticmethod(_safe_from_list_response)  # type: ignore
# --- End monkeypatch ---

alias = os.getenv('FOUNDRY_LOCAL_ALIAS','phi-3.5-mini')
manager = FoundryLocalManager(alias)
print(f"Service running: {manager.is_service_running()} | Endpoint: {manager.endpoint}")
print('Cached models:', manager.list_cached_models())
model_info = manager.get_model_info(alias)
model_id = model_info.id
print(f"Using model id: {model_id}")

# OpenAI-compatible client
client = OpenAI(base_url=manager.endpoint, api_key=manager.api_key or 'not-needed')

from sentence_transformers import SentenceTransformer
embedder = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
import numpy as np
doc_emb = embedder.encode(DOCS, convert_to_numpy=True, normalize_embeddings=True)


Service running: True | Endpoint: http://127.0.0.1:57127/v1
Cached models: [FoundryModelInfo(alias=gpt-oss-20b, id=gpt-oss-20b-cuda-gpu:1, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=9882 MB, license=apache-2.0), FoundryModelInfo(alias=phi-3.5-mini, id=Phi-3.5-mini-instruct-cuda-gpu:1, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=2181 MB, license=MIT), FoundryModelInfo(alias=phi-4-mini, id=Phi-4-mini-instruct-cuda-gpu:4, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=3686 MB, license=MIT), FoundryModelInfo(alias=qwen2.5-0.5b, id=qwen2.5-0.5b-instruct-cuda-gpu:3, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=528 MB, license=apache-2.0), FoundryModelInfo(alias=qwen2.5-7b, id=qwen2.5-7b-instruct-cuda-gpu:3, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=4843 MB, license=apache-2.0), FoundryModelInfo(alias=qwen2.5-coder-7b, id=qwen2.5-coder-7b-instruct-cuda-gpu:3, execution_p

  attn_output = torch.nn.functional.scaled_dot_product_attention(


### Förklaring: Retriever-funktion
Definierar en enkel vektorsimilaritetsretriever som använder skalärprodukt över normaliserade inbäddningar. Returnerar de topp-k dokumenten (k=2 som standard). I produktion, byt ut mot ANN-index (FAISS, Chroma, Milvus) för bättre skalbarhet och lägre latens.


In [5]:
def retrieve(query, k=2):
    q = embedder.encode([query], convert_to_numpy=True, normalize_embeddings=True)[0]
    sims = doc_emb @ q
    return [DOCS[i] for i in sims.argsort()[::-1][:k]]

### Förklaring: Genereringsfunktion
`generate` skapar en begränsad prompt (systemet instruerar att ENDAST använda kontexten) och anropar den lokala modellen. Låg temperatur (0.1) främjar korrekt extrahering framför kreativitet. Returnerar beskuren svarstext.


In [6]:
def generate(query, contexts):
    ctx = "\n".join(contexts)
    messages = [
        {'role':'system','content':'Answer using ONLY the provided context.'},
        {'role':'user','content':f"Context:\n{ctx}\n\nQuestion: {query}"}
    ]
    resp = client.chat.completions.create(model=model_id, messages=messages, max_tokens=120, temperature=0.1)
    return resp.choices[0].message.content.strip()


### Förklaring: Fallback-klientinitialisering
Säkerställer att `client` existerar även om en tidigare initialiseringscell hoppades över eller misslyckades—förhindrar NameError under senare utvärderingssteg.


In [7]:
# Fallback client initialization (added after patch failure)
try:
    client  # type: ignore
except NameError:
    from openai import OpenAI
    client = OpenAI(base_url=manager.endpoint, api_key=manager.api_key or 'not-needed')
    print('Initialized OpenAI-compatible client (late init).')


### Förklaring: Utvärderingsloop & Mätvärden
Skapar utvärderingsdatasetet (krävs kolumner: fråga, svar, kontexter, sanningsenliga svar, referens) och itererar sedan valda ragas-mätvärden.

Optimering:
- FAST_MODE begränsar sig till svarens relevans för snabba tester.
- Per-mätvärdesloop undviker fullständig omberäkning när ett mätvärde misslyckas.

Returnerar en ordlista med mätvärde -> poäng (NaN vid fel).


In [8]:
# Build evaluation dataset with required columns (including 'reference' for context_precision)
records = []
for q, gt in zip(QUESTIONS, GROUND_TRUTH):
    ctxs = retrieve(q)
    ans = generate(q, ctxs)
    records.append({
        'question': q,
        'answer': ans,
        'contexts': ctxs,
        'ground_truths': [gt],
        'reference': gt
    })

from datasets import Dataset
from ragas import evaluate
from ragas.metrics import answer_relevancy, faithfulness, context_precision
from langchain_openai import ChatOpenAI
from ragas.run_config import RunConfig
import math, time, os
import numpy as np

ragas_llm = ChatOpenAI(model=model_id, base_url=manager.endpoint, api_key=manager.api_key or 'not-needed', temperature=0.0, timeout=60)

class LocalEmbeddings:
    def embed_documents(self, texts):
        return embedder.encode(texts, convert_to_numpy=True, normalize_embeddings=True).tolist()
    def embed_query(self, text):
        return embedder.encode([text], convert_to_numpy=True, normalize_embeddings=True)[0].tolist()

# Fast mode: only answer_relevancy unless RAG_FAST=0
FAST_MODE = os.getenv('RAG_FAST','1') == '1'
metrics = [answer_relevancy] if FAST_MODE else [answer_relevancy, faithfulness, context_precision]

base_timeout = 45 if FAST_MODE else 120

ds = Dataset.from_list(records)
print('Evaluation dataset columns:', ds.column_names)
print('Metrics to compute:', [m.name for m in metrics])

results_dict = {}
for metric in metrics:
    t0 = time.time()
    try:
        cfg = RunConfig(timeout=base_timeout, max_workers=1)
        partial = evaluate(ds, metrics=[metric], llm=ragas_llm, embeddings=LocalEmbeddings(), run_config=cfg, show_progress=False)
        raw_val = partial[metric.name]
        if isinstance(raw_val, list):
            numeric = [v for v in raw_val if isinstance(v, (int, float))]
            score = float(np.nanmean(numeric)) if numeric else math.nan
        else:
            score = float(raw_val)
        results_dict[metric.name] = score
    except Exception as e:
        results_dict[metric.name] = math.nan
        print(f"Metric {metric.name} failed: {e}")
    finally:
        print(f"{metric.name} finished in {time.time()-t0:.1f}s -> {results_dict[metric.name]}")

print('RAG evaluation results:', results_dict)
results_dict

Evaluation dataset columns: ['question', 'answer', 'contexts', 'ground_truths', 'reference']
Metrics to compute: ['answer_relevancy']


LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.
LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.
LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.


answer_relevancy finished in 78.1s -> 0.6975427764759168
RAG evaluation results: {'answer_relevancy': 0.6975427764759168}


{'answer_relevancy': 0.6975427764759168}


---

**Ansvarsfriskrivning**:  
Detta dokument har översatts med hjälp av AI-översättningstjänsten [Co-op Translator](https://github.com/Azure/co-op-translator). Även om vi strävar efter noggrannhet, bör det noteras att automatiserade översättningar kan innehålla fel eller felaktigheter. Det ursprungliga dokumentet på dess originalspråk bör betraktas som den auktoritativa källan. För kritisk information rekommenderas professionell mänsklig översättning. Vi ansvarar inte för eventuella missförstånd eller feltolkningar som uppstår vid användning av denna översättning.
