# セッション 2 – RAG 評価とragas

ragasの指標を使用して、最小限のRAGパイプラインを評価します: answer_relevancy、faithfulness、context_precision。


# シナリオ
このシナリオでは、最小限のRetrieval Augmented Generation (RAG)パイプラインをローカルで評価します。以下を行います：
- 小規模な合成ドキュメントコーパスを定義します。
- ドキュメントを埋め込み、単純な類似性検索リトリーバーを実装します。
- ローカルモデル（Foundry Local / OpenAI互換）を使用して根拠のある回答を生成します。
- ragasメトリクス（`answer_relevancy`、`faithfulness`、`context_precision`）を計算します。
- 高速モード（環境変数 `RAG_FAST=1`）をサポートし、迅速な反復のために回答の関連性のみを計算します。

このノートブックを使用して、ローカルモデルと埋め込みスタックが事実に基づいた回答を生成することを確認し、大規模なコーパスにスケールする前に検証してください。


### 説明: 依存関係のインストール
必要なライブラリをインストールします:
- ローカルモデル管理用の `foundry-local-sdk`。
- `openai` クライアントインターフェース。
- 密な埋め込み用の `sentence-transformers`。
- 評価とメトリクス計算用の `ragas` + `datasets`。
- ragas LLMインターフェース用の `langchain-openai` アダプター。

環境がすでに準備されている場合はスキップ可能です。再実行しても安全です。


In [1]:
# Install libraries (ragas pulls datasets, evaluate, etc.)
!pip install -q foundry-local-sdk openai sentence-transformers ragas datasets numpy langchain-openai

### 説明: コアインポートとメトリクス
コアライブラリとラガのメトリクスをロードします。主なポイントは以下の通りです：
- SentenceTransformer を使用して埋め込みを生成。
- `evaluate` と選択されたラガのメトリクス。
- 評価用コーパスを構築するための `Dataset`。

これらのインポートはリモートコールを引き起こしません（埋め込みのモデルキャッシュロードを除く可能性があります）。


In [2]:
import os, numpy as np
from sentence_transformers import SentenceTransformer
from foundry_local import FoundryLocalManager
from openai import OpenAI
from ragas import evaluate
from ragas.metrics import answer_relevancy, faithfulness, context_precision
from datasets import Dataset

### 説明: トイコーパスとQAの正解データ
小規模なメモリ内コーパス (`DOCS`)、ユーザー質問のセット、そして期待される正解データを定義します。これにより、外部データを取得することなく、迅速かつ決定論的なメトリクス計算が可能になります。実際のシナリオでは、運用クエリとキュレーションされた回答をサンプリングします。


In [3]:
DOCS = [
 'Foundry Local exposes a local OpenAI-compatible endpoint.',
 'RAG retrieves relevant context snippets before generation.',
 'Local inference improves privacy and reduces latency.',
]
QUESTIONS = [
 'What advantage does local inference offer?',
 'How does RAG improve grounding?',
]
GROUND_TRUTH = [
 'It reduces latency and preserves privacy.',
 'It adds retrieved context snippets for factual grounding.',
]

### 説明: サービス初期化、埋め込み & セーフティパッチ
Foundry Local マネージャーを初期化し、`promptTemplate` のスキーマドリフトに対するセーフティパッチを適用します。モデルIDを解決し、OpenAI互換のクライアントを作成し、文書コーパスの密埋め込みを事前計算します。これにより、検索と生成のための再利用可能な状態が設定されます。


In [4]:
import os
from foundry_local import FoundryLocalManager
from foundry_local.models import FoundryModelInfo
from openai import OpenAI

# --- Safe monkeypatch for potential null promptTemplate field (schema drift guard) ---
_original_from_list_response = FoundryModelInfo.from_list_response

def _safe_from_list_response(response):  # type: ignore
    try:
        if isinstance(response, dict) and response.get("promptTemplate") is None:
            response["promptTemplate"] = {}
    except Exception as e:  # pragma: no cover
        print(f"Warning normalizing promptTemplate: {e}")
    return _original_from_list_response(response)

if getattr(FoundryModelInfo.from_list_response, "__name__", "") != "_safe_from_list_response":
    FoundryModelInfo.from_list_response = staticmethod(_safe_from_list_response)  # type: ignore
# --- End monkeypatch ---

alias = os.getenv('FOUNDRY_LOCAL_ALIAS','phi-3.5-mini')
manager = FoundryLocalManager(alias)
print(f"Service running: {manager.is_service_running()} | Endpoint: {manager.endpoint}")
print('Cached models:', manager.list_cached_models())
model_info = manager.get_model_info(alias)
model_id = model_info.id
print(f"Using model id: {model_id}")

# OpenAI-compatible client
client = OpenAI(base_url=manager.endpoint, api_key=manager.api_key or 'not-needed')

from sentence_transformers import SentenceTransformer
embedder = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
import numpy as np
doc_emb = embedder.encode(DOCS, convert_to_numpy=True, normalize_embeddings=True)


Service running: True | Endpoint: http://127.0.0.1:57127/v1
Cached models: [FoundryModelInfo(alias=gpt-oss-20b, id=gpt-oss-20b-cuda-gpu:1, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=9882 MB, license=apache-2.0), FoundryModelInfo(alias=phi-3.5-mini, id=Phi-3.5-mini-instruct-cuda-gpu:1, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=2181 MB, license=MIT), FoundryModelInfo(alias=phi-4-mini, id=Phi-4-mini-instruct-cuda-gpu:4, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=3686 MB, license=MIT), FoundryModelInfo(alias=qwen2.5-0.5b, id=qwen2.5-0.5b-instruct-cuda-gpu:3, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=528 MB, license=apache-2.0), FoundryModelInfo(alias=qwen2.5-7b, id=qwen2.5-7b-instruct-cuda-gpu:3, execution_provider=CUDAExecutionProvider, device_type=GPU, file_size=4843 MB, license=apache-2.0), FoundryModelInfo(alias=qwen2.5-coder-7b, id=qwen2.5-coder-7b-instruct-cuda-gpu:3, execution_p

  attn_output = torch.nn.functional.scaled_dot_product_attention(


### 説明: Retriever 関数
正規化された埋め込みに対してドット積を使用した単純なベクトル類似性リトリーバーを定義します。トップkのドキュメントを返します（デフォルトではk=2）。本番環境では、スケールとレイテンシーのためにANNインデックス（FAISS、Chroma、Milvus）に置き換えてください。


In [5]:
def retrieve(query, k=2):
    q = embedder.encode([query], convert_to_numpy=True, normalize_embeddings=True)[0]
    sims = doc_emb @ q
    return [DOCS[i] for i in sims.argsort()[::-1][:k]]

### 説明: 生成関数
`generate` は制約付きプロンプト（システムがコンテキストのみを使用するよう指示）を構築し、ローカルモデルを呼び出します。低い温度（0.1）は創造性よりも忠実な抽出を優先します。トリムされた回答テキストを返します。


In [6]:
def generate(query, contexts):
    ctx = "\n".join(contexts)
    messages = [
        {'role':'system','content':'Answer using ONLY the provided context.'},
        {'role':'user','content':f"Context:\n{ctx}\n\nQuestion: {query}"}
    ]
    resp = client.chat.completions.create(model=model_id, messages=messages, max_tokens=120, temperature=0.1)
    return resp.choices[0].message.content.strip()


### 説明: フォールバッククライアントの初期化
以前の初期化セルがスキップされたり失敗した場合でも、`client` が存在することを保証します。これにより、後の評価ステップで NameError を防ぎます。


In [7]:
# Fallback client initialization (added after patch failure)
try:
    client  # type: ignore
except NameError:
    from openai import OpenAI
    client = OpenAI(base_url=manager.endpoint, api_key=manager.api_key or 'not-needed')
    print('Initialized OpenAI-compatible client (late init).')


### 説明: 評価ループとメトリクス
評価データセットを作成します（必要な列: question, answer, contexts, ground_truths, reference）。その後、選択されたragasメトリクスを順に評価します。

最適化:
- FAST_MODEは、簡易テストのために回答の関連性に限定します。
- メトリクスごとのループにより、1つのメトリクスが失敗した場合でも完全な再計算を回避します。

出力は、メトリクス -> スコアの辞書形式です（失敗した場合はNaN）。


In [8]:
# Build evaluation dataset with required columns (including 'reference' for context_precision)
records = []
for q, gt in zip(QUESTIONS, GROUND_TRUTH):
    ctxs = retrieve(q)
    ans = generate(q, ctxs)
    records.append({
        'question': q,
        'answer': ans,
        'contexts': ctxs,
        'ground_truths': [gt],
        'reference': gt
    })

from datasets import Dataset
from ragas import evaluate
from ragas.metrics import answer_relevancy, faithfulness, context_precision
from langchain_openai import ChatOpenAI
from ragas.run_config import RunConfig
import math, time, os
import numpy as np

ragas_llm = ChatOpenAI(model=model_id, base_url=manager.endpoint, api_key=manager.api_key or 'not-needed', temperature=0.0, timeout=60)

class LocalEmbeddings:
    def embed_documents(self, texts):
        return embedder.encode(texts, convert_to_numpy=True, normalize_embeddings=True).tolist()
    def embed_query(self, text):
        return embedder.encode([text], convert_to_numpy=True, normalize_embeddings=True)[0].tolist()

# Fast mode: only answer_relevancy unless RAG_FAST=0
FAST_MODE = os.getenv('RAG_FAST','1') == '1'
metrics = [answer_relevancy] if FAST_MODE else [answer_relevancy, faithfulness, context_precision]

base_timeout = 45 if FAST_MODE else 120

ds = Dataset.from_list(records)
print('Evaluation dataset columns:', ds.column_names)
print('Metrics to compute:', [m.name for m in metrics])

results_dict = {}
for metric in metrics:
    t0 = time.time()
    try:
        cfg = RunConfig(timeout=base_timeout, max_workers=1)
        partial = evaluate(ds, metrics=[metric], llm=ragas_llm, embeddings=LocalEmbeddings(), run_config=cfg, show_progress=False)
        raw_val = partial[metric.name]
        if isinstance(raw_val, list):
            numeric = [v for v in raw_val if isinstance(v, (int, float))]
            score = float(np.nanmean(numeric)) if numeric else math.nan
        else:
            score = float(raw_val)
        results_dict[metric.name] = score
    except Exception as e:
        results_dict[metric.name] = math.nan
        print(f"Metric {metric.name} failed: {e}")
    finally:
        print(f"{metric.name} finished in {time.time()-t0:.1f}s -> {results_dict[metric.name]}")

print('RAG evaluation results:', results_dict)
results_dict

Evaluation dataset columns: ['question', 'answer', 'contexts', 'ground_truths', 'reference']
Metrics to compute: ['answer_relevancy']


LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.
LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.
LLM returned 1 generations instead of requested 3. Proceeding with 1 generations.


answer_relevancy finished in 78.1s -> 0.6975427764759168
RAG evaluation results: {'answer_relevancy': 0.6975427764759168}


{'answer_relevancy': 0.6975427764759168}


---

**免責事項**:  
この文書は、AI翻訳サービス[Co-op Translator](https://github.com/Azure/co-op-translator)を使用して翻訳されています。正確性を追求しておりますが、自動翻訳には誤りや不正確な部分が含まれる可能性があります。元の言語で記載された文書を正式な情報源としてお考えください。重要な情報については、専門の人間による翻訳を推奨します。この翻訳の使用に起因する誤解や誤解釈について、当方は一切の責任を負いません。
