元url(https://nlp.stanford.edu/IR-book/pdf/08eval.pdf)  
情報の需要と検索エンジンについての話。  
crawling: 様々なサイトを巡回して情報の保存を行う。

## 8.1 情報検索システムの評価（Information Retrieval System Evaluation）

---

### 🔸 評価の目的

- 情報検索（IR）システムには多くの設計選択肢がある（例：ステミング、ストップワード、IDFの使用など）。
- どの設計が有効かを比較・検証するには、**定量的な評価**が必要。
- 評価はシステムの**有効性（effectiveness）**を測定する手段。

---

### 🔸 評価に必要な3要素（テストコレクション）

1. **文書コレクション（Document Collection）**
2. **情報ニーズ（Information Needs） / クエリ（Queries）**
3. **関連性判断（Relevance Judgments）**

- これらを組み合わせたセットを **テストコレクション（test collection）** と呼ぶ。
- 各クエリと文書の組に対して「関連 or 非関連」を人手で判断。

---

### 🔸 関連性の定義と注意点

- 関連性は「クエリ」ではなく、背後の**情報ニーズ**に対して決定される。

  例：  
  - 情報ニーズ：赤ワインは白ワインより心臓病予防に有効か？  
  - クエリ：`wine AND red AND white AND heart AND attack AND effective`

- クエリ語を多く含む文書でも、ニーズに答えていなければ「非関連」。
- 多くのクエリは情報ニーズを明示しないため、検索システムにとっては解釈が難しい。

---

### 🔸 評価セットの規模と形式

- 評価の信頼性を保つには、**少なくとも50個以上の情報ニーズ**が必要とされる。
- 関連性は本来連続的な尺度（重要〜無関係）だが、実際には**バイナリ（二値）判断**がよく用いられる。

---

### 🔸 評価とパラメータ調整（バイアス回避）

- IRシステムは多くのパラメータ（例：重み付け）を持つ。
- テストセットに合わせてパラメータを調整すると、**評価がバイアスされる（過学習）**。

  → 解決策：  
  - **開発用セット（development test collection）**でパラメータを調整  
  - 本評価は **独立したテストセット** で行う

---

このセクションは、情報検索システムを **公正かつ再現性のある方法で評価**するための土台となる知識を提供しています。


## 8.2 標準テストコレクション（Standard Test Collections）

---

### 🔸 標準テストコレクションの重要性

- 情報検索システムの**客観的・再現可能な評価**を可能にする。
- 研究者間での**公平な比較**や**ベンチマーク**に不可欠。
- 自前の評価セットでは主観やバイアスが入りやすく、汎用性が低い。

---

### 🔹 Cranfield Collection（クランフィールド・コレクション）

- 初の本格的IRテストコレクション（1950年代、英国）
- 内容：
  - 約1400件の工学系文書
  - クエリとその関連文書は**人手で作成**
- 成果：
  - 様々な索引法や重み付け手法の評価に利用
  - **逆文書頻度（IDF）の有効性**が確認された

---

### 🔹 TREC（Text REtrieval Conference）

- 最も広く使われる大規模IR評価コンペ（1990年代〜、米NIST主催）
- 特徴：
  - 数十万〜数百万件の文書規模
  - 数百のクエリ、数十の参加チーム
- 意義：
  - 実世界規模の文書（Web, News等）を対象とした評価が可能
  - **新しい評価指標（MAP, NDCG など）**の開発にも寄与

---

### 🔹 その他の主要テストコレクション

- **CLEF**：ヨーロッパ発の多言語IR評価（Cross-Language Evaluation Forum）
- **NTCIR**：日本・アジア圏を対象としたIR評価（日本語あり）
- **INEX**：XMLなど**構造化文書**の検索評価に特化
- **OHSUMED**：医療・医学文書に特化（PubMedベース）

---

### 🔹 テストコレクションの利点と限界

#### ✅ 利点

- 評価の**客観性と再現性**が担保される
- 複数システム間での**公平な比較**ができる
- 評価指標の統一により**競争的な改良**が進む

#### ⚠️ 限界

- 関連性判断は主観的で完全ではない（判定者のばらつき）
- 特定ジャンル・フォーマットに偏ると汎用性が落ちる
- 実際のユーザの検索行動（インタラクション等）は考慮されていない

---

テストコレクションは、IRの研究・実験における**信頼できる評価基盤**であり、  
システム性能の議論における**共通言語**としての役割を担っている。


## 8.3 適合率と再現率（Precision and Recall）

---

### 🔸 情報検索における基本評価指標

- 「良い検索結果」を数値で評価するために、**適合率（Precision）** と **再現率（Recall）** が用いられる。

---

### 🔹 適合率（Precision）

- **検索された文書のうち、実際に関連していた文書の割合**

  ```text
  Precision = Relevant documents retrieved / Total documents retrieved
            = a / (a + c)
  ```

- 精度が高い → 検索結果にノイズ（無関係な文書）が少ない

---

### 🔹 再現率（Recall）

- **関連する文書のうち、実際に検索された文書の割合**

  ```text
  Recall = Relevant documents retrieved / Total relevant documents in collection
         = a / (a + b)
  ```

- 再現率が高い → 関係ある文書を取りこぼしていない

---

### 🔹 評価表（Confusion Matrix）

|                             | 検索で取得 | 未取得 |
|-----------------------------|------------|--------|
| **関連あり（Relevant）**     | a          | b      |
| **関連なし（Non-relevant）** | c          | d      |

- a：正解（関連ありかつ取得）
- b：見落とし（関連あるのに取得されなかった）
- c：誤検出（関連ないのに取得された）
- d：正しい無視（関連なしかつ取得されなかった）

---

### 🔹 トレードオフの関係

- **Precision を上げると Recall が下がる**ことが多い（その逆も然り）。
- 例：
  - 絞り込みすぎ → Precision ↑ / Recall ↓
  - 拡大しすぎ → Recall ↑ / Precision ↓

---

### 🔹 F値（F1スコア）

- Precision と Recall の**バランスを取った調和平均**。
- 定義：

  ```text
  F = 2 * (Precision * Recall) / (Precision + Recall)
  ```

- 両者が高くないと F 値も上がらない → バランスの良いモデルを評価可能。

---

このセクションは、検索結果の良し悪しを定量的に測定するための**基本評価指標の理解**を提供しており、  
IRシステムの評価における「第一歩」として必須の知識です。


## 8.4 Precision at *k*（上位 *k* 件に対する適合率）

---

### 🔸 なぜ Precision@k を使うのか？

- 実際のユーザーは検索結果の **最初の数件（例：1〜10件）しか見ない**。
- よって、**全体の適合率よりも上位の結果の質が重要**。
- それを測るのが Precision at *k*（略称：P@k）。

---

### 🔹 定義：Precision at *k*

- **上位 *k* 件の検索結果に含まれる関連文書の割合**

  $text
  P@k = （上位k件中の関連文書数） / k
  $

- 例：上位10件のうち7件が関連 → $P@10 = 0.7$

---

### 🔹 特徴と利点

- **シンプルで直感的**な評価指標。
- 実際のユーザー行動（上位しか見ない）にマッチしている。
- **ランキングモデルの性能**を簡易に評価できる。

---

### 🔹 注意点・限界

- *k* の値によって評価結果が変動する（例：P@1 と P@10 では意味が異なる）。
- **関連文書の数が少ない場合**、P@kの上限が制限される。
- 関連文書の位置や分布には敏感ではない。

---

### 🔹 応用例と実務的な使われ方

- **Web検索**：P@10 や P@5 がよく使われる。
- **レコメンドシステム**：ユーザーが最初の数件しか確認しないため、Precision@k が重要。
- **FAQ検索・チャットボット**：最初の候補が的確かどうかを評価。

---

Precision@k は、**現実的なユーザー体験を反映する実用的な評価指標**として広く用いられています。


## 8.5 平均適合率（Average Precision, AP）

---

### 🔸 なぜ Average Precision（AP）を使うのか？

- Precision@k は特定の位置（例：上位10件）のみを見る指標。
- しかし、検索結果全体で「**関連文書が何位に現れるか**」も重要。
- Average Precision は、**関連文書の出現位置すべてを考慮した評価指標**。

---

### 🔹 定義：Average Precision (AP)

- 関連文書が出現するたびにその時点の Precision を記録し、平均を取る：

  $
  AP = (1/R) * Σ P@k（関連文書が現れた順位 k における適合率）
  $

  - R：関連文書の総数
  - P@k：k番目の文書が関連であったときの Precision

---

### 🔹 例

検索結果：

| 順位 | 文書 | 関連性 |
|------|------|--------|
| 1    | d1   | ✅     |
| 2    | d2   | ❌     |
| 3    | d3   | ✅     |
| 4    | d4   | ❌     |
| 5    | d5   | ✅     |

- 関連文書数：3（d1, d3, d5）

- Precision@1 = 1.0  
  Precision@3 = 2/3  
  Precision@5 = 3/5  

- 計算：

  $
  AP = (1 + 2/3 + 3/5) / 3 ≈ 0.755
  $

---

### 🔹 特徴と利点

- **上位に関連文書が多く出るほど高評価**になる。
- 単なる「数」ではなく、**順序（ランキング品質）**も評価可能。
- 全体の精度とランキングのバランスを測るのに優れている。

---

### 🔹 拡張と応用

- 複数のクエリに対する AP の平均 → **MAP（Mean Average Precision）**
- TREC や Web検索などでも標準的な評価指標。

---

Average Precision は、「どの位置に関連文書が現れたか」を重視する、  
**ランキング評価のための基本的かつ強力な指標**です。
