# Bonus B | Evaluation：你怎么知道模型变强了？

---

**目标：** 建立科学的模型评估体系

**核心问题：** 如何量化模型的能力？

---

## 本章内容

1. **Perplexity (PPL)**：语言模型的基础指标
2. **下游任务评测**：MMLU, GSM8K 等
3. **LLM-as-a-Judge**：用 GPT-4 评估
4. **实战**：构建评测脚本

---

## 🎓 前置知识：如何评价一个 LLM？

### 评估的重要性

训练了模型后，怎么知道它好不好？

**不能只看 Loss！** Loss 低不代表模型实际表现好。

### 评估的挑战

LLM 的输出是**开放式**的，没有标准答案：

```
问题: "写一首关于春天的诗"
回答A: "春风送暖入屠苏..."  好吗？
回答B: "Spring is coming..."  好吗？
```

怎么比较？怎么打分？

**评估拆解：** 先明确四件事
1. **评什么能力**：知识/推理/对话/安全等
2. **用什么数据**：公开基准 + 真实场景样本
3. **怎么打分**：准确率、pass@k、胜率、PPL 等
4. **如何控变量**：固定 prompt、温度、token budget

**注意：** 防止数据污染与提示差异导致结果不可比。

### 常见评估方法

| 方法 | 适用场景 | 特点 |
|:---|:---|:---|
| Perplexity | 语言模型质量 | 自动，但与实际表现有差距 |
| 基准测试 (Benchmark) | 特定能力 | 标准化，可比较 |
| 人工评估 | 真实场景 | 准确，但昂贵 |
| LLM-as-Judge | 大规模评估 | 用 GPT-4 打分 |

### 常用 Benchmark

- **MMLU**: 多学科知识
- **HumanEval**: 代码能力
- **GSM8K**: 数学推理
- **MT-Bench**: 对话能力

### 本章目标

- 理解各种评估方法的优缺点
- 学习如何使用常见 Benchmark
- 了解 LLM-as-Judge 的实现
- 设计自己的评估流程

**注：** 本章代码与图表使用模拟数据，仅用于演示评测流程。

## 0. 环境准备

In [None]:
import torch
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt
from collections import defaultdict
import json
import re

print("环境准备完成！")

---

## 1. Perplexity (PPL)：困惑度

### 什么是 PPL？

PPL 衡量模型对测试数据的"惊讶程度"：

$$PPL = \exp\left(-\frac{1}{N}\sum_{i=1}^N \log P(w_i|w_{<i})\right)$$

- **PPL 越低越好**：模型对数据越不"惊讶"
- 直觉：如果下一个词很难预测，PPL 就高

**局限性：** PPL 主要衡量语言建模能力，对指令遵循/推理不敏感；不同领域或 tokenizer 间不可直接横比。
**注：** 下方 PPL 数值与曲线为模拟示例，用于展示趋势。

In [None]:
def calculate_perplexity(logits, targets):
    """
    计算困惑度
    
    参数:
        logits: [batch, seq_len, vocab_size] 模型输出
        targets: [batch, seq_len] 目标 token
    
    返回:
        PPL 值
    """
    # 计算交叉熵损失
    loss = F.cross_entropy(
        logits.view(-1, logits.size(-1)),
        targets.view(-1),
        reduction='mean'
    )
    
    # PPL = exp(loss)
    ppl = torch.exp(loss)
    return ppl.item()

# 模拟测试
vocab_size = 1000
batch_size = 2
seq_len = 100

# 好模型：预测较准确
good_logits = torch.randn(batch_size, seq_len, vocab_size)
targets = torch.randint(0, vocab_size, (batch_size, seq_len))
# 让正确 token 有较高概率
good_logits.scatter_(-1, targets.unsqueeze(-1), 5.0)

# 差模型：随机预测
bad_logits = torch.randn(batch_size, seq_len, vocab_size)

ppl_good = calculate_perplexity(good_logits, targets)
ppl_bad = calculate_perplexity(bad_logits, targets)

print(f"好模型 PPL: {ppl_good:.2f}")
print(f"差模型 PPL: {ppl_bad:.2f}")
print(f"\n注意: 随机预测的 PPL ≈ vocab_size = {vocab_size}")

In [None]:
# 可视化 PPL 与模型质量的关系（示意）
ppls = [1000, 500, 200, 100, 50, 20, 10, 5]
quality = [10, 20, 40, 55, 70, 85, 92, 98]

plt.figure(figsize=(10, 5))
plt.plot(ppls, quality, 'bo-', linewidth=2, markersize=10)
plt.xscale('log')
plt.xlabel('Perplexity (log scale)')
plt.ylabel('Model Quality (%)')
plt.title('Perplexity vs Model Quality (illustrative)')
plt.grid(True, alpha=0.3)

# 标注
for p, q in zip(ppls, quality):
    plt.annotate(f'PPL={p}', (p, q), textcoords="offset points", xytext=(0,10), ha='center')

plt.show()

print("PPL 越低，模型越好")
print("但 PPL 有局限性：只衡量语言建模能力，不反映其他能力")

---

## 2. 下游任务评测

### 常见基准测试

| 基准 | 评测内容 | 示例 |
|:---|:---|:---|
| MMLU | 知识问答 | "法国的首都是哪里？" |
| GSM8K | 数学推理 | "如果小明有 5 个苹果..." |
| HumanEval | 代码生成 | "写一个函数来..." |
| TruthfulQA | 真实性 | 避免生成虚假信息 |

### 评测协议要点

- 明确 zero-shot / few-shot / CoT 设置
- 固定 prompt、温度、最大 token 等生成参数
- 使用官方数据拆分，避免训练污染

**注：** 下方 MMLU/GSM8K 代码与结果为模拟示例。


In [None]:
# 模拟 MMLU 评测
def evaluate_mmlu_sample(model_answer, correct_answer):
    """评估单个 MMLU 样本"""
    return model_answer.strip().upper() == correct_answer.strip().upper()

# 模拟 MMLU 数据
mmlu_samples = [
    {
        "question": "What is the capital of France?",
        "choices": ["A. London", "B. Paris", "C. Berlin", "D. Madrid"],
        "answer": "B"
    },
    {
        "question": "What is 2 + 2?",
        "choices": ["A. 3", "B. 4", "C. 5", "D. 6"],
        "answer": "B"
    },
    {
        "question": "What is the chemical symbol for water?",
        "choices": ["A. O2", "B. CO2", "C. H2O", "D. NaCl"],
        "answer": "C"
    },
]

# 模拟模型回答
model_answers = ["B", "B", "C"]  # 假设模型全对

# 评估
correct = sum(evaluate_mmlu_sample(ma, s["answer"]) 
              for ma, s in zip(model_answers, mmlu_samples))
accuracy = correct / len(mmlu_samples) * 100

print("MMLU 评测结果:")
print(f"  正确: {correct}/{len(mmlu_samples)}")
print(f"  准确率: {accuracy:.1f}%")

In [None]:
# 模拟 GSM8K 评测
def evaluate_gsm8k(model_answer, correct_answer):
    """
    评估 GSM8K 样本
    提取数字答案进行比较
    """
    def extract_number(text):
        numbers = re.findall(r'-?\d+\.?\d*', text)
        return float(numbers[-1]) if numbers else None
    
    model_num = extract_number(model_answer)
    correct_num = extract_number(correct_answer)
    
    if model_num is None or correct_num is None:
        return False
    return abs(model_num - correct_num) < 0.01

# 模拟数据
gsm8k_samples = [
    {
        "question": "John has 5 apples. He gives 2 to Mary. How many does he have?",
        "answer": "3"
    },
    {
        "question": "A car travels 60 km in 1 hour. How far in 3 hours?",
        "answer": "180"
    },
]

# 模拟模型回答
model_answers = [
    "John has 5 - 2 = 3 apples left.",
    "60 * 3 = 180 km"
]

correct = sum(evaluate_gsm8k(ma, s["answer"]) 
              for ma, s in zip(model_answers, gsm8k_samples))
accuracy = correct / len(gsm8k_samples) * 100

print("GSM8K 评测结果:")
print(f"  正确: {correct}/{len(gsm8k_samples)}")
print(f"  准确率: {accuracy:.1f}%")

---

## 3. LLM 评审（LLM-as-a-Judge）

### 思想

用更强的模型（如 GPT-4）来评估其他模型的输出。

### 评估维度

- 有帮助性（Helpfulness）
- 无害性（Harmlessness）
- 诚实性（Honesty）

### 常见偏差与对策

- 位置/啰嗦偏差：随机打乱顺序，控制长度
- 评审一致性：多评审/多次投票，计算一致率
- 任务相关性：提供评分 rubric 或参考答案

**注：** 下方 LLM-as-a-Judge 结果统计为模拟示例。


In [None]:
def llm_judge_prompt(question, response_a, response_b):
    """
    构建 LLM-as-a-Judge 的 prompt
    """
    prompt = f"""Please evaluate the following two responses to the question.

Question: {question}

Response A: {response_a}

Response B: {response_b}

Please compare the responses based on:
1. Helpfulness: Does it answer the question well?
2. Accuracy: Is the information correct?
3. Clarity: Is it easy to understand?

Output your judgment as:
- "A" if Response A is better
- "B" if Response B is better
- "Tie" if they are equally good

Your judgment:"""
    return prompt

# 示例
question = "How do I learn Python?"
response_a = "Read the docs."
response_b = "Start with basics like variables and loops. Practice with small projects. Use online resources like Codecademy or freeCodeCamp."

prompt = llm_judge_prompt(question, response_a, response_b)
print("LLM Judge Prompt:")
print("=" * 60)
print(prompt)

print("\n" + "=" * 60)
print("(在实际中，将此 prompt 发送给 GPT-4)")

In [None]:
# 模拟评测结果统计
def analyze_judgments(judgments):
    """分析评测结果"""
    counts = defaultdict(int)
    for j in judgments:
        counts[j] += 1
    
    total = len(judgments)
    return {k: v/total*100 for k, v in counts.items()}

# 模拟多次评测结果
judgments = ["B", "B", "A", "B", "Tie", "B", "B", "A", "B", "B"]
results = analyze_judgments(judgments)

print("LLM-as-a-Judge 结果统计:")
for option, percentage in sorted(results.items()):
    print(f"  {option}: {percentage:.1f}%")

# 可视化
plt.figure(figsize=(8, 5))
plt.bar(results.keys(), results.values(), color=['coral', 'green', 'gray'])
plt.ylabel('Percentage (%)')
plt.title('LLM-as-a-Judge Results')
plt.ylim(0, 100)
plt.show()

---

## 4. 综合评测框架

把多维指标汇总成 scorecard，形成可追踪的版本对比：
- 统一输入/生成配置，记录版本与数据
- 指标归一化后做雷达图或排行榜
- 与关键业务指标（如留存、满意度）对齐

**注：** 下方雷达图示例使用随机数模拟。

In [None]:
class ModelEvaluator:
    """
    综合模型评测器
    """
    def __init__(self):
        self.results = {}
    
    def evaluate_perplexity(self, model, test_data):
        """评估 PPL"""
        # 模拟
        ppl = np.random.uniform(10, 100)
        self.results['perplexity'] = ppl
        return ppl
    
    def evaluate_mmlu(self, model, mmlu_data):
        """评估 MMLU"""
        # 模拟
        accuracy = np.random.uniform(0.6, 0.9)
        self.results['mmlu'] = accuracy
        return accuracy
    
    def evaluate_gsm8k(self, model, gsm8k_data):
        """评估 GSM8K"""
        # 模拟
        accuracy = np.random.uniform(0.4, 0.8)
        self.results['gsm8k'] = accuracy
        return accuracy
    
    def evaluate_humaneval(self, model, humaneval_data):
        """评估代码生成"""
        # 模拟
        pass_rate = np.random.uniform(0.3, 0.7)
        self.results['humaneval'] = pass_rate
        return pass_rate
    
    def get_summary(self):
        """获取评测摘要"""
        return self.results
    
    def plot_radar(self):
        """雷达图可视化"""
        categories = list(self.results.keys())
        values = list(self.results.values())
        
        # 归一化
        normalized = []
        for i, (cat, val) in enumerate(zip(categories, values)):
            if cat == 'perplexity':
                normalized.append(1 - val/100)  # PPL 越低越好
            else:
                normalized.append(val)
        
        # 雷达图
        angles = np.linspace(0, 2*np.pi, len(categories), endpoint=False).tolist()
        normalized += normalized[:1]
        angles += angles[:1]
        
        fig, ax = plt.subplots(figsize=(8, 8), subplot_kw=dict(polar=True))
        ax.plot(angles, normalized, 'o-', linewidth=2)
        ax.fill(angles, normalized, alpha=0.25)
        ax.set_xticks(angles[:-1])
        ax.set_xticklabels(categories)
        ax.set_ylim(0, 1)
        plt.title('Model Evaluation Radar Chart')
        plt.show()

# 运行评测
evaluator = ModelEvaluator()
evaluator.evaluate_perplexity(None, None)
evaluator.evaluate_mmlu(None, None)
evaluator.evaluate_gsm8k(None, None)
evaluator.evaluate_humaneval(None, None)

print("评测结果:")
for metric, value in evaluator.get_summary().items():
    if metric == 'perplexity':
        print(f"  {metric}: {value:.1f}")
    else:
        print(f"  {metric}: {value*100:.1f}%")

evaluator.plot_radar()

---

## 本章总结

### 你学到了什么？

1. **Perplexity**
   - 衡量语言建模能力
   - 越低越好，但有局限性

2. **下游任务评测**
   - MMLU: 知识问答
   - GSM8K: 数学推理
   - HumanEval: 代码生成

3. **LLM-as-a-Judge**
   - 用强模型评估弱模型
   - 可以评估主观质量

### 评测最佳实践

1. **多维度评估**：不要只看一个指标
2. **统一协议**：固定 prompt/温度/采样参数
3. **定期评测**：监控模型变化
4. **公平对比**：同数据同预算，避免污染
5. **人工抽检**：自动化不能替代人工

**备注：** 本章所有数值/图表为模拟示例。

In [None]:
# 练习空间

