# RAG评估工具

## LlamaIndex Evaluation

为开发者在开发、调试和迭代周期中提供快速、灵活的嵌入式评估解决方案。

它强调与开发流程的紧密结合，允许开发者在构建过程中即时验证和对比不同RAG策略的性能。

流程如下：

1. 准备评估数据集：通过 DatasetGenerator 从文档中自动生成问题-答案对（QueryResponseDataset），或加载一个已有的数据集。

2. 构建查询引擎：搭建一个或多个需要被评估的RAG查询引擎（QueryEngine）。

3. 初始化评估器：根据评估维度，选择并初始化一个或多个评估器，如 FaithfulnessEvaluator（忠实度）和 RelevancyEvaluator（相关性）。

4. 执行批量评估：使用 BatchEvalRunner 来管理整个评估过程。高效地（可并行）将查询引擎应用于数据集中的所有问题，并调用所有评估器进行打分。

5. 分析结果：从评估运行器返回的结果中，计算各项指标的平均分，从而量化地对比不同RAG策略的优劣。

LlamaIndex提供了丰富的评估器，覆盖了从检索到响应的各个环节。

- 检索评估：

  - Hit Rate (命中率): 评估检索到的上下文中是否包含了正确的答案。

  - MRR (平均倒数排名): 衡量找到正确答案的效率，排名越靠前得分越高。

- 响应评估：

  - Faithfulness (忠实度): 评估生成的答案是否完全基于检索到的上下文，是检测“幻觉”现象的关键指标。分数越高，说明答案越可靠。

  - Relevancy (相关性): 评估生成的答案与用户提出的原始问题是否直接相关，确保答案切题。



## RAGAS

一个独立的、专注于RAG的开源评估框架。提供了一套全面的指标来量化RAG管道的检索和生成两大核心环节的性能。

支持无参考评估，即在许多场景下无需人工标注的“标准答案”即可进行评估，极大地降低了评估成本。

### 设计理念

通过分析问题（question）、生成的答案（answer）和检索到的上下文（context）三者之间的关系，来综合评估RAG系统的性能。

将复杂的评估问题分解为几个简单、可量化的维度。

### 工作流程

1. 准备数据集：包含 question（问题）、answer（RAG系统生成的答案）、contexts（检索到的上下文）以及 ground_truth（标准参考答案）四列。

2. 调用 ragas.evaluate() 函数，传入准备好的数据集和需要评估的指标列表。

3. 分析结果：获取一个包含各项指标量化分数的评估报告。

### 评估指标

- faithfulness: 衡量生成的答案中有多少比例的信息是可以由检索到的上下文所支持的。

- context_recall: 衡量检索到的上下文与标准答案（ground_truth）的对齐程度，即标准答案中的信息是否被上下文完全“召回”。

- context_precision: 衡量检索到的上下文中，信噪比如何，即有多少是真正与回答问题相关的。

- answer_relevancy: 评估答案与问题的相关程度。此指标不评估事实准确性，只关注答案是否切题。

## Phoenix (Arize Phoenix)

一个开源的LLM可观测性与评估平台。

通过捕获LLM应用的轨迹（Traces），提供强大的可视化、切片和聚类分析能力，帮助开发者理解线上真实数据的表现。

它不仅提供评估指标，更强调对LLM应用进行追踪（Tracing）和可视化分析，从而快速定位问题。

### 核心理念

Phoenix 的核心是“AI可观测性”，它通过追踪RAG系统内部的每一步调用（如检索、生成等），将整个流程可视化。

这使得开发者可以直观地看到每个环节的输入、输出和耗时，并在此基础上进行深入的评估和调试。

### 工作原理

1. 代码插桩 (Instrumentation)：基于开放标准 OpenTelemetry，在RAG应用代码中集成 Phoenix 的追踪功能，自动捕获LLM调用、函数执行等事件。

2. 生成追踪数据 (Traces)：运行RAG应用，Phoenix 会在后台记录下完整的执行链路。

3. 启动UI进行分析：在本地启动 Phoenix 的Web界面，加载并可视化追踪数据。

4. 评估与调试：在UI中对失败的案例或表现不佳的查询进行筛选、钻取，并运行内置的评估器 (Evals) 进行根本原因分析。

### 特色功能

- 可视化追踪: 将RAG的执行流程、数据和评估结果进行可视化展示，极大地方便了问题定位。

- 根本原因分析: 通过可视化的界面，可以轻松地对表现不佳的查询进行切片和钻取。

- 安全护栏 (Guardrails): 允许为应用添加保护层，防止恶意或错误的输入输出，保障生产环境安全。

- 数据探索与标注: 提供数据探索、清洗和标注工具，帮助开发者利用生产数据反哺模型和系统优化。

- 与Arize平台集成: Phoenix 可以与Arize的商业平台无缝对接，实现生产环境中对RAG系统的持续监控。