# RAG 简介

## 什么是 RAG ？

### 核心定义

RAG 全称 Retrieval-Augmented Generation，即检索增强生成，是一种融合信息检索和文本生成的技术范式。

核心逻辑：

在 LLM 生成文本前，先通过检索机制从外部数据库中动态获取相关信息，并将检索结果融入生成过程（作为额外的上下文），从而提升输出的准确性和时效性。

### 技术原理

#### 架构

![1_1](images/1_1.svg)

#### 关键阶段

1. 索引阶段（Indexing）： 将非结构化文档（PDF/Word 等）分割为片段，通过嵌入模型转换为向量数据。

2. 检索阶段（Retrieval）：基于查询语义，从向量数据库中召回最相关的文档片段。

3. 生成阶段（Generation）： 将检索结果作为上下文（Context）输入 LLM，生成自然语言相应。

## 技术演进

![](images/1_1_2.webp)

RAG 按照复杂度可分为：

- 初级 RAG（Naive RAG）： 包含基础的“索引-检索-生成”流程，简单的文档分块以及基本向量检索机制。

- 高级 RAG（Advanced RAG）： 加入数据清洗流程，并对元数据进行优化。在检索阶段，使用多轮检索策略，提升检索效果。

- 模块化 RAG（Modular RAG）： 将 RAG 系统拆分为多个模块，每个模块负责特定的功能。可以灵活集成搜索引擎，可以引入强化学习和知识图谱，支持复杂业务场景。


# 为什么要使用 RAG ？

## 解决 LLM 的核心局限

- 静态知识局限

    - LLM 只能基于训练时的静态知识生成响应，无法实时获取最新信息。

    - RAG 通过实时检索外部知识库，支持动态更新。

- 幻觉（Hallucination）

    - LLM 可能生成看似合理但实际上是错误的信息。

    - 通过 RAG，LLM 将基于检索内容生成，错误率低。

- 领域专业性不足

    - LLM 在特定领域（如法律、医疗）的专业知识不足。

    - RAG 可以引入领域特定知识库。

- 数据隐私风险

    - LLM 可能泄露内部数据。

    - RAG 的知识库可以本地化部署，避免敏感数据泄露。



## 关键优势

- 准确度提升

    - 知识基础扩展：补充了 LLM 预训练知识的不足，增强对专业领域的理解。

    - 降低幻觉现象：通过提供具体参考材料，减少无中生有的情况。

    - 可溯源引用：支持引用原始文档，提高输出内容的可信度和说服力。

- 实时性保障

    - 动态知识更新：知识库内容可以独立于模型进行实时更新和维护。

    - 减少时滞性：规避LLM预训练数据截止日期带来的知识时效性问题。

- 成本效益

    - 避免频繁微调：相比反复微调LLM，维护知识库成本更低。

    - 降低推理成本：针对特定领域问题，可使用更小的基础模型配合知识库。
  
    - 资源消耗优化：减少存储完整知识在模型权重中的计算资源需求。
  
    - 快速适应变化：新信息或政策更新只需更新知识库，无需重训练模型。

- 可扩展性

    - 多源集成：支持从不同来源和格式的数据中构建统一知识库。
  
    - 模块化设计：检索组件可独立优化，不影响生成组件。


# 如何上手 RAG ？

## 基础工具选择

- 开发框架

    - LangChain：提供预置 RAG 组件，支持快速集成LLM与向量库。

    - LlamaIndex：专为知识库索引优化，简化文档分块与嵌入流程。

- 向量数据库

    - Milvus：开源高性能向量数据库。

    - FAISS：轻量级向量搜索库。

    - Pinecone：云服务向量数据库。

## 构建最小可行系统（MVP）

1. 数据准备

    - 格式支持：PDF、Word、网页文本等。
  
    - 分块策略：按语义（如段落）或固定长度切分，避免信息碎片化。
  
2. 索引构建
   
   - 嵌入模型：选取开源模型（如text-embedding-ada-002）或微调领域专用模型。
  
   - 向量化：将文本分块转换为向量存入数据库。

3. 检索优化
   
   - 混合检索：结合关键词（BM25）与语义搜索（向量相似度）提升召回率。

   - 重排序（Rerank）：用小模型筛选Top-K相关片段（如Cohere Reranker）。

4. 生成集成
   
   - 提示工程：设计模板引导LLM融合检索内容。

   - LLM选型：GPT、Claude、Ollama等（按成本/性能权衡）。


## 调优方向

- 评估指标

    - 检索质量：上下文相关性（Context Relevance）。

    - 生成质量：答案忠实度（Faithfulness）、事实准确性。

- 性能优化

    - 索引分层：对高频数据启用缓存机制。

    - 多模态扩展：支持图像/表格检索。