## RAG项目里检索是怎么做的？

使用混和检索

用 BM25 检索 Top-N

用向量数据库向量检索 Top-N

把两组结果合并 → 去重 → 送入 rerank

最后取 Top-K 作为输入

## 怎么进行rerank

Rerank 一般是 两阶段检索：

粗召回（Dense/BM25）

用向量库（FAISS、Milvus 等）或者 BM25 拿到 Top-N（比如 50 条）候选文档；

这里速度要快，保证高召回率。

精排（Rerank 模型）

把 (query, document) 一对一送进 Rerank 模型（通常是 cross-encoder）；

得到相关性分数；

按分数排序，取前 K（比如 5 条）给大模型。

代码示例：

In [None]:
from sentence_transformers import CrossEncoder
import faiss

# 加载交叉编码器（Rerank模型）
reranker = CrossEncoder("BAAI/bge-reranker-large")

# query
query = "上海社保最低缴费基数是多少"

# 假设先用 FAISS 拿到 Top-50 文档
candidate_docs = [
    "2024年上海市社保缴费基数上下限公布...",
    "养老保险缴纳基数下限为平均工资的60%...",
    "上海社保卡办理流程说明...",
]

# 形成 (query, doc) 对
pairs = [(query, doc) for doc in candidate_docs]

# 模型输出相关性分数
scores = reranker.predict(pairs)

# 排序，取前K
reranked = sorted(zip(candidate_docs, scores), key=lambda x: x[1], reverse=True)[:5]

for doc, score in reranked:
    print(score, doc)


## 怎么提升召回率

召回率衡量模型找到了 所有相关结果的比例：

$$Recall=\frac{True Positives (TP)}
{True Positives (TP)+False Negatives (FN)}
$$

TP（真正例）：模型预测为正且实际为正

FN（假负例）：模型预测为负但实际为正

召回率高表示模型 “漏掉的正例少”，但不考虑误报多少（误报由精确率 Precision 衡量）。

**举例**

假设你在做一个搜索引擎的召回评估：

相关文档（Ground Truth）：5 个

模型召回出来的文档：4 个

其中有 3 个是相关文档

那么：

$$
Recall=\frac{3}{5}=0.6
$$

说明模型找到了 60% 的相关文档。

## 如果知识库文本对同一个知识点有两种相反的答案怎么处理

处理思路

（1）数据层 → 清洗与标注

人工/自动标记来源与时效性

每条文档加 metadata：来源、发布时间、版本号、置信度

预处理时去重/融合

如果能明确哪个是过时信息 → 丢弃或标记为旧版本

如果两条都合法 → 保留，但区分 version

👉 这样检索时可以做 版本优先级排序。

（2）检索层 → 控制召回策略

增加过滤条件

在向量检索时带上 metadata 过滤（如：最新版本、特定来源）

加权排序

相同知识点下，优先考虑权威来源/最新时间

👉 例如：用 FAISS/Redis 时，可以把 时间戳 作为额外分值参与排序。

（3）生成层 → LLM 处理冲突

让模型展示差异

在 Prompt 中指令：如果答案有冲突，请明确说明差异和来源

投票/融合策略

如果多条文档答案不同，可以：

按时间：取最新

按权威：取可信来源

按一致性：统计多数观点

## RAG还是微调

1. 知识库（RAG）适用场景

    RAG 的本质是让大模型“检索+生成”，不用改动模型参数。一般适合：

    知识更新频繁
    比如产品文档、新闻、内部规章制度，需要随时更新内容。

    数据规模大
    几十万到百万条文本，模型不可能全部记住，只能依赖外部检索。

    场景灵活
    不同业务线只需换知识库即可，不用重新训练。

    不需要模型“掌握技能”
    比如查询、问答、摘要，而不是要模型去学写代码或模仿文风。

    👉 举例：
    客服问答系统、企业内部知识助手、合同条款检索、医疗文献查询。

2. 微调（Fine-tuning）适用场景

    微调的本质是改变模型参数，让模型在推理时“内化”某种知识或风格。适合：

    知识稳定，不常更新
    比如法律条款、某领域专业定义，不会频繁变化。

    需要模型掌握某种技能 / 风格

    生成规范格式（SQL 语句、代码模板、报告格式）。

    模仿特定语气、口吻（比如客服统一话术、小说写作风格）。

    任务型推理（比如玩游戏的策略、复杂对话代理）。

    推理速度要求高
    模型直接“记住”，无需先检索。

    数据量中等（几千到几万条） 且质量高，能有效收敛。

    👉 举例：
    电商客服统一话术、金融合规报告生成、个性化写作助手、专业领域小模型（医学问诊机器人）。

3. 结合使用（混合方案）

    实际业务中，很多公司会 RAG + 少量微调：

    用 RAG 保证模型能随时查新资料。

    用 微调 让模型学会固定的“格式、风格、技能”。

    👉 举例：

    医疗场景：微调让模型学会生成标准化病历格式，RAG 提供实时医学文献。

    企业客服：微调统一语气、回答逻辑，RAG 检索最新产品信息。

4. 判断决策流程

    可以按以下问题做判断：

    知识更新快吗？
    快 → 知识库
    稳定 → 微调

    需求是“技能/风格”还是“事实知识”？
    技能/风格 → 微调
    知识/事实 → 知识库

    推理时能接受外部检索吗？
    能 → 知识库
    不能（需离线、低延迟）→ 微调

    数据量大还是小？
    大量文档 → 知识库
    高质量小样本 → 微调

## 怎么做上下文截断

(1) 简单截断（滑动窗口）

保留最近的 N 轮对话，丢掉最早的。

适合 闲聊对话，因为早期内容通常不重要。

(2) 按角色分层截断

系统提示（system prompt） 必须保留

最近几轮 完整保留

中间部分 部分保留 / 压缩

最早部分 丢弃

(3) 摘要压缩（Summarization）

对丢弃的早期对话做 摘要，保留核心语义。

摘要可以是：

人工规则（保留关键词、实体、事件）

模型生成（调用 LLM 生成对话总结）

(4) 向量检索 + 动态拼接（RAG 思路）

把历史对话/文档切分成 chunk，存入向量数据库（FAISS、Milvus、Qdrant）。

每次新问题进来 → 检索相关的几段 → 拼接到 prompt 里。

保证输入紧凑且相关。

(5) 分块对话记忆（Memory）

常见于 多智能体、长对话场景：

短期记忆：保留最近几轮对话（上下文窗口）

长期记忆：存入数据库/向量库，需要时检索

动态融合：短期 + 召回的长期 → 作为 prompt

**简单滑动窗口代码示例：**

In [None]:
MAX_TOKENS = 4000
RESERVE_TOKENS = 500   # 留给回复

def truncate_history(history, tokenizer):
    tokens = []
    new_history = []
    for turn in reversed(history):  # 从最近开始往前
        t = tokenizer(turn)
        if len(tokens) + len(t) > MAX_TOKENS - RESERVE_TOKENS:
            break
        tokens = t + tokens
        new_history.insert(0, turn)
    return new_history


## 怎么处理多用户并发



## 向量数据库

![image.png](attachment:image.png)