Skip to content

LLM & VLM & Agent 关键知识点总结 #18

@newset

Description

@newset

目录

  1. LLM
  2. VLM
  3. RLHF
  4. Agent
  5. RAG
  6. 模型评估与 Agent 评估
  7. LLM 前景与发展
  8. 其它开放性问题

1. LLM

Q1. Transformer 自注意力机制如何工作?为何比 RNN 更适合长序列?

核心机制:

自注意力(Self-Attention)让序列中每个位置都能直接与其他所有位置交互,计算步骤如下:

  1. 将输入向量 $X$ 分别乘以三个可训练矩阵,得到 Query(Q)、Key(K)、Value(V);
  2. 计算注意力分数:$\text{Attention}(Q,K,V) = \text{softmax}!\left(\dfrac{QK^T}{\sqrt{d_k}}\right)V$;
  3. 多头注意力(MHA)将上述过程并行执行 $h$ 次,再拼接输出。
    为何优于 RNN:
维度 RNN Transformer
长距离依赖 梯度消失,难以捕捉 任意两个 token 直接交互,路径长度为 O(1)
并行性 序列依赖,无法并行 全并行,训练速度快
复杂度 $O(n \cdot d^2)$ $O(n^2 \cdot d)$(但可并行化)

参考资料:


Q2. 什么是位置编码?为什么必要?有哪些实现方式?

为何必要: 自注意力本身是置换不变的(permutation-invariant),不含顺序信息,必须额外注入位置信息。

主要实现方式:

  1. 绝对正弦位置编码(原版 Transformer): 用固定的 $\sin/\cos$ 函数编码每个位置,不需学习,可外推到更长序列,但缺乏相对位置感知。
  2. 可学习绝对位置编码(BERT/GPT): 每个位置有一个可训练 embedding,灵活但无法外推训练长度之外。
  3. 相对位置编码(RPE): 在注意力分数中加入相对距离偏置(如 T5、ALiBi)。
  4. 旋转位置编码 RoPE: 见 Q3。
    参考资料:

Q3. 详细介绍 RoPE,对比绝对位置编码的优劣势

原理: RoPE(Rotary Position Embedding)将位置信息编码为旋转矩阵,作用于 Q、K 向量。对于位置 $m$,将向量分组为 2D 对,并旋转角度 $m\theta_i$

$$\text{RoPE}(x, m) = x \cdot e^{im\theta}$$

注意力分数中,位置 $m$$n$ 的内积只与相对距离 $m-n$ 有关,自然具备相对位置感知。

优势:


Q4. MHA、MQA、GQA 的区别

机制 Key/Value 头数 参数量 推理速度 代表模型
MHA(多头注意力) = Q 头数(h) 最大 最慢(KV cache 大) BERT、GPT-2
MQA(多查询注意力) 1 最小 最快 PaLM、Falcon
GQA(分组查询注意力) Q 头数 / 组数 g 居中 居中 LLaMA 2/3、Mistral

核心思路: MQA/GQA 让多个 Q 头共享同一组 KV,减少 KV cache 显存占用,加速推理,是大模型部署的常用优化手段。GQA 是 MHA 和 MQA 的折中方案,在质量损失极小的情况下大幅提速。

参考资料:


Q5. Encoder-Only / Decoder-Only / Encoder-Decoder 对比

架构 特点 擅长任务 代表模型
Encoder-Only 双向注意力,感知全文 文本分类、NER、语义匹配 BERT、RoBERTa
Decoder-Only 单向(因果)注意力,自回归生成 文本生成、对话、代码、推理 GPT 系列、LLaMA、Qwen
Encoder-Decoder 编码理解 + 解码生成 翻译、摘要、问答 T5、BART、mT5

当前主流 LLM 几乎全部采用 Decoder-Only,因为它在大规模预训练下表现最优,且通过 in-context learning 能涌现出理解能力。


Q6. Scaling Laws 是什么?

核心结论(Chinchilla Laws,Hoffmann et al., 2022):

  • 模型性能(loss)与模型参数量 $N$、训练 token 数 $D$、计算量 $C$ 之间存在幂律关系;
  • 最优训练策略:$N$ 和 $D$ 应大致等比例增长,即 $D \approx 20N$(token 数是参数量的 20 倍);
  • 早期 GPT-3 等模型训练 token 严重不足,属于"欠训练"。
    指导意义:
  • 指导在固定算力预算下如何分配模型大小与数据量;
  • 推动了 Mistral、LLaMA 等"小而精"模型路线。
    参考资料:
  • Chinchilla: Training Compute-Optimal Large Language Models (Hoffmann et al., 2022)
  • 原版 Scaling Laws: Kaplan et al., 2020

Q7. LLM 推理阶段的解码策略

策略 原理 优点 缺点
Greedy Search 每步选概率最大的 token 简单快速 局部最优,输出单调
Beam Search 维护 $k$ 条候选序列 质量较高 计算量大,多样性低
Top-K Sampling 从概率最高的 K 个中采样 多样性好 K 难调,分布差时效果差
Top-P (Nucleus) 从累积概率超过 P 的最小集合中采样 自适应词表大小 P 的选择影响大
Temperature 调整 logits 的尖锐度 控制随机性 与上述策略组合使用

实际使用中,top_p=0.9, temperature=0.7 是常见的通用配置,代码生成任务可适当降低 temperature。


Q8. 词元化(Tokenization):BPE vs WordPiece

BPE(Byte-Pair Encoding):

  • 从字符级开始,反复合并频次最高的相邻字节对;
  • 用于 GPT 系列、LLaMA、Qwen;
  • 不需要概率模型,纯频次驱动。
    WordPiece:
  • 与 BPE 类似,但合并依据是最大化语言模型似然(LM likelihood),而非纯频次;
  • 用于 BERT;
  • 未知词会被拆分为 ## 前缀的子词。
    SentencePiece 是两者的工程实现框架(支持 BPE/Unigram),独立于空格分词,对中文等无空格语言友好。

参考资料:


Q9. NLP 与 LLM 的区别与联系

共同点: 都处理自然语言;核心任务(分类、生成、理解)重叠;共享词向量、注意力等技术基础。

最大区别:

维度 传统 NLP LLM
范式 任务特定模型,监督学习 统一预训练 + Prompt/Few-shot
能力 单任务,依赖特征工程 多任务涌现,zero-shot 泛化
数据 标注数据驱动 海量无标注文本预训练
评估 任务特定指标(F1 等) 综合基准(MMLU 等)

LLM 是 NLP 的范式革命,将"特征工程"转移到了模型规模和数据质量。


Q10. L1 和 L2 正则化

L1(Lasso) L2(Ridge)
惩罚项 $\lambda \sum w_i
效果 产生稀疏解(部分权重归零) 权重均匀缩小,不归零
适合场景 特征选择、高维稀疏问题 防止过拟合、特征相关性高时
几何直觉 约束域是菱形,角点稀疏 约束域是圆形,解均匀

在 LLM 中,常用 Weight Decay(L2)防止训练过拟合;L1 因其稀疏性在剪枝中有应用。


Q11. 涌现能力(Emergent Abilities)

定义: 指在小模型上几乎不存在、而在大模型上突然出现的能力,不是性能的平滑提升,而是质的跃变。

典型例子: 算术运算、多步推理、思维链(CoT)等在 GPT-3(175B)级别前几乎不存在。

涌现门槛: 一般认为在数十亿至数百亿参数规模附近出现,但具体阈值与任务高度相关。

争议: Wei et al. (2022) 记录了涌现现象,但 Schaeffer et al. (2023) 认为涌现可能是评估指标选择的产物(非线性指标掩盖了连续变化)。

参考资料:


Q12. LLM 常用激活函数

激活函数 公式 特点 使用模型
ReLU $\max(0,x)$ 简单,但存在"dying ReLU" 早期 Transformer
GELU $x \cdot \Phi(x)$ 平滑,性能好 BERT、GPT-2
SwiGLU $\text{Swish}(xW) \odot (xV)$ 门控结构,效果最优 LLaMA、Qwen、PaLM
GeGLU $\text{GELU}(xW) \odot (xV)$ 与 SwiGLU 类似 T5、Gemma

为何选 SwiGLU: 实验表明 SwiGLU 比 ReLU/GELU FFN 有稳定的性能提升(+1–2% 精度),且参数效率高,已成为当前大模型的标准选择。

参考资料:


Q13. 混合专家模型(MoE)工作原理

核心思想: 将 FFN 层替换为多个"专家"网络,每次前向传播通过路由器(Router)只激活 Top-K 个专家。

流程:

  1. 路由器对每个 token 计算专家得分:$g = \text{softmax}(xW_g)$;
  2. 只选 Top-K(通常 K=2)个专家参与计算;
  3. 将 K 个专家的输出加权求和作为结果。
    优势: 总参数量大(如 Mixtral 8×7B 共 56B),但每次推理只激活约 1/4 参数,FLOPs 接近 13B 稠密模型。

挑战: 负载均衡(防止部分专家被过度选择)、通信开销(分布式训练中跨 GPU 通信)。

参考资料:


Q14. 训练百/千亿参数 LLM 的主要挑战

显存挑战:

  • 模型并行:张量并行(TP)、流水线并行(PP)、序列并行(SP);
  • ZeRO(Zero Redundancy Optimizer)将优化器状态、梯度、参数分片到多卡;
  • 混合精度训练(BF16 + FP32 优化器状态)。
    通信挑战:
  • All-Reduce 通信是瓶颈,需要高速互联(NVLink/InfiniBand);
  • 流水线并行引入 bubble,需要 1F1B 调度优化。
    训练稳定性:
  • 梯度爆炸:梯度裁剪(clip norm);
  • Loss spike:学习率 warmup、权重初始化策略;
  • 数值溢出:使用 BF16 替代 FP16。
    参考资料:
  • Megatron-LM (Shoeybi et al., 2019)
  • ZeRO (Rajbhandari et al., 2020)

Q15. Qwen 和 DeepSeek 的创新点

Qwen 系列创新点:

  • 采用 GQA + RoPE + SwiGLU 标准架构;
  • 长上下文支持:Qwen2.5 支持 128K context(YaRN 外推);
  • 多语言训练数据质量优化;
  • Qwen2.5-Coder/Math 等专域模型。
    DeepSeek 系列创新点:
  • DeepSeek-V2/V3: MLA(Multi-head Latent Attention),将 KV cache 压缩至低秩表示,推理显存降低 5-13×;细粒度 MoE(每层 256 个专家,激活 8 个);
  • DeepSeek-R1: 纯 RL 训练(GRPO),无 SFT 冷启动,推理能力媲美 o1;证明了强化学习可以驱动推理涌现;
  • MLA(Multi-head Latent Attention): 核心创新,将 KV 投影到低维潜空间后存储,大幅降低推理成本。
    参考资料:
  • DeepSeek-V3 Technical Report
  • DeepSeek-R1 (2025)
  • Qwen2.5 Technical Report

2. VLM

Q1. 多模态大模型的核心挑战

  1. 模态对齐(Alignment): 视觉空间与语言语义空间的映射;
  2. 信息融合(Fusion): 何时融合、如何融合(early/late/cross-attention);
  3. 数据质量: 高质量图文对的获取与清洗;
  4. 幻觉问题: 模型生成与图像不符的描述;
  5. 高分辨率处理: token 数量爆炸(见 Q8)。

Q2. CLIP 的工作原理

对比学习框架:

  • 双编码器:Image Encoder(ViT/ResNet)+ Text Encoder(Transformer);
  • 正样本:同一图文对;负样本:Batch 内其他配对;
  • 损失:对称 InfoNCE(对比损失),让匹配图文 embedding 相似,不匹配的相远;
  • 训练数据:4 亿互联网图文对(WIT)。
    关键公式:
    $$L = -\frac{1}{N}\sum_{i} \log \frac{\exp(\text{sim}(v_i, t_i)/\tau)}{\sum_j \exp(\text{sim}(v_i, t_j)/\tau)}$$

参考资料:


Q3. LLaVA/MiniGPT-4 架构如何连接 Vision Encoder 与 LLM

LLaVA 架构:

  1. Vision Encoder: 冻结的 CLIP ViT,输出视觉 token 序列;
  2. Projection Layer: 轻量 MLP(或 Cross-Attention),将视觉 token 映射到 LLM 的 embedding 空间;
  3. LLM(LLaMA/Vicuna): 接收 [视觉 token] + [文本 token] 的拼接序列,自回归生成。
    训练两阶段:
  • Stage 1:冻结两端,只训练 Projection Layer(特征对齐);
  • Stage 2:解冻 LLM,端到端微调(视觉指令调优)。
    MiniGPT-4 与此类似,但使用 Q-Former(来自 BLIP-2)作为桥接模块。

参考资料:


Q4. 视觉指令微调(Visual Instruction Tuning)

定义: 使用 <image> + 指令 → 回答 格式的数据对 VLM 进行监督微调,赋予模型遵循多模态指令的能力。

为何关键:

  • 预训练只学习图文对齐,不具备指令跟随能力;
  • 指令微调数据多样性决定了模型的泛化能力;
  • LLaVA-Instruct 数据集由 GPT-4 自动生成,低成本高质量。

Q5. 视频 VLM 额外需要解决的问题

  • 时序建模: 静态图无时序,视频需要建模帧间运动/因果关系(3D Conv、时序注意力、Video Token Compression);
  • 冗余压缩: 视频帧间高度冗余,需采样关键帧或使用 Token Merging 减少计算;
  • 长视频理解: 分钟级视频 token 量极大,需层级压缩或记忆机制。
    代表方法: Video-LLaMA、InternVL-Video、Qwen2.5-VL 的动态分辨率视频处理。

Q6. Grounding 的含义与评估

含义: 将文本描述"接地"到图像的具体区域,即从语言到视觉坐标的定位(如 Phrase Grounding、Referring Expression Comprehension)。

评估指标:

  • Acc@0.5: 预测框与真实框 IoU > 0.5 的比例;
  • PointAcc: 预测点落在目标区域内的比例;
  • 数据集:RefCOCO、RefCOCO+、Visual Genome。

Q7. VLM 架构范式对比

范式 代表 优点 缺点
共享编码器(Dual-Encoder) CLIP 高效检索,分离编码 深层融合不足
跨模态注意力融合 Flamingo 深层融合,少样本泛化强 计算量大
线性投影拼接 LLaVA 简单高效,训练快 融合较浅
Q-Former 瓶颈 BLIP-2 信息过滤,减少视觉 token 信息损失风险

Q8. 高分辨率输入图像的挑战

  • token 爆炸: 分辨率翻倍 → token 数量翻 4 倍,计算复杂度 $O(n^2)$ 暴增;
  • 解决方案:
    • 动态分辨率(Dynamic Resolution): 将图像切成多个子块分别编码(如 LLaVA-1.5、InternVL2、Qwen2.5-VL);
    • Token 压缩/Pooling: Average Pooling 或 Cross-Attention 压缩视觉 token 数;
    • S2(Scaling on Scales): 多尺度特征融合。

Q9. VLM 的幻觉问题

与纯文本 LLM 的区别:

  • 纯文本:幻觉主要是知识性错误(编造事实);
  • VLM:额外存在视觉幻觉,即模型忽视图像内容,依赖语言先验生成不符合图像的描述。
    典型例子:
  • 图中有 3 个苹果,模型说"图中有一盘水果";
  • 图中没有文字,但模型"读出"了文字;
  • 物体存在但属性描述错误(颜色、位置)。
    缓解方法: RLHF/DPO 对齐、对比解码(Contrastive Decoding)、视觉注意力监督。

参考资料:


Q10. VLM 的前沿应用方向

  • GUI Agent: 理解屏幕截图、自动操作 UI(如 Claude Computer Use、UI-JEPA);
  • 医疗影像: CT/MRI 报告生成、病理图像分析;
  • 具身智能: 机器人视觉感知 + 语言规划(RT-2、OpenVLA);
  • 文档理解: PDF/表格/图表问答(DocVQA);
  • 科学图像分析: 分子结构、天文图像理解。

3. RLHF

Q1. RLHF 解决了 SFT 的哪些问题?

SFT 的局限:

  1. 只学习模仿数据,无法超越示范质量上界;
  2. 标注员难以给出"最优"回答,但容易判断两个回答的相对好坏;
  3. 对有害输出无显式惩罚机制;
  4. SFT 在安全性、诚实性方面无法有效对齐人类价值观。
    RLHF 的贡献: 将人类偏好作为优化目标,使模型超越示范数据的上界,并显式约束有害行为。

Q2. 经典 RLHF 的三个阶段

Stage 1 — SFT(监督微调):

  • 输入:高质量指令-回答对;
  • 输出:SFT 模型(Π_SFT);
  • 目标:获得基本的指令遵循能力。
    Stage 2 — 奖励模型训练(RM Training):
  • 输入:同一 prompt 的多个回答,标注员的偏好排序;
  • 输出:奖励模型 $r_\phi(x, y)$
  • 目标:学习人类偏好的代理函数。
    Stage 3 — RL 优化(PPO):
  • 输入:Prompt 集合、RM、SFT 参考模型;
  • 输出:对齐后的策略 Π_RL;
  • 目标:最大化 $\mathbb{E}[r_\phi(x,y)] - \beta \cdot \text{KL}(\Pi_{RL} | \Pi_{SFT})$

Q3. 成对比较数据 vs 绝对评分

成对比较的优势:

  • 人类对相对判断更一致(心理学研究支持);
  • 避免评分尺度不一致问题(不同标注员对"7分"理解不同);
  • 数据标注更快、跨标注员一致性更高。
    劣势:
  • 无法表达"两个都很差"或"两个都很好";
  • 组合爆炸:n 个回答需要 $O(n^2)$ 对比较;
  • 排序不一定满足传递性。

Q4. 奖励模型设计与 Bradley-Terry 模型

架构: 通常使用与 LLM 同架构的 Transformer,在最后一个 token 的隐状态后加线性层输出标量奖励。

损失函数(Bradley-Terry 模型):

$$P(y_w \succ y_l) = \frac{\exp(r(x, y_w))}{\exp(r(x, y_w)) + \exp(r(x, y_l))} = \sigma(r(x, y_w) - r(x, y_l))$$

$$L = -\mathbb{E}_{(x, y_w, y_l)} \left[\log \sigma(r_\phi(x, y_w) - r_\phi(x, y_l))\right]$$

与 LLM 的关系: 通常从 SFT 模型初始化(共享表示空间),只修改最后一层。


Q5. 为何选择 PPO 而非 REINFORCE 或 Q-learning?

算法 问题
REINFORCE 高方差,训练不稳定,sample efficiency 极低
Q-learning 需要学习 Q 函数,语言动作空间太大(词表大小),不适用

PPO 的优势:

  • Clipped surrogate objective 限制更新幅度,稳定训练;
  • 利用重要性采样可多次更新同一 batch;
  • KL 惩罚防止策略偏离参考模型过远。
    $$L^{CLIP}(\theta) = \mathbb{E}\left[\min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)\right]$$

Q6. KL 散度系数 β 的影响

β 过大 β 过小
策略被强制贴近 SFT,优化空间受限 策略偏离 SFT,产生奖励黑客
奖励提升有限 奖励虚高但实际质量下降
模型多样性降低 输出退化(重复、极端格式)

调整方法: 动态 KL 控制(自适应 β),观察 KL 散度曲线,将其维持在预设范围内(一般 0.1–0.5 nats)。


Q7. 奖励黑客(Reward Hacking)

定义: 策略学会了优化奖励模型的缺陷,而非真正的人类偏好。

例子:

  • 回答过长(RM 偏好详细回答 → 生成冗余废话);
  • 过度谄媚(RM 偏好积极语气 → 无论如何都说"这是个好问题");
  • 格式作弊(发现 RM 对特定标点格式打高分 → 滥用格式)。
    缓解策略:
  1. 多样化 RM 训练数据;
  2. 使用独立的 KL 惩罚约束;
  3. 设置长度惩罚;
  4. 定期用人工评估校准。

Q8. DPO vs 传统 RLHF(PPO)

DPO(Direct Preference Optimization)核心思想:

将 RL 问题转化为有监督的分类问题,绕过显式奖励模型。推导证明最优策略满足:

$$r^_(x,y) = \beta \log \frac{\Pi^_(y|x)}{\Pi_{ref}(y|x)} + \beta \log Z(x)$$

直接优化策略使其匹配偏好数据中的 $y_w$ 相对于 $y_l$

$$L_{DPO} = -\mathbb{E}\left[\log \sigma!\left(\beta \log\frac{\Pi_\theta(y_w|x)}{\Pi_{ref}(y_w|x)} - \beta \log\frac{\Pi_\theta(y_l|x)}{\Pi_{ref}(y_l|x)}\right)\right]$$

维度 PPO DPO
实现复杂度 高(需 RM + PPO 基础设施) 低(类 SFT 训练)
稳定性 较低,需要精细调参 较高
效果 在复杂任务上通常更强 简单任务上与 PPO 持平
在线 vs 离线 在线(on-policy) 离线(off-policy)

参考资料:


Q9. RLHF 后奖励高但用户反馈差的原因分析

可能原因:

  1. 奖励黑客: 模型学会了让 RM 打高分的表面特征,而非真实质量;
  2. 分布偏移: 线上 prompt 与训练分布不一致;
  3. RM 过拟合: RM 本身泛化性差,无法准确反映真实人类偏好;
  4. 评估盲区: "模式化"和"谄媚"在离线 pair-wise 评估中难以被检测。
    解决方向:
  • 引入长度惩罚、多样性奖励;
  • 上线 A/B 实验,收集在线反馈更新 RM;
  • 使用 Constitutional AI 或 RLAIF 增加偏好数据多样性。

Q10. DeepSeek GRPO vs PPO

GRPO(Group Relative Policy Optimization):

  • 对同一 prompt 采样 $G$ 个回答组成 group;
  • 用 group 内的相对奖励(减均值、除标准差)作为优势估计,无需 Critic 网络
  • 大幅减少了训练时的显存开销(PPO 需要同时维护 Actor + Critic + RM + SFT 四个模型)。
    $$A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}$$
维度 PPO GRPO
Critic 网络 需要 不需要
显存 极大(4 模型) 较小(2-3 模型)
优势估计 GAE(需 value function) group 统计量
适合场景 通用 RLHF 可验证任务(数学、代码)

参考资料:


Q11. GSPO 和 DAPO

GSPO(Group Sequence Policy Optimization,字节跳动):

  • 在 sequence 级别计算重要性采样比率(而非 token 级别),避免 token 级别 ratio 方差过大;
  • 更稳定的 clipping 机制。
    DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization,阿里巴巴):
  • 解耦 clip ratio 上下界($\epsilon_{high} \neq \epsilon_{low}$),允许好回答的提升更大;
  • 动态采样:过滤全对/全错的 group,只保留有信息量的样本;
  • token 级别策略梯度损失(减少长回答的优化偏差)。
    与 GRPO 的核心区别: 都是基于 group sampling,但在 clip 机制、采样策略、梯度计算粒度上做了不同改进,进一步稳定训练并提升效果。

Q12. 信用分配问题:Token 级 vs Seq 级奖励

Seq 级奖励(GRPO/REINFORCE 常用):

  • 整个序列完成后才给出奖励(如数学题最终答案对/错);
  • 信用分配困难:不知道哪些 token 贡献了最终结果;
  • 方差大,但符合真实评估场景。
    Token 级奖励:
  • 对每个 token 计算细粒度奖励(如 Process Reward Model, PRM);
  • 信用分配清晰,方差小,训练更高效;
  • 需要更密集的标注(每步骤正确性)。
    实践: DeepSeek-R1 等用 Outcome Reward(seq 级),而 OmegaPRM、Math-Shepherd 等探索 PRM(token 级)。

Q13. RLAIF(AI 反馈强化学习)

定义: 用强大的 AI(如 Claude/GPT-4)代替人类标注偏好数据,再用这些数据训练奖励模型或直接做 DPO。

潜力:

  • 扩展性强,无需大量人工标注;
  • 可以覆盖更多 prompt 分布;
  • Constitutional AI(Anthropic)是代表性实现。
    风险:
  • AI 偏见被放大(模型评估自身或同类模型时存在系统性偏见);
  • 训练崩溃风险(自我强化循环);
  • 泛化性依赖 AI Judge 的能力上限。
    参考资料:
  • Constitutional AI (Bai et al., 2022)
  • RLAIF (Lee et al., 2023)

4. Agent

Q1. LLM Agent 的定义与核心组件

定义: 以 LLM 为核心"大脑",能够感知环境、规划决策、调用工具并执行行动以完成目标的自主系统。

核心组件(Lilian Weng 框架):

Agent = LLM (Brain)
      + Planning (规划模块)
      + Memory (记忆模块)
      + Tool Use (工具调用)
  • 规划: 任务分解、CoT、反思(Reflection);
  • 记忆: 短期(上下文窗口)+ 长期(外部存储/向量库);
  • 工具: API、代码解释器、搜索引擎、数据库。
    参考资料:
  • LLM Powered Autonomous Agents – Lilian Weng Blog

Q2. ReAct 框架

ReAct = Reasoning + Acting

交替进行"思考"(Thought)和"行动"(Action),每次行动后观察环境(Observation),再继续思考。

格式示例:

Thought: 我需要查询北京今天的天气
Action: Search["北京今天天气"]
Observation: 北京今天晴,25°C
Thought: 已获得天气信息,可以回答用户
Answer: 北京今天晴,气温25°C

优势: 可解释性强、能处理复杂多步任务、失败时可追溯原因。

参考资料:


Q3. 赋予 LLM 规划能力的主流方法

方法 核心思路 适用场景
CoT(思维链) 逐步推理,"Let's think step by step" 线性推理任务
ToT(思维树) 树状搜索多条推理路径,BFS/DFS + 评估 需要探索的复杂任务
GoT(思维图) DAG 结构,允许推理路径合并 聚合型任务
Self-Refine 生成 → 反思 → 改进的迭代循环 开放式生成
LLM+P 将规划外包给符号规划器(PDDL) 结构化规划领域

参考资料:


Q4. Agent 的记忆系统设计

记忆类型 实现方式 特点
短期记忆 Context Window(上下文窗口) 有限容量,会话内有效
长期记忆 向量数据库(Faiss/Chroma/Weaviate) 持久化,语义检索
外部记忆 结构化数据库、文件系统 精确查询,适合结构化信息
参数记忆 模型权重本身 通过微调更新,代价高

实践设计:

  • 短期:滑动窗口 + 摘要压缩;
  • 长期:重要记忆 embedding 后存入向量库,按相关性检索注入上下文。

Q5. LLM 如何学会工具调用(Function Calling)

  1. 指令微调: 使用包含工具调用格式的数据(JSON schema 定义工具参数)对 LLM 微调;
  2. 工具定义注入: 将工具 schema 注入 system prompt;
  3. 结构化输出: LLM 生成 JSON 格式的工具调用请求,外部框架解析并执行;
  4. 观察注入: 执行结果作为 tool_result 返回给 LLM 继续推理。
    OpenAI Function CallingAnthropic Tool Use 是两种主流实现规范。

Q6. LangChain vs LlamaIndex 对比

维度 LangChain LlamaIndex
核心定位 通用 LLM 应用编排框架 数据索引与查询框架(专精 RAG)
擅长场景 复杂 Agent 流程、链式调用、工具集成 文档问答、知识库构建、结构化数据查询
抽象层次 Chain/Agent/Tool 模式 Index/Retriever/Query Engine
社区活跃度 极高,生态丰富 高,专注 RAG 质量

实践中两者常结合使用:LlamaIndex 处理数据层,LangChain 做编排层。


Q7. 构建复杂 Agent 的主要挑战

  1. 长程规划一致性: 多步任务中容易偏离初始目标("目标漂移");
  2. 错误累积: 早期错误在后续步骤中放大;
  3. 工具可靠性: 外部 API 的超时、格式不一致等问题;
  4. 幻觉行为: 在工具调用参数中产生虚假数据;
  5. 成本控制: 多轮 LLM 调用的 token 成本快速累积;
  6. 评估困难: 复杂任务难以定义"成功"标准。

Q8. 多智能体系统

优势:

  • 任务分工:不同 Agent 专注不同子任务;
  • 并行执行:提升效率;
  • 相互验证:多 Agent 交叉检查减少错误;
  • 模拟复杂环境(如 AutoGen 的对话群体)。
    新增复杂性:
  • 通信协议设计;
  • 一致性保证(共享状态同步);
  • 协调开销与死锁风险;
  • 调试追踪困难。
    代表框架: AutoGen(微软)、CrewAI、MetaGPT。

Q9. 具身 Agent vs 软件工具 Agent

维度 软件工具 Agent 具身 Agent
环境 虚拟/API 环境 物理世界
感知 文本/API 返回值 视觉、触觉、本体感知
行动 API 调用、文本生成 电机控制、物理操作
延迟 毫秒级 实时(毫秒级控制循环)
错误后果 通常可撤销 不可逆(物理碰撞等)

具身 Agent 还需要处理感知-行动闭环、部分可观测性(POMDP)等问题。


Q10. Agent 行为的安全与对齐保障

  1. 宪法约束(Constitutional Rules): 硬编码禁止行为列表;
  2. 沙箱隔离: 工具调用在受限环境中执行;
  3. 人类监督节点(HITL): 关键步骤前需人工确认;
  4. 最小权限原则: 只赋予完成任务必要的工具权限;
  5. 行为日志与可解释性: 完整记录 Thought/Action 链供审计;
  6. Red-Teaming: 测试对抗性 prompt 下的行为边界。

Q11. A2A 框架(Agent-to-Agent)

A2A 框架(Google 提出): 定义 Agent 之间互操作的标准协议,使不同厂商/框架的 Agent 能够相互发现、通信和协作。

与普通 Agent 框架的最关键区别:

互操作性(Interoperability):普通框架(如 LangChain)假设所有 Agent 运行在同一代码库/运行时中;A2A 定义了跨异构系统的通信标准(基于 HTTP/SSE),允许一个 CrewAI Agent 与一个 LangGraph Agent 协作,就像 HTTP 让不同服务器互通一样。

这解决了多 Agent 生态碎片化的根本问题。


5. RAG

Q1. RAG 工作原理与优势

流程: Retrieve(检索相关文档) → Augment(注入上下文) → Generate(生成回答)

vs 微调的优势:

维度 微调 RAG
知识更新 需重新训练,成本高 只更新知识库,即时生效
知识来源可追溯 难以溯源 可引用原始文档
处理私有知识 需要私有数据微调 直接索引私有文档
幻觉缓解 有限 基于检索文档生成,更可靠

参考资料:


Q2. 完整 RAG 流水线

原始文档
  ↓ 解析(PDF/HTML/Word → 纯文本)
  ↓ 切块(Chunking)
  ↓ Embedding 向量化
  ↓ 存入向量数据库
                          ← 用户 Query
                          ← Query Embedding
                          ← 向量检索(Top-K)
                          ← 重排(Reranking,可选)
                          ← Prompt 构建(Query + 检索结果)
                          → LLM 生成答案

Q3. 文本切块策略

切块大小的权衡:

  • 太小(如 128 tokens): 语义不完整,上下文丢失,召回精度下降;
  • 太大(如 1024 tokens): 噪声多,影响精度,超出 LLM 上下文窗口。
    实践经验:
  • 一般使用 512–1024 tokens,重叠 10–20%(约 50–100 tokens);
  • 优先按语义边界切(段落 > 句子 > 固定字符);
  • Hierarchical Chunking:小块索引 + 大块送给 LLM(提升精度同时保留上下文)。

Q4. Embedding 模型选择与评估

选择原则:

  • 领域匹配(中文:BGE、M3E;代码:CodeBERT;多语言:E5-multilingual);
  • 向量维度与延迟的平衡;
  • 是否支持非对称检索(query vs document 不等长)。
    评估指标:
  • MTEB Benchmark(Massive Text Embedding Benchmark)综合排行;
  • Recall@K(检索召回率);
  • MRR(Mean Reciprocal Rank);
  • 领域特定的端到端 RAG 效果。
    参考资料:
  • BGE (BAAI, 2023)
  • MTEB Leaderboard

Q5. 提升 RAG 检索质量的进阶技术

  1. 混合检索(Hybrid Search): 向量检索 + BM25 关键词检索,结合 RRF 融合;
  2. 重排模型(Reranker): Cross-Encoder(如 BGE-Reranker)对 Top-K 结果重新打分;
  3. HyDE(假设文档嵌入): 先让 LLM 生成假设答案,用假设答案检索;
  4. Query 扩展/重写: 将模糊 query 改写为更准确的检索 query;
  5. 父子块检索(Parent-Child Chunking): 小块匹配,大块送 LLM;
  6. Self-RAG: 让 LLM 自主决定何时检索及是否使用检索结果。

Q6. "Lost in the Middle" 问题

现象: LLM 处理长上下文时,对位于中间位置的信息利用率显著低于头部和尾部(U 型注意力分布)。

缓解方法:

  1. 将最相关文档放在上下文开头或结尾;
  2. 减少送入 LLM 的文档数量(只取 Top-3 而非 Top-10);
  3. 重排(Reranking)保证最相关内容排在前面;
  4. 使用支持长上下文的模型(Qwen2.5-128K 等)。
    参考资料:

Q7. RAG 系统的全面评估

检索阶段:

  • Context Recall(相关文档是否被检索到);
  • Context Precision(检索结果中相关比例)。
    生成阶段:
  • Answer Faithfulness(答案是否忠实于检索文档,反映幻觉程度);
  • Answer Relevance(答案是否回答了问题);
  • Answer Correctness(与 ground truth 对比)。
    工具: RAGAS 框架可自动计算上述指标。

参考资料:


Q8. 图数据库/知识图谱 vs 向量数据库

选择图数据库/KG 的场景:

  • 查询涉及多跳关系推理("A 的上司的直属下属有谁");
  • 实体关系结构化、需要精确图遍历;
  • 结合 GraphRAG(将文档解析为知识图谱再检索)。
    选择向量数据库的场景:
  • 语义相似性搜索;
  • 非结构化文本;
  • 快速原型。
    GraphRAG(微软) 结合了两者:先构建知识图谱,再在图上做社区摘要和实体检索,处理全局查询效果更好。

Q9. 复杂 RAG 范式

  • Iterative RAG: 生成过程中多次检索,每次检索基于当前生成内容动态调整 query;
  • Self-RAG: LLM 自主决定是否需要检索(Retrieve token),并对检索结果打分(ISREL/ISSUP tokens);
  • Adaptive RAG: 根据问题难度动态选择检索策略(no RAG / single-step / multi-step);
  • FLARE(Forward-Looking Active REtrieval): 预测下一句时若置信度低则触发检索。
    参考资料:
  • Self-RAG (Asai et al., 2023)

Q10. RAG 实际部署挑战

  1. 延迟: 检索 + 重排 + LLM 调用的串行链路延迟高;
  2. 知识更新同步: 文档修改后索引一致性维护;
  3. 多语言/跨语言检索: 需要多语言 Embedding 模型;
  4. 敏感信息过滤: 检索结果中可能包含不该暴露给当前用户的内容(权限控制);
  5. 长文档处理: 超大文档的切块和多级索引策略;
  6. 评估闭环: 线上效果监控与数据飞轮建立。

6. 模型评估与 Agent 评估

Q1. BLEU/ROUGE 对现代 LLM 的局限性

  • 参考答案稀缺性: 开放式问题没有唯一正确答案;
  • 语义无感知: 只看 n-gram 重叠,同义表达得分极低;
  • 长度偏好: ROUGE 倾向于更长的生成;
  • 创造性惩罚: 创新表达方式反而得低分;
  • 低相关性: 与人类判断的相关系数在许多任务上低于 0.5。

Q2. 主流 LLM 综合基准测试

基准 侧重点 说明
MMLU 知识广度(57 学科) 高中/大学水平多选题
Big-Bench Hard 难推理任务 CoT 相关,Transformer 挑战任务
HumanEval / MBPP 代码生成 Pass@K 评估
MATH / GSM8K 数学推理 多步骤数学问题
MT-Bench 多轮对话质量 GPT-4 作为评委
HELM 全面综合评估 Stanford,多维度打分
LiveBench 防数据污染 月更题目,避免 benchmark 泄漏

Q3. LLM-as-a-Judge

优点:

  • 比 BLEU/ROUGE 更接近人类判断;
  • 可扩展,成本远低于人工评估;
  • 可解释(提供评分理由)。
    主要偏见:
  • 位置偏见: 倾向于选择对话中排名靠前的回答;
  • 长度偏见: 偏好更长的回答;
  • 自我强化偏见: 同系模型互评时评分虚高;
  • 时效偏见: 无法评估事实性错误(judge 不知道正确答案)。
    缓解: 校准 prompt、多次随机顺序评测、结合人工抽检。

参考资料:


Q4. 评估特定能力的方案设计

事实性/幻觉评估:

  • TruthfulQA:测试模型是否会重复人类常见误区;
  • FActScore:将生成文本分解为原子事实,逐一验证;
  • 人工核查 + 可信知识库比对。
    推理能力:
  • GSM8K(数学推理)、ARC-Challenge(科学推理)、HellaSwag(常识推理);
  • 关注 CoT 的正确性,而非只看最终答案。
    安全性:
  • AdvBench:对抗性 prompt 下有害内容生成率;
  • Safety Eval:分类有害行为类别(暴力/歧视/违法等);
  • Red-Teaming 自动化测试。

Q5. 评估 Agent 比评估 LLM 更困难的原因

  • 多步骤依赖: 中间步骤的错误会在最终结果中被掩盖或放大;
  • 环境交互: 需要搭建真实或模拟环境(高成本);
  • 目标模糊: 复杂任务难以定义"完全成功";
  • 非确定性: 同一任务因 LLM 随机性可能有不同执行路径,评估需多次采样;
  • 过程 vs 结果: 结果相同但过程低效/不安全的 Agent 如何评价?

Q6. Agent 评估基准

基准 环境 任务类型
WebArena 真实网站模拟 网页操作任务
SWE-bench GitHub Issues 代码修复
AgentBench 多环境综合 OS/数据库/网页等
GAIA 现实世界问题 需工具辅助的复杂问答
τ-bench 电话/购物场景 Tool-Agent 对话
OSWorld 桌面 GUI 操作系统任务

Q7. Agent 评估的过程指标

除了最终成功率,还应关注:

  • 步骤效率: 完成任务的平均步骤数;
  • 工具调用成功率: 错误调用/格式错误的比例;
  • Cost(token 消耗): 每任务平均 token 数和 API 费用;
  • 鲁棒性: 任务变体/干扰条件下的成功率;
  • 回退率: 遇到错误后能否自我修正;
  • 安全违规率: 执行过程中是否产生有害行为。

Q8. 红队测试(Red-Teaming)

定义: 专门尝试找出模型安全漏洞、有害行为和能力边界的对抗性测试方法,源于军事演习概念。

在 LLM/Agent 中的作用:

  • 发现越狱(Jailbreak)方法:通过特定 prompt 绕过安全过滤;
  • 揭露偏见:触发性别、种族等歧视性输出;
  • 探测 Agent 的权限滥用风险;
  • 发现记忆/工具模块的安全漏洞。
    方法: 人工 Red-Teaming(专家测试)+ 自动 Red-Teaming(对抗性 LLM 生成攻击 prompt)。

7. LLM 前景与发展

Q1. 距离 AGI 还有多远?最关键缺失能力?

当前缺失的关键能力:

  1. 持续学习: 无法像人类一样持续从经验中学习,不产生灾难性遗忘;
  2. 因果推理: 目前主要是相关性,缺乏深层因果理解;
  3. 世界模型: 缺乏对物理世界的内在模拟能力;
  4. 长期规划与自主目标设定: 超出当前上下文的持续目标维持;
  5. 元学习: 真正的"学会如何学习",而非 in-context 模拟。
    大多数研究者认为当前 LLM 是"高级模式匹配"而非"真正推理",AGI 可能需要架构层面的根本突破。

Q2. 多模态融合的未来方向

  • 近期: 视频理解、音频-语言联合(Gemini 1.5、GPT-4o);
  • 中期: 触觉、嗅觉等更多感官的接入(具身场景);
  • 长期: 跨模态的统一世界模型,能够在任意模态间推理和生成;
  • 关键挑战: 多模态的对齐与幻觉问题随模态增多而指数级复杂。

Q3. 开源 vs 闭源生态

开源(LLaMA/Qwen/Mistral) 闭源(GPT-4/Claude/Gemini)
透明可审计,可本地部署 最前沿能力,API 方便
社区驱动创新 安全团队更完整
数据隐私保障 多模态/大规模部署优化
成本低,可定制 性能上限更高

趋势: 开源模型能力快速接近闭源(LLaMA 3.1 405B 接近 GPT-4),但顶级能力仍集中在少数闭源模型。两者将长期共存。


Q7. LLM 个性化与隐私平衡

  • 联邦学习(Federated Learning): 数据不出本地,只上传梯度;
  • 差分隐私(DP): 在训练/推理中加入噪声保护个体隐私;
  • 本地推理(On-device): 个人模型在设备端运行,数据不上云;
  • 安全多方计算(SMPC): 多方协同推理而不泄露各方数据。

Q8. Transformer 会被取代吗?

SSM(State Space Model,如 Mamba)的潜力:

  • 线性计算复杂度(vs Transformer 的 $O(n^2)$);
  • 长序列处理更高效;
  • 但在纯语言建模上仍略逊于 Transformer。
    当前判断: Transformer 在近 2-3 年内不会被取代,但 Hybrid 架构(Transformer + SSM)如 Jamba 已出现,SSM 可能在超长上下文场景取得优势。

参考资料:


8. 其它开放性问题

Q1. 限制 Agent 能力普及的最大瓶颈

综合来看,可靠性(Reliability) 是最核心瓶颈:

  • 错误率在多步骤任务中指数级累积(每步 90% 成功率,10 步后整体成功率 < 35%);
  • 用户无法容忍企业级任务中的随机性失败;
  • 其次是成本(多轮 LLM 调用费用高)和延迟(用户等待时间长)。

Q6. 对初学者进入 Agent 领域的建议

学习路径:

  1. LLM 基础: Transformer 原理 → Prompt Engineering → LLM API 使用;
  2. 工具链: LangChain/LlamaIndex 实战 → 构建简单 RAG 系统;
  3. Agent 框架: ReAct → Function Calling → 多 Agent 框架(AutoGen/CrewAI);
  4. 评估: 学会设计评估方案、使用 RAGAS/AgentBench;
  5. 动手: 做一个完整的 Agent 项目(端到端,从问题到部署)。
    重点技术:
  • Python + LLM API(OpenAI/Anthropic);
  • 向量数据库(Chroma/Faiss);
  • 工具开发与 Function Calling;
  • Prompt Engineering(Few-shot, CoT, System Prompt 设计)。

Q7. 顶尖 AI Agent 工程师的核心素质

  1. 工程能力: 能将研究原型转化为可靠的生产系统;
  2. 系统思维: 从全链路视角设计 Agent 架构;
  3. 评估驱动: 先定义评估,再迭代优化,避免"感觉好"的陷阱;
  4. 快速实验: 低成本验证假设,不过度设计;
  5. 持续学习: LLM 领域 3 个月一代,需要追踪最新论文;
  6. 跨域知识: 结合目标业务领域(金融/医疗/法律)深度理解需求。

Q8. 如何建议使用 AI(以 Coding 为例)

推荐工具:

  • Claude / GPT-4o: 复杂架构设计、代码审查、debug 解释;
  • GitHub Copilot / Cursor: IDE 集成,行级/块级代码补全;
  • Claude Code / Aider: 终端 Agent,处理多文件重构任务。
    使用建议:
  1. 先理解,再用 AI: 不要复制不理解的代码;
  2. 提供充分上下文: 把需求、约束、现有代码一起给到 AI;
  3. 迭代细化: 先要框架,再要细节,而非一次性要完整代码;
  4. 代码审查: 把 AI 当"初级工程师",生成后必须 review;
  5. 测试驱动: 先让 AI 写测试,再写实现,提高质量。

参考资料汇总

分类 资源
Transformer 基础 The Illustrated Transformer
LLM 综合学习 Lilian Weng Blog
RLHF 入门 Illustrating RLHF – Hugging Face
Agent 综述 LLM Powered Autonomous Agents
RAG 实践 RAG from Scratch – LangChain
论文追踪 Papers with Code / Arxiv Sanity
模型评估 MTEB Leaderboard / Open LLM Leaderboard
DeepSeek 技术报告 DeepSeek-R1 / DeepSeek-V3
Qwen 技术报告 Qwen2.5

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions