目录
- LLM
- VLM
- RLHF
- Agent
- RAG
- 模型评估与 Agent 评估
- LLM 前景与发展
- 其它开放性问题
1. LLM
Q1. Transformer 自注意力机制如何工作?为何比 RNN 更适合长序列?
核心机制:
自注意力(Self-Attention)让序列中每个位置都能直接与其他所有位置交互,计算步骤如下:
- 将输入向量 $X$ 分别乘以三个可训练矩阵,得到 Query(Q)、Key(K)、Value(V);
- 计算注意力分数:$\text{Attention}(Q,K,V) = \text{softmax}!\left(\dfrac{QK^T}{\sqrt{d_k}}\right)V$;
- 多头注意力(MHA)将上述过程并行执行 $h$ 次,再拼接输出。
为何优于 RNN:
| 维度 |
RNN |
Transformer |
| 长距离依赖 |
梯度消失,难以捕捉 |
任意两个 token 直接交互,路径长度为 O(1) |
| 并行性 |
序列依赖,无法并行 |
全并行,训练速度快 |
| 复杂度 |
$O(n \cdot d^2)$ |
$O(n^2 \cdot d)$(但可并行化) |
参考资料:
Q2. 什么是位置编码?为什么必要?有哪些实现方式?
为何必要: 自注意力本身是置换不变的(permutation-invariant),不含顺序信息,必须额外注入位置信息。
主要实现方式:
-
绝对正弦位置编码(原版 Transformer): 用固定的 $\sin/\cos$ 函数编码每个位置,不需学习,可外推到更长序列,但缺乏相对位置感知。
-
可学习绝对位置编码(BERT/GPT): 每个位置有一个可训练 embedding,灵活但无法外推训练长度之外。
-
相对位置编码(RPE): 在注意力分数中加入相对距离偏置(如 T5、ALiBi)。
-
旋转位置编码 RoPE: 见 Q3。
参考资料:
Q3. 详细介绍 RoPE,对比绝对位置编码的优劣势
原理: RoPE(Rotary Position Embedding)将位置信息编码为旋转矩阵,作用于 Q、K 向量。对于位置 $m$,将向量分组为 2D 对,并旋转角度 $m\theta_i$:
$$\text{RoPE}(x, m) = x \cdot e^{im\theta}$$
注意力分数中,位置 $m$ 和 $n$ 的内积只与相对距离 $m-n$ 有关,自然具备相对位置感知。
优势:
Q4. MHA、MQA、GQA 的区别
| 机制 |
Key/Value 头数 |
参数量 |
推理速度 |
代表模型 |
| MHA(多头注意力) |
= Q 头数(h) |
最大 |
最慢(KV cache 大) |
BERT、GPT-2 |
| MQA(多查询注意力) |
1 |
最小 |
最快 |
PaLM、Falcon |
| GQA(分组查询注意力) |
Q 头数 / 组数 g |
居中 |
居中 |
LLaMA 2/3、Mistral |
核心思路: MQA/GQA 让多个 Q 头共享同一组 KV,减少 KV cache 显存占用,加速推理,是大模型部署的常用优化手段。GQA 是 MHA 和 MQA 的折中方案,在质量损失极小的情况下大幅提速。
参考资料:
Q5. Encoder-Only / Decoder-Only / Encoder-Decoder 对比
| 架构 |
特点 |
擅长任务 |
代表模型 |
| Encoder-Only |
双向注意力,感知全文 |
文本分类、NER、语义匹配 |
BERT、RoBERTa |
| Decoder-Only |
单向(因果)注意力,自回归生成 |
文本生成、对话、代码、推理 |
GPT 系列、LLaMA、Qwen |
| Encoder-Decoder |
编码理解 + 解码生成 |
翻译、摘要、问答 |
T5、BART、mT5 |
当前主流 LLM 几乎全部采用 Decoder-Only,因为它在大规模预训练下表现最优,且通过 in-context learning 能涌现出理解能力。
Q6. Scaling Laws 是什么?
核心结论(Chinchilla Laws,Hoffmann et al., 2022):
Q7. LLM 推理阶段的解码策略
| 策略 |
原理 |
优点 |
缺点 |
| Greedy Search |
每步选概率最大的 token |
简单快速 |
局部最优,输出单调 |
| Beam Search |
维护 $k$ 条候选序列 |
质量较高 |
计算量大,多样性低 |
| Top-K Sampling |
从概率最高的 K 个中采样 |
多样性好 |
K 难调,分布差时效果差 |
| Top-P (Nucleus) |
从累积概率超过 P 的最小集合中采样 |
自适应词表大小 |
P 的选择影响大 |
| Temperature |
调整 logits 的尖锐度 |
控制随机性 |
与上述策略组合使用 |
实际使用中,top_p=0.9, temperature=0.7 是常见的通用配置,代码生成任务可适当降低 temperature。
Q8. 词元化(Tokenization):BPE vs WordPiece
BPE(Byte-Pair Encoding):
- 从字符级开始,反复合并频次最高的相邻字节对;
- 用于 GPT 系列、LLaMA、Qwen;
- 不需要概率模型,纯频次驱动。
WordPiece:
- 与 BPE 类似,但合并依据是最大化语言模型似然(LM likelihood),而非纯频次;
- 用于 BERT;
- 未知词会被拆分为
## 前缀的子词。
SentencePiece 是两者的工程实现框架(支持 BPE/Unigram),独立于空格分词,对中文等无空格语言友好。
参考资料:
Q9. NLP 与 LLM 的区别与联系
共同点: 都处理自然语言;核心任务(分类、生成、理解)重叠;共享词向量、注意力等技术基础。
最大区别:
| 维度 |
传统 NLP |
LLM |
| 范式 |
任务特定模型,监督学习 |
统一预训练 + Prompt/Few-shot |
| 能力 |
单任务,依赖特征工程 |
多任务涌现,zero-shot 泛化 |
| 数据 |
标注数据驱动 |
海量无标注文本预训练 |
| 评估 |
任务特定指标(F1 等) |
综合基准(MMLU 等) |
LLM 是 NLP 的范式革命,将"特征工程"转移到了模型规模和数据质量。
Q10. L1 和 L2 正则化
|
L1(Lasso) |
L2(Ridge) |
| 惩罚项 |
$\lambda \sum |
w_i |
| 效果 |
产生稀疏解(部分权重归零) |
权重均匀缩小,不归零 |
| 适合场景 |
特征选择、高维稀疏问题 |
防止过拟合、特征相关性高时 |
| 几何直觉 |
约束域是菱形,角点稀疏 |
约束域是圆形,解均匀 |
在 LLM 中,常用 Weight Decay(L2)防止训练过拟合;L1 因其稀疏性在剪枝中有应用。
Q11. 涌现能力(Emergent Abilities)
定义: 指在小模型上几乎不存在、而在大模型上突然出现的能力,不是性能的平滑提升,而是质的跃变。
典型例子: 算术运算、多步推理、思维链(CoT)等在 GPT-3(175B)级别前几乎不存在。
涌现门槛: 一般认为在数十亿至数百亿参数规模附近出现,但具体阈值与任务高度相关。
争议: Wei et al. (2022) 记录了涌现现象,但 Schaeffer et al. (2023) 认为涌现可能是评估指标选择的产物(非线性指标掩盖了连续变化)。
参考资料:
Q12. LLM 常用激活函数
| 激活函数 |
公式 |
特点 |
使用模型 |
| ReLU |
$\max(0,x)$ |
简单,但存在"dying ReLU" |
早期 Transformer |
| GELU |
$x \cdot \Phi(x)$ |
平滑,性能好 |
BERT、GPT-2 |
| SwiGLU |
$\text{Swish}(xW) \odot (xV)$ |
门控结构,效果最优 |
LLaMA、Qwen、PaLM |
| GeGLU |
$\text{GELU}(xW) \odot (xV)$ |
与 SwiGLU 类似 |
T5、Gemma |
为何选 SwiGLU: 实验表明 SwiGLU 比 ReLU/GELU FFN 有稳定的性能提升(+1–2% 精度),且参数效率高,已成为当前大模型的标准选择。
参考资料:
Q13. 混合专家模型(MoE)工作原理
核心思想: 将 FFN 层替换为多个"专家"网络,每次前向传播通过路由器(Router)只激活 Top-K 个专家。
流程:
- 路由器对每个 token 计算专家得分:$g = \text{softmax}(xW_g)$;
- 只选 Top-K(通常 K=2)个专家参与计算;
- 将 K 个专家的输出加权求和作为结果。
优势: 总参数量大(如 Mixtral 8×7B 共 56B),但每次推理只激活约 1/4 参数,FLOPs 接近 13B 稠密模型。
挑战: 负载均衡(防止部分专家被过度选择)、通信开销(分布式训练中跨 GPU 通信)。
参考资料:
Q14. 训练百/千亿参数 LLM 的主要挑战
显存挑战:
- 模型并行:张量并行(TP)、流水线并行(PP)、序列并行(SP);
- ZeRO(Zero Redundancy Optimizer)将优化器状态、梯度、参数分片到多卡;
- 混合精度训练(BF16 + FP32 优化器状态)。
通信挑战:
- All-Reduce 通信是瓶颈,需要高速互联(NVLink/InfiniBand);
- 流水线并行引入 bubble,需要 1F1B 调度优化。
训练稳定性:
- 梯度爆炸:梯度裁剪(clip norm);
- Loss spike:学习率 warmup、权重初始化策略;
- 数值溢出:使用 BF16 替代 FP16。
参考资料:
- Megatron-LM (Shoeybi et al., 2019)
- ZeRO (Rajbhandari et al., 2020)
Q15. Qwen 和 DeepSeek 的创新点
Qwen 系列创新点:
- 采用 GQA + RoPE + SwiGLU 标准架构;
- 长上下文支持:Qwen2.5 支持 128K context(YaRN 外推);
- 多语言训练数据质量优化;
- Qwen2.5-Coder/Math 等专域模型。
DeepSeek 系列创新点:
- DeepSeek-V2/V3: MLA(Multi-head Latent Attention),将 KV cache 压缩至低秩表示,推理显存降低 5-13×;细粒度 MoE(每层 256 个专家,激活 8 个);
- DeepSeek-R1: 纯 RL 训练(GRPO),无 SFT 冷启动,推理能力媲美 o1;证明了强化学习可以驱动推理涌现;
- MLA(Multi-head Latent Attention): 核心创新,将 KV 投影到低维潜空间后存储,大幅降低推理成本。
参考资料:
- DeepSeek-V3 Technical Report
- DeepSeek-R1 (2025)
- Qwen2.5 Technical Report
2. VLM
Q1. 多模态大模型的核心挑战
- 模态对齐(Alignment): 视觉空间与语言语义空间的映射;
- 信息融合(Fusion): 何时融合、如何融合(early/late/cross-attention);
- 数据质量: 高质量图文对的获取与清洗;
- 幻觉问题: 模型生成与图像不符的描述;
- 高分辨率处理: token 数量爆炸(见 Q8)。
Q2. CLIP 的工作原理
对比学习框架:
- 双编码器:Image Encoder(ViT/ResNet)+ Text Encoder(Transformer);
- 正样本:同一图文对;负样本:Batch 内其他配对;
- 损失:对称 InfoNCE(对比损失),让匹配图文 embedding 相似,不匹配的相远;
- 训练数据:4 亿互联网图文对(WIT)。
关键公式:
$$L = -\frac{1}{N}\sum_{i} \log \frac{\exp(\text{sim}(v_i, t_i)/\tau)}{\sum_j \exp(\text{sim}(v_i, t_j)/\tau)}$$
参考资料:
Q3. LLaVA/MiniGPT-4 架构如何连接 Vision Encoder 与 LLM
LLaVA 架构:
- Vision Encoder: 冻结的 CLIP ViT,输出视觉 token 序列;
- Projection Layer: 轻量 MLP(或 Cross-Attention),将视觉 token 映射到 LLM 的 embedding 空间;
- LLM(LLaMA/Vicuna): 接收 [视觉 token] + [文本 token] 的拼接序列,自回归生成。
训练两阶段:
- Stage 1:冻结两端,只训练 Projection Layer(特征对齐);
- Stage 2:解冻 LLM,端到端微调(视觉指令调优)。
MiniGPT-4 与此类似,但使用 Q-Former(来自 BLIP-2)作为桥接模块。
参考资料:
Q4. 视觉指令微调(Visual Instruction Tuning)
定义: 使用 <image> + 指令 → 回答 格式的数据对 VLM 进行监督微调,赋予模型遵循多模态指令的能力。
为何关键:
- 预训练只学习图文对齐,不具备指令跟随能力;
- 指令微调数据多样性决定了模型的泛化能力;
- LLaVA-Instruct 数据集由 GPT-4 自动生成,低成本高质量。
Q5. 视频 VLM 额外需要解决的问题
- 时序建模: 静态图无时序,视频需要建模帧间运动/因果关系(3D Conv、时序注意力、Video Token Compression);
- 冗余压缩: 视频帧间高度冗余,需采样关键帧或使用 Token Merging 减少计算;
- 长视频理解: 分钟级视频 token 量极大,需层级压缩或记忆机制。
代表方法: Video-LLaMA、InternVL-Video、Qwen2.5-VL 的动态分辨率视频处理。
Q6. Grounding 的含义与评估
含义: 将文本描述"接地"到图像的具体区域,即从语言到视觉坐标的定位(如 Phrase Grounding、Referring Expression Comprehension)。
评估指标:
- Acc@0.5: 预测框与真实框 IoU > 0.5 的比例;
- PointAcc: 预测点落在目标区域内的比例;
- 数据集:RefCOCO、RefCOCO+、Visual Genome。
Q7. VLM 架构范式对比
| 范式 |
代表 |
优点 |
缺点 |
| 共享编码器(Dual-Encoder) |
CLIP |
高效检索,分离编码 |
深层融合不足 |
| 跨模态注意力融合 |
Flamingo |
深层融合,少样本泛化强 |
计算量大 |
| 线性投影拼接 |
LLaVA |
简单高效,训练快 |
融合较浅 |
| Q-Former 瓶颈 |
BLIP-2 |
信息过滤,减少视觉 token |
信息损失风险 |
Q8. 高分辨率输入图像的挑战
-
token 爆炸: 分辨率翻倍 → token 数量翻 4 倍,计算复杂度 $O(n^2)$ 暴增;
-
解决方案:
-
动态分辨率(Dynamic Resolution): 将图像切成多个子块分别编码(如 LLaVA-1.5、InternVL2、Qwen2.5-VL);
-
Token 压缩/Pooling: Average Pooling 或 Cross-Attention 压缩视觉 token 数;
-
S2(Scaling on Scales): 多尺度特征融合。
Q9. VLM 的幻觉问题
与纯文本 LLM 的区别:
- 纯文本:幻觉主要是知识性错误(编造事实);
- VLM:额外存在视觉幻觉,即模型忽视图像内容,依赖语言先验生成不符合图像的描述。
典型例子:
- 图中有 3 个苹果,模型说"图中有一盘水果";
- 图中没有文字,但模型"读出"了文字;
- 物体存在但属性描述错误(颜色、位置)。
缓解方法: RLHF/DPO 对齐、对比解码(Contrastive Decoding)、视觉注意力监督。
参考资料:
Q10. VLM 的前沿应用方向
- GUI Agent: 理解屏幕截图、自动操作 UI(如 Claude Computer Use、UI-JEPA);
- 医疗影像: CT/MRI 报告生成、病理图像分析;
- 具身智能: 机器人视觉感知 + 语言规划(RT-2、OpenVLA);
- 文档理解: PDF/表格/图表问答(DocVQA);
- 科学图像分析: 分子结构、天文图像理解。
3. RLHF
Q1. RLHF 解决了 SFT 的哪些问题?
SFT 的局限:
- 只学习模仿数据,无法超越示范质量上界;
- 标注员难以给出"最优"回答,但容易判断两个回答的相对好坏;
- 对有害输出无显式惩罚机制;
- SFT 在安全性、诚实性方面无法有效对齐人类价值观。
RLHF 的贡献: 将人类偏好作为优化目标,使模型超越示范数据的上界,并显式约束有害行为。
Q2. 经典 RLHF 的三个阶段
Stage 1 — SFT(监督微调):
- 输入:高质量指令-回答对;
- 输出:SFT 模型(Π_SFT);
- 目标:获得基本的指令遵循能力。
Stage 2 — 奖励模型训练(RM Training):
- 输入:同一 prompt 的多个回答,标注员的偏好排序;
- 输出:奖励模型 $r_\phi(x, y)$;
- 目标:学习人类偏好的代理函数。
Stage 3 — RL 优化(PPO):
- 输入:Prompt 集合、RM、SFT 参考模型;
- 输出:对齐后的策略 Π_RL;
- 目标:最大化 $\mathbb{E}[r_\phi(x,y)] - \beta \cdot \text{KL}(\Pi_{RL} | \Pi_{SFT})$。
Q3. 成对比较数据 vs 绝对评分
成对比较的优势:
- 人类对相对判断更一致(心理学研究支持);
- 避免评分尺度不一致问题(不同标注员对"7分"理解不同);
- 数据标注更快、跨标注员一致性更高。
劣势:
- 无法表达"两个都很差"或"两个都很好";
- 组合爆炸:n 个回答需要 $O(n^2)$ 对比较;
- 排序不一定满足传递性。
Q4. 奖励模型设计与 Bradley-Terry 模型
架构: 通常使用与 LLM 同架构的 Transformer,在最后一个 token 的隐状态后加线性层输出标量奖励。
损失函数(Bradley-Terry 模型):
$$P(y_w \succ y_l) = \frac{\exp(r(x, y_w))}{\exp(r(x, y_w)) + \exp(r(x, y_l))} = \sigma(r(x, y_w) - r(x, y_l))$$
$$L = -\mathbb{E}_{(x, y_w, y_l)} \left[\log \sigma(r_\phi(x, y_w) - r_\phi(x, y_l))\right]$$
与 LLM 的关系: 通常从 SFT 模型初始化(共享表示空间),只修改最后一层。
Q5. 为何选择 PPO 而非 REINFORCE 或 Q-learning?
| 算法 |
问题 |
| REINFORCE |
高方差,训练不稳定,sample efficiency 极低 |
| Q-learning |
需要学习 Q 函数,语言动作空间太大(词表大小),不适用 |
PPO 的优势:
- Clipped surrogate objective 限制更新幅度,稳定训练;
- 利用重要性采样可多次更新同一 batch;
- KL 惩罚防止策略偏离参考模型过远。
$$L^{CLIP}(\theta) = \mathbb{E}\left[\min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)\right]$$
Q6. KL 散度系数 β 的影响
| β 过大 |
β 过小 |
| 策略被强制贴近 SFT,优化空间受限 |
策略偏离 SFT,产生奖励黑客 |
| 奖励提升有限 |
奖励虚高但实际质量下降 |
| 模型多样性降低 |
输出退化(重复、极端格式) |
调整方法: 动态 KL 控制(自适应 β),观察 KL 散度曲线,将其维持在预设范围内(一般 0.1–0.5 nats)。
Q7. 奖励黑客(Reward Hacking)
定义: 策略学会了优化奖励模型的缺陷,而非真正的人类偏好。
例子:
- 回答过长(RM 偏好详细回答 → 生成冗余废话);
- 过度谄媚(RM 偏好积极语气 → 无论如何都说"这是个好问题");
- 格式作弊(发现 RM 对特定标点格式打高分 → 滥用格式)。
缓解策略:
- 多样化 RM 训练数据;
- 使用独立的 KL 惩罚约束;
- 设置长度惩罚;
- 定期用人工评估校准。
Q8. DPO vs 传统 RLHF(PPO)
DPO(Direct Preference Optimization)核心思想:
将 RL 问题转化为有监督的分类问题,绕过显式奖励模型。推导证明最优策略满足:
$$r^_(x,y) = \beta \log \frac{\Pi^_(y|x)}{\Pi_{ref}(y|x)} + \beta \log Z(x)$$
直接优化策略使其匹配偏好数据中的 $y_w$ 相对于 $y_l$:
$$L_{DPO} = -\mathbb{E}\left[\log \sigma!\left(\beta \log\frac{\Pi_\theta(y_w|x)}{\Pi_{ref}(y_w|x)} - \beta \log\frac{\Pi_\theta(y_l|x)}{\Pi_{ref}(y_l|x)}\right)\right]$$
| 维度 |
PPO |
DPO |
| 实现复杂度 |
高(需 RM + PPO 基础设施) |
低(类 SFT 训练) |
| 稳定性 |
较低,需要精细调参 |
较高 |
| 效果 |
在复杂任务上通常更强 |
简单任务上与 PPO 持平 |
| 在线 vs 离线 |
在线(on-policy) |
离线(off-policy) |
参考资料:
Q9. RLHF 后奖励高但用户反馈差的原因分析
可能原因:
- 奖励黑客: 模型学会了让 RM 打高分的表面特征,而非真实质量;
- 分布偏移: 线上 prompt 与训练分布不一致;
- RM 过拟合: RM 本身泛化性差,无法准确反映真实人类偏好;
- 评估盲区: "模式化"和"谄媚"在离线 pair-wise 评估中难以被检测。
解决方向:
- 引入长度惩罚、多样性奖励;
- 上线 A/B 实验,收集在线反馈更新 RM;
- 使用 Constitutional AI 或 RLAIF 增加偏好数据多样性。
Q10. DeepSeek GRPO vs PPO
GRPO(Group Relative Policy Optimization):
- 对同一 prompt 采样 $G$ 个回答组成 group;
- 用 group 内的相对奖励(减均值、除标准差)作为优势估计,无需 Critic 网络;
- 大幅减少了训练时的显存开销(PPO 需要同时维护 Actor + Critic + RM + SFT 四个模型)。
$$A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)}$$
| 维度 |
PPO |
GRPO |
| Critic 网络 |
需要 |
不需要 |
| 显存 |
极大(4 模型) |
较小(2-3 模型) |
| 优势估计 |
GAE(需 value function) |
group 统计量 |
| 适合场景 |
通用 RLHF |
可验证任务(数学、代码) |
参考资料:
Q11. GSPO 和 DAPO
GSPO(Group Sequence Policy Optimization,字节跳动):
- 在 sequence 级别计算重要性采样比率(而非 token 级别),避免 token 级别 ratio 方差过大;
- 更稳定的 clipping 机制。
DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization,阿里巴巴):
- 解耦 clip ratio 上下界($\epsilon_{high} \neq \epsilon_{low}$),允许好回答的提升更大;
- 动态采样:过滤全对/全错的 group,只保留有信息量的样本;
- token 级别策略梯度损失(减少长回答的优化偏差)。
与 GRPO 的核心区别: 都是基于 group sampling,但在 clip 机制、采样策略、梯度计算粒度上做了不同改进,进一步稳定训练并提升效果。
Q12. 信用分配问题:Token 级 vs Seq 级奖励
Seq 级奖励(GRPO/REINFORCE 常用):
- 整个序列完成后才给出奖励(如数学题最终答案对/错);
- 信用分配困难:不知道哪些 token 贡献了最终结果;
- 方差大,但符合真实评估场景。
Token 级奖励:
- 对每个 token 计算细粒度奖励(如 Process Reward Model, PRM);
- 信用分配清晰,方差小,训练更高效;
- 需要更密集的标注(每步骤正确性)。
实践: DeepSeek-R1 等用 Outcome Reward(seq 级),而 OmegaPRM、Math-Shepherd 等探索 PRM(token 级)。
Q13. RLAIF(AI 反馈强化学习)
定义: 用强大的 AI(如 Claude/GPT-4)代替人类标注偏好数据,再用这些数据训练奖励模型或直接做 DPO。
潜力:
4. Agent
Q1. LLM Agent 的定义与核心组件
定义: 以 LLM 为核心"大脑",能够感知环境、规划决策、调用工具并执行行动以完成目标的自主系统。
核心组件(Lilian Weng 框架):
Agent = LLM (Brain)
+ Planning (规划模块)
+ Memory (记忆模块)
+ Tool Use (工具调用)
Q2. ReAct 框架
ReAct = Reasoning + Acting
交替进行"思考"(Thought)和"行动"(Action),每次行动后观察环境(Observation),再继续思考。
格式示例:
Thought: 我需要查询北京今天的天气
Action: Search["北京今天天气"]
Observation: 北京今天晴,25°C
Thought: 已获得天气信息,可以回答用户
Answer: 北京今天晴,气温25°C
优势: 可解释性强、能处理复杂多步任务、失败时可追溯原因。
参考资料:
Q3. 赋予 LLM 规划能力的主流方法
| 方法 |
核心思路 |
适用场景 |
| CoT(思维链) |
逐步推理,"Let's think step by step" |
线性推理任务 |
| ToT(思维树) |
树状搜索多条推理路径,BFS/DFS + 评估 |
需要探索的复杂任务 |
| GoT(思维图) |
DAG 结构,允许推理路径合并 |
聚合型任务 |
| Self-Refine |
生成 → 反思 → 改进的迭代循环 |
开放式生成 |
| LLM+P |
将规划外包给符号规划器(PDDL) |
结构化规划领域 |
参考资料:
Q4. Agent 的记忆系统设计
| 记忆类型 |
实现方式 |
特点 |
| 短期记忆 |
Context Window(上下文窗口) |
有限容量,会话内有效 |
| 长期记忆 |
向量数据库(Faiss/Chroma/Weaviate) |
持久化,语义检索 |
| 外部记忆 |
结构化数据库、文件系统 |
精确查询,适合结构化信息 |
| 参数记忆 |
模型权重本身 |
通过微调更新,代价高 |
实践设计:
- 短期:滑动窗口 + 摘要压缩;
- 长期:重要记忆 embedding 后存入向量库,按相关性检索注入上下文。
Q5. LLM 如何学会工具调用(Function Calling)
- 指令微调: 使用包含工具调用格式的数据(JSON schema 定义工具参数)对 LLM 微调;
- 工具定义注入: 将工具 schema 注入 system prompt;
- 结构化输出: LLM 生成 JSON 格式的工具调用请求,外部框架解析并执行;
- 观察注入: 执行结果作为 tool_result 返回给 LLM 继续推理。
OpenAI Function Calling 和 Anthropic Tool Use 是两种主流实现规范。
Q6. LangChain vs LlamaIndex 对比
| 维度 |
LangChain |
LlamaIndex |
| 核心定位 |
通用 LLM 应用编排框架 |
数据索引与查询框架(专精 RAG) |
| 擅长场景 |
复杂 Agent 流程、链式调用、工具集成 |
文档问答、知识库构建、结构化数据查询 |
| 抽象层次 |
Chain/Agent/Tool 模式 |
Index/Retriever/Query Engine |
| 社区活跃度 |
极高,生态丰富 |
高,专注 RAG 质量 |
实践中两者常结合使用:LlamaIndex 处理数据层,LangChain 做编排层。
Q7. 构建复杂 Agent 的主要挑战
- 长程规划一致性: 多步任务中容易偏离初始目标("目标漂移");
- 错误累积: 早期错误在后续步骤中放大;
- 工具可靠性: 外部 API 的超时、格式不一致等问题;
- 幻觉行为: 在工具调用参数中产生虚假数据;
- 成本控制: 多轮 LLM 调用的 token 成本快速累积;
- 评估困难: 复杂任务难以定义"成功"标准。
Q8. 多智能体系统
优势:
- 任务分工:不同 Agent 专注不同子任务;
- 并行执行:提升效率;
- 相互验证:多 Agent 交叉检查减少错误;
- 模拟复杂环境(如 AutoGen 的对话群体)。
新增复杂性:
- 通信协议设计;
- 一致性保证(共享状态同步);
- 协调开销与死锁风险;
- 调试追踪困难。
代表框架: AutoGen(微软)、CrewAI、MetaGPT。
Q9. 具身 Agent vs 软件工具 Agent
| 维度 |
软件工具 Agent |
具身 Agent |
| 环境 |
虚拟/API 环境 |
物理世界 |
| 感知 |
文本/API 返回值 |
视觉、触觉、本体感知 |
| 行动 |
API 调用、文本生成 |
电机控制、物理操作 |
| 延迟 |
毫秒级 |
实时(毫秒级控制循环) |
| 错误后果 |
通常可撤销 |
不可逆(物理碰撞等) |
具身 Agent 还需要处理感知-行动闭环、部分可观测性(POMDP)等问题。
Q10. Agent 行为的安全与对齐保障
- 宪法约束(Constitutional Rules): 硬编码禁止行为列表;
- 沙箱隔离: 工具调用在受限环境中执行;
- 人类监督节点(HITL): 关键步骤前需人工确认;
- 最小权限原则: 只赋予完成任务必要的工具权限;
- 行为日志与可解释性: 完整记录 Thought/Action 链供审计;
- Red-Teaming: 测试对抗性 prompt 下的行为边界。
Q11. A2A 框架(Agent-to-Agent)
A2A 框架(Google 提出): 定义 Agent 之间互操作的标准协议,使不同厂商/框架的 Agent 能够相互发现、通信和协作。
与普通 Agent 框架的最关键区别:
互操作性(Interoperability):普通框架(如 LangChain)假设所有 Agent 运行在同一代码库/运行时中;A2A 定义了跨异构系统的通信标准(基于 HTTP/SSE),允许一个 CrewAI Agent 与一个 LangGraph Agent 协作,就像 HTTP 让不同服务器互通一样。
这解决了多 Agent 生态碎片化的根本问题。
5. RAG
Q1. RAG 工作原理与优势
流程: Retrieve(检索相关文档) → Augment(注入上下文) → Generate(生成回答)
vs 微调的优势:
| 维度 |
微调 |
RAG |
| 知识更新 |
需重新训练,成本高 |
只更新知识库,即时生效 |
| 知识来源可追溯 |
难以溯源 |
可引用原始文档 |
| 处理私有知识 |
需要私有数据微调 |
直接索引私有文档 |
| 幻觉缓解 |
有限 |
基于检索文档生成,更可靠 |
参考资料:
Q2. 完整 RAG 流水线
原始文档
↓ 解析(PDF/HTML/Word → 纯文本)
↓ 切块(Chunking)
↓ Embedding 向量化
↓ 存入向量数据库
← 用户 Query
← Query Embedding
← 向量检索(Top-K)
← 重排(Reranking,可选)
← Prompt 构建(Query + 检索结果)
→ LLM 生成答案
Q3. 文本切块策略
切块大小的权衡:
- 太小(如 128 tokens): 语义不完整,上下文丢失,召回精度下降;
- 太大(如 1024 tokens): 噪声多,影响精度,超出 LLM 上下文窗口。
实践经验:
- 一般使用 512–1024 tokens,重叠 10–20%(约 50–100 tokens);
- 优先按语义边界切(段落 > 句子 > 固定字符);
- Hierarchical Chunking:小块索引 + 大块送给 LLM(提升精度同时保留上下文)。
Q4. Embedding 模型选择与评估
选择原则:
- 领域匹配(中文:BGE、M3E;代码:CodeBERT;多语言:E5-multilingual);
- 向量维度与延迟的平衡;
- 是否支持非对称检索(query vs document 不等长)。
评估指标:
- MTEB Benchmark(Massive Text Embedding Benchmark)综合排行;
- Recall@K(检索召回率);
- MRR(Mean Reciprocal Rank);
- 领域特定的端到端 RAG 效果。
参考资料:
- BGE (BAAI, 2023)
- MTEB Leaderboard
Q5. 提升 RAG 检索质量的进阶技术
- 混合检索(Hybrid Search): 向量检索 + BM25 关键词检索,结合 RRF 融合;
- 重排模型(Reranker): Cross-Encoder(如 BGE-Reranker)对 Top-K 结果重新打分;
- HyDE(假设文档嵌入): 先让 LLM 生成假设答案,用假设答案检索;
- Query 扩展/重写: 将模糊 query 改写为更准确的检索 query;
- 父子块检索(Parent-Child Chunking): 小块匹配,大块送 LLM;
- Self-RAG: 让 LLM 自主决定何时检索及是否使用检索结果。
Q6. "Lost in the Middle" 问题
现象: LLM 处理长上下文时,对位于中间位置的信息利用率显著低于头部和尾部(U 型注意力分布)。
缓解方法:
- 将最相关文档放在上下文开头或结尾;
- 减少送入 LLM 的文档数量(只取 Top-3 而非 Top-10);
- 重排(Reranking)保证最相关内容排在前面;
- 使用支持长上下文的模型(Qwen2.5-128K 等)。
参考资料:
Q7. RAG 系统的全面评估
检索阶段:
- Context Recall(相关文档是否被检索到);
- Context Precision(检索结果中相关比例)。
生成阶段:
- Answer Faithfulness(答案是否忠实于检索文档,反映幻觉程度);
- Answer Relevance(答案是否回答了问题);
- Answer Correctness(与 ground truth 对比)。
工具: RAGAS 框架可自动计算上述指标。
参考资料:
Q8. 图数据库/知识图谱 vs 向量数据库
选择图数据库/KG 的场景:
- 查询涉及多跳关系推理("A 的上司的直属下属有谁");
- 实体关系结构化、需要精确图遍历;
- 结合 GraphRAG(将文档解析为知识图谱再检索)。
选择向量数据库的场景:
- 语义相似性搜索;
- 非结构化文本;
- 快速原型。
GraphRAG(微软) 结合了两者:先构建知识图谱,再在图上做社区摘要和实体检索,处理全局查询效果更好。
Q9. 复杂 RAG 范式
- Iterative RAG: 生成过程中多次检索,每次检索基于当前生成内容动态调整 query;
- Self-RAG: LLM 自主决定是否需要检索(Retrieve token),并对检索结果打分(ISREL/ISSUP tokens);
- Adaptive RAG: 根据问题难度动态选择检索策略(no RAG / single-step / multi-step);
- FLARE(Forward-Looking Active REtrieval): 预测下一句时若置信度低则触发检索。
参考资料:
- Self-RAG (Asai et al., 2023)
Q10. RAG 实际部署挑战
- 延迟: 检索 + 重排 + LLM 调用的串行链路延迟高;
- 知识更新同步: 文档修改后索引一致性维护;
- 多语言/跨语言检索: 需要多语言 Embedding 模型;
- 敏感信息过滤: 检索结果中可能包含不该暴露给当前用户的内容(权限控制);
- 长文档处理: 超大文档的切块和多级索引策略;
- 评估闭环: 线上效果监控与数据飞轮建立。
6. 模型评估与 Agent 评估
Q1. BLEU/ROUGE 对现代 LLM 的局限性
- 参考答案稀缺性: 开放式问题没有唯一正确答案;
- 语义无感知: 只看 n-gram 重叠,同义表达得分极低;
- 长度偏好: ROUGE 倾向于更长的生成;
- 创造性惩罚: 创新表达方式反而得低分;
- 低相关性: 与人类判断的相关系数在许多任务上低于 0.5。
Q2. 主流 LLM 综合基准测试
| 基准 |
侧重点 |
说明 |
| MMLU |
知识广度(57 学科) |
高中/大学水平多选题 |
| Big-Bench Hard |
难推理任务 |
CoT 相关,Transformer 挑战任务 |
| HumanEval / MBPP |
代码生成 |
Pass@K 评估 |
| MATH / GSM8K |
数学推理 |
多步骤数学问题 |
| MT-Bench |
多轮对话质量 |
GPT-4 作为评委 |
| HELM |
全面综合评估 |
Stanford,多维度打分 |
| LiveBench |
防数据污染 |
月更题目,避免 benchmark 泄漏 |
Q3. LLM-as-a-Judge
优点:
- 比 BLEU/ROUGE 更接近人类判断;
- 可扩展,成本远低于人工评估;
- 可解释(提供评分理由)。
主要偏见:
- 位置偏见: 倾向于选择对话中排名靠前的回答;
- 长度偏见: 偏好更长的回答;
- 自我强化偏见: 同系模型互评时评分虚高;
- 时效偏见: 无法评估事实性错误(judge 不知道正确答案)。
缓解: 校准 prompt、多次随机顺序评测、结合人工抽检。
参考资料:
Q4. 评估特定能力的方案设计
事实性/幻觉评估:
- TruthfulQA:测试模型是否会重复人类常见误区;
- FActScore:将生成文本分解为原子事实,逐一验证;
- 人工核查 + 可信知识库比对。
推理能力:
- GSM8K(数学推理)、ARC-Challenge(科学推理)、HellaSwag(常识推理);
- 关注 CoT 的正确性,而非只看最终答案。
安全性:
- AdvBench:对抗性 prompt 下有害内容生成率;
- Safety Eval:分类有害行为类别(暴力/歧视/违法等);
- Red-Teaming 自动化测试。
Q5. 评估 Agent 比评估 LLM 更困难的原因
- 多步骤依赖: 中间步骤的错误会在最终结果中被掩盖或放大;
- 环境交互: 需要搭建真实或模拟环境(高成本);
- 目标模糊: 复杂任务难以定义"完全成功";
- 非确定性: 同一任务因 LLM 随机性可能有不同执行路径,评估需多次采样;
- 过程 vs 结果: 结果相同但过程低效/不安全的 Agent 如何评价?
Q6. Agent 评估基准
| 基准 |
环境 |
任务类型 |
| WebArena |
真实网站模拟 |
网页操作任务 |
| SWE-bench |
GitHub Issues |
代码修复 |
| AgentBench |
多环境综合 |
OS/数据库/网页等 |
| GAIA |
现实世界问题 |
需工具辅助的复杂问答 |
| τ-bench |
电话/购物场景 |
Tool-Agent 对话 |
| OSWorld |
桌面 GUI |
操作系统任务 |
Q7. Agent 评估的过程指标
除了最终成功率,还应关注:
- 步骤效率: 完成任务的平均步骤数;
- 工具调用成功率: 错误调用/格式错误的比例;
- Cost(token 消耗): 每任务平均 token 数和 API 费用;
- 鲁棒性: 任务变体/干扰条件下的成功率;
- 回退率: 遇到错误后能否自我修正;
- 安全违规率: 执行过程中是否产生有害行为。
Q8. 红队测试(Red-Teaming)
定义: 专门尝试找出模型安全漏洞、有害行为和能力边界的对抗性测试方法,源于军事演习概念。
在 LLM/Agent 中的作用:
- 发现越狱(Jailbreak)方法:通过特定 prompt 绕过安全过滤;
- 揭露偏见:触发性别、种族等歧视性输出;
- 探测 Agent 的权限滥用风险;
- 发现记忆/工具模块的安全漏洞。
方法: 人工 Red-Teaming(专家测试)+ 自动 Red-Teaming(对抗性 LLM 生成攻击 prompt)。
7. LLM 前景与发展
Q1. 距离 AGI 还有多远?最关键缺失能力?
当前缺失的关键能力:
- 持续学习: 无法像人类一样持续从经验中学习,不产生灾难性遗忘;
- 因果推理: 目前主要是相关性,缺乏深层因果理解;
- 世界模型: 缺乏对物理世界的内在模拟能力;
- 长期规划与自主目标设定: 超出当前上下文的持续目标维持;
- 元学习: 真正的"学会如何学习",而非 in-context 模拟。
大多数研究者认为当前 LLM 是"高级模式匹配"而非"真正推理",AGI 可能需要架构层面的根本突破。
Q2. 多模态融合的未来方向
- 近期: 视频理解、音频-语言联合(Gemini 1.5、GPT-4o);
- 中期: 触觉、嗅觉等更多感官的接入(具身场景);
- 长期: 跨模态的统一世界模型,能够在任意模态间推理和生成;
- 关键挑战: 多模态的对齐与幻觉问题随模态增多而指数级复杂。
Q3. 开源 vs 闭源生态
| 开源(LLaMA/Qwen/Mistral) |
闭源(GPT-4/Claude/Gemini) |
| 透明可审计,可本地部署 |
最前沿能力,API 方便 |
| 社区驱动创新 |
安全团队更完整 |
| 数据隐私保障 |
多模态/大规模部署优化 |
| 成本低,可定制 |
性能上限更高 |
趋势: 开源模型能力快速接近闭源(LLaMA 3.1 405B 接近 GPT-4),但顶级能力仍集中在少数闭源模型。两者将长期共存。
Q7. LLM 个性化与隐私平衡
- 联邦学习(Federated Learning): 数据不出本地,只上传梯度;
- 差分隐私(DP): 在训练/推理中加入噪声保护个体隐私;
- 本地推理(On-device): 个人模型在设备端运行,数据不上云;
- 安全多方计算(SMPC): 多方协同推理而不泄露各方数据。
Q8. Transformer 会被取代吗?
SSM(State Space Model,如 Mamba)的潜力:
- 线性计算复杂度(vs Transformer 的 $O(n^2)$);
- 长序列处理更高效;
- 但在纯语言建模上仍略逊于 Transformer。
当前判断: Transformer 在近 2-3 年内不会被取代,但 Hybrid 架构(Transformer + SSM)如 Jamba 已出现,SSM 可能在超长上下文场景取得优势。
参考资料:
8. 其它开放性问题
Q1. 限制 Agent 能力普及的最大瓶颈
综合来看,可靠性(Reliability) 是最核心瓶颈:
- 错误率在多步骤任务中指数级累积(每步 90% 成功率,10 步后整体成功率 < 35%);
- 用户无法容忍企业级任务中的随机性失败;
- 其次是成本(多轮 LLM 调用费用高)和延迟(用户等待时间长)。
Q6. 对初学者进入 Agent 领域的建议
学习路径:
- LLM 基础: Transformer 原理 → Prompt Engineering → LLM API 使用;
- 工具链: LangChain/LlamaIndex 实战 → 构建简单 RAG 系统;
- Agent 框架: ReAct → Function Calling → 多 Agent 框架(AutoGen/CrewAI);
- 评估: 学会设计评估方案、使用 RAGAS/AgentBench;
- 动手: 做一个完整的 Agent 项目(端到端,从问题到部署)。
重点技术:
- Python + LLM API(OpenAI/Anthropic);
- 向量数据库(Chroma/Faiss);
- 工具开发与 Function Calling;
- Prompt Engineering(Few-shot, CoT, System Prompt 设计)。
Q7. 顶尖 AI Agent 工程师的核心素质
- 工程能力: 能将研究原型转化为可靠的生产系统;
- 系统思维: 从全链路视角设计 Agent 架构;
- 评估驱动: 先定义评估,再迭代优化,避免"感觉好"的陷阱;
- 快速实验: 低成本验证假设,不过度设计;
- 持续学习: LLM 领域 3 个月一代,需要追踪最新论文;
- 跨域知识: 结合目标业务领域(金融/医疗/法律)深度理解需求。
Q8. 如何建议使用 AI(以 Coding 为例)
推荐工具:
- Claude / GPT-4o: 复杂架构设计、代码审查、debug 解释;
- GitHub Copilot / Cursor: IDE 集成,行级/块级代码补全;
- Claude Code / Aider: 终端 Agent,处理多文件重构任务。
使用建议:
- 先理解,再用 AI: 不要复制不理解的代码;
- 提供充分上下文: 把需求、约束、现有代码一起给到 AI;
- 迭代细化: 先要框架,再要细节,而非一次性要完整代码;
- 代码审查: 把 AI 当"初级工程师",生成后必须 review;
- 测试驱动: 先让 AI 写测试,再写实现,提高质量。
参考资料汇总
目录
1. LLM
Q1. Transformer 自注意力机制如何工作?为何比 RNN 更适合长序列?
核心机制:
自注意力(Self-Attention)让序列中每个位置都能直接与其他所有位置交互,计算步骤如下:
为何优于 RNN:
参考资料:
Q2. 什么是位置编码?为什么必要?有哪些实现方式?
为何必要: 自注意力本身是置换不变的(permutation-invariant),不含顺序信息,必须额外注入位置信息。
主要实现方式:
参考资料:
Q3. 详细介绍 RoPE,对比绝对位置编码的优劣势
原理: RoPE(Rotary Position Embedding)将位置信息编码为旋转矩阵,作用于 Q、K 向量。对于位置$m$ ,将向量分组为 2D 对,并旋转角度 $m\theta_i$ :
注意力分数中,位置$m$ 和 $n$ 的内积只与相对距离 $m-n$ 有关,自然具备相对位置感知。
优势:
劣势:
参考资料:
Q4. MHA、MQA、GQA 的区别
核心思路: MQA/GQA 让多个 Q 头共享同一组 KV,减少 KV cache 显存占用,加速推理,是大模型部署的常用优化手段。GQA 是 MHA 和 MQA 的折中方案,在质量损失极小的情况下大幅提速。
参考资料:
Q5. Encoder-Only / Decoder-Only / Encoder-Decoder 对比
当前主流 LLM 几乎全部采用 Decoder-Only,因为它在大规模预训练下表现最优,且通过 in-context learning 能涌现出理解能力。
Q6. Scaling Laws 是什么?
核心结论(Chinchilla Laws,Hoffmann et al., 2022):
指导意义:
参考资料:
Q7. LLM 推理阶段的解码策略
实际使用中,
top_p=0.9, temperature=0.7是常见的通用配置,代码生成任务可适当降低 temperature。Q8. 词元化(Tokenization):BPE vs WordPiece
BPE(Byte-Pair Encoding):
WordPiece:
##前缀的子词。SentencePiece 是两者的工程实现框架(支持 BPE/Unigram),独立于空格分词,对中文等无空格语言友好。
参考资料:
Q9. NLP 与 LLM 的区别与联系
共同点: 都处理自然语言;核心任务(分类、生成、理解)重叠;共享词向量、注意力等技术基础。
最大区别:
LLM 是 NLP 的范式革命,将"特征工程"转移到了模型规模和数据质量。
Q10. L1 和 L2 正则化
在 LLM 中,常用 Weight Decay(L2)防止训练过拟合;L1 因其稀疏性在剪枝中有应用。
Q11. 涌现能力(Emergent Abilities)
定义: 指在小模型上几乎不存在、而在大模型上突然出现的能力,不是性能的平滑提升,而是质的跃变。
典型例子: 算术运算、多步推理、思维链(CoT)等在 GPT-3(175B)级别前几乎不存在。
涌现门槛: 一般认为在数十亿至数百亿参数规模附近出现,但具体阈值与任务高度相关。
争议: Wei et al. (2022) 记录了涌现现象,但 Schaeffer et al. (2023) 认为涌现可能是评估指标选择的产物(非线性指标掩盖了连续变化)。
参考资料:
Q12. LLM 常用激活函数
为何选 SwiGLU: 实验表明 SwiGLU 比 ReLU/GELU FFN 有稳定的性能提升(+1–2% 精度),且参数效率高,已成为当前大模型的标准选择。
参考资料:
Q13. 混合专家模型(MoE)工作原理
核心思想: 将 FFN 层替换为多个"专家"网络,每次前向传播通过路由器(Router)只激活 Top-K 个专家。
流程:
优势: 总参数量大(如 Mixtral 8×7B 共 56B),但每次推理只激活约 1/4 参数,FLOPs 接近 13B 稠密模型。
挑战: 负载均衡(防止部分专家被过度选择)、通信开销(分布式训练中跨 GPU 通信)。
参考资料:
Q14. 训练百/千亿参数 LLM 的主要挑战
显存挑战:
通信挑战:
训练稳定性:
参考资料:
Q15. Qwen 和 DeepSeek 的创新点
Qwen 系列创新点:
DeepSeek 系列创新点:
参考资料:
2. VLM
Q1. 多模态大模型的核心挑战
Q2. CLIP 的工作原理
对比学习框架:
关键公式:
参考资料:
Q3. LLaVA/MiniGPT-4 架构如何连接 Vision Encoder 与 LLM
LLaVA 架构:
训练两阶段:
MiniGPT-4 与此类似,但使用 Q-Former(来自 BLIP-2)作为桥接模块。
参考资料:
Q4. 视觉指令微调(Visual Instruction Tuning)
定义: 使用
<image> + 指令 → 回答格式的数据对 VLM 进行监督微调,赋予模型遵循多模态指令的能力。为何关键:
Q5. 视频 VLM 额外需要解决的问题
代表方法: Video-LLaMA、InternVL-Video、Qwen2.5-VL 的动态分辨率视频处理。
Q6. Grounding 的含义与评估
含义: 将文本描述"接地"到图像的具体区域,即从语言到视觉坐标的定位(如 Phrase Grounding、Referring Expression Comprehension)。
评估指标:
Q7. VLM 架构范式对比
Q8. 高分辨率输入图像的挑战
Q9. VLM 的幻觉问题
与纯文本 LLM 的区别:
典型例子:
缓解方法: RLHF/DPO 对齐、对比解码(Contrastive Decoding)、视觉注意力监督。
参考资料:
Q10. VLM 的前沿应用方向
3. RLHF
Q1. RLHF 解决了 SFT 的哪些问题?
SFT 的局限:
RLHF 的贡献: 将人类偏好作为优化目标,使模型超越示范数据的上界,并显式约束有害行为。
Q2. 经典 RLHF 的三个阶段
Stage 1 — SFT(监督微调):
Stage 2 — 奖励模型训练(RM Training):
Stage 3 — RL 优化(PPO):
Q3. 成对比较数据 vs 绝对评分
成对比较的优势:
劣势:
Q4. 奖励模型设计与 Bradley-Terry 模型
架构: 通常使用与 LLM 同架构的 Transformer,在最后一个 token 的隐状态后加线性层输出标量奖励。
损失函数(Bradley-Terry 模型):
与 LLM 的关系: 通常从 SFT 模型初始化(共享表示空间),只修改最后一层。
Q5. 为何选择 PPO 而非 REINFORCE 或 Q-learning?
PPO 的优势:
Q6. KL 散度系数 β 的影响
调整方法: 动态 KL 控制(自适应 β),观察 KL 散度曲线,将其维持在预设范围内(一般 0.1–0.5 nats)。
Q7. 奖励黑客(Reward Hacking)
定义: 策略学会了优化奖励模型的缺陷,而非真正的人类偏好。
例子:
缓解策略:
Q8. DPO vs 传统 RLHF(PPO)
DPO(Direct Preference Optimization)核心思想:
将 RL 问题转化为有监督的分类问题,绕过显式奖励模型。推导证明最优策略满足:
直接优化策略使其匹配偏好数据中的$y_w$ 相对于 $y_l$ :
参考资料:
Q9. RLHF 后奖励高但用户反馈差的原因分析
可能原因:
解决方向:
Q10. DeepSeek GRPO vs PPO
GRPO(Group Relative Policy Optimization):
参考资料:
Q11. GSPO 和 DAPO
GSPO(Group Sequence Policy Optimization,字节跳动):
DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization,阿里巴巴):
与 GRPO 的核心区别: 都是基于 group sampling,但在 clip 机制、采样策略、梯度计算粒度上做了不同改进,进一步稳定训练并提升效果。
Q12. 信用分配问题:Token 级 vs Seq 级奖励
Seq 级奖励(GRPO/REINFORCE 常用):
Token 级奖励:
实践: DeepSeek-R1 等用 Outcome Reward(seq 级),而 OmegaPRM、Math-Shepherd 等探索 PRM(token 级)。
Q13. RLAIF(AI 反馈强化学习)
定义: 用强大的 AI(如 Claude/GPT-4)代替人类标注偏好数据,再用这些数据训练奖励模型或直接做 DPO。
潜力:
风险:
参考资料:
4. Agent
Q1. LLM Agent 的定义与核心组件
定义: 以 LLM 为核心"大脑",能够感知环境、规划决策、调用工具并执行行动以完成目标的自主系统。
核心组件(Lilian Weng 框架):
参考资料:
Q2. ReAct 框架
ReAct = Reasoning + Acting
交替进行"思考"(Thought)和"行动"(Action),每次行动后观察环境(Observation),再继续思考。
格式示例:
优势: 可解释性强、能处理复杂多步任务、失败时可追溯原因。
参考资料:
Q3. 赋予 LLM 规划能力的主流方法
参考资料:
Q4. Agent 的记忆系统设计
实践设计:
Q5. LLM 如何学会工具调用(Function Calling)
OpenAI Function Calling 和 Anthropic Tool Use 是两种主流实现规范。
Q6. LangChain vs LlamaIndex 对比
实践中两者常结合使用:LlamaIndex 处理数据层,LangChain 做编排层。
Q7. 构建复杂 Agent 的主要挑战
Q8. 多智能体系统
优势:
新增复杂性:
代表框架: AutoGen(微软)、CrewAI、MetaGPT。
Q9. 具身 Agent vs 软件工具 Agent
具身 Agent 还需要处理感知-行动闭环、部分可观测性(POMDP)等问题。
Q10. Agent 行为的安全与对齐保障
Q11. A2A 框架(Agent-to-Agent)
A2A 框架(Google 提出): 定义 Agent 之间互操作的标准协议,使不同厂商/框架的 Agent 能够相互发现、通信和协作。
与普通 Agent 框架的最关键区别:
这解决了多 Agent 生态碎片化的根本问题。
5. RAG
Q1. RAG 工作原理与优势
流程: Retrieve(检索相关文档) → Augment(注入上下文) → Generate(生成回答)
vs 微调的优势:
参考资料:
Q2. 完整 RAG 流水线
Q3. 文本切块策略
切块大小的权衡:
实践经验:
Q4. Embedding 模型选择与评估
选择原则:
评估指标:
参考资料:
Q5. 提升 RAG 检索质量的进阶技术
Q6. "Lost in the Middle" 问题
现象: LLM 处理长上下文时,对位于中间位置的信息利用率显著低于头部和尾部(U 型注意力分布)。
缓解方法:
参考资料:
Q7. RAG 系统的全面评估
检索阶段:
生成阶段:
工具: RAGAS 框架可自动计算上述指标。
参考资料:
Q8. 图数据库/知识图谱 vs 向量数据库
选择图数据库/KG 的场景:
选择向量数据库的场景:
GraphRAG(微软) 结合了两者:先构建知识图谱,再在图上做社区摘要和实体检索,处理全局查询效果更好。
Q9. 复杂 RAG 范式
参考资料:
Q10. RAG 实际部署挑战
6. 模型评估与 Agent 评估
Q1. BLEU/ROUGE 对现代 LLM 的局限性
Q2. 主流 LLM 综合基准测试
Q3. LLM-as-a-Judge
优点:
主要偏见:
缓解: 校准 prompt、多次随机顺序评测、结合人工抽检。
参考资料:
Q4. 评估特定能力的方案设计
事实性/幻觉评估:
推理能力:
安全性:
Q5. 评估 Agent 比评估 LLM 更困难的原因
Q6. Agent 评估基准
Q7. Agent 评估的过程指标
除了最终成功率,还应关注:
Q8. 红队测试(Red-Teaming)
定义: 专门尝试找出模型安全漏洞、有害行为和能力边界的对抗性测试方法,源于军事演习概念。
在 LLM/Agent 中的作用:
方法: 人工 Red-Teaming(专家测试)+ 自动 Red-Teaming(对抗性 LLM 生成攻击 prompt)。
7. LLM 前景与发展
Q1. 距离 AGI 还有多远?最关键缺失能力?
当前缺失的关键能力:
大多数研究者认为当前 LLM 是"高级模式匹配"而非"真正推理",AGI 可能需要架构层面的根本突破。
Q2. 多模态融合的未来方向
Q3. 开源 vs 闭源生态
趋势: 开源模型能力快速接近闭源(LLaMA 3.1 405B 接近 GPT-4),但顶级能力仍集中在少数闭源模型。两者将长期共存。
Q7. LLM 个性化与隐私平衡
Q8. Transformer 会被取代吗?
SSM(State Space Model,如 Mamba)的潜力:
当前判断: Transformer 在近 2-3 年内不会被取代,但 Hybrid 架构(Transformer + SSM)如 Jamba 已出现,SSM 可能在超长上下文场景取得优势。
参考资料:
8. 其它开放性问题
Q1. 限制 Agent 能力普及的最大瓶颈
综合来看,可靠性(Reliability) 是最核心瓶颈:
Q6. 对初学者进入 Agent 领域的建议
学习路径:
重点技术:
Q7. 顶尖 AI Agent 工程师的核心素质
Q8. 如何建议使用 AI(以 Coding 为例)
推荐工具:
使用建议:
参考资料汇总