《推荐系统:工业架构与核心算法》开源书稿
🔖 定位:工业级推荐系统硬核专著,主打全链路系统化思维,拒绝碎片化知识点
🎯 受众:具备机器学习 / 推荐基础的研究生、算法 / 架构 / 策略工程师、技术研究者
❗ 不适合纯零基础小白(建议先学习机器学习与深度学习入门知识)
💡 创作理念:随着AI的快速发展,写代码门槛已逐步降低。因此本书主要聚焦于系统认知、架构设计、模块协同、工业策略、业务权衡等方面,帮助大家建立一种系统化、模块化的思维。
📦 内容:全书上下册 PDF + 配套可运行代码、实验案例、补充资料(持续更新)
📄 授权:个人学习非商用,转载 / 引用请注明出处
以下是我的小红书账号,欢迎大家关注我!
目前draft目录是已有写好的草稿章节,与现有的目录结构并不一定完全对应,仅供大家学习参考。草稿目前为推荐系统概述和推荐系统模块的内容,会覆盖正式书籍版本的上册章节内容。后续会按照正式的目录章节持续更新。
后续整本书籍还是会按照上下两册的目录结构进行持续更新。其中前4部分从第一章截止到第十七章为上册内容,第十八章到第三十七章为下册内容。
- 第一部分 推荐系统基础
- 第 1 章 推荐系统概览
- 1.1 什么是推荐系统
- 1.2 推荐系统发展历程
- 1.2.1 人工推荐时代
- 1.2.2 机器学习时代
- 1.2.3 深度学习时代
- 1.2.4 大模型时代
- 1.2.5 推荐系统发展的核心驱动力
- 1.3 推荐系统的核心目标
- 1.3.1 用户价值
- 1.3.2 平台价值
- 1.3.3 内容生态价值
- 1.3.4 不同业务场景的核心目标
- 1.3.5 北极星指标
- 1.4 推荐系统是如何工作的
- 1.5 推荐系统的挑战
- 1.5.1 海量数据挑战
- 1.5.2 实时响应挑战
- 1.5.3 多目标优化挑战
- 1.5.4 冷启动挑战
- 1.6 本章小结
- 第 2 章 推荐系统架构
- 2.1 混合推荐系统架构
- 2.2 级联式推荐系统
- 2.3 推荐系统的离线架构与在线架构
- 2.3.1 离线架构
- 2.3.2 在线架构
- 2.4 降级推荐系统
- 2.5 作者侧推荐系统
- 2.6 系统日志与数据
- 2.6.1 流式数据与离线数据
- 2.6.2 Hive与推荐系统数据仓库
- 2.6.3 推荐系统中的核心日志
- 2.6.4 大模型驱动的内容理解数据
- 2.7 本章小结
- 2.8 参考文献
- 第 3 章 推荐系统评价体系
- 3.1 离线评价指标
- 3.1.1 分类指标
- 3.1.2 排序指标
- 3.1.3 概率校准指标
- 3.2 在线评价指标
- 3.3 A/B 实验体系
- 3.3.1 A/B实验基本原理
- 3.3.2 A/B实验平台
- 3.3.3 日志体系与数据质量保障
- 3.3.4 A/B实验迭代流程
- 3.4 推荐系统监控体系
- 3.5 本章小结
- 3.1 离线评价指标
- 第 1 章 推荐系统概览
- 第二部分 推荐系统模块
- 第 4 章 召回与过滤模块
- 4.1 为什么需要召回
- 4.2 多路召回架构
- 4.3 召回技术分类
- 4.3.1 用户召回
- 4.3.2 内容召回
- 4.3.3 图召回
- 4.3.4 向量召回
- 4.3.5 其他召回
- 4.4 召回结果融合
- 4.5 过滤限流模块
- 4.5.1 过滤模块的位置
- 4.5.2 常见过滤与限流策略
- 4.5.3 负向判罚体系
- 4.5.4 风控算法的发展
- 4.5.5 过滤模块面临的挑战
- 4.6 本章小结
- 4.7 参考文献
- 第 5 章 粗排模块
- 5.1 为什么需要粗排
- 5.2 粗排模型
- 5.3 链路一致性模型
- 5.4 粗排多目标融合
- 5.4.1 基于值的融合
- 5.4.1.1 线性融合
- 5.4.1.2 乘法融合
- 5.4.2 基于序关系的融合
- 5.4.3 基于值与序关系的融合
- 5.4.4 自动化融合与贝叶斯优化
- 5.4.1 基于值的融合
- 5.5 多目标融合机制分析
- 5.6 粗排分Quota调控与截断
- 5.6.1 粗排Quota调控
- 5.6.2 粗排保量机制
- 5.6.3 粗排截断机制
- 5.7 粗排候选集集合优化
- 5.8 本章小结
- 5.9 参考文献
- 第 6 章 精排模块
- 6.1 精排模块架构
- 6.2 精排模型与 LTR 模型
- 6.3 精排模型常见的预估任务
- 6.3.1 时长预估
- 6.3.2 稀疏互动信号建模
- 6.3.3 样本加权
- 6.3.4 稠密目标辅助稀疏目标学习
- 6.3.5 行为关联建模
- 6.4 精排多目标融合
- 6.4.1 乘法公式及形状分析
- 6.4.2 序变换及形状分析
- 6.4.3 排序公式超参数寻优
- 6.5 精排流量调控
- 6.5.1 级联式多目标融合与流量调控
- 6.5.2 多通道式流量调控
- 6.5.3 流量调控的业务价值
- 6.5.4 流量调控的优化视角
- 6.5.5 精排保量与强插策略
- 6.6 本章小结
- 6.7 参考文献
- 第 7 章 重排模块
- 7.1 为什么需要重排
- 7.2 重排模块架构
- 7.3 序列生成
- 7.4 序列评估与排序
- 7.5 多样性打散
- 7.5.1 MMR 算法
- 7.5.2 DPP 算法
- 7.5.3 SSD 算法
- 7.6 重排后处理
- 7.7 本章小结
- 7.8 参考文献
- 第 8 章 混排模块
- 8.1 多业务混排问题
- 8.2 混排前处理
- 8.2.1 分数校准方法
- 8.2.2 分数归一化
- 8.3 序列生成
- 8.3.1 序列生成约束规则
- 8.3.2 预竞价与全竞价架构
- 8.4 序列排序
- 8.5 序列价值评估体系
- 8.6 混排后处理与流量调控
- 8.6.1 Load 调控
- 8.6.2 PID 控制
- 8.6.3 强插策略
- 8.6.4 保量与降权
- 8.7 本章小结
- 8.8 参考文献
- 第 9 章 生成式推荐模块
- 9.1 生成式推荐概述
- 9.2 生成式推荐架构
- 9.3 生成式推荐讨论
- 9.4 本章小结
- 9.5 参考文献
- 第 4 章 召回与过滤模块
- 第三部分 推荐系统核心算法
- 第 10 章 召回模型
- 10.1 协同过滤
- 10.1.1 ItemCF
- 10.1.2 UserCF
- 10.2 Swing 召回
- 10.3 GNN 召回
- 10.4 双塔召回
- 10.5 YoutubeDNN 召回
- 10.6 MIND 召回
- 10.7 PDN 召回
- 10.8 本章小结
- 10.1 协同过滤
- 第 11 章 粗排模型
- 11.1 DSSM 模型
- 11.2 多塔模型
- 11.3 轻量级 DNN 模型
- 11.4 粗排蒸馏模型
- 11.5 本章小结
- 第 12 章 精排模型
- 12.1 传统模型
- 12.1.1 逻辑斯特回归
- 12.1.2 因子分解机
- 12.1.3 FFM
- 12.2 共享底层模型
- 12.2.1 Wide&Deep
- 12.2.2 DeepFM
- 12.3 特征交叉建模
- 12.3.1 DCN
- 12.3.2 AutoInt
- 12.4 多专家模型
- 12.4.1 MoE
- 12.4.2 PLE
- 12.5 常见的 loss 函数
- 12.6 精排模型网络结构
- 12.7 本章小结
- 12.1 传统模型
- 第 13 章 重排与混排模型
- 13.1 序列生成模型
- 13.1.1 PointerNet 模型
- 13.1.2 Seq2Slate 模型
- 13.1.3 PRM 模型
- 13.2 序列评估模型
- 13.3 本章小结
- 13.4 参考文献
- 13.1 序列生成模型
- 第 10 章 召回模型
- 第四部分 推荐系统工程实践
- 第 14 章 特征工程
- 14.1 特征工程概述
- 14.2 特征体系
- 14.3 特征交叉
- 14.4 特征筛选
- 14.5 实时特征
- 14.6 用户画像
- 14.7 本章小结
- 第 15 章 向量检索系统
- 15.1 ANN
- 15.2 Faiss
- 15.3 IVF
- 15.4 PQ
- 15.5 HNSW
- 15.6 ScaNN
- 15.7 本章小结
- 15.8 参考文献
- 第 16 章 推荐系统离线服务
- 16.1 离线服务架构
- 16.2 用户行为日志解析
- 16.3 Item 索引更新
- 16.4 普通任务样本拼接
- 16.5 强化学习样本拼接
- 16.6 训练任务
- 16.7 本章小结
- 第 17 章 推荐系统在线服务
- 17.1 在线推理架构
- 17.2 Embedding Server
- 17.3 TensorRT
- 17.4 缓存系统
- 17.5 双塔模型在线服务优化
- 17.6 DNN 模型在线服务优化
- 17.7 本章小结
- 第 14 章 特征工程
- 第五部分 推荐系统进阶
- 第 18 章 用户兴趣建模
- 18.1 DIN
- 18.2 DIEN
- 18.3 BST
- 18.4 Transformer
- 18.5 SASRec
- 18.6 SIM
- 18.7 CAN
- 18.8 TWIN
- 18.9 本章小结
- 第 19 章 多目标与多场景建模
- 19.1 ESM
- 19.2 AIT
- 19.3 STAR
- 19.4 HOM
- 19.5 多目标梯度冲突问题
- 19.5.1 PCGrad
- 19.5.2 CAGrad
- 19.5.3 GradNorm
- 19.6 本章小结
- 第 20 章 链路一致性建模
- 20.1 粗排链路一致性模型
- 20.2 召回链路一致性模型
- 20.3 HCCP
- 20.4 链路一致性建模讨论
- 20.5 本章小结
- 第 21 章 时长预估建模
- 21.1 传统时长预估方法
- 21.2 加权二分类时长建模
- 21.3 离散化分桶建模
- 21.4 D2Q
- 21.5 CREAD
- 21.6 TPM
- 21.7 本章小结
- 21.8 参考文献
- 第 22 章 推荐系统偏差问题
- 22.1 推荐偏差问题概述
- 22.2 样本选择偏差
- 22.3 曝光位置偏差
- 22.4 用户群体偏差
- 22.5 Duration 偏差
- 22.6 流行度偏差
- 22.7 工业实践
- 22.8 本章小结
- 第 23 章 个性化网络参数
- 23.1 个性化网络参数
- 23.2 LUHC
- 23.3 SNet
- 23.4 POSO
- 23.5 PEPNet
- 23.6 参考文献
- 第 24 章 多任务融合
- 24.1 多任务融合概述
- 24.2 模型化寻参
- 24.3 Learn to Rank 模型融合
- 24.4 端到端多目标融合模型
- 24.5 本章小结
- 24.6 参考文献
- 第 25 章 长期价值建模
- 25.1 长期价值定义
- 25.1.1 Delayed Reward
- 25.1.2 Lifetime Value
- 25.2 长期价值建模方法
- 25.3 用户留存优化
- 25.4 本章小结
- 第 26 章 探索与利用
- 26.1 Explore-Exploit 问题
- 26.2 ε-Greedy
- 26.3 UCB
- 26.4 Thompson Sampling
- 26.5 Contextual Bandit
- 26.6 工业界探索策略
- 26.7 本章小结
- 第 27 章 因果推荐
- 27.1 因果动机
- 27.2 推荐偏差与因果
- 27.3 因果图
- 27.4 IPW
- 27.5 Doubly Robust
- 27.6 Counterfactual Learning
- 27.7 OPE
- 27.8 流行度纠偏
- 27.8.1 DICE
- 27.8.2 MACR
- 27.9 Uplift 模型
- 27.10 本章小结
- 第 18 章 用户兴趣建模
- 第六部分 强化学习推荐
- 第 28 章 强化学习推荐场景
- 28.1 流量分配与调控
- 28.2 多任务融合
- 28.3 层次决策
- 28.4 流量降级优化
- 28.5 Session 优化
- 28.6 重排混排序列生成优化
- 28.7 个性化探索
- 第 29 章 强化学习流量调控
- 29.1 Load 调控
- 29.2 广告流量控制
- 29.3 直播流量控制
- 29.4 降级流量优化
- 29.5 本章小结
- 第 30 章 强化学习多目标融合
- 30.1 RL 多目标优化
- 30.2 Reward 设计
- 30.3 Pareto 优化
- 30.4 UNEX-RL
- 30.5 xMTF
- 30.6 Pantheon
- 30.7 工业实践
- 30.8 本章小结
- 30.9 参考文献
- 第 31 章 Session 推荐与层次决策
- 31.1 Session 推荐
- 31.2 Session RL
- 31.3 RLUR
- 31.4 层次强化学习
- 31.5 HRL-Rec
- 31.6 HiFI
- 31.7 工业实践
- 31.8 本章小结
- 第 32 章 重排与混排中的强化学习
- 32.1 DPO、GRPO、DAPO、GSPO
- 32.2 RL Re-ranking
- 32.3 RL Mixed Ranking
- 32.4 序列生成优化
- 32.5 多业务混排优化
- 32.6 本章小结
- 第 28 章 强化学习推荐场景
- 第七部分 多模态与生成式推荐
- 第 33 章 多模态推荐
- 33.1 多模态推荐概述
- 33.2 CLIP、BLIP 与 SigLIP
- 33.3 LXMERT
- 33.4 多模态辅助网络
- 33.5 GIFT
- 33.6 MMBee
- 33.7 QARM
- 33.8 本章小结
- 第 34 章 生成式推荐
- 34.1 生成式召回
- 34.1.1 Diffusion 召回
- 34.1.2 FlowCF 召回
- 34.1.3 TIGER 召回
34.2 一体化召回排序 - 34.2.1 HSTU
- 34.2.2 OneRec
34.3 生成式重排
34.4 生成式时长预估
34.5 本章小结
34.6 参考文献
- 34.1 生成式召回
- 第 33 章 多模态推荐
- 第八部分 推荐系统前沿趋势
- 第 35 章 推荐大模型
- 35.1 MARM
- 35.2 TokenMixer
- 35.3 RankMixer
- 35.4 UniMixer
- 35.5 LONGER
- 35.6 本章小结
- 35.7 参考文献
- 第 36 章 LLM 与 Agent 推荐
- 36.1 LLM 与 Agent 推荐概述
- 36.2 LLM4Rec
- 36.3 RecGPT
- 36.4 TALLRec
- 36.5 Agent4Rec
- 36.6 推荐调参 Agent
- 36.7 检索生成与 AI 搜索
- 36.8 本章小结
- 第 37 章 总结与展望
- 37.1 全书回顾
- 37.2 核心研究方向
- 37.3 前沿展望
- 第 35 章 推荐大模型