Skip to content

jhljx/RecSys-Industrial-Book

Repository files navigation

GitHub issues GitHub stars GitHub forks Downloads 知识共享许可协议

RecSys-Industrial-Book

《推荐系统:工业架构与核心算法》开源书稿

🔖 定位:工业级推荐系统硬核专著,主打全链路系统化思维,拒绝碎片化知识点
🎯 受众:具备机器学习 / 推荐基础的研究生、算法 / 架构 / 策略工程师、技术研究者
❗ 不适合纯零基础小白(建议先学习机器学习与深度学习入门知识)
💡 创作理念:随着AI的快速发展,写代码门槛已逐步降低。因此本书主要聚焦于系统认知、架构设计、模块协同、工业策略、业务权衡等方面,帮助大家建立一种系统化、模块化的思维。
📦 内容:全书上下册 PDF + 配套可运行代码、实验案例、补充资料(持续更新)
📄 授权:个人学习非商用,转载 / 引用请注明出处

社交媒体

以下是我的小红书账号,欢迎大家关注我!

小红书账号

draft

目前draft目录是已有写好的草稿章节,与现有的目录结构并不一定完全对应,仅供大家学习参考。草稿目前为推荐系统概述推荐系统模块的内容,会覆盖正式书籍版本的上册章节内容。后续会按照正式的目录章节持续更新。

Star趋势

Star History

目录

后续整本书籍还是会按照上下两册的目录结构进行持续更新。其中前4部分从第一章截止到第十七章为上册内容,第十八章到第三十七章为下册内容。

  • 第一部分 推荐系统基础
    • 第 1 章 推荐系统概览
      • 1.1 什么是推荐系统
      • 1.2 推荐系统发展历程
        • 1.2.1 人工推荐时代
        • 1.2.2 机器学习时代
        • 1.2.3 深度学习时代
        • 1.2.4 大模型时代
        • 1.2.5 推荐系统发展的核心驱动力
      • 1.3 推荐系统的核心目标
        • 1.3.1 用户价值
        • 1.3.2 平台价值
        • 1.3.3 内容生态价值
        • 1.3.4 不同业务场景的核心目标
        • 1.3.5 北极星指标
      • 1.4 推荐系统是如何工作的
      • 1.5 推荐系统的挑战
        • 1.5.1 海量数据挑战
        • 1.5.2 实时响应挑战
        • 1.5.3 多目标优化挑战
        • 1.5.4 冷启动挑战
      • 1.6 本章小结
    • 第 2 章 推荐系统架构
      • 2.1 混合推荐系统架构
      • 2.2 级联式推荐系统
      • 2.3 推荐系统的离线架构与在线架构
        • 2.3.1 离线架构
        • 2.3.2 在线架构
      • 2.4 降级推荐系统
      • 2.5 作者侧推荐系统
      • 2.6 系统日志与数据
        • 2.6.1 流式数据与离线数据
        • 2.6.2 Hive与推荐系统数据仓库
        • 2.6.3 推荐系统中的核心日志
        • 2.6.4 大模型驱动的内容理解数据
      • 2.7 本章小结
      • 2.8 参考文献
    • 第 3 章 推荐系统评价体系
      • 3.1 离线评价指标
        • 3.1.1 分类指标
        • 3.1.2 排序指标
        • 3.1.3 概率校准指标
      • 3.2 在线评价指标
      • 3.3 A/B 实验体系
        • 3.3.1 A/B实验基本原理
        • 3.3.2 A/B实验平台
        • 3.3.3 日志体系与数据质量保障
        • 3.3.4 A/B实验迭代流程
      • 3.4 推荐系统监控体系
      • 3.5 本章小结
  • 第二部分 推荐系统模块
    • 第 4 章 召回与过滤模块
      • 4.1 为什么需要召回
      • 4.2 多路召回架构
      • 4.3 召回技术分类
        • 4.3.1 用户召回
        • 4.3.2 内容召回
        • 4.3.3 图召回
        • 4.3.4 向量召回
        • 4.3.5 其他召回
      • 4.4 召回结果融合
      • 4.5 过滤限流模块
        • 4.5.1 过滤模块的位置
        • 4.5.2 常见过滤与限流策略
        • 4.5.3 负向判罚体系
        • 4.5.4 风控算法的发展
        • 4.5.5 过滤模块面临的挑战
      • 4.6 本章小结
      • 4.7 参考文献
    • 第 5 章 粗排模块
      • 5.1 为什么需要粗排
      • 5.2 粗排模型
      • 5.3 链路一致性模型
      • 5.4 粗排多目标融合
        • 5.4.1 基于值的融合
          • 5.4.1.1 线性融合
          • 5.4.1.2 乘法融合
        • 5.4.2 基于序关系的融合
        • 5.4.3 基于值与序关系的融合
        • 5.4.4 自动化融合与贝叶斯优化
      • 5.5 多目标融合机制分析
      • 5.6 粗排分Quota调控与截断
        • 5.6.1 粗排Quota调控
        • 5.6.2 粗排保量机制
        • 5.6.3 粗排截断机制
      • 5.7 粗排候选集集合优化
      • 5.8 本章小结
      • 5.9 参考文献
    • 第 6 章 精排模块
      • 6.1 精排模块架构
      • 6.2 精排模型与 LTR 模型
      • 6.3 精排模型常见的预估任务
        • 6.3.1 时长预估
        • 6.3.2 稀疏互动信号建模
        • 6.3.3 样本加权
        • 6.3.4 稠密目标辅助稀疏目标学习
        • 6.3.5 行为关联建模
      • 6.4 精排多目标融合
        • 6.4.1 乘法公式及形状分析
        • 6.4.2 序变换及形状分析
        • 6.4.3 排序公式超参数寻优
      • 6.5 精排流量调控
        • 6.5.1 级联式多目标融合与流量调控
        • 6.5.2 多通道式流量调控
        • 6.5.3 流量调控的业务价值
        • 6.5.4 流量调控的优化视角
        • 6.5.5 精排保量与强插策略
      • 6.6 本章小结
      • 6.7 参考文献
    • 第 7 章 重排模块
      • 7.1 为什么需要重排
      • 7.2 重排模块架构
      • 7.3 序列生成
      • 7.4 序列评估与排序
      • 7.5 多样性打散
        • 7.5.1 MMR 算法
        • 7.5.2 DPP 算法
        • 7.5.3 SSD 算法
      • 7.6 重排后处理
      • 7.7 本章小结
      • 7.8 参考文献
    • 第 8 章 混排模块
      • 8.1 多业务混排问题
      • 8.2 混排前处理
        • 8.2.1 分数校准方法
        • 8.2.2 分数归一化
      • 8.3 序列生成
        • 8.3.1 序列生成约束规则
        • 8.3.2 预竞价与全竞价架构
      • 8.4 序列排序
      • 8.5 序列价值评估体系
      • 8.6 混排后处理与流量调控
        • 8.6.1 Load 调控
        • 8.6.2 PID 控制
        • 8.6.3 强插策略
        • 8.6.4 保量与降权
      • 8.7 本章小结
      • 8.8 参考文献
    • 第 9 章 生成式推荐模块
      • 9.1 生成式推荐概述
      • 9.2 生成式推荐架构
      • 9.3 生成式推荐讨论
      • 9.4 本章小结
      • 9.5 参考文献
  • 第三部分 推荐系统核心算法
    • 第 10 章 召回模型
      • 10.1 协同过滤
        • 10.1.1 ItemCF
        • 10.1.2 UserCF
      • 10.2 Swing 召回
      • 10.3 GNN 召回
      • 10.4 双塔召回
      • 10.5 YoutubeDNN 召回
      • 10.6 MIND 召回
      • 10.7 PDN 召回
      • 10.8 本章小结
    • 第 11 章 粗排模型
      • 11.1 DSSM 模型
      • 11.2 多塔模型
      • 11.3 轻量级 DNN 模型
      • 11.4 粗排蒸馏模型
      • 11.5 本章小结
    • 第 12 章 精排模型
      • 12.1 传统模型
        • 12.1.1 逻辑斯特回归
        • 12.1.2 因子分解机
        • 12.1.3 FFM
      • 12.2 共享底层模型
        • 12.2.1 Wide&Deep
        • 12.2.2 DeepFM
      • 12.3 特征交叉建模
        • 12.3.1 DCN
        • 12.3.2 AutoInt
      • 12.4 多专家模型
        • 12.4.1 MoE
        • 12.4.2 PLE
      • 12.5 常见的 loss 函数
      • 12.6 精排模型网络结构
      • 12.7 本章小结
    • 第 13 章 重排与混排模型
      • 13.1 序列生成模型
        • 13.1.1 PointerNet 模型
        • 13.1.2 Seq2Slate 模型
        • 13.1.3 PRM 模型
      • 13.2 序列评估模型
      • 13.3 本章小结
      • 13.4 参考文献
  • 第四部分 推荐系统工程实践
    • 第 14 章 特征工程
      • 14.1 特征工程概述
      • 14.2 特征体系
      • 14.3 特征交叉
      • 14.4 特征筛选
      • 14.5 实时特征
      • 14.6 用户画像
      • 14.7 本章小结
    • 第 15 章 向量检索系统
      • 15.1 ANN
      • 15.2 Faiss
      • 15.3 IVF
      • 15.4 PQ
      • 15.5 HNSW
      • 15.6 ScaNN
      • 15.7 本章小结
      • 15.8 参考文献
    • 第 16 章 推荐系统离线服务
      • 16.1 离线服务架构
      • 16.2 用户行为日志解析
      • 16.3 Item 索引更新
      • 16.4 普通任务样本拼接
      • 16.5 强化学习样本拼接
      • 16.6 训练任务
      • 16.7 本章小结
    • 第 17 章 推荐系统在线服务
      • 17.1 在线推理架构
      • 17.2 Embedding Server
      • 17.3 TensorRT
      • 17.4 缓存系统
      • 17.5 双塔模型在线服务优化
      • 17.6 DNN 模型在线服务优化
      • 17.7 本章小结
  • 第五部分 推荐系统进阶
    • 第 18 章 用户兴趣建模
      • 18.1 DIN
      • 18.2 DIEN
      • 18.3 BST
      • 18.4 Transformer
      • 18.5 SASRec
      • 18.6 SIM
      • 18.7 CAN
      • 18.8 TWIN
      • 18.9 本章小结
    • 第 19 章 多目标与多场景建模
      • 19.1 ESM
      • 19.2 AIT
      • 19.3 STAR
      • 19.4 HOM
      • 19.5 多目标梯度冲突问题
        • 19.5.1 PCGrad
        • 19.5.2 CAGrad
        • 19.5.3 GradNorm
      • 19.6 本章小结
    • 第 20 章 链路一致性建模
      • 20.1 粗排链路一致性模型
      • 20.2 召回链路一致性模型
      • 20.3 HCCP
      • 20.4 链路一致性建模讨论
      • 20.5 本章小结
    • 第 21 章 时长预估建模
      • 21.1 传统时长预估方法
      • 21.2 加权二分类时长建模
      • 21.3 离散化分桶建模
      • 21.4 D2Q
      • 21.5 CREAD
      • 21.6 TPM
      • 21.7 本章小结
      • 21.8 参考文献
    • 第 22 章 推荐系统偏差问题
      • 22.1 推荐偏差问题概述
      • 22.2 样本选择偏差
      • 22.3 曝光位置偏差
      • 22.4 用户群体偏差
      • 22.5 Duration 偏差
      • 22.6 流行度偏差
      • 22.7 工业实践
      • 22.8 本章小结
    • 第 23 章 个性化网络参数
      • 23.1 个性化网络参数
      • 23.2 LUHC
      • 23.3 SNet
      • 23.4 POSO
      • 23.5 PEPNet
      • 23.6 参考文献
    • 第 24 章 多任务融合
      • 24.1 多任务融合概述
      • 24.2 模型化寻参
      • 24.3 Learn to Rank 模型融合
      • 24.4 端到端多目标融合模型
      • 24.5 本章小结
      • 24.6 参考文献
    • 第 25 章 长期价值建模
      • 25.1 长期价值定义
      • 25.1.1 Delayed Reward
      • 25.1.2 Lifetime Value
      • 25.2 长期价值建模方法
      • 25.3 用户留存优化
      • 25.4 本章小结
    • 第 26 章 探索与利用
      • 26.1 Explore-Exploit 问题
      • 26.2 ε-Greedy
      • 26.3 UCB
      • 26.4 Thompson Sampling
      • 26.5 Contextual Bandit
      • 26.6 工业界探索策略
      • 26.7 本章小结
    • 第 27 章 因果推荐
      • 27.1 因果动机
      • 27.2 推荐偏差与因果
      • 27.3 因果图
      • 27.4 IPW
      • 27.5 Doubly Robust
      • 27.6 Counterfactual Learning
      • 27.7 OPE
      • 27.8 流行度纠偏
        • 27.8.1 DICE
        • 27.8.2 MACR
      • 27.9 Uplift 模型
      • 27.10 本章小结
  • 第六部分 强化学习推荐
    • 第 28 章 强化学习推荐场景
      • 28.1 流量分配与调控
      • 28.2 多任务融合
      • 28.3 层次决策
      • 28.4 流量降级优化
      • 28.5 Session 优化
      • 28.6 重排混排序列生成优化
      • 28.7 个性化探索
    • 第 29 章 强化学习流量调控
      • 29.1 Load 调控
      • 29.2 广告流量控制
      • 29.3 直播流量控制
      • 29.4 降级流量优化
      • 29.5 本章小结
    • 第 30 章 强化学习多目标融合
      • 30.1 RL 多目标优化
      • 30.2 Reward 设计
      • 30.3 Pareto 优化
      • 30.4 UNEX-RL
      • 30.5 xMTF
      • 30.6 Pantheon
      • 30.7 工业实践
      • 30.8 本章小结
      • 30.9 参考文献
    • 第 31 章 Session 推荐与层次决策
      • 31.1 Session 推荐
      • 31.2 Session RL
      • 31.3 RLUR
      • 31.4 层次强化学习
      • 31.5 HRL-Rec
      • 31.6 HiFI
      • 31.7 工业实践
      • 31.8 本章小结
    • 第 32 章 重排与混排中的强化学习
      • 32.1 DPO、GRPO、DAPO、GSPO
      • 32.2 RL Re-ranking
      • 32.3 RL Mixed Ranking
      • 32.4 序列生成优化
      • 32.5 多业务混排优化
      • 32.6 本章小结
  • 第七部分 多模态与生成式推荐
    • 第 33 章 多模态推荐
      • 33.1 多模态推荐概述
      • 33.2 CLIP、BLIP 与 SigLIP
      • 33.3 LXMERT
      • 33.4 多模态辅助网络
      • 33.5 GIFT
      • 33.6 MMBee
      • 33.7 QARM
      • 33.8 本章小结
    • 第 34 章 生成式推荐
      • 34.1 生成式召回
        • 34.1.1 Diffusion 召回
        • 34.1.2 FlowCF 召回
        • 34.1.3 TIGER 召回
          34.2 一体化召回排序
        • 34.2.1 HSTU
        • 34.2.2 OneRec
          34.3 生成式重排
          34.4 生成式时长预估
          34.5 本章小结
          34.6 参考文献
  • 第八部分 推荐系统前沿趋势
    • 第 35 章 推荐大模型
      • 35.1 MARM
      • 35.2 TokenMixer
      • 35.3 RankMixer
      • 35.4 UniMixer
      • 35.5 LONGER
      • 35.6 本章小结
      • 35.7 参考文献
    • 第 36 章 LLM 与 Agent 推荐
      • 36.1 LLM 与 Agent 推荐概述
      • 36.2 LLM4Rec
      • 36.3 RecGPT
      • 36.4 TALLRec
      • 36.5 Agent4Rec
      • 36.6 推荐调参 Agent
      • 36.7 检索生成与 AI 搜索
      • 36.8 本章小结
    • 第 37 章 总结与展望
      • 37.1 全书回顾
      • 37.2 核心研究方向
      • 37.3 前沿展望

About

《推荐系统:工业架构与核心算法》开源书稿

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors