该项目旨在梳理应用于连续动作空间控制的强化学习、模仿学习、以及离线强化学习相关算法,方便进一步学习。
在之前两版本梳理之后,发现,完全根据综述梳理会造成知识不够具体。因此,接下来准备更关注经典算法,而不是单纯的综述。
内容一直在修改,博客中内容为最新版 ❗❗❗
本项目计划分为三个阶段,分别是
- 知识梳理阶段 👈 正在进行✨
- 算法复现阶段
- 项目优化阶段
知识梳理阶段主要关注知识框架的搭建;算法复现阶段主要关注经典算法的代码复现;项目优化阶段主要关注知识完整性和准确性、排版整洁性、以及代码准确性。
欢迎批评指正~
欢迎一起做项目~
章节 | 内容 |
---|---|
第一章 | DDPMs:去噪扩散概率模型 |
第二章 | EDM:阐明基于扩散生成模型的设计空间 |
第三章 | Consistency Models:一致性模型 |
第四章 | DiT:基于Transformer可扩展的扩散模型 |
章节 | 内容 |
---|---|
第一章 | MCAC:蒙特卡洛增强的Actor-Critic算法 |
第二章 | SDQN:连续性动作的离散化序列预测 |
章节 | 内容 |
---|---|
第一章 | 模仿学习简介 |
第二章 | GAIL:生成式对抗模仿学习 |
第三章 | IBC算法 |
第三章 | BeT:一次克隆k个模式 |
第五章 | 扩散策略:通过动作扩散进行的视觉策略学习 |
第六章 | DP3:3D扩散策略 |
第七章 | Consistency Policy:通过一致性蒸馏加速视觉运动策略 |
第八章 | MDT:从多模态目标中学习多功能行为 |
章节 | 内容 |
---|---|
第一章 | 演化策略作为强化学习的一种可扩展替代方案 |
第二章 | 基于压缩架构的结构化演化以实现可扩展策略优化 |
第三章 |
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
注:默认使用CC 4.0协议,也可根据自身项目情况选用其他协议