- 深度强化学习课程文档
- 单元 0. 欢迎来到课程
- 欢迎来到🤗深度强化学习课程
- 设置
- Discord 101
- 第一单元。深度强化学习介绍
- 深度强化学习简介
- 什么是强化学习?
- 强化学习框架
- 任务类型
- 探索/剥削权衡
- 解决强化学习问题的两种主要方法
- 强化学习中的“深度”
- 总结
- 术语表
- 训练你的第一个深度强化学习代理🤖
- 测验
- 结论
- 额外阅读材料
- 奖励单元 1. 介绍使用 HUGGY 的深度强化学习
- 介绍
- Huggy 的工作方式
- 让我们训练和玩 Huggy 🐶
- 与 Huggy 一起玩
- 结论
- 一、. 课程如何运作,问答环节,和与 Huggy 一起玩。
- 直播 1:课程内容、问答和和 Huggy 一起玩
- 第 2 单元。Q 学习简介
- Q-Learning 简介
- 什么是强化学习?简短回顾
- 两种基于价值的方法
- 贝尔曼方程:简化我们的值估计
- 蒙特卡洛与时序差异学习
- 中途总结
- 中途测验
- 引入 Q 学习
- 一个 Q-Learning 示例
- Q-Learning 回顾
- 术语表
- 实践
- 第二次测验
- 结论
- 额外阅读
- 第三单元。使用雅达利游戏进行深度 Q 学习。
- 深度 Q-Learning
- 从 Q-Learning 到深度 Q-Learning
- 深度 Q 网络(DQN)
- 深度 Q 学习算法
- 术语表
- 实践
- 测验
- 结论
- 额外阅读
- 奖励单元 2. 使用 Optuna 进行自动超参数调整
- 介绍
- Optuna 教程
- 动手实践
- 第四单元。使用 PyTorch 进行策略梯度。
- 介绍
- 什么是基于策略的方法?
- 策略梯度方法的优缺点
- 深入研究政策梯度方法
- (可选)策略梯度定理
- 术语表
- 实践
- 测验
- 结论
- 额外阅读
- 第 5 单元。介绍 Unity ML-Agents
- Unity ML-Agents 简介
- Unity ML-Agents 如何工作?
- SnowballTarget 环境
- 金字塔环境
- (可选)深度强化学习中的好奇心是什么?
- 动手实践
- 奖励:学习如何使用 Unity 和 MLAgents 创建自己的环境
- 测验
- 结论
- 第 6 单元。带有机器人环境的演员评论方法
- 介绍
- Reinforce 中的方差问题
- 优势演员评论家(A2C)
- 使用 Panda-Gym 进行机器人模拟的 Advantage Actor Critic (A2C) 🤖
- 测验
- 结论
- 额外阅读
- 第 7 单元。多智能体和人工智能对抗的介绍
- 介绍
- 多代理强化学习(MARL)简介
- 设计多智能体系统
- 自我对弈:在对抗性游戏中训练竞争性代理的经典技术
- 实践
- 测验
- 结论
- 额外阅读
- 第 8 单元。第 1 部分 近端策略优化(PPO)
- 介绍
- PPO 的直觉
- 引入剪辑替代目标函数
- 可视化修剪的替代目标函数
- 实践
- 结论
- 额外阅读
- 第 8 单元。第 2 部分 近端策略优化(PPO)与毁灭
- 使用 Sample-Factory 介绍 PPO
- 实践:高级深度强化学习。使用 Sample Factory 从像素中玩 Doom
- 总结
- 奖励单元 3. 强化学习中的高级主题
- 介绍
- 基于模型的强化学习(MBRL)
- 离线与在线强化学习
- 强化学习中的泛化
- RLHF
- 决策 Transformer
- 强化学习中的语言模型
- (自动)强化学习课程
- 有趣的环境尝试
- 虚幻学习代理简介
- Godot RL Agents
- 学生作品
- RL 文档简介
- 认证和祝贺
- 恭喜
- 认证流程