深度强化学习课程文档
单元 0. 欢迎来到课程
欢迎来到🤗深度强化学习课程
设置
Discord 101
第一单元。深度强化学习介绍
深度强化学习简介
什么是强化学习？
强化学习框架
任务类型
探索/剥削权衡
解决强化学习问题的两种主要方法
强化学习中的“深度”
总结
术语表
训练你的第一个深度强化学习代理🤖
测验
结论
额外阅读材料
奖励单元 1. 介绍使用 HUGGY 的深度强化学习
介绍
Huggy 的工作方式
让我们训练和玩 Huggy 🐶
与 Huggy 一起玩
结论
一、. 课程如何运作，问答环节，和与 Huggy 一起玩。
直播 1：课程内容、问答和和 Huggy 一起玩
第 2 单元。Q 学习简介
Q-Learning 简介
什么是强化学习？简短回顾
两种基于价值的方法
贝尔曼方程：简化我们的值估计
蒙特卡洛与时序差异学习
中途总结
中途测验
引入 Q 学习
一个 Q-Learning 示例
Q-Learning 回顾
术语表
实践
第二次测验
结论
额外阅读
第三单元。使用雅达利游戏进行深度 Q 学习。
深度 Q-Learning
从 Q-Learning 到深度 Q-Learning
深度 Q 网络（DQN）
深度 Q 学习算法
术语表
实践
测验
结论
额外阅读
奖励单元 2. 使用 Optuna 进行自动超参数调整
介绍
Optuna 教程
动手实践
第四单元。使用 PyTorch 进行策略梯度。
介绍
什么是基于策略的方法？
策略梯度方法的优缺点
深入研究政策梯度方法
（可选）策略梯度定理
术语表
实践
测验
结论
额外阅读
第 5 单元。介绍 Unity ML-Agents
Unity ML-Agents 简介
Unity ML-Agents 如何工作？
SnowballTarget 环境
金字塔环境
（可选）深度强化学习中的好奇心是什么？
动手实践
奖励：学习如何使用 Unity 和 MLAgents 创建自己的环境
测验
结论
第 6 单元。带有机器人环境的演员评论方法
介绍
Reinforce 中的方差问题
优势演员评论家（A2C）
使用 Panda-Gym 进行机器人模拟的 Advantage Actor Critic (A2C) 🤖
测验
结论
额外阅读
第 7 单元。多智能体和人工智能对抗的介绍
介绍
多代理强化学习（MARL）简介
设计多智能体系统
自我对弈：在对抗性游戏中训练竞争性代理的经典技术
实践
测验
结论
额外阅读
第 8 单元。第 1 部分近端策略优化（PPO）
介绍
PPO 的直觉
引入剪辑替代目标函数
可视化修剪的替代目标函数
实践
结论
额外阅读
第 8 单元。第 2 部分近端策略优化（PPO）与毁灭
使用 Sample-Factory 介绍 PPO
实践：高级深度强化学习。使用 Sample Factory 从像素中玩 Doom
总结
奖励单元 3. 强化学习中的高级主题
介绍
基于模型的强化学习（MBRL）
离线与在线强化学习
强化学习中的泛化
RLHF
决策 Transformer
强化学习中的语言模型
（自动）强化学习课程
有趣的环境尝试
虚幻学习代理简介
Godot RL Agents
学生作品
RL 文档简介
认证和祝贺
恭喜
认证流程

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SUMMARY.md

SUMMARY.md

Files

SUMMARY.md

Latest commit

History

SUMMARY.md

File metadata and controls