Skip to content

Latest commit

 

History

History
41 lines (21 loc) · 2.42 KB

drl-crs_110.md

File metadata and controls

41 lines (21 loc) · 2.42 KB

离线与在线强化学习

原文链接:huggingface.co/learn/deep-rl-course/unitbonus3/offline-online

深度强化学习(RL)是一个构建决策代理的框架。这些代理通过试错交互并接收奖励作为唯一反馈来学习最佳行为(策略)。

代理的目标是最大化其累积奖励,称为回报。因为强化学习基于奖励假设:所有目标都可以描述为最大化预期累积奖励

深度强化学习代理通过经验批次学习。问题是,它们如何收集经验?:

单元奖励 3 缩略图

强化学习在在线和离线环境中的比较,图表取自这篇文章

  • 在线强化学习中,这是我们在本课程中学到的,代理直接收集数据:它通过与环境交互收集一批经验。然后,它立即使用这些经验(或通过一些重放缓冲区)来学习(更新其策略)。

但这意味着你要么直接在现实世界中训练你的代理,要么有一个模拟器。如果你没有一个,你需要构建一个,这可能非常复杂(如何在环境中反映现实世界的复杂现实?),昂贵,并且不安全(如果模拟器存在缺陷可能提供竞争优势,代理将利用它们)。

  • 另一方面,在离线强化学习中,代理只使用从其他代理或人类演示收集的数据。它不与环境交互

流程如下:

  • 使用一个或多个策略和/或人类互动创建一个数据集

  • 在这个数据集上运行离线强化学习以学习一个策略

这种方法有一个缺点:反事实查询问题。如果我们的代理决定做一些我们没有数据的事情怎么办?例如,在十字路口右转,但我们没有这个轨迹。

关于这个主题存在一些解决方案,但如果你想了解更多关于离线强化学习的内容,你可以观看这个视频

进一步阅读

有关更多信息,我们建议您查看以下资源:

作者

本节由Thomas Simonini撰写