Skip to content

Latest commit

 

History

History
27 lines (14 loc) · 1.71 KB

drl-crs_096.md

File metadata and controls

27 lines (14 loc) · 1.71 KB

介绍

原文链接:huggingface.co/learn/deep-rl-course/unit8/introduction

Unit 8

在第 6 单元,我们学习了优势演员评论家(A2C),这是一种混合架构,结合了基于价值和基于策略的方法,有助于通过减少方差来稳定训练。

  • 一个控制代理行为方式的演员(基于策略的方法)。

  • 一个度量采取的行动有多好的评论家(基于价值的方法)。

今天我们将学习 Proximal Policy Optimization(PPO),这是一种架构,通过避免过大的策略更新来提高我们代理的训练稳定性。为此,我们使用一个比率来指示当前策略和旧策略之间的差异,并将此比率剪切到特定范围[1−ϵ,1+ϵ]。

这样做将确保我们的策略更新不会太大,并且训练更加稳定。

本单元分为两部分:

  • 在这第一部分中,您将学习 PPO 背后的理论,并使用CleanRL实现从头开始编写您的 PPO 代理。为了测试其稳健性,您将使用 LunarLander-v2。LunarLander-v2 是您开始本课程时使用的第一个环境。那时,您不知道 PPO 是如何工作的,现在您可以从头开始编码并训练它。这是多么令人难以置信的事情🤩。

  • 在第二部分中,我们将通过使用Sample-Factory深入了解 PPO 优化,并训练一个玩 vizdoom(Doom 的开源版本)的代理。

环境

这些是您将用来训练代理的环境:VizDoom 环境

听起来很激动人心吗?让我们开始吧!🚀