Skip to content

Latest commit

 

History

History
31 lines (16 loc) · 1.64 KB

drl-crs_063.md

File metadata and controls

31 lines (16 loc) · 1.64 KB

术语表

原文链接:huggingface.co/learn/deep-rl-course/unit4/glossary

这是一个由社区创建的术语表。欢迎贡献!

  • 深度 Q 学习: 一种基于值的深度强化学习算法,使用深度神经网络来逼近给定状态下的动作的 Q 值。深度 Q 学习的目标是通过学习动作值来找到最优策略,从而最大化期望的累积奖励。

  • 基于价值的方法:估计值函数作为找到最优策略的中间步骤的强化学习方法。

  • 基于策略的方法:直接学习逼近最优策略而不学习值函数的强化学习方法。在实践中,它们输出动作的概率分布。

    使用策略梯度方法而不是基于价值的方法的好处包括:

    • 集成的简单性:无需存储动作值;

    • 学习随机策略的能力:代理探索状态空间而不总是采取相同的轨迹,并避免感知混淆的问题;

    • 在高维和连续动作空间中的有效性;以及

    • 改进的收敛性质。

  • 策略梯度: 策略梯度方法的一个子集,其目标是通过梯度上升最大化参数化策略的性能。策略梯度的目标是通过调整策略来控制动作的概率分布,使得未来更频繁地采样好的动作(最大化回报)。

  • 蒙特卡洛强化学习: 一种策略梯度算法,使用整个回合的估计回报来更新策略参数。

如果您想改进课程,可以提交拉取请求。

这个术语表得以实现,感谢: