这是一个由社区创建的术语表。欢迎贡献!
-
深度 Q 学习: 一种基于值的深度强化学习算法,使用深度神经网络来逼近给定状态下的动作的 Q 值。深度 Q 学习的目标是通过学习动作值来找到最优策略,从而最大化期望的累积奖励。
-
基于价值的方法:估计值函数作为找到最优策略的中间步骤的强化学习方法。
-
基于策略的方法:直接学习逼近最优策略而不学习值函数的强化学习方法。在实践中,它们输出动作的概率分布。
使用策略梯度方法而不是基于价值的方法的好处包括:
-
集成的简单性:无需存储动作值;
-
学习随机策略的能力:代理探索状态空间而不总是采取相同的轨迹,并避免感知混淆的问题;
-
在高维和连续动作空间中的有效性;以及
-
改进的收敛性质。
-
-
策略梯度: 策略梯度方法的一个子集,其目标是通过梯度上升最大化参数化策略的性能。策略梯度的目标是通过调整策略来控制动作的概率分布,使得未来更频繁地采样好的动作(最大化回报)。
-
蒙特卡洛强化学习: 一种策略梯度算法,使用整个回合的估计回报来更新策略参数。
如果您想改进课程,可以提交拉取请求。
这个术语表得以实现,感谢: