这是一个由社区创建的术语表。欢迎贡献!
代理通过与周围环境的奖励和惩罚进行试错学习做出决策。
环境是一个模拟的世界代理可以通过与之互动来学习。
这意味着我们的代理所采取的行动仅取决于当前状态,独立于过去的状态和行动。
-
状态:世界状态的完整描述。
-
观察:环境/世界状态的部分描述。
-
离散行动:有限数量的行动,比如左、右、上、下。
-
连续行动:行动的无限可能性;例如,在自动驾驶汽车的情况下,驾驶场景有无限可能发生的行动。
-
奖励:RL 中的基本因素。告诉代理行动是好还是坏。
-
RL 算法专注于最大化累积奖励。
-
奖励假设:RL 问题可以被制定为(累积)回报的最大化。
-
折扣是因为在开始时获得的奖励更有可能发生,因为它们比长期奖励更可预测。
-
情节性:有一个起点和一个终点。
-
连续:有一个起点但没有终点。
-
探索:这完全是关于通过尝试随机行动来探索环境,并从环境中获得反馈/回报/奖励。
-
利用:这是关于利用我们对环境的了解来获得最大奖励。
-
探索-利用权衡:它平衡了我们想要探索环境和我们想要利用对环境的了解的程度。
-
策略:它被称为代理的大脑。它告诉我们在给定状态下应该采取什么行动。
-
最优策略:当代理根据它行动时最大化了预期回报的策略。它是通过训练学习的。
-
解决 RL 问题的一种方法。
-
在这种方法中,策略是直接学习的。
-
将每个状态映射到该状态的最佳对应行动。或者在该状态上可能行动集合上的概率分布。
-
解决 RL 问题的另一种方法。
-
在这里,我们不是训练一个策略,而是训练一个价值函数,将每个状态映射到在该状态下的预期价值。
欢迎贡献 🤗
如果你想改进课程,你可以发起一个拉取请求。
这个术语表得以实现,感谢: