学习和避免能力错觉的最佳方法是测试自己。这将帮助你找到需要加强知识的地方。
解决方案
强化学习是通过与环境进行试错交互并接收奖励(积极或消极)作为独特反馈来解决控制任务(也称为决策问题)的框架。
在每一步:
-
我们的 Agent 从环境中接收 __。
-
基于那个 __,Agent 采取一个 __。
-
我们的 Agent 将向右移动
-
环境进入一个 __。
-
环境给 Agent 一个 __。
解决方案
-
基于价值的方法是解决 RL 问题的主要方法之一。
-
在基于价值的方法中,我们不是训练一个策略函数,而是训练一个价值函数,将一个状态映射到在该状态的预期价值。
解决方案
-
在基于策略的方法中,我们直接学习一个策略函数。
-
这个策略函数将从每个状态映射到该状态的最佳对应动作。或者是该状态可能动作集合上的概率分布。
恭喜你完成了这个测验🥳,如果你错过了一些元素,请花时间再次阅读章节,以加强(😏)你的知识,但不要担心:在课程中,我们将再次讨论这些概念,并且你将通过实践加强你的理论知识。