测验

原始文本：huggingface.co/learn/deep-rl-course/unit1/quiz

学习和避免能力错觉的最佳方法是测试自己。这将帮助你找到需要加强知识的地方。

Q1：什么是强化学习？

解决方案

强化学习是通过与环境进行试错交互并接收奖励（积极或消极）作为独特反馈来解决控制任务（也称为决策问题）的框架。

Q2：定义 RL 循环

在每一步：

我们的 Agent 从环境中接收 __。
基于那个 __，Agent 采取一个 __。
我们的 Agent 将向右移动
环境进入一个 __。
环境给 Agent 一个 __。

Q3：状态和观察之间有什么区别？

Q4：任务是强化学习问题的一个实例。有哪两种类型的任务？

Q5：什么是探索/开发权衡？

解决方案

在强化学习中，我们需要平衡探索环境和利用我们对环境的了解的程度。

探索是通过尝试随机动作来探索环境，以便更多地了解环境。
开发是利用已知信息来最大化奖励。

Q6：什么是策略？

解决方案

策略π是我们 Agent 的大脑。它是告诉我们在特定状态下应该采取什么行动的函数。因此，它定义了 Agent 在特定时间的行为。

Q7：什么是基于价值的方法？

解决方案

基于价值的方法是解决 RL 问题的主要方法之一。
在基于价值的方法中，我们不是训练一个策略函数，而是训练一个价值函数，将一个状态映射到在该状态的预期价值。

Q8：什么是基于策略的方法？

解决方案

在基于策略的方法中，我们直接学习一个策略函数。
这个策略函数将从每个状态映射到该状态的最佳对应动作。或者是该状态可能动作集合上的概率分布。

恭喜你完成了这个测验🥳，如果你错过了一些元素，请花时间再次阅读章节，以加强（😏）你的知识，但不要担心：在课程中，我们将再次讨论这些概念，并且你将通过实践加强你的理论知识。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

drl-crs_016.md

drl-crs_016.md

测验

Q1：什么是强化学习？

Q2：定义 RL 循环

Q3：状态和观察之间有什么区别？

Q4：任务是强化学习问题的一个实例。有哪两种类型的任务？

Q5：什么是探索/开发权衡？

Q6：什么是策略？

Q7：什么是基于价值的方法？

Q8：什么是基于策略的方法？

Files

drl-crs_016.md

Latest commit

History

drl-crs_016.md

File metadata and controls

测验

Q1：什么是强化学习？

Q2：定义 RL 循环

Q3：状态和观察之间有什么区别？

Q4：任务是强化学习问题的一个实例。有哪两种类型的任务？

Q5：什么是探索/开发权衡？

Q6：什么是策略？

Q7：什么是基于价值的方法？

Q8：什么是基于策略的方法？