Skip to content

Latest commit

 

History

History
35 lines (18 loc) · 1.51 KB

drl-crs_092.md

File metadata and controls

35 lines (18 loc) · 1.51 KB

测验

原文:huggingface.co/learn/deep-rl-course/unit7/quiz

学习和避免能力错觉的最佳方法是测试自己。这将帮助您找到需要加强知识的地方

Q1: 在比较不同类型的多智能体环境时,选择更合适的选项

  • 你的智能体旨在在 ____ 环境中最大化共同利益

  • 你的智能体旨在在 ____ 环境中最大化共同利益,同时最小化对手的利益

Q2: 以下哪些关于分散式学习的陈述是正确的?

Q3: 以下哪些关于集中式学习的陈述是正确的?

Q4: 用您自己的话解释什么是自我对弈方法

解决方案

“自我对弈”是一种方法,通过实例化具有与对手相同策略的代理的副本,使您的代理从具有相同训练水平的代理中学习。

Q5: 在配置自我对弈时,有几个重要参数。您能根据其定义确定我们正在谈论哪些参数吗?

  • 与当前自己对战的概率 vs 从对手池中选择对手对战的概率

  • 面对对手的训练水平的差异(分散)

  • 生成新对手之前的训练步骤数

  • 对手更换率

Q6: 使用 ELO 评分的主要动机是什么?

恭喜您完成了这个测验🥳,如果您错过了一些元素,请花时间再次阅读章节,以加强(😏)您的知识。