测验

原文：huggingface.co/learn/deep-rl-course/unit7/quiz

学习和避免能力错觉的最佳方法是测试自己。这将帮助您找到需要加强知识的地方。

Q1: 在比较不同类型的多智能体环境时，选择更合适的选项

你的智能体旨在在 ____ 环境中最大化共同利益
你的智能体旨在在 ____ 环境中最大化共同利益，同时最小化对手的利益

Q2: 以下哪些关于分散式学习的陈述是正确的？

Q3: 以下哪些关于集中式学习的陈述是正确的？

Q4: 用您自己的话解释什么是自我对弈方法

解决方案

“自我对弈”是一种方法，通过实例化具有与对手相同策略的代理的副本，使您的代理从具有相同训练水平的代理中学习。

Q5: 在配置自我对弈时，有几个重要参数。您能根据其定义确定我们正在谈论哪些参数吗？

与当前自己对战的概率 vs 从对手池中选择对手对战的概率
面对对手的训练水平的差异（分散）
生成新对手之前的训练步骤数
对手更换率

Q6: 使用 ELO 评分的主要动机是什么？

恭喜您完成了这个测验🥳，如果您错过了一些元素，请花时间再次阅读章节，以加强（😏）您的知识。