学习和避免能力错觉的最佳方法是测试自己。这将帮助您找到需要加强知识的地方。
-
你的智能体旨在在 ____ 环境中最大化共同利益
-
你的智能体旨在在 ____ 环境中最大化共同利益,同时最小化对手的利益
解决方案
“自我对弈”是一种方法,通过实例化具有与对手相同策略的代理的副本,使您的代理从具有相同训练水平的代理中学习。
-
与当前自己对战的概率 vs 从对手池中选择对手对战的概率
-
面对对手的训练水平的差异(分散)
-
生成新对手之前的训练步骤数
-
对手更换率
恭喜您完成了这个测验🥳,如果您错过了一些元素,请花时间再次阅读章节,以加强(😏)您的知识。