- 两两对打,所有小组都会互相成为对手;按得分,选择一半的队伍进入下一阶段;
- 比赛分阶段进行,每一阶段会淘汰掉一半的小组,并且随着阶段推进,对打轮次会增加; (具体来说,第一阶段,小组A会和班上其他全部小组都比赛,每场比赛2000次并且每个组会获得该轮比赛得分,如果小组A的所有得分和大于0将进入下一阶段比赛, 下一阶段比赛每一对比赛5000次,以后每轮增加5000次。)
- 采用强化学习算法,训练模型;利用蒙特卡洛树搜索算法,训练模型
- 运行 test_agent.py 文件,查看模型效果
- 运行 mc.py 文件,训练模型
- policy_pkl 文件是训练好的模型
- Group_Policy_4.py 是根据模型生成的策略文件