Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

出牌顺序的问题 #2

Open
charlesXu86 opened this issue Apr 18, 2021 · 3 comments
Open

出牌顺序的问题 #2

charlesXu86 opened this issue Apr 18, 2021 · 3 comments

Comments

@charlesXu86
Copy link

我测试的时候发现了一个现象,就是每次都是从大牌先出。比如都是先出2,大王这些。最后剩3、4这种。想请教一下,这个出牌规则怎么调整的~

@freefuiiismyname
Copy link
Owner

我测试时,好像没有经常出现这种情况。请问你是基于我开源的训练好的模型吗?

这种情况的出现是因为模型训练不够或探索度不够。你可以:
1.继续训练模型,在海量的训练中,它会慢慢发现这种打法的劣势,并开始针对性调整;(就斗地主任务而言,我认为Critic是比较容易能够学会不同state的评估的)
2.对模型训练时的出牌进行扰动,以对动作空间获得更大的探索,这样,模型不容易陷于局部最优的打法中无法自拔;
3.使用多个不同的agent对抗,而不是如今自对抗的方式,这能够让模型看到多样化的策略,并学习和思考应对方法;
4.利用有监督数据训练模型,让模型从模拟学习开始,使模型能够快速掌握人类的打法,如果有需要,再额外采取自对抗的方式来进一步优化完善。

@wuzhanghui
Copy link

1.几乎都是叫地主
2.用ONLINE没记住每个人手上的牌数
3.胜率太低了

@freefuiiismyname
Copy link
Owner

1.几乎都是叫地主
2.用ONLINE没记住每个人手上的牌数
3.胜率太低了

1.因为不是完全信息,模型难下判断,此外斗地主模型是在不断学习而动态变化的状况,这可能导致抢地主模型比较难收敛,所以训练得不是很好。另外,由于时间和资源问题没做实验,也可能存在一些其它问题,比如模型本身的bug。
2.ONLINE主要是方便大家进行线上对战,体验下效果;主要的还是看模型主体吧。
3.嗯,我也对已开源的模型做了一些实验,就目前观测到的现象而言,这个项目的模型是各个开源中效果最佳的。但是也发现了,现在的各个开源模型的协作能力都很弱。或许当地主时效果还可以,但是当农民时就可能互殴;这一点还是有很大的改进空间吧。另外,不会决策抢地主、动作采样空间、模型训练等也是会影响到胜率的。

目前开源的代码和模型已经不是最新的,过几个月可能会开源新的版本。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants