策略调整可行性 #53

SvenNJ · 2022-10-12T07:42:45Z

目前是根据当前人的手牌、历史出牌、各玩家出牌历史、剩余数量以及炸弹组合的，非常庞大的数据量，训练需要耗费非常久的时间。

若调整为当前人的手牌、下家手牌、上家手牌、最近一次出牌记录来训练会不会更快些，也就是大家都是明牌来打斗地主。

LSTM这里也不要历史出牌记录来初始化了，直接按照上面的明牌元素，Linear还是保持6层，512大小

最终反正都是按照牌局结束来奖励。

想知道这种策略在地主与农民合作与对抗上面是否有效

daochenzha · 2022-10-12T16:34:30Z

@SvenNJ 我觉得效果会更好，不过这样就训练出来的agent就只能打明牌了

SvenNJ · 2022-10-13T01:28:00Z

好的，感谢

SvenNJ closed this as completed Oct 13, 2022

Provide feedback