-
Notifications
You must be signed in to change notification settings - Fork 0
/
read_me.txt
72 lines (58 loc) · 2.42 KB
/
read_me.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
#蒙特卡洛基础算法程序
holdem_calc.py 是采用蒙特卡洛算法的主函数程序
holdem_functions.py holdem_argparser.py 主要含有一些计算胜率和参数传递和读取的函数 function文件计算胜率 argparser文件是参数传递和读取功能(非重点)
#强化学习算法程序(用于算法的迭代更新)
RL_brain.py 是强化学习算法DQN的集成类程序
env_puke.py 是基于gym类的德扑环境程序 配套DQN算法
run_holdem.py 是强化学习算法DQN的主函数运行程序
#强化学习算法测试程序(主要作为使用)
RL_brain.py 是强化学习算法DQN的集成类程序
env_puke_test.py 是基于gym类的德扑环境程序 配套DQN算法
test_holdem.py 是强化学习算法DQN的测试主函数运行程序 并非直接运行 仅用于检查结果
truth_holdem.py 直接运行测试程序
#运行程序
python truth_holdem.py 可以直接在终端进行
也可以在python的解释器里运行
其中运行后会出现类似如下结果:
successfull loaded the model!
['5h', '2s', '3d', '6h'] None
player2 action :
之后输入我们的动作【action:1:弃牌 2:跟 3:小注 4:中注 5:大注 6:梭哈】后两张牌是我们的牌 前两者为机器人的牌
策略网络会给出他的结果 如下所示:
successfull loaded the model!
['5h', '2s', '3d', '6h'] None
player2 action : 2
1
action : 4
['5h', '2s', '3d', '6h'] ['4h', '6d', '7h']
player2 action :
其中action:4代表机器人的动作 ,其动作【action: 0:弃牌 1:跟 2:小注 3:中注 4:大注 5:梭哈】
它有时会用比较大的注 因为我为了更好训练 怕他产生一直丢牌的问题 所以没有区分大小注 所以其实主要看他是弃牌还是跟
一般来说它的牌比较差 如果你连续跟 他会弃牌 除非他有大A 那样他就会一直跟
类似下面的情况
['3h', 'Ac', '7s', '8s'] None
player2 action : 2
1
action : 4
['3h', 'Ac', '7s', '8s'] ['9h', 'Ad', '5s']
player2 action : 2
2
action : 5
['3h', 'Ac', '7s', '8s'] ['9h', 'Ad', '5s', '7h']
player2 action : 2
3
action : 4
['3h', 'Ac', '7s', '8s'] ['9h', 'Ad', '5s', '7h', 'As']
player2 action : 2
['3h', 'Ac', '7s', '8s'] ['9h', 'Ad', '5s', '7h', 'As']
Winning Percentages:
(3h, Ac) : 1.0
(7s, 8s) : 0.0
0
action : 2
step: 6 player1 reward: 1
#修改玩几轮
truth_holdem.py文件中15 16行代码为:
#TODO 这里的steps可以改玩几轮
steps = 10
通过修改可以改回合的次数