2048

使用说明

play.py 图形化2048游玩运行后按下H开始游戏 PPO.py PPO模型

Main_net.py 网络定义

rl_utils.py 包含计算优势函数的定义

Train.py 训练具体超参数定义 Train_on_policy.py 在线训练

环境要求 pytorch tqdm

采用的算法

ppo 搜索树

使用的技巧

在采取动作之前，优先过滤掉无效的操作，相比于惩罚无效操作，过滤是更好的方法。

训练的轮次

30w epcoch震荡。

现在的效果

100局百分之五十达到512 百分之10达到1024

奖励函数设置

每轮正奖励：得分/100+空格/16

每局终止状态奖励：-50*（10-log2(每局的最高砖块)）

改进方法：使用搜索树方法。效果比PPO更好

搜索树

深度为5,穷举出接下来五个step的动作，采取最终效果最好的动作。

产生的问题

1.ppo的探索问题

随着训练的加深，策略网络已经变为确定性策略，近乎完全失去了探索能力，最终成绩在512~1024震荡。ppo的探索问题如何解决？sac中添加的熵正则可能会更加适合2048这个环境。可能时因为奖励过于密集，后续将会尝试降低奖励的密集程度

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
.idea		.idea
Train_result		Train_result
__pycache__		__pycache__
best_net		best_net
env2048		env2048
save_weight		save_weight
Main_Net.py		Main_Net.py
README.md		README.md
Train.py		Train.py
Train_on_policy.py		Train_on_policy.py
play.py		play.py
ppo.py		ppo.py
rl_utils.py		rl_utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

2048

使用说明

采用的算法

使用的技巧

训练的轮次

现在的效果

奖励函数设置

搜索树

产生的问题

1.ppo的探索问题

About

Releases

Packages

Languages

czf456789/2048-with-ReinforcementLearning

Folders and files

Latest commit

History

Repository files navigation

2048

使用说明

采用的算法

使用的技巧

训练的轮次

现在的效果

奖励函数设置

搜索树

产生的问题

1.ppo的探索问题

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages