New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Stage 1-3 #4
Comments
Challenge 0002設定色々試す。以下実施。
結果全部ダメ(ほとんど 0001と変わらない)。 所感 |
Challenge 0003設定上に行けるように報酬を高いところに行くほど与えてみる。 class CustomRewardAndDoneEnv(gym.Wrapper):
def __init__(self, env=None):
super(CustomRewardAndDoneEnv, self).__init__(env)
self.curr_score = 0
self.current_x = 40
self.current_y = 79
def step(self, action):
state, reward, done, info = self.env.step(action)
reward += (info["score"] - self.curr_score) / 40.
reward += (info["y_pos"] - self.current_y)
self.curr_score = info["score"]
if done:
if info["flag_get"]:
reward += 50
else:
reward -= 50
self.current_x = info["x_pos"]
return state, reward / 10., done, info
def reset(self):
self.curr_score = 0
self.current_x = 40
self.current_y = 79
return self.env.reset() 結果おばかマリオが爆誕 ai_mario_0003.mp4所感報酬が単純過ぎました。でもどんどん作り込んでいったらルールベースと変わらないのでは? |
Status
Challenge Notebook LinkBest Movieai_mario.mp4Best Trained Modelコメント見様見真似でやってみました。 突然の乱入失礼です。 |
@chottokun |
Challenge 0004設定
ノートブックhttps://drive.google.com/file/d/14hYsrKXC270dfSLdsuoCyJcfAifLw80m/view?usp=sharing 結果わりと賢くなってきた。 ai_mario_1_3_0004.mp4所感このまま学習させればクリアできるか? |
Challenge 0005設定0004から継続して学習 ノートブックhttps://drive.google.com/file/d/14hYsrKXC270dfSLdsuoCyJcfAifLw80m/view?usp=sharing 結果ai_mario_1_3_0005.mp4所感伸び悩んでいる… |
Challenge 0006設定動く足場でジャンプするところ、学習させる連続フレーム数を増やすとうまくジャンプできるかなと試しに丸一日学習させたけど、全然学習が進まなかった。 具体的には ノートブックhttps://drive.google.com/file/d/14hYsrKXC270dfSLdsuoCyJcfAifLw80m/view?usp=sharing 結果省略 所感うーん、ちょっと停滞気味。 |
Challenge 0007設定2-1をクリアした @Kazuhito00 さんのノートブックをステージだけ改変してテスト ノートブックhttps://colab.research.google.com/drive/1e-KNSFd5NBpUIqY9Z1HpXm3ehZwh9Q7r 結果所感完全に局所解におちてしまった。学習率上げるのと、ニューラルネットと報酬を見直してみる。 |
これは難しそうですね。。。 |
現状ai_mario.mp4コメントさらに継続して5100000回回した中でのベスト。 |
Challenge 0008設定2-1をクリアした @Kazuhito00 さんのノートブックに以下変更してクリア!
ノートブック結果同じ設定で2回学習させて、2回目でクリア。 学習率が大きめなので、学習が安定していないのかも。 1回目(クリア失敗)ai_mario_1_3_0008_001.mp42回目(クリア成功)ai_mario_1_3_0008_002_clear.mp4所感みなさんの知見に助けられました。 |
Stage
1-3
Status
Challenge Notebook Link
https://colab.research.google.com/drive/12bD4A63g4oTSzdF3_gW1xj7w4l2X249Z?usp=sharing
Best Movie
ai_mario_1_3_0008_002_clear.mp4
Best Trained Model
https://drive.google.com/file/d/1fhUFYLpA4AEJ7sYt9YXWQaLk7Al9RuRY/view?usp=sharing
Challenger
@karaage0703
The text was updated successfully, but these errors were encountered: