Stage 1-3 #4

karaage0703 · 2022-01-06T15:16:37Z

Stage

1-3

Status

Create Notebook
Clear

Challenge Notebook Link

https://colab.research.google.com/drive/12bD4A63g4oTSzdF3_gW1xj7w4l2X249Z?usp=sharing

Best Movie

ai_mario_1_3_0008_002_clear.mp4

Best Trained Model

https://drive.google.com/file/d/1fhUFYLpA4AEJ7sYt9YXWQaLk7Al9RuRY/view?usp=sharing

Challenger

@karaage0703

karaage0703 · 2022-01-07T14:49:06Z

Challenge 0001

設定

1-2と同じハイパーパラメータで学習。

結果

全く学習すすまない。

何回やってもほとんど同じ動き。上に行けない

ai_mario_0001.mp4

所感

何故学習が進まないのかよくわからない。

karaage0703 · 2022-01-07T14:51:29Z

Challenge 0002

設定

色々試す。以下実施。

SIMPLE_MOVEMENT -> COMPLEX_MOVEMENT
SKIP 4 -> 2
LEARNING RATE 0.00002 GAE 0.9
COMPLEX _MOVEMENT SKIP 4 SKIP_PROB = 0.25 LEARNING RATE 0.0001 GAE 0.9

結果

全部ダメ（ほとんど 0001と変わらない）。

所感

karaage0703 · 2022-01-07T14:53:44Z

Challenge 0003

設定

上に行けるように報酬を高いところに行くほど与えてみる。

class CustomRewardAndDoneEnv(gym.Wrapper):
    def __init__(self, env=None):
        super(CustomRewardAndDoneEnv, self).__init__(env)
        self.curr_score = 0
        self.current_x = 40
        self.current_y = 79

    def step(self, action):
        state, reward, done, info = self.env.step(action)

        reward += (info["score"] - self.curr_score) / 40.
        reward += (info["y_pos"] - self.current_y)

        self.curr_score = info["score"]
        if done:
            if info["flag_get"]:
                reward += 50
            else:
                reward -= 50

        self.current_x = info["x_pos"]
        return state, reward / 10., done, info

    def reset(self):
        self.curr_score = 0
        self.current_x = 40
        self.current_y = 79
        return self.env.reset()

結果

おばかマリオが爆誕

ai_mario_0003.mp4

所感

報酬が単純過ぎました。でもどんどん作り込んでいったらルールベースと変わらないのでは？

chottokun · 2022-01-10T01:08:54Z

Status

Create Notebook
Clear

Challenge Notebook Link

https://github.com/chottokun/mario-ai-challenge/blob/Colaboratory/mario_ai_challenge_1_3_v3_local.ipynb

Best Movie

ai_mario.mp4

Best Trained Model

best trained model

Challenge 0004

設定

報酬を調整。コインはあまり重視しない。デスペナルティを大きく
CNNをカスタム
20時間以上（約50万タイムステップ）学習

ノートブック

https://drive.google.com/file/d/14hYsrKXC270dfSLdsuoCyJcfAifLw80m/view?usp=sharing

結果

わりと賢くなってきた。

ai_mario_1_3_0004.mp4

所感

このまま学習させればクリアできるか？

karaage0703 · 2022-01-12T13:10:07Z

Challenge 0005

設定

0004から継続して学習

ノートブック

https://drive.google.com/file/d/14hYsrKXC270dfSLdsuoCyJcfAifLw80m/view?usp=sharing

結果

ai_mario_1_3_0005.mp4

所感

伸び悩んでいる…

karaage0703 · 2022-01-13T14:05:06Z

Challenge 0006

設定

動く足場でジャンプするところ、学習させる連続フレーム数を増やすとうまくジャンプできるかなと試しに丸一日学習させたけど、全然学習が進まなかった。

具体的には STACK_FRAME_NUMB を 4 -> 8 にした。

ノートブック

https://drive.google.com/file/d/14hYsrKXC270dfSLdsuoCyJcfAifLw80m/view?usp=sharing

結果

省略

所感

うーん、ちょっと停滞気味。

karaage0703 · 2022-01-13T23:39:25Z

Challenge 0007

設定

2-1をクリアした　@Kazuhito00 さんのノートブックをステージだけ改変してテスト

ノートブック

https://colab.research.google.com/drive/1e-KNSFd5NBpUIqY9Z1HpXm3ehZwh9Q7r

結果

所感

完全に局所解におちてしまった。学習率上げるのと、ニューラルネットと報酬を見直してみる。

Kazuhito00 · 2022-01-13T23:43:01Z

これは難しそうですね。。。
他のステージだとしばらく学習し続けてると、抜け出してまた成長しだしたりしましたが、
このグラフだとソレは絶望的な気がします🤔
ベストリワードが高いところもあるので、完全に望み薄でもなさそうなところが悩ましい👀

chottokun · 2022-01-15T01:31:59Z

現状

ai_mario.mp4

Challenge 0008

設定

2-1をクリアした　@Kazuhito00 さんのノートブックに以下変更してクリア！

学習率調整（0.00001 -> 0.0001)
CNNネットワークを変更

ノートブック

結果

同じ設定で2回学習させて、2回目でクリア。

学習率が大きめなので、学習が安定していないのかも。

1回目（クリア失敗）

ai_mario_1_3_0008_001.mp4

2回目（クリア成功）

ai_mario_1_3_0008_002_clear.mp4

所感

みなさんの知見に助けられました。

karaage0703 added the Challenge label Jan 6, 2022

karaage0703 changed the title ~~Stage x-x~~ Stage 1-3 Jan 6, 2022

karaage0703 closed this as completed Jan 15, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Stage 1-3 #4

Stage 1-3 #4

karaage0703 commented Jan 6, 2022 •

edited

karaage0703 commented Jan 7, 2022 •

edited

karaage0703 commented Jan 7, 2022

karaage0703 commented Jan 7, 2022

chottokun commented Jan 10, 2022

karaage0703 commented Jan 10, 2022

karaage0703 commented Jan 11, 2022 •

edited

karaage0703 commented Jan 12, 2022

karaage0703 commented Jan 13, 2022 •

edited

karaage0703 commented Jan 13, 2022

Kazuhito00 commented Jan 13, 2022 •

edited

chottokun commented Jan 15, 2022

karaage0703 commented Jan 15, 2022 •

edited

Stage 1-3 #4

Stage 1-3 #4

Comments

karaage0703 commented Jan 6, 2022 • edited

Stage

Status

Challenge Notebook Link

Best Movie

Best Trained Model

Challenger

karaage0703 commented Jan 7, 2022 • edited

Challenge 0001

設定

結果

所感

karaage0703 commented Jan 7, 2022

Challenge 0002

設定

結果

所感

karaage0703 commented Jan 7, 2022

Challenge 0003

設定

結果

所感

chottokun commented Jan 10, 2022

Status

Challenge Notebook Link

Best Movie

Best Trained Model

コメント

karaage0703 commented Jan 10, 2022

karaage0703 commented Jan 11, 2022 • edited

Challenge 0004

設定

ノートブック

結果

所感

karaage0703 commented Jan 12, 2022

Challenge 0005

設定

ノートブック

結果

所感

karaage0703 commented Jan 13, 2022 • edited

Challenge 0006

設定

ノートブック

結果

所感

karaage0703 commented Jan 13, 2022

Challenge 0007

設定

ノートブック

結果

所感

Kazuhito00 commented Jan 13, 2022 • edited

chottokun commented Jan 15, 2022

現状

コメント

karaage0703 commented Jan 15, 2022 • edited

Challenge 0008

設定

ノートブック

結果

1回目（クリア失敗）

2回目（クリア成功）

所感

karaage0703 commented Jan 6, 2022 •

edited

karaage0703 commented Jan 7, 2022 •

edited

karaage0703 commented Jan 11, 2022 •

edited

karaage0703 commented Jan 13, 2022 •

edited

Kazuhito00 commented Jan 13, 2022 •

edited

karaage0703 commented Jan 15, 2022 •

edited