作業3 : 利用RL逃離迷宮
說明:
Using Q-learining or any reinforcement learning algorithm to find out the way to escape the maze.
請利用Q-learning或任何你知道的RL方法去逃離迷宮
請隨意修改這個colab的程式來完成訓練
數字僅供繪製地圖時參考用
迷宮本身為21*11的迷宮
起點左上角(0,0) 終點為右下角(20,10)
X表示牆壁位置(顏色為綠色方便區分) O表示寶藏位置(顏色為橘色方便區分) S表示起點位置 G表示終點位置 黃色底色表示可能路徑
請利用以下程式碼將地圖設定完成
移動時不可穿過障礙物
評分標準:
心得(20%)
到達終點(40%)
拿取寶藏(25%)
抵達終點所消耗步數(15%)
注意事項:
訓練次數不得超過1000次
不會因為步數過多扣分 以能到終點為主要作業目標 步數越少分數越高
請自行將規則補在程式內
並制定良好的Reward讓你更快走完
寶藏計分方式為參數Score
每踩到一個寶箱Score+1 每場重置 每回合都必須計算Score分數 最高5分
繳交格式:
需繳交2個檔案
1.心得 (HW3_學號.pdf)
2.程式碼 (HW3_學號.ipynb)
*繳交時心得需要包含
1.完整迷宮截圖
2.步數最少的截圖
3.訓練完的Q-table
4.score分數
以上缺一不可 如少一以心得50%扣 缺二心得即為0分