# 冰湖(FrozenLake) 遊戲測試

In [1]:
# 匯入gymnasium套件，用於建立和操作強化學習環境
import gymnasium as gym

# 匯入numpy套件，用於數值計算與陣列處理
import numpy as np

# 匯入random模組，用於隨機數生成
import random

In [2]:
# 建立FrozenLake環境，並將環境的render_mode設為'rgb_array'以傳回畫面影像陣列
env = gym.make("FrozenLake-v1", render_mode="rgb_array")

# 印出環境的動作空間，方便了解可採取的動作種類
# 例如Discrete(4)，代表四個方向動作(左、下、右、上)
print(env.action_space)

# 印出環境的觀察空間，方便了解狀態空間大小
# 例如Discrete(16)，代表有16個不同的狀態(格子)
print(env.observation_space)

Discrete(4)
Discrete(16)


In [3]:
# 取得環境觀察空間的大小(狀態數量)
# 僅適用於環境的觀察空間為離散(Discrete)類型
env.observation_space.n  # 傳回狀態空間中不同狀態的總數

16

In [4]:
# 取得環境觀察空間的起始狀態編號，通常為0
env.observation_space.start  # 傳回離散狀態空間的起始索引

0

In [5]:
# 取得環境動作空間的大小(可採取動作的總數)
# 僅適用於動作空間為離散(Discrete)類型
env.action_space.n  # 傳回可選擇的動作數量，例如FrozenLake是4(左、下、右、上)

4

In [6]:
# 從動作空間中隨機採樣一個動作
# 僅適用於動作空間為離散(Discrete)類型
env.action_space.sample()  # 傳回一個合法的隨機動作編號

0

In [7]:
# 從觀察空間中隨機採樣一個狀態
# 僅適用於觀察空間為離散(Discrete)類型
env.observation_space.sample()  # 傳回一個合法的隨機狀態編號

7

In [8]:
# 行動轉移機率(P)，以字典形式表示
# P[state][action]是一個列表，包含多組(機率, 下一狀態, 獎勵, 回合是否結束)的元組
# 例如：在狀態0，執行行動0(往左)，會得到第一筆轉移機率資訊
env.unwrapped.P  # 傳回完整的狀態-行動轉移概率字典

{0: {0: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 4, 0.0, False)],
  1: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 4, 0.0, False),
   (0.3333333333333333, 1, 0.0, False)],
  2: [(0.3333333333333333, 4, 0.0, False),
   (0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)],
  3: [(0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)]},
 1: {0: [(0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 5, 0.0, True)],
  1: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 5, 0.0, True),
   (0.3333333333333333, 2, 0.0, False)],
  2: [(0.3333333333333333, 5, 0.0, True),
   (0.3333333333333333, 2, 0.0, False),
   (0.3333333333333333, 1, 0.0, False)],
  3: [(0.3333333333333333, 2, 0.0, False),
   (0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)]},
 2:

In [9]:
# agent在狀態1採取行動0(往左)時的所有可能轉移結果
# 每個結果為一個元組：(機率, 下一狀態, 獎勵, 回合是否結束)
# LEFT = 0, DOWN = 1, RIGHT = 2, UP = 3
env.unwrapped.P[1][0]  # 傳回在狀態1往左走的轉移機率列表

[(0.3333333333333333, 1, 0.0, False),
 (0.3333333333333333, 0, 0.0, False),
 (0.3333333333333333, 5, 0.0, True)]

# 手動實驗

In [10]:
# 重置環境，開始新的一回合(傳回初始狀態與資訊，但此處未接收)
env.reset()

# 執行動作0(LEFT)，讓agent往左移動
state, reward, terminated, truncated, info = env.step(0)  # 執行步驟並接收結果

# 顯示當前環境畫面(以圖像方式呈現)
env.render()

# 輸出目前狀態、獎勵、是否終止、是否截斷
print(state, reward, terminated, truncated)
if terminated or truncated:  # 若遊戲完成或因時間限制中斷
    env.reset()              # 重置環境以便重新開始
print()                      # 輸出空行，讓輸出結果更清楚分隔

# 執行動作1(DOWN)，讓agent往下移動
state, reward, terminated, truncated, info = env.step(1)
env.render()
print(state, reward, terminated, truncated)
if terminated or truncated:
    env.reset()
print()

# 再次執行動作1(DOWN)，繼續往下移動
state, reward, terminated, truncated, info = env.step(1)
env.render()
print(state, reward, terminated, truncated)
if terminated or truncated:
    env.reset()
print()

# 執行動作2(RIGHT)，讓agent往右移動
state, reward, terminated, truncated, info = env.step(2)
env.render()
print(state, reward, terminated, truncated)
if terminated or truncated:
    env.reset()
print()

# 執行動作3(UP)，讓agent往上移動
state, reward, terminated, truncated, info = env.step(3)
env.render()
print(state, reward, terminated, truncated)
if terminated or truncated:
    env.reset()

0 0.0 False False

1 0.0 False False

2 0.0 False False

6 0.0 False False

2 0.0 False False


# 隨機實驗

In [11]:
# 建立一個空清單，用來儲存每次遊戲的總報酬
total_reward_list = []

# 執行1000回合遊戲
for _ in range(1000):
    env.reset()       # 重置環境(開始新的一回合)
    total_reward = 0  # 初始化本回合的累計報酬為0

    while True:
        # 採取行動(這裡使用隨機策略)
        action = env.action_space.sample()  # 隨機選擇一個合法動作

        # 執行動作，並取得下一狀態、報酬、是否結束等資訊
        next_state, reward, terminated, truncated, info = env.step(action)

        # 判斷是否結束(成功到達終點或被截斷)
        is_done = terminated or truncated

        # 累加本回合的報酬
        total_reward += reward

        # 若回合結束，跳出while迴圈
        if is_done:
            break

    # 將本回合的總報酬四捨五入後加入清單中
    total_reward_list.append(round(total_reward, 2))

# 顯示所有回合的累計報酬列表
print(f"累計報酬: {total_reward_list}")

累計報酬: [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0

In [12]:
r = np.array(total_reward_list)           # 將累計報酬清單轉換成NumPy陣列，方便後續操作
print(f'成功次數 = {np.sum(r[r == 1])}')  # 篩選出報酬為1的元素，並加總結果(即成功次數)

成功次數 = 12.0


# 狀態值函數

In [13]:
# 定義代理人類別(Agent)，用於決策和估計狀態價值
class Agent():
    # 初始化函式，建立狀態價值陣列(多一個元素以防索引溢位)
    def __init__(self, env):
        self.state_value = np.zeros(env.nS + 1)  # 初始化所有狀態的價值為0

    # 根據當前狀態，傳回該狀態所有可能採取動作後可達到的下一狀態列表
    def get_observation(self, state):
        no_route = env.observation_space.n  # 無效路徑使用此值表示(超出狀態空間範圍)

        # 動作對應編號：LEFT = 0, DOWN = 1, RIGHT = 2, UP = 3
        next_states = {
            0: [no_route, 4, 1, no_route],
            1: [0, 5, 2, no_route],
            2: [1, 6, 3, no_route],
            3: [2, 7, no_route, no_route],
            4: [no_route, 8, 5, 0],
            5: [4, 9, 6, 1],
            6: [5, 10, 7, 2],
            7: [no_route, 11, no_route, 3], 
            8: [no_route, 12, 9, 4],  
            9: [8, 13, 10, 5],
            10: [9, 14, 11, 6],
            11: [10, 15, no_route, 7],   
            12: [no_route, no_route, 13, 8],      
            13: [12, no_route, 14, 9],
            14: [13, no_route, 15, 10],
            15: [14, no_route, no_route, 11],   
        }
        return next_states[state]  # 傳回當前狀態下可行的鄰近狀態列表

    # 根據目前狀態決定下一步行動
    def action(self, env, state):
        # 取得該狀態可達下一狀態的價值，並選擇最大價值對應的動作
        action = np.argmax(self.state_value[self.get_observation(state)])
        max_value = np.max(self.state_value[self.get_observation(state)])

        # 若最大價值非0，則採用該行動
        if max_value != 0:  
            return action            
        else:  
            # 否則隨機選擇一個合法動作(初始探索階段)
            return random.choice(range(env.action_space.n))

In [14]:
# 定義代理人類別(Agent)，用於決策動作和存取環境資訊
class Agent:
    def __init__(self, env):
        self.env = env                     # 將傳入的環境物件(env)存成類別的成員變數，方便其他方法使用
        self.nS = env.observation_space.n  # 取得環境的狀態空間大小(狀態數量)
        self.nA = env.action_space.n       # 取得環境的動作空間大小(動作數量)

        # 嘗試取得環境底層的轉移機率字典(P)，若無此屬性則設為None
        self.P = getattr(env.unwrapped, 'P', None)

        # 初始化所有狀態的價值為0，陣列長度為狀態數
        self.state_value = np.zeros(self.nS)

    def action(self, env, state):
        # 暫時用隨機策略，從環境可行動作空間中隨機選擇一個動作傳回
        return env.action_space.sample()

# 建立FrozenLake環境，設定為滑動版(is_slippery = True)，並將渲染模式設為ansi，方便文字輸出顯示環境狀態
env = gym.make("FrozenLake-v1", is_slippery = True, render_mode="ansi")

# 建立代理人實例，只需建立一次
agent = Agent(env)

# 建立空清單，用來儲存每回合的累計報酬
total_reward_list = []

# 進行1000回合遊戲
for _ in range(1000):
    state, _ = env.reset()  # 重置環境，取得初始狀態與其他資訊(用_忽略)
    total_reward = 0        # 本回合累計報酬初始值設為0

    while True:
        # 代理人根據當前狀態選擇下一動作
        action = agent.action(env, state)

        # 執行動作，取得下一狀態及回饋
        next_state, reward, terminated, truncated, info = env.step(action)

        # 判斷回合是否結束(成功或被中斷)
        is_done = terminated or truncated

        print(env.render())     # 輸出目前環境狀態(使用ansi渲染，呈現文字版畫面)
        total_reward += reward  # 將本次獲得的獎勵累加到本回合總報酬
        state = next_state      # 更新當前狀態為剛剛到達的下一狀態

        # 如果回合結束，跳出while迴圈
        if is_done:
            break

    # 將本回合累計報酬四捨五入後加入清單
    total_reward_list.append(round(total_reward, 2))

# 所有回合結束後，輸出累計報酬清單
print(f"累計報酬: {total_reward_list}")

  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG

  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG

  (Left)
SFFF
[41mF[0mHFH
FFFH
HFFG

  (Down)
SFFF
[41mF[0mHFH
FFFH
HFFG

  (Right)
[41mS[0mFFF
FHFH
FFFH
HFFG

  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG

  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG

  (Down)
SF[41mF[0mF
FHFH
FFFH
HFFG

  (Left)
S[41mF[0mFF
FHFH
FFFH
HFFG

  (Up)
S[41mF[0mFF
FHFH
FFFH
HFFG

  (Up)
SF[41mF[0mF
FHFH
FFFH
HFFG

  (Right)
SFF[41mF[0m
FHFH
FFFH
HFFG

  (Up)
SFF[41mF[0m
FHFH
FFFH
HFFG

  (Right)
SFF[41mF[0m
FHFH
FFFH
HFFG

  (Down)
SFFF
FHF[41mH[0m
FFFH
HFFG

  (Down)
[41mS[0mFFF
FHFH
FFFH
HFFG

  (Right)
[41mS[0mFFF
FHFH
FFFH
HFFG

  (Up)
S[41mF[0mFF
FHFH
FFFH
HFFG

  (Up)
S[41mF[0mFF
FHFH
FFFH
HFFG

  (Down)
[41mS[0mFFF
FHFH
FFFH
HFFG

  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG

  (Up)
[41mS[0mFFF
FHFH
FFFH
HFFG

  (Down)
S[41mF[0mFF
FHFH
FFFH
HFFG

  (Down)
[41mS[0mFFF
FHFH
FFFH
HFFG

  (Left)
SFFF
[41mF[0mHFH
FFFH
HFFG

  (Right)
SFFF
F[41mH[0mFH
FFFH

In [15]:
r = np.array(total_reward_list)           # 將累計報酬清單轉換成numpy陣列，方便後續操作
print(f'成功次數 = {np.sum(r[r == 1])}')  # 篩選報酬為1的元素，並加總結果(即成功次數)

成功次數 = 18.0
