In [1]:
# 載入random套件，用於隨機選擇行動
import random

# 環境類別
class Environment:    
    def __init__(self):    # 初始化環境
        self.poistion = 3  # 玩家一開始站在中間位置(位置為3)

    # 取得觀測/狀態
    def get_observation(self):
        # 狀態空間(State Space)，共有5個位置[1, 2, 3, 4, 5]
        return [i for i in range(1, 6)]

    # 取得可行的動作
    def get_actions(self):        
        return [-1, 1]  # 動作空間(Action Space)：-1 左移，+1 右移

    # 判斷回合是否結束
    def is_done(self):
        # 如果玩家走到左右兩端(1或5)，回合結束
        return self.poistion == 1 or self.poistion == 5

    # 執行一步
    def step(self, action):
        # 如果回合已結束，禁止再走
        if self.is_done():
            raise Exception("Game over")
        
        # 更新玩家位置
        self.poistion += action

        # 根據新位置給予獎勵
        if self.poistion == 1:
            reward = -1     # 左端點，負獎勵
        elif self.poistion == 5:
            reward = 1      # 右端點，正獎勵
        else:    
            reward = -0.02  # 中間位置，略微懲罰，鼓勵快速到達端點

        # 回傳新的狀態和獎勵
        return self.poistion, reward

# 代理人類別
class Agent:
    def __init__(self):
        pass  # 初始化，可擴充學習策略等

    # 決策動作
    def action(self, env):
        current_obs = env.get_observation()      # 取得目前狀態(但此範例未使用)
        return random.choice(env.get_actions())  # 隨機選擇一個動作(-1或1)

# 主程式
if __name__ == "__main__":
    # 建立環境與代理人
    env = Environment()
    agent = Agent()

    # 記錄累計報酬與動作序列
    total_reward = 0  
    action_list = []

    # 遊戲回合，直到結束
    while not env.is_done():
        action = agent.action(env)           # 代理人選擇動作
        action_list += [action]              # 記錄動作
        state, reward = env.step(action)     # 執行動作，更新狀態與獎勵
        total_reward += reward               # 累計獎勵
    
    # 顯示最終結果
    print(f"累計報酬: {total_reward:.4f}")
    print(f"行動: {action_list}")

累計報酬: 0.9000
行動: [-1, 1, 1, -1, 1, 1]
