In [1]:
# 匯入gymnasium套件，用於建立和操作強化學習環境
import gymnasium as gym

In [2]:
# 顯示目前已註冊的遊戲環境名稱(keys)
print(gym.envs.registry.keys())

dict_keys(['CartPole-v0', 'CartPole-v1', 'MountainCar-v0', 'MountainCarContinuous-v0', 'Pendulum-v1', 'Acrobot-v1', 'phys2d/CartPole-v0', 'phys2d/CartPole-v1', 'phys2d/Pendulum-v0', 'LunarLander-v3', 'LunarLanderContinuous-v3', 'BipedalWalker-v3', 'BipedalWalkerHardcore-v3', 'CarRacing-v3', 'Blackjack-v1', 'FrozenLake-v1', 'FrozenLake8x8-v1', 'CliffWalking-v1', 'CliffWalkingSlippery-v1', 'Taxi-v3', 'tabular/Blackjack-v0', 'tabular/CliffWalking-v0', 'Reacher-v2', 'Reacher-v4', 'Reacher-v5', 'Pusher-v2', 'Pusher-v4', 'Pusher-v5', 'InvertedPendulum-v2', 'InvertedPendulum-v4', 'InvertedPendulum-v5', 'InvertedDoublePendulum-v2', 'InvertedDoublePendulum-v4', 'InvertedDoublePendulum-v5', 'HalfCheetah-v2', 'HalfCheetah-v3', 'HalfCheetah-v4', 'HalfCheetah-v5', 'Hopper-v2', 'Hopper-v3', 'Hopper-v4', 'Hopper-v5', 'Swimmer-v2', 'Swimmer-v3', 'Swimmer-v4', 'Swimmer-v5', 'Walker2d-v2', 'Walker2d-v3', 'Walker2d-v4', 'Walker2d-v5', 'Ant-v2', 'Ant-v3', 'Ant-v4', 'Ant-v5', 'Humanoid-v2', 'Humanoid-v3', 

In [3]:
# 取得目前已註冊的環境數量
len(gym.envs.registry.keys())

63

In [4]:
# 匯入warnings模組，用來控制警告訊息的顯示
import warnings

# 忽略所有警告訊息，避免程式執行時出現不必要的提示
warnings.filterwarnings('ignore')

In [5]:
# 取得已註冊的環境名稱與環境規格(EnvSpec)對應的列表(包含所有可用環境)
gym.envs.registry.items()

dict_items([('CartPole-v0', EnvSpec(id='CartPole-v0', entry_point='gymnasium.envs.classic_control.cartpole:CartPoleEnv', reward_threshold=195.0, nondeterministic=False, max_episode_steps=200, order_enforce=True, disable_env_checker=False, kwargs={}, namespace=None, name='CartPole', version=0, additional_wrappers=(), vector_entry_point='gymnasium.envs.classic_control.cartpole:CartPoleVectorEnv')), ('CartPole-v1', EnvSpec(id='CartPole-v1', entry_point='gymnasium.envs.classic_control.cartpole:CartPoleEnv', reward_threshold=475.0, nondeterministic=False, max_episode_steps=500, order_enforce=True, disable_env_checker=False, kwargs={}, namespace=None, name='CartPole', version=1, additional_wrappers=(), vector_entry_point='gymnasium.envs.classic_control.cartpole:CartPoleVectorEnv')), ('MountainCar-v0', EnvSpec(id='MountainCar-v0', entry_point='gymnasium.envs.classic_control.mountain_car:MountainCarEnv', reward_threshold=-110.0, nondeterministic=False, max_episode_steps=200, order_enforce=True

In [6]:
# 設定計數器n初始值為1，用以限制輸出環境數量
n = 1

# 逐一列出已註冊環境的名稱與規格物件
for env_specs in gym.envs.registry.items():
    # 超過1筆資料後跳出迴圈，避免輸出過長
    if n > 1:
        break

    # 印出環境名稱及其規格(EnvSpec物件)
    print(env_specs)

    # 計數器加1，繼續處理下一筆資料
    n += 1

('CartPole-v0', EnvSpec(id='CartPole-v0', entry_point='gymnasium.envs.classic_control.cartpole:CartPoleEnv', reward_threshold=195.0, nondeterministic=False, max_episode_steps=200, order_enforce=True, disable_env_checker=False, kwargs={}, namespace=None, name='CartPole', version=0, additional_wrappers=(), vector_entry_point='gymnasium.envs.classic_control.cartpole:CartPoleVectorEnv'))


In [7]:
# 匯入pandas套件，用來建立與操作資料表
import pandas as pd

# 設定要顯示的欄位名稱：reward_threshold(報酬門檻)、max_episode_steps(最大回合步數)
space_names = ['reward_threshold', 'max_episode_steps']

# 建立空的DataFrame，欄位名稱為space_names
df = pd.DataFrame(columns = space_names)

# 計數器n初始值為1，用來限制列出的環境數量不超過20
n = 1

# 逐一取得所有已註冊環境的名稱與規格物件
for env in gym.envs.registry.items():
    # 若已列出超過20筆環境，跳出迴圈避免資料過多
    if n > 20:
        break

    # 取得當前環境的規格物件(EnvSpec)
    env_spec = env[1]

    # 將環境名稱作為索引，reward_threshold和max_episode_steps加入DataFrame
    df.loc[env[0]] = [env_spec.reward_threshold, env_spec.max_episode_steps]

    # 計數器加1，準備處理下一筆資料
    n += 1

# 顯示結果的DataFrame
df

Unnamed: 0,reward_threshold,max_episode_steps
CartPole-v0,195.0,200.0
CartPole-v1,475.0,500.0
MountainCar-v0,-110.0,200.0
MountainCarContinuous-v0,90.0,999.0
Pendulum-v1,,200.0
Acrobot-v1,-100.0,500.0
phys2d/CartPole-v0,195.0,200.0
phys2d/CartPole-v1,475.0,500.0
phys2d/Pendulum-v0,,200.0
LunarLander-v3,200.0,1000.0


In [8]:
# 匯入pandas套件，用來建立與操作資料表
import pandas as pd

# 定義要建立的資料表欄位名稱
space_names = ['觀測空間', '動作空間', '獎勵範圍', '最大步數']

# 建立空的DataFrame，欄位名稱為space_names
df = pd.DataFrame(columns = space_names)

# 取得gym的所有環境規格(env_id與env_spec)，是個dict_items物件
env_specs = gym.envs.registry.items()

# 限制最多處理的環境數量為450
no = 450

# 計數器i設為0，用來追蹤目前已處理的環境數量
i = 0

# 逐行遍歷所有環境規格
for env_id, env_spec in env_specs:
    # 每處理一個環境，計數器加1
    i += 1

    # 如果處理的環境數量超過預設上限no，則停止迴圈
    if i > no:
        break
    
    # 嘗試用gym.make建立環境實例
    try:
        # 建立指定ID的環境實例
        env = gym.make(env_id)

        # 取得該環境的觀測空間
        observation_space = env.observation_space

        # 取得該環境的動作空間
        action_space = env.action_space
        
        # 嘗試取得reward_range屬性，若沒有則設為None
        reward_range = getattr(env, 'reward_range', None)
        
        # 初始化最大步數為None
        max_episode_steps = None
        
        # 若環境有spec屬性且不為None，則取得最大步數設定
        if hasattr(env, 'spec') and env.spec is not None:
            max_episode_steps = env.spec.max_episode_steps
        
        # 將本次取得的資訊放入DataFrame的新列中，索引使用環境id
        df.loc[env_id] = [observation_space, action_space, reward_range, max_episode_steps]
        
        # 關閉環境，釋放資源
        env.close()
    
    # 如果遇到錯誤(如環境建立失敗)就跳過，不輸出錯誤訊息
    except Exception as e:
        pass

# 將DataFrame索引(環境id)重設為欄位，讓環境名稱成為一欄
df.reset_index(level = 0, inplace = True)

# 將剛重設的'index'欄位改名成'name'
df.rename(columns = {'index':'name'}, inplace = True)

# 用pandas的選項上下文，設定顯示所有列，避免被截斷
with pd.option_context('display.max_rows', None):
    # 顯示整個DataFrame
    display(df)

Unnamed: 0,name,觀測空間,動作空間,獎勵範圍,最大步數
0,CartPole-v0,Box([-4.8 -inf -0.41887903 ...,Discrete(2),,200.0
1,CartPole-v1,Box([-4.8 -inf -0.41887903 ...,Discrete(2),,500.0
2,MountainCar-v0,"Box([-1.2 -0.07], [0.6 0.07], (2,), float32)",Discrete(3),,200.0
3,MountainCarContinuous-v0,"Box([-1.2 -0.07], [0.6 0.07], (2,), float32)","Box(-1.0, 1.0, (1,), float32)",,999.0
4,Pendulum-v1,"Box([-1. -1. -8.], [1. 1. 8.], (3,), float32)","Box(-2.0, 2.0, (1,), float32)",,200.0
5,Acrobot-v1,Box([ -1. -1. -1. -1. ...,Discrete(3),,500.0
6,phys2d/CartPole-v0,"Box(-inf, inf, (4,), float32)",Discrete(2),,200.0
7,phys2d/CartPole-v1,"Box(-inf, inf, (4,), float32)",Discrete(2),,500.0
8,phys2d/Pendulum-v0,"Box(-inf, inf, (3,), float32)","Box(-2.0, 2.0, (1,), float32)",,200.0
9,LunarLander-v3,Box([ -2.5 -2.5 -10. -10. ...,Discrete(4),,1000.0


In [9]:
# 載入木棒台車(CartPole)遊戲的環境
env = gym.make("CartPole-v1")

# 輸出「動作空間」的資訊(表示這個環境中可執行的動作有哪些)
# CartPole是離散動作空間(Discrete)，共有兩個動作：
# 動作0：向左推小車，動作1：向右推小車

print(env.action_space)

# 輸出「觀測空間」的資訊(表示環境所觀測到的狀態是什麼，以及其格式與範圍)
# CartPole的觀測空間是4維連續空間(Box)，每個維度代表：
# 1.小車位置、2.小車速度、3.杆子的角度、4.杆子的角速度

print(env.observation_space)

# 輸出提示文字，說明接下來會顯示觀測空間的「上下限範圍」
print('observation_space 範圍：')

# 顯示觀測空間中，每個維度的「最大值」(上限)
print(env.observation_space.high)

# 顯示觀測空間中，每個維度的「最小值」(下限)
print(env.observation_space.low)

Discrete(2)
Box([-4.8               -inf -0.41887903        -inf], [4.8               inf 0.41887903        inf], (4,), float32)
observation_space 範圍：
[4.8               inf 0.41887903        inf]
[-4.8               -inf -0.41887903        -inf]


In [10]:
# 載入21點(Blackjack)遊戲的環境
env = gym.make("Blackjack-v1")

# 輸出「動作空間」的資訊(表示這個環境中可執行的動作有哪些)
# Blackjack是離散動作空間(Discrete)，包含兩個動作：
# 動作0：要牌(Hit)，動作1：停牌(Stick)

print(env.action_space)

# 輸出「觀測空間」的資訊(表示環境所觀測到的狀態是什麼，以及其格式與範圍)
# Blackjack的觀測空間是離散組合(Tuple)，包含三個值：
# 1.玩家目前手牌總點數(整數0~32)
# 2.莊家明牌點數(整數1~10)
# 3.玩家是否持有usable ace(布林值，True/False)

print(env.observation_space)

Discrete(2)
Tuple(Discrete(32), Discrete(11), Discrete(2))


In [11]:
# 載入木棒台車(CartPole)遊戲的環境
env = gym.make("CartPole-v1")

# 比賽回合開始前，先重置環境，取得初始觀測值與額外資訊
observation, info = env.reset()

# 開啟日誌檔案(以寫入模式)，準備將執行過程記錄下來
with open("CartPole_random.log", "w", encoding='utf8') as f:
    # 執行1000次行動
    for _ in range(1000):
        # 更新畫面（可視化環境狀態）
        env.render()

        # 隨機選擇一個動作(非訓練，只是隨機操作)
        action = env.action_space.sample()

        # 執行該動作，並取得環境回傳的結果
        # observation：新的觀測值(狀態)
        # reward：此次動作獲得的獎勵
        # terminated：遊戲是否自然結束(例如失敗)
        # truncated：是否因為時間或步數限制而中止
        # info：其他輔助資訊(通常不重要)
        
        observation, reward, terminated, truncated, info = env.step(action)

        # 將此次資訊格式化後寫入日誌檔案
        f.write(f"action = {action}, observation = {observation}, " +
                f"reward = {reward}, done = {terminated or truncated}, info = {info}\n")

        # 如果回合結束(不論是自然失敗還是超出最大步數)，就重置環境開始新回合
        if terminated or truncated:
            observation, info = env.reset()

# 執行結束後，關閉環境，釋放資源
env.close()

In [12]:
# 載入登山車(MountainCar)遊戲的環境
# 使用render_mode="human"可以即時顯示畫面(需視覺化介面支援)
env = gym.make("MountainCar-v0", render_mode="human")

# 回合開始前，重置環境，取得初始觀測值與額外資訊
observation, info = env.reset()

# 執行100次動作
for _ in range(100):
    # 隨機選擇一個動作(可為0:向左，1:不動，2:向右)，可依observation與info設計策略
    action = env.action_space.sample()

    # 執行該動作，獲取環境回傳的資訊
    # observation：下一個觀測值(車的位置與速度)
    # reward：此次動作的獎勵(MountainCar通常為-1)
    # terminated：是否到達終點(成功)
    # truncated：是否因超過最大步數而中止(失敗)
    # info：其他資訊
    
    observation, reward, terminated, truncated, info = env.step(action)

    # 若回合結束(成功或時間到)，重置環境，開始新一回合
    if terminated or truncated:
        observation, info = env.reset()

# 關閉環境，釋放資源
env.close()