# CartPole 环境示例

这个笔记本演示了如何使用 Gymnasium 库与 CartPole 环境交互。

In [1]:
# 导入必要的库
import gymnasium as gym

## 创建环境并运行一个回合

下面的代码创建了一个 CartPole-v1 环境，并使用随机策略运行一个完整回合。

In [3]:
# 创建 CartPole 环境
env = gym.make("CartPole-v1")

# 初始化变量
total_reward = 0.0
total_steps = 0

# 重置环境
obs, _ = env.reset()

# 运行一个回合
while True:
    # 随机选择动作
    action = env.action_space.sample()
    
    # 执行动作
    obs, reward, is_done, is_trunc, _ = env.step(action)
    
    # 累加奖励和步数
    total_reward += reward
    total_steps += 1
    
    # 如果回合结束，退出循环
    if is_done:
        break

# 输出结果
print(f"Episode done in {total_steps} steps, total reward {total_reward:.2f}")

Episode done in 14 steps, total reward 14.00


## 环境信息

下面我们查看一下 CartPole 环境的观测空间和动作空间。

In [4]:
# 查看观测空间
print(f"Observation space: {env.observation_space}")
print(f"Observation space shape: {env.observation_space.shape}")
print(f"Observation space bounds: [{env.observation_space.low}, {env.observation_space.high}]")

# 查看动作空间
print(f"\nAction space: {env.action_space}")
print(f"Action space size: {env.action_space.n}")

Observation space: Box([-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], [4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38], (4,), float32)
Observation space shape: (4,)
Observation space bounds: [[-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], [4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38]]

Action space: Discrete(2)
Action space size: 2


## 可视化

下面的代码可以渲染环境并观察智能体的行为。

In [5]:
# 注意：在没有显示器的环境中，这段代码可能无法正常工作
# 创建环境并设置为人类可观察模式
env = gym.make("CartPole-v1", render_mode="human")

# 重置环境
obs, _ = env.reset()

# 运行一个回合
for _ in range(100):  # 最多运行100步
    action = env.action_space.sample()  # 随机动作
    obs, reward, is_done, is_trunc, _ = env.step(action)
    
    if is_done:
        break

env.close()