### 安装项目所需的第三方库

In [None]:
!pip install paddlepaddle==2.3.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
!pip install parl -i https://pypi.tuna.tsinghua.edu.cn/simple
!pip install visualdl -i https://mirror.baidu.com/pypi/simple
!pip install gym==0.18.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
!pip install tqdm -i https://pypi.tuna.tsinghua.edu.cn/simple
!pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

## 连续状态空间，离散动作空间 环境介绍

### Mountain Car （山地车）环境

![](https://ai-studio-static-online.cdn.bcebos.com/738b49ab5396449caa7ccaff89460b77e30b8e47a6a740839d040f244ff0e6db) <br>

**观测空间**，观测结果是一个形状为 (2,) 的 ndarray，其中元素对应于以下内容：

| Num | 观测         | Min | Max   | 单位 |
| -------- |------------|-----|-------| -------- |
| 0     | 小车沿 x 轴的位置 | Inf | Inf | 位置（米）     |
| 1     | 小车的速度      | Inf | Inf | 位置（米）     |

**行动空间**，有 3 个离散的确定性动作，它可以采用动作 {0, 1, 2} 指示小车的加速的方向：

| Num | 动作 | 值 | 单位 |
| -------- | -------- | -------- | -------- |
| 0     | 向左加速     | Inf     | 位置（米）     |
| 1     | 不要加速     | Inf     | 位置（米）     |
| 2     | 向右加速     | Inf     | 位置（米）     |


环境的 **回报（奖励）reward** 设置：
目标是小车尽快到达放置在右侧山顶的旗帜位置，因此智能体在每个时间步受到 **-1** 的回报（奖励）。<br>

环境的 **回合（episode）结束条件** 设置：
出现下面任意一种情况，则达成 回合结束 条件。
（1）完成任务：当小车的位置坐标大于等于 0.5 （目标位置在右坡顶）。
（2）最大步数：当智能体在环境中的时间步长大于200步时，结束该回合。

In [39]:
import gym

# 创建 Mountain Car 环境
env = gym.make('MountainCar-v0')

# 查看 Mountain Car 观测空间（Observation Space）
obs_dim = env.observation_space.shape

# 查看 Mountain Car 动作空间（Action Space）
act_dim = env.action_space

print('MountainCar-v0 观测空间 = {}'.format(obs_dim))
print('MountainCar-v0 动作空间 = {}'.format(act_dim))
print('MountainCar-v0 动作数 = {}'.format(act_dim.n))

MountainCar-v0 观测空间 = (2,)
MountainCar-v0 动作空间 = Discrete(3)
MountainCar-v0 动作数 = 3


### Cart Pole（推车杆）环境

![](https://ai-studio-static-online.cdn.bcebos.com/24e2ac025ec445fcaab1de1ab8ee509b6f0eed6169f947269811f0c878ba782d) <br>

**观测空间**，观测结果是一个形状为 (4,) 的 ndarray，其中元素对应于以下位置和速度：

| Num | 观测      | Min | Max   |
|-----|---------|-----|-------|
| 0   | 推车的位置   | -4.8 | 4.8 |
| 1   | 推车的速度   | -Inf | +Inf |
| 2   | 杆子的角度   | ~ -0.418 rad (-24°) | ~ 0.418 rad (24°) |
| 3   | 杆子的角速度  | -Inf | Inf |

**行动空间**，有 2 个离散的确定性动作，它可以采用动作 {0, 1} 指示推车的固定力的方向：

| Num | 动作 |
| -------- |----|
| 0     | 推车向左 |
| 1     | 推车向右 |



环境的 **回报（奖励）reward** 设置：
目标是推车上的杆子尽可能长时间地保持直立，因此智能体在每个时间步受到 **+1** 的回报（奖励）。CartPole-v1的最高奖励为 475。<br>

环境的 **回合（episode）结束条件** 设置：
出现下面任意一种情况，则达成 回合结束条件。
（1）杆子掉落：当推车上杆子的角度大于±12°
（2）小车出界：当推车位置大于±2.4（推车中心到达显示器边缘）。
（3）最大步数：当智能体在环境中的时间步长大于500步时，结束该回合。

In [40]:
import gym

# 创建 Cart Pole 环境
env = gym.make('CartPole-v1')

# 查看 Cart Pole 观测空间（Observation Space）
obs_dim = env.observation_space.shape

# 查看 Cart Pole 动作空间（Action Space）
act_dim = env.action_space

print('CartPole-v1 观测空间 = {}'.format(obs_dim))
print('CartPole-v1 动作空间 = {}'.format(act_dim))
print('CartPole-v1 动作数 = {}'.format(act_dim.n))

CartPole-v1 观测空间 = (4,)
CartPole-v1 动作空间 = Discrete(2)
CartPole-v1 动作数 = 2


### Acrobot（杂技机器人）环境
![](https://ai-studio-static-online.cdn.bcebos.com/3171942b6a2e4789b679e487c4e147f4ad4b18f4033f40d7a648ce8185158e51) <br>

**观测空间**，观测结果是一个形状为 (6,) 的 ndarray，其中元素对应两个旋转关节角度及其角速度的信息：

| Num | 观测                | Min                 | Max               |
|-----|-------------------|---------------------|-------------------|
| 0   | 关节一角度的余弦          | -1                  | 1                 |
| 1   | 关节一角度的正弦          | -1                  | 1                 |
| 2   | 关节二相对于第一个链接的角度的余弦 | -1                  | 1                 |
| 3   | 关节二相对于第一个链接的角度的正弦 | -1                  | 1                 |
| 2   | 关节一的角速度           | ~ -12.567 (-4 * pi) | ~ 12.567 (4 * pi) |
| 3   | 关节二的角速度           | ~ -28.274 (-9 * pi)                | ~ 28.274 (9 * pi)               |

**行动空间**，有 3 个离散的确定性动作，它可以采用动作 {0, 1, 2} 表示施加在两个连杆之间的致动接头上的扭矩：

| Num | 动作            | 单位      |
|-----|---------------|---------|
| 0   | 对驱动关节施加 -1 扭矩 | 扭矩（牛米）  |
| 1   | 对驱动关节施加 0 扭矩  | 扭矩（牛米）  |
| 2   | 对驱动关节施加 1 扭矩  | 扭矩（牛米）  |

环境的 **回报（奖励）reward** 设置：
目标是关节上的自由端以尽可能少的步数达到指定的目标高度，因此所有未达到目标的步数都会产生 -1 的奖励。达到目标高度会导致终止，奖励为 0。奖励阈值为 -100。<br>

环境的 **回合（episode）结束条件** 设置：
出现下面任意一种情况，则达成 回合结束条件。
（1）达到高度：关节上的自由端达到目标高度
（2）最大步数：当智能体在环境中的时间步长大于500步时，结束该回合。

In [41]:
import gym

# 创建 Acrobot 环境
env = gym.make('Acrobot-v1')

# 查看 Acrobot 观测空间（Observation Space）
obs_dim = env.observation_space.shape

# 查看 Acrobot 动作空间（Action Space）
act_dim = env.action_space

print('Acrobot-v1 观测空间 = {}'.format(obs_dim))
print('Acrobot-v1 动作空间 = {}'.format(act_dim))
print('Acrobot-v1 动作数 = {}'.format(act_dim.n))

Acrobot-v1 观测空间 = (6,)
Acrobot-v1 动作空间 = Discrete(3)
Acrobot-v1 动作数 = 3


## 连续状态空间，连续动作空间 环境介绍

### Mountain Car Continuous（山地车连续）环境

![](https://ai-studio-static-online.cdn.bcebos.com/738b49ab5396449caa7ccaff89460b77e30b8e47a6a740839d040f244ff0e6db) <br>

**观测空间**，观测结果是一个形状为 (2,) 的 ndarray，其中元素对应于以下内容：

| Num | 观测         | Min | Max   | 单位 |
| -------- |------------|-----|-------| -------- |
| 0     | 小车沿 x 轴的位置 | Inf | Inf | 位置（米）     |
| 1     | 小车的速度      | Inf | Inf | 位置（米）     |

**行动空间**，有 1 个连续的确定性动作，表示施加在小车的加速定向力。动作被限制在 [-1, 1] 范围内，并乘以 0.0015 的幂：

| 动作   | 值       | 单位 |
|------|---------| -------- |
| 向右加速 | (0, 1]  | 位置（米）     |
| 不要加速 | 0       | 位置（米）     |
| 向左加速 | [-1, 0) | 位置（米）     |

环境的 **回报（奖励）reward** 设置：
目标是小车尽快到达放置在右侧山顶的旗帜位置，因此智能体在每个时间步受到 **-1** 的回报（奖励）。以惩罚采取大规模行动。如果小车达到目标，则在该时间步的负奖励中添加 **+100** 的正奖励。<br>

环境的 **回合（episode）结束条件** 设置：
出现下面任意一种情况，则达成 回合结束 条件。
（1）完成任务：当小车的位置坐标大于等于 0.45 （目标位置在右坡顶）。
（2）最大步数：当智能体在环境中的时间步长大于999步时，结束该回合。

In [42]:
import gym

# 创建 Mountain Car Continuous 环境
env = gym.make('MountainCarContinuous-v0')

# 查看 Mountain Car Continuous 观测空间（Observation Space）
obs_dim = env.observation_space.shape

# 查看 Mountain Car Continuous 动作空间（Action Space）
act_dim = env.action_space.shape

print('MountainCarContinuous-v0 观测空间 = {}'.format(obs_dim))
print('MountainCarContinuous-v0 动作空间 = {}'.format(act_dim))
print('MountainCarContinuous-v0 动作数 = {}'.format(act_dim[0]))

MountainCarContinuous-v0 观测空间 = (2,)
MountainCarContinuous-v0 动作空间 = (1,)
MountainCarContinuous-v0 动作数 = 1


### Pendulum（摆锤）环境

![](https://ai-studio-static-online.cdn.bcebos.com/0a76c20eebd943fbb63ea59cc3c7c41d10fae777b69149f5a1cc608c98247433)
<br>

**观测空间**，观测结果是一个形状为 (3,) 的 ndarray，其中元素对应于以下内容：

| Num | 观测        | Min  | Max |
| -------- |-----------|------|-----|
| 0     | 摆锤自由端的余弦角度 | -1.0 | 1.0 |
| 1     | 摆锤自由端的正弦角度 | -1.0 | 1.0 |
| 2     | 摆锤自由端的角速度 | -8.0 | 8.0 |

**行动空间**，有 1 个连续的确定性动作，表示施加在摆锤自由端的扭矩。动作被限制在 [-2, 2] 范围内：

| 动作   | Min     | Max   |
|------|---------|-------|
| 扭矩   | -2.0    | 2.0   |

环境的 **回报（奖励）reward** 设置：
目标是摆锤处于直力位置，根据环境的 reward函数 设计:
$ r = -(theta^2 + 0.1 * theta_dt^2 + 0.001 * torque^2) $
因此智能体在每个时间步受到的回报（奖励）最小为 **-16.2736044** ，最大为 0（此时钟摆直立，速度为零，未施加扭矩）。<br>

环境的 **回合（episode）结束条件** 设置：
出现下面的情况，则达成 回合结束 条件。
（2）最大步数：当智能体在环境中的时间步长大于200步时，结束该回合。

In [43]:
import gym

# 创建 Pendulum 环境
# 其中 g 为 重力加速度（单位：ms^(-2) ），用于计算钟摆动力学。默认值为 10.0
env = gym.make('Pendulum-v0', g=9.81)

# 查看 Pendulum 观测空间（Observation Space）
obs_dim = env.observation_space.shape

# 查看 Pendulum 动作空间（Action Space）
act_dim = env.action_space.shape

print('Pendulum-v0 观测空间 = {}'.format(obs_dim))
print('Pendulum-v0 动作空间 = {}'.format(act_dim))
print('Pendulum-v0 动作数 = {}'.format(act_dim[0]))

Pendulum-v0 观测空间 = (3,)
Pendulum-v0 动作空间 = (1,)
Pendulum-v0 动作数 = 1


## 参考链接
- [Gym Documentation](https://www.gymlibrary.ml/environments/classic_control/)