# OpenAI Gym

## 安装和使用

Gym 可以直接通过 `pip` 安装，但额外的环境需要独立安装：

```sh
pip install gym[atari] gym[box2d] gym[classic_control]
```

安装好之后，可以查看有哪些环境可用：

In [1]:
import gym
from gym import envs
from pprint import pprint

pprint(list(envs.registry.all())[:5])
len(envs.registry.all())

[EnvSpec(Copy-v0),
 EnvSpec(RepeatCopy-v0),
 EnvSpec(ReversedAddition-v0),
 EnvSpec(ReversedAddition3-v0),
 EnvSpec(DuplicatedInput-v0)]


797

环境的使用较为简单，最主要的功能包括：`reset`，`step`和`render`：

In [2]:
env = gym.make('CartPole-v0')
initial_observation = env.reset()
R = 0
while True:
    observation, reward, done, info = \
        env.step(env.action_space.sample())
    env.render()
    R += reward
    if done:
        break
env.close()
R

13.0

## 自定义环境

下面讨论如何注册一个新的环境。首先定义一个极简环境如下：

In [3]:
import random
import sys
from io import StringIO
import numpy as np

class GuessingEnv(gym.Env):
    def __init__(self):
        self.action_space = gym.spaces.Discrete(10)
        self.observation_space = gym.spaces.Discrete(4)
        self.reset()
        
    def reset(self):
        self._n_trials = 0
        self._secret_num = random.randint(1, 10)
        self._guess = 0
        return 0

    def step(self, action):
        assert self.action_space.contains(action)
        self._n_trials += 1
        self._guess = action + 1
        done = self._guess == self._secret_num
        if done:
            reward = 10. / self._n_trials
        else:
            reward = 0.
        if self._guess < self._secret_num:
            ob = 1
        elif self._guess == self._secret_num:
            ob = 2
        else:
            ob = 3
        assert self.observation_space.contains(ob)
        return ob, reward, done, {}

    def render(self):
        if self._guess < self._secret_num:
            print(f'{self._guess} is too low!')
        elif self._guess > self._secret_num:
            print(f'{self._guess} is too high!')
        else:
            print(f'{self._guess} is the number!')

注意两点：
1. 我们只需要定义两个方法 `reset` 和 `step` 即可完成环境定义，其行为如上所示。`render`方法则为了更好地展示游戏界面而存在（往往有益于调试）。
2. 环境的关键输入输出：action 和 observation，均应当定义空间（取值范围），可以是离散（`Discrete`）或连续（`Box`）。

定义好的环境，需要被 register，才能被 gym 利用。注意 register 时 `entry_point` 设为 `<package_name>:<EnvClass>`（此处需要载入刚定义环境，因而 `package_name` 设为 `__main__`）：

In [4]:
from gym.envs.registration import register

register(
    id='Guessing-v0',
    entry_point='__main__:GuessingEnv',
)

可以同样方法测试该环境，可以看到这个小游戏已经能够运作：

In [5]:
env = gym.make('Guessing-v0')
initial_observation = env.reset()
R = 0
while True:
    observation, reward, done, info = \
        env.step(env.action_space.sample())
    env.render()
    R += reward
    if done:
        break
env.close()
R

8 is too high!
7 is too high!
9 is too high!
9 is too high!
2 is the number!


2.0