# Gym

Gym库是OpenAI推出的强化学习实验环境库。它用Python语言实现了离散之间智能体-环境接口中的环境部分。本文中“环境”一词均指强化学习基本框架模型之“智能体-环境”接口中的“环境”，每个环境就代表着一类强化学习问题，用户通过设计和训练自己的智能体来解决这些强化学习问题。

In [1]:
import gym
from gym import envs

## 查看gym所有的可用环境

In [15]:
env_list = envs.registry.keys()
env_ids = [env_item for env_item in env_list]
print('There are {0} envs in gym'.format(len(env_ids)))
env_ids

There are 44 envs in gym


['CartPole-v0',
 'CartPole-v1',
 'MountainCar-v0',
 'MountainCarContinuous-v0',
 'Pendulum-v1',
 'Acrobot-v1',
 'LunarLander-v2',
 'LunarLanderContinuous-v2',
 'BipedalWalker-v3',
 'BipedalWalkerHardcore-v3',
 'CarRacing-v2',
 'Blackjack-v1',
 'FrozenLake-v1',
 'FrozenLake8x8-v1',
 'CliffWalking-v0',
 'Taxi-v3',
 'Reacher-v2',
 'Reacher-v4',
 'Pusher-v2',
 'Pusher-v4',
 'InvertedPendulum-v2',
 'InvertedPendulum-v4',
 'InvertedDoublePendulum-v2',
 'InvertedDoublePendulum-v4',
 'HalfCheetah-v2',
 'HalfCheetah-v3',
 'HalfCheetah-v4',
 'Hopper-v2',
 'Hopper-v3',
 'Hopper-v4',
 'Swimmer-v2',
 'Swimmer-v3',
 'Swimmer-v4',
 'Walker2d-v2',
 'Walker2d-v3',
 'Walker2d-v4',
 'Ant-v2',
 'Ant-v3',
 'Ant-v4',
 'Humanoid-v2',
 'Humanoid-v3',
 'Humanoid-v4',
 'HumanoidStandup-v2',
 'HumanoidStandup-v4']

## gym基本函数接口

使用gym环境，首先第一件事情就是通过调用`gym.make()`来创建环境对象。

然后，智能体通过调用env类的方法来与环境进行交互，常用的env类方法有：`reset()`, `close()`, `render()`, `step()`，等等。以下分别介绍。

### make(): 生成环境对象

In [17]:
"""
env = gym.make(id)
    说明：生成环境
    参数：Id(str类型)  环境ID
    返回值：env(Env类型)  环境
    
    环境ID是OpenAI Gym提供的环境的ID，可以通过上一节所述方式进行查看有哪些可用的环境
    例如，如果是“CartPole”环境，则ID可以用“CartPole-v1”。返回“Env”对象作为返回值
"""

'\nenv = gym.make(id)\n    说明：生成环境\n    参数：Id(str类型)  环境ID\n    返回值：env(Env类型)  环境\n    \n    环境ID是OpenAI Gym提供的环境的ID，可以通过上一节所述方式进行查看有哪些可用的环境\n    例如，如果是“CartPole”环境，则ID可以用“CartPole-v1”。返回“Env”对象作为返回值\n'

通过make()创建完环境对象后，可以查看环境的属性和当前状态，代码示例如下：

In [18]:
env = gym.make('CartPole-v1')
print('观测空间 = {}'.format(env.observation_space))
print('动作空间 = {}'.format(env.action_space))
print('动作数 = {}'.format(env.action_space.n))
print('初始状态 = {}'.format(env.state))

观测空间 = Box([-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], [4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38], (4,), float32)
动作空间 = Discrete(2)
动作数 = 2
初始状态 = None


### reset()函数

 reset()为环境复位初始化函数。将环境的状态恢复到初始状态。

函数接口说明如下：

In [19]:
"""
state = env.reset()
    说明：重置环境，回到初始状态
    返回值：state（object类型） 环境的最初状态。类型由属性“observation_space”决定
"""

'\nstate = env.reset()\n    说明：重置环境，回到初始状态\n    返回值：state（object类型） 环境的最初状态。类型由属性“observation_space”决定\n'

In [20]:
init_state = env.reset()
print('初始状态 = {}'.format(init_state))
print('初始状态 = {}'.format(env.state))

初始状态 = (array([ 0.00718721,  0.02455014, -0.01747924, -0.00514615], dtype=float32), {})
初始状态 = [ 0.00718721  0.02455014 -0.01747924 -0.00514615]


### env.state

env.state用于查看环境当前状态。

### step()：单步执行

单步执行指智能体与环境之间的一次交互，即智能体在当前状态s下执行一次动作a，环境相应地更新至状态s'，并向智能体反馈及时奖励r。

函数接口说明如下：

In [21]:
"""
Observation, reward, terminated, truncated, info = env.step(action)
    说明：环境执行一步动作
    参数：action（object 类型） 动作
    返回值：results（tuple 类型） (下一状态，报酬，episode 是否完成，日志信息)
    
    将“动作”传递给环境，返回值返回“下一个状态”（object）、“报酬”（float）、“ episode 是否完成”（bool）、“日志信息”（dict）
    传递给环境的“动作”类型，由属性“action_space”决定
"""

'\nObservation, reward, terminated, truncated, info = env.step(action)\n    说明：环境执行一步动作\n    参数：action（object 类型） 动作\n    返回值：results（tuple 类型） (下一状态，报酬，episode 是否完成，日志信息)\n    \n    将“动作”传递给环境，返回值返回“下一个状态”（object）、“报酬”（float）、“ episode 是否完成”（bool）、“日志信息”（dict）\n    传递给环境的“动作”类型，由属性“action_space”决定\n'

In [22]:
for k in range(5):
    action = env.action_space.sample()
    state, reward, done, truncated, info = env.step(action)
    print('动作 = {0}: 当前状态 = {1}, 奖励 = {2}, 结束标志 = {3}, 日志信息 = {4}'.format(action, state, reward, done, info))

动作 = 1: 当前状态 = [ 0.00767821  0.21991836 -0.01758216 -0.30329233], 奖励 = 1.0, 结束标志 = False, 日志信息 = {}
动作 = 1: 当前状态 = [ 0.01207658  0.41528642 -0.02364801 -0.601468  ], 奖励 = 1.0, 结束标志 = False, 日志信息 = {}
动作 = 0: 当前状态 = [ 0.02038231  0.2205031  -0.03567737 -0.31632662], 奖励 = 1.0, 结束标志 = False, 日志信息 = {}
动作 = 0: 当前状态 = [ 0.02479237  0.02590702 -0.0420039  -0.03510516], 奖励 = 1.0, 结束标志 = False, 日志信息 = {}
动作 = 0: 当前状态 = [ 0.02531051 -0.1685882  -0.04270601  0.24403483], 奖励 = 1.0, 结束标志 = False, 日志信息 = {}


### close()：关闭环境

关闭环境。

### sample_space.sample(): 对动作空间进行随机采样

动作的选择应该基于策略进行。但是，完全随机的选择动作也是一种策略，或者可以说是一种基线(baseline)策略。任何一种能够体现有效的学习效果的策略都不应该比这种基线策略的效果差。这就好比任何一个有效的预测（股票涨跌、球赛胜负啊随便什么的）算法不能比随机扔硬币决定要更差。如果一种基于一种习得的策略来选取动作其最终得到的回报不比以上随机采样策略好的话，就说明这个习得的策略没有任何价值。

## 一个随机策略的完整示例

In [7]:
import gym
import time
# 生成环境，倒立摆模型
env = gym.make('CartPole-v1', render_mode='human')
# 环境初始化
state = env.reset()
# 循环交互
 
while True:
    # 从动作空间随机获取一个动作
    action = env.action_space.sample()
    # agent与环境进行一步交互
    state, reward, terminated, truncated, info = env.step(action)
    print('state = {0}; reward = {1}'.format(state, reward))
    # 判断当前episode 是否完成
    if terminated:
        print('terminated')
        break
    time.sleep(0.1)
# 环境结束
env.close()

state = [ 0.00720253 -0.15701821 -0.02658597  0.2511829 ]; reward = 1.0
state = [ 0.00406217  0.0384731  -0.02156231 -0.04976577]; reward = 1.0
state = [ 0.00483163 -0.15633313 -0.02255762  0.23603684]; reward = 1.0
state = [ 0.00170497 -0.35112566 -0.01783689  0.5215199 ]; reward = 1.0
state = [-0.00531754 -0.15575725 -0.00740649  0.22327013]; reward = 1.0
state = [-0.00843269  0.03946978 -0.00294109 -0.07173986]; reward = 1.0
state = [-0.00764329  0.23463377 -0.00437588 -0.36534926]; reward = 1.0
state = [-0.00295062  0.03957428 -0.01168287 -0.07404933]; reward = 1.0
state = [-0.00215913 -0.15537825 -0.01316386  0.21492483]; reward = 1.0
state = [-0.0052667  -0.35030955 -0.00886536  0.5034264 ]; reward = 1.0
state = [-0.01227289 -0.1550638   0.00120317  0.20796286]; reward = 1.0
state = [-0.01537417  0.04004094  0.00536243 -0.08434029]; reward = 1.0
state = [-0.01457335  0.23508562  0.00367562 -0.37532654]; reward = 1.0
state = [-0.00987163  0.03991165 -0.00383091 -0.08148695]; rewar

In [None]:
"""