In [2]:
import gym

- 离散动作：CartPole-v0；连续动作：CarRacing-v0；依赖于Atari库:MountainCar-v0；依赖于MuJoCo库:Hopper-v2
- 所有环境介绍： http://gym.openai.com/envs/#classic_control
- print("所有环境： ",gym.envs.registry.all())

# 离散动作

- 常用：
    - CartPole-v0
    - LunarLander-v2
    - PongNoFrameskip-v4
    - SpaceInvaders-ram-v0
    - SpaceInvaders-v0
    - Atlantis-v0

In [3]:
env=gym.make('Atlantis-v0')

## 最长episode

In [5]:
print("maximum episode length: ",env.spec.max_episode_steps)

maximum episode length:  200


## 获取对象

In [8]:
print("环境对象： ",env)
print("离散动作对象： ",env.action_space)
print("连续状态对象： ",env.observation_space)

环境对象：  <TimeLimit<AtariEnv<PongNoFrameskip-v4>>>
离散动作对象：  Discrete(6)
连续状态对象：  Box(210, 160, 3)


## 获取维度

In [4]:
# 注意离散动作的维度不是指n个变量，而是一个变量的不同取值，
# 如汽车的方向，可以向左或向右或不动，则n=3，注意与连续动作区分
print("连续状态维度： ",env.observation_space.shape)
print("离散动作维度： ",env.action_space.n)
print(env.action_space.contains(6))

连续状态维度：  (210, 160, 3)
离散动作维度：  4
False


## reset

In [23]:
obs=env.reset()
print("s_0： ",obs)
print(obs.shape)

s_0：  [[[  0   0   0]
  [  0   0   0]
  [  0   0   0]
  ...
  [109 118  43]
  [109 118  43]
  [109 118  43]]

 [[109 118  43]
  [109 118  43]
  [109 118  43]
  ...
  [109 118  43]
  [109 118  43]
  [109 118  43]]

 [[109 118  43]
  [109 118  43]
  [109 118  43]
  ...
  [109 118  43]
  [109 118  43]
  [109 118  43]]

 ...

 [[ 53  95  24]
  [ 53  95  24]
  [ 53  95  24]
  ...
  [ 53  95  24]
  [ 53  95  24]
  [ 53  95  24]]

 [[ 53  95  24]
  [ 53  95  24]
  [ 53  95  24]
  ...
  [ 53  95  24]
  [ 53  95  24]
  [ 53  95  24]]

 [[ 53  95  24]
  [ 53  95  24]
  [ 53  95  24]
  ...
  [ 53  95  24]
  [ 53  95  24]
  [ 53  95  24]]]
(210, 160, 3)


## sample action

In [15]:
action=env.action_space.sample()
print("a_0：",action)

a_0： 1


## step

In [49]:
obs,reward,done,_=env.step(action)
print("s_1：",obs)
print("r_1：",reward)
print("是否结束：",done)

s_1： [-0.05887593 -0.10610249 -0.19634122  0.556054    0.3314786  -0.05592567
 -0.4024583   0.48150241  0.05402563 -1.40710773  0.28472323  1.36071248
 -1.8411903  -1.52855009 -0.63264071  1.0487146  -1.31251566]
r_1： -0.24227446821423565
是否结束： False


## render

In [24]:
env.reset()
for i in range(1000):
        env.render()
        _,r,done,_=env.step(env.action_space.sample())
        if(done):
            env.reset() 
env.close()

# 连续动作

- 常用：
    - MountainCarContinuous-v0
    - InvertedPendulum-v2
    - HalfCheetah-v2 无法关闭通过env.close关闭viewer

In [1]:
import gym
env=gym.make('InvertedPendulum-v2')

## 最长episode

In [28]:
print("maximum episode length: ",env.spec.max_episode_steps)

maximum episode length:  1000


## 获取对象

In [11]:
print("连续动作对象： ",env.action_space)
print("连续状态对象： ",env.observation_space)

连续动作对象：  Box(1,)
连续状态对象：  Box(4,)


## 获取维度

In [2]:
# 连续动作维度是指有n个动作变量，注意与离散动作维度区分
# high是n维一个数组记录每一个变量的最高值，low同理
print("连续动作维度： ",env.action_space.shape)
print("连续状态维度： ",env.observation_space.shape)

print("连续动作最大值： ",env.action_space.high)
print("连续动作最小值： ",env.action_space.low)
print('第0维动作最大值：',env.action_space.high[0])

连续动作维度：  ()
连续状态维度：  (210, 160, 3)


AttributeError: 'Discrete' object has no attribute 'high'

## reset

In [44]:
obs=env.reset()
print("s_0： ",obs)

s_0：  [ 0.09914685 -0.07982732  0.00988399  0.04807351 -0.03538703 -0.05512785
 -0.05405898 -0.08310414  0.04199551 -0.07544683  0.05911374  0.25308018
  0.02771656 -0.13880237  0.0389115  -0.12257536 -0.04654153]


## sample action

In [46]:
action=env.action_space.sample()
print("a_0：",action)

a_0： [-0.4140039   0.99342936  0.5818744  -0.05776102 -0.6953221   0.9803004 ]


## step

In [51]:
obs,reward,done,_=env.step(action)
print("s_1：",obs)
print("r_1：",reward)
print("是否结束：",done)

s_1： [ -0.22647741  -0.04342818  -0.20612088   0.6391032    0.24315374
  -0.021804    -0.45128248   0.44763294  -0.03218414  -1.08127953
   0.27771941  -0.12514253   2.14529429   0.2616084    3.7269662
 -10.50067947  -0.76470538]
r_1： -0.06247372773848581
是否结束： False


## render

In [6]:
env.reset()
for i in range(1000):
        env.render()
        o,r,done,_=env.step(env.action_space.sample())
        if(done):
            env.reset() 
env.close()

# wrapper

In [6]:
# 记录算法学习的视频
# 每一次运行需要更换存储路径

import gym
from gym import wrappers
env=gym.make('CartPole-v0')
env=wrappers.Monitor(env,'/Users/xieliang/dump/wrapper_gym')
for i_episode in range(5):
    observation=env.reset()
    for t in range(200):
        env.render()
        action=env.action_space.sample()
        s,r,done,info=env.step(action)
        if done:
            print("Episode finished after {} timestep".format(t+1))
            break
    env.close()


Episode finished after 11 timestep
Episode finished after 9 timestep
Episode finished after 21 timestep
Episode finished after 11 timestep
Episode finished after 12 timestep
