# 4个主要脚本

- run_gym.py: 主函数
- pposgd_simple.py: PPO算法的SGD实现
- mlp_policy.py: 多层感知器策略，主要用于非视觉传感输入
- cnn_policy.py: CNN策略，主要用于视觉传感输入

# 可调参数

## run_gym.py

In [None]:
import argparse

def main():
    parser = argparse.ArgumentParser(formatter_class=argparse.ArgumentDefaultsHelpFormatter)
    parser.add_argument('--env', help='environment ID', type=str, default='Pendulum-v0')
    parser.add_argument('--seed', help='RNG seed', type=int, default=None)
    parser.add_argument('--num-timesteps', type=int, default=int(1e6))
    args = parser.parse_args()
    ...
    train(args.env, num_timesteps=args.num_timesteps, seed=args.seed)

- argparser让用户可以通过命令行接口来输入参数
- --env: 环境标识
- --seed: 伪随机数生成器初始值，用相同的seed，每次的随机数都会一样
- --num-timesteps: 每个episode中的一个step算一个timestep，num-timesteps表示所有episode的step之和

In [None]:
def train(...):
    from baselines.ppo1 import mlp_policy, pposgd_simple
    ...

- pposgd_simple是PPO的算法实现，是必须导入的。
- 如果是基于视觉的任务，一般会用CNN（卷积神经网络），那么就要导入cnn_policy。
- 如果是非视觉的、基于传感器的任务，一般会用FFNN（前馈神经网络）,那么就要导入mlp_policy。

In [None]:
U.make_session(num_cpu=1).__enter__()

- 给定CPU的数量，这里是1

In [None]:
def policy_fn(name, ob_space, ac_space):
    return mlp_policy.MlpPolicy(name=name, ob_space=ob_space, ac_space=ac_space,
        hid_size=64, num_hid_layers=2)

In [None]:
def learn(env, policy_fn, ...):
    ob_space = env.observation_space
    ac_space = env.action_space
    pi = policy_fn("pi", ob_space, ac_space) # Construct network for new policy
    oldpi = policy_fn("oldpi", ob_space, ac_space) # Network for old policy
    ...

- 这里可以改变的参数只有hid_size和num_hid_layers，分别对应神经网络中每层的神经元数量和隐藏层数。这里我们用了2个隐藏层，每层有64个神经元。
- policy_fn函数返还的是一个MlpPolicy，除了num_size和num_hid_layers外的3个变量会在调用pposgd_simple.learn(env, policy_fn, ...)时被自动赋值。
- 这3个变量中，name是策略函数的名字，ob_space是观测状态空间，ac_space是动作空间。
- ob_space和ac_space都会根据环境env自动赋值，也就是对应着env.observation_space和env.action_space。

In [None]:
def make_gym_env(env_id, seed):
    '''
    Create a wrapped, monitored gym.Env for env_id
    Here env_id="Pendulum-v0"
    '''
    env = gym.make(env_id)
    env = Monitor(env, logger.get_dir())
    if seed is not None:
        set_global_seeds(seed)
        env.seed(seed)
    return env
env = make_gym_env(env_id, seed)
...
env.close()

In [None]:
def main():
    ...
    parser.add_argument('--env', help='environment ID', type=str, default='Pendulum-v0')
    parser.add_argument('--seed', help='RNG seed', type=int, default=None)
    ...
    train(args.env, ..., seed=args.seed)

- make_gym_env()会返还一个wrapped和monitored的环境
- env_id对应着环境的标识，这里的默认值是Pendulum-v0，也可以借由argparser在命令行指定其它的环境，格式是python run_gym.py --env "CartPole-v0"
- seed是随机数生成器的初始值，用一个整数表示。如果不用seed的话每次生成的结果都会有所不同，用相同seed的话生成的伪随机数都会相同
- env.close()会在最后关闭环境

In [None]:
def train(env_id, num_timesteps, seed):
    ...
    pposgd_simple.learn(env, policy_fn,
            max_timesteps=num_timesteps,
            timesteps_per_actorbatch=2048,
            cllip_param=0.2, entcoeff=0.00,
            optim_epochs=10, optim_stepsize=3e-4, optim_batchsize=64,
            gamma=0.995, lam=0.97, schedule='constant',
        )

In [None]:
def main():
    ...
    train(args.env, num_timesteps=args.num_timesteps, seed=args.seed)

if __name__ == '__main__':
    main()

- train()中的pposgd_simple.learn()是整个算法的核心部分

# $\ldots$未完待续

# 初次编辑日期

2018年5月2日

# 参考文献

[1] https://github.com/openai/baselines