# Tutorial of TRPO

我最近在做一个机器人模型学习的课题，需要实现GAIL算法，其中涉及到TRPO。在被它反复折腾了一周之后终于完成了，感觉用jupyter写一些详细的注释，防止时间长了忘记代码的细节。

In [None]:
import tensorflow as tf
import numpy as np
import gym
import glob
from numpy import (sqrt, arctan2, arccos)
from numpy import pi as PI
# these are module written by myself
from multiLayerPolicy import MultiLayerPolicy
from discriminator import Discriminator
from generator import Generator
from pid import PIDPolicy
from util import (env_wrapper, logger)

## Conjugate Gradient

共轭梯度法（conjugate gradient，CG）是用来求解形如$A\boldsymbol{x}=b$的方程的一种方法，在$A^{-1}$很难求解时可以发挥很大作用。而TRPO中$D_{KL}$关于所有神经网络参数的二阶偏导矩阵（Hessian矩阵）就是这样一个矩阵。$H$矩阵规模非常庞大，而且每次迭代之后都会变化，求逆速度慢而且得不偿失，使用CG法是一种很好的办法。

CG法的思路是通过迭代减小$Ax$和$b$之间的误差，具体步骤是：
* $ x_0= 0 $ （$x_0$可以为任意值，通常从0开始）
* $ r_0 = b - A x_0 $ 
* $ d_0 = r_0 $ 
* while $r_k$ is not small enough:
    + $ \alpha_k = \frac{r_k^T r_k}{d_k^T A d_k} $
    + $ x_{k+1} = x_k + \alpha_k d_k $
    + $ r_{k+1} = b - A x_{k+1} = b - A(x_k + \alpha_k d_k) = r_k - \alpha_k A d_k $
    + $ \beta_k = \frac{r_{k+1}^T r_{k+1}}{r_k^T r_k} $
    + $ d_{k+1} = r_{k+1} + \beta_k d_k $
* the result is $x_k$

In [1]:
def cg(f_Ax, b, cg_iters=10, residual_tol=1e-10):
    """Conjunct gradient method."""
    p = b.copy()
    r = b.copy()
    x = np.zeros_like(b)
    rdotr = r.dot(r)

    for i in range(cg_iters):
        z = f_Ax(p)
        v = rdotr / p.dot(z)
        x += v * p
        r -= v * z
        newrdotr = r.dot(r)
        mu = newrdotr / rdotr
        p = r + mu * p

        rdotr = newrdotr
        if rdotr < residual_tol:
            break

    return x