### RMSProp算法

当学习率在迭代早期降得较快且当前解依然不佳时，AdaGrad算法在迭代后期由于学习率过小，可能较难找到一个有用的解。RMSProp算法对AdaGrad算法做了一点小小的修改。

RMSProp算法将梯度按元素平方做指数加权移动平均，给定超产生$0 \le \gamma \le 1$,RMSProp算法在时间步$t>0$计算

$s_t \leftarrow \gamma s_{t-1}+(1-\gamma)g_t \bigodot g_t$

迭代时更新自变量为:

$x_t \leftarrow x_{t-1}-\frac{\eta}{\sqrt{s_t+eps}}\bigodot g_t$

其中$\eta$是学习率，eps是为了维持数值稳定性而添加的常数，如$10^{-6}$

状态变量$s_t$可以看做是最近$\frac{1}{1-\gamma}$个时间步的小批量随机梯度平方项的加权平均，如此一来，自变量每个元素的学习率在迭代过程中就不再一直降低(或不变)

### 从零开始实现

In [1]:
import utils
import torch
features,labels=utils.get_data_ch7()

def init_rmsprop_states():
    s_w=torch.zeros((features.shape[1],1),dtype=torch.float32)
    s_b=torch.zeros(1,dtype=torch.float32)
    return (s_w,s_b)

def rmsprop(params,states,hyperparams):
    gamma,eps=hyperparams['gamma'],1e-6
    for p,s in zip(params,states):
        s.data=gamma*s.data+(1-gamma)*(p.grad.data**2)
        p.data-=hyperparams['lr']*p.grad.data/torch.sqrt(s+eps)

In [None]:
utils.train_ch7(rmsprop,init_rmsprop_states(),{'lr':0.01,'gamma':0.9},features,labels)

### 简洁实现

Pytorch实现了名为RMSProp的优化器方法，其中超参数$\gamma$通过alpha指定

In [None]:
utils.train_pytorch_ch7(torch.optim.RMSProp,{'lr':0.01,'alpha':0.9},features,labels)