### AdaGrad算法

**AdaGrad算法，它根据自变量在每个维度的梯度值的大小来调整各个维度上的学习率，从而避免统一的学习率难以适应所有维度的问题。**

AdaGrad算法首先定义了一个累加变量$s_t$,在时间步为0时，AdaGrad将$s_0$中每个元素初始化为0.在时间步t，授信啊将小批量随机梯度$g_t$按元素平方后累加到变量$s_t$:

$s_t \leftarrow s_{t-1}+g_t \bigodot g_t$

之后迭代过程为:

$x_t \leftarrow x_{t-1}-\frac{\eta}{\sqrt{s_t}+eps}\bigodot g_t$

其中$\eta$是学习率，eps是为了维持数值稳定性而添加的常数，如$10^{-6}$.这里开方、除法和乘法的运算都是按元素运算的。这些按元素运算使得目标函数自变量中每个元素都分别拥有自己的学习率，及每个维度的学习率都会自动调整。

如果目标函数有关自变量中某个元素的偏导数一直都较大，那么该元素的学习率将下降较快；反之，如果目标函数有关自变量中某个元素的偏导数一直都较小，那么该元素的学习率将下降较慢。

**由于$s_t$一直在累加按元素平方的梯度，自变量中每个元素的学习率在迭代过程中一直在降低（或不变）。所以，当学习率在迭代早期降得较快且当前解依然不佳时，AdaGrad算法在迭代后期由于学习率过小，可能较难找到一个有用的解。**

### 从零开始实现

In [1]:
import torch
import utils

In [2]:

features,labels=utils.get_data_ch7()

def init_adagrad_states():
    s_w=torch.zeros((features.shape[1],1),dtype=torch.float32)
    s_b=torch.zeros(1,dtype=torch.float32)
    return (s_w,s_b)

def adagrad(params,states,hyperparams):
    pes=1e-6
    for p,s in zip(params,states):
        s.data+=(p.grad.data**2)
        p.data-=hyperparams['lr']*p.grad.data/torch.sqrt(s+eps)

### 简洁实现

在Pytorch中实现了Adagrad优化器，直接调用即可。

In [None]:
utils.train_pytorch_ch7(torch.optim.Adagrad, {'lr': 0.1}, features, labels)