Skip to content

Latest commit

 

History

History
42 lines (27 loc) · 2.66 KB

Adagrad_cn.rst

File metadata and controls

42 lines (27 loc) · 2.66 KB

Adagrad

.. py:class:: paddle.optimizer.Adagrad(learning_rate, epsilon=1e-06, parameters=None, weight_decay=None, grad_clip=None, name=None, initial_accumulator_value=0.0)


Adaptive Gradient 优化器(自适应梯度优化器,简称 Adagrad)可以针对不同参数样本数不平均的问题,自适应地为各个参数分配不同的学习率。

其参数更新的计算过程如下:

moment\_out &= moment + grad * grad\\param\_out
&= param - \frac{learning\_rate * grad}{\sqrt{moment\_out} + \epsilon}

相关论文:Adaptive Subgradient Methods for Online Learning and Stochastic Optimization

原始论文的算法中没有引入上述公式中的 epsilon 属性,此处引入该属性用于维持数值稳定性,避免除 0 错误发生。

引入 epsilon 参数依据:Per-parameter adaptive learning rate methods

参数

代码示例

COPY-FROM: paddle.optimizer.Adagrad