In [1]:
import torch

### 该类实现 Rprop 优化方法(弹性反向传播)，适用于 full-batch，不适用于 mini-batch，因而在 mini-batch 大行其道的时代里，很少见到。

优点：可以自动调节学习率，不需要人为调节  
缺点：依赖于人工设置的一个全局学习率，随着迭代次数过多，学习率会越来越小

In [None]:
optimizer = torch.optim.Rprop()

$$

\begin{aligned}
    &\rule{110mm}{0.4pt}                                                                 \\
    &\textbf{input}      : \theta_0 \in \mathbf{R}^d \text{ (params)},f(\theta)
        \text{ (objective)},                                                             \\
    &\hspace{13mm}      \eta_{+/-} \text{ (etaplus, etaminus)}, \Gamma_{max/min}
        \text{ (step sizes)}                                                             \\
    &\textbf{initialize} :   g^0_{prev} \leftarrow 0,
        \: \eta_0 \leftarrow \text{lr (learning rate)}                                   \\
    &\rule{110mm}{0.4pt}                                                                 \\
    &\textbf{for} \: t=1 \: \textbf{to} \: \ldots \: \textbf{do}                         \\
    &\hspace{5mm}g_t           \leftarrow   \nabla_{\theta} f_t (\theta_{t-1})           \\
    &\hspace{5mm} \textbf{for} \text{  } i = 0, 1, \ldots, d-1 \: \mathbf{do}            \\
    &\hspace{10mm}  \textbf{if} \:   g^i_{prev} g^i_t  > 0                               \\
    &\hspace{15mm}  \eta^i_t \leftarrow \mathrm{min}(\eta^i_{t-1} \eta_{+},
        \Gamma_{max})                                                                    \\
    &\hspace{10mm}  \textbf{else if}  \:  g^i_{prev} g^i_t < 0                           \\
    &\hspace{15mm}  \eta^i_t \leftarrow \mathrm{max}(\eta^i_{t-1} \eta_{-},
        \Gamma_{min})                                                                    \\
    &\hspace{15mm}  g^i_t \leftarrow 0                                                   \\
    &\hspace{10mm}  \textbf{else}  \:                                                    \\
    &\hspace{15mm}  \eta^i_t \leftarrow \eta^i_{t-1}                                     \\
    &\hspace{5mm}\theta_t \leftarrow \theta_{t-1}- \eta_t \mathrm{sign}(g_t)             \\
    &\hspace{5mm}g_{prev} \leftarrow  g_t                                                \\
    &\rule{110mm}{0.4pt}                                                          \\[-1.ex]
    &\bf{return} \:  \theta_t                                                     \\[-1.ex]
    &\rule{110mm}{0.4pt}                                                          \\[-1.ex]
\end{aligned}
 $$
For further details regarding the algorithm we refer to the paper
`A Direct Adaptive Method for Faster Backpropagation Learning: The RPROP Algorithm
<http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.21.1417>`_.

### Args:
* params (iterable): iterable of parameters to optimize or dicts defining
    parameter groups
* lr (float, optional): learning rate (default: 1e-2)
* etas (Tuple[float, float], optional): pair of (etaminus, etaplis),是乘法增加和减少因子（默认值：(0.5, 1.2)）  
    * etaplus和etaminus是RPROP算法中的两个参数。etaplus表示权重更新值在导数为正时的增加因子，而etaminus表示权重更新值在导数为负时的减小因子。
* step_sizes (Tuple[float, float], optional):  一对允许的最小和最大步长（默认值：(1e-6, 50)）
* foreach (bool, optional): whether foreach implementation of optimizer
    is used (default: None)
* maximize (bool, optional): maximize the params based on the objective, instead of
    minimizing (default: False)

   