# (day2) Section 2: 学習率最適化問題

本書は、「深層学習前編（day2）レポート」の、「Section 2: 学習率最適化問題」についてのものです。


## 1. 要点まとめ


### 学習率

勾配降下法の学習率は、大き過ぎても、小さ過ぎてもいけない。

$$
\textbf{w}^{t+1} = \textbf{w}^{t} - \epsilon \nabla E
$$

$$
\epsilon: 学習率
$$

- 大きい場合<br>
発散

- 小さい場合<br>
  - 非効率
  - 大域的局所最適値てばない、局所最適解に収束

よって、学習率を最適化する。最適化する手法は、以下の通り。

- モメンタム
- AdaGrad
- RMSProp
- Adam


### 学習率最適化手法

- NOTE: [Jaewan-Yun/optimizer-visualization: Visualize Tensorflow's optimizers.](https://github.com/Jaewan-Yun/optimizer-visualization)


#### モメンタム

$$
V_t = \mu V_{t-1} - \epsilon \nabla E
$$

$$
\textbf{w}^{(t+1)} = \textbf{w}^{(t)} + V_t
$$

$$
慣性: \mu
$$

株価のチャートの、移動平均線に近い動きをする。

- コード
  - `common/optimizer.py`<br>
    `class Momentum`


#### AdaGrad

$$
\theta: 何かしらの値の初期値
$$

$$
h: 前回までの勾配の調整量を蓄積した値
$$


$$
h_0 = \theta
$$

計算した勾配の2乗を保持。

$$
h_t = h_{t-1} + ( \nabla E )^2
$$

$$
\textbf{w}^{(t+1)}
=
\textbf{w}^{(t)}
-
\epsilon \frac{1}
{ \sqrt{h_t} + \theta }
\nabla E
$$

- コード
  - `common/optimizer.py`<br>
    `class AdaGrad`<br>
    コードでの $ \theta $ は、`1e-7`


- NOTE: 鞍点問題
  - [DeepLearningがなぜうまく学習出来るのか | ALBERT Official Blog](https://blog.albert2005.co.jp/2016/08/24/deeplearning%E3%81%8C%E3%81%AA%E3%81%9C%E3%81%86%E3%81%BE%E3%81%8F%E5%AD%A6%E7%BF%92%E5%87%BA%E6%9D%A5%E3%82%8B%E3%81%AE%E3%81%8B/)


#### RMSProp

$$
\alpha: 前回までの勾配情報を h をどのくらい使うか? ( 0 \leq \alpha \leq 1 )
$$

$$
h_t = \alpha h_{(t-1)} + (1 - \alpha)(\nabla E)^2
$$

上記の計算が AdaGrad との違い。以下の重みの更新は、 AdaGrad と同じ。

$$
\textbf{w}^{(t+1)}
=
\textbf{w}^{(t)}
-
\epsilon \frac{1}
{ \sqrt{h_t} + \theta }
\nabla E
$$


- コード
  - `common/optimizer.py`<br>
    `class RMSprop`<br>
    コードでの $ \alpha $ は、`decay_rate = 0.99`


#### Adam

モメンタムと RMSProp を合わせたもの。

- コード
  - `common/optimizer.py`<br>
    `class Adam`<br>


コードより、数式は以下の通り。

$$
\epsilon_t = \epsilon \frac{\sqrt{1 - \beta_2^i}}
{1 - \beta_1^i}
$$

その都度、更新に使用する学習率を計算する。

i: イテレーション数

$$
\beta_1, \beta_2
$$

は、コードでは、 `beta1=0.9, beta2=0.999` 。


$$
m_t = m_{t-1} + (1 - \beta_1)(\nabla E - m_{t-1})
$$

$$
v_t = v_{t-1} + (1 - \beta_2)((\nabla E)^2 - v_{t-1})
$$



$$
\textbf{w}^{(t+1)}
=
\textbf{w}^{(t)}
-
\epsilon_{t} \frac{m_{t}}
{ \sqrt{v_{t}} + \theta }
\nabla E
$$

RMSProp に対して、分子の $ m_t $ にモメンタムの要素が追加されている。


## 2. 確認テスト

以降の "page. " は、講義資料のページの番号です。


### Page. 44

- モメンタム<br>
  SGD に慣性(勢い)を付けたもの。また、株式チャートの移動平均線の様に、一時的な振動を抑制して収束する。

- AdaGrad<br>
  前回までの勾配の調整量を蓄積した値で、学習率を調整する。

- RMSProp<br>
  AdaGrad の、前回までの勾配の調整量を、どのくらい使うかを変えられるようにしたもの。

- Adam<br>
  RMSProp ( と、それのもとになった AdaGrad ) に、モメンタムの慣性を追加したもの。
