# Section 4: 勾配降下法

本書は、「深層学習前編（day1）レポート」の、「Section 4: 勾配降下法」についてのものです。


## 1. 要点まとめ

勾配降下法の種類は、以下の通り。

- 勾配降下法 ( 最急降下法 )
- 確率的勾配降下法
- ミニバッチ勾配降下法


全結合 NN において、勾配降下法を適用する目的は、
誤差 $ E(\textbf{w}) $ を最小化するパラメータ $ \textbf{w} $ を発見するため。


### 勾配降下法

数式は以下の通り。

$$
\textbf{w}^{(t+1)} = \textbf{w}^{(t)} - \epsilon \nabla E
$$

( $ \epsilon $ : 学習率 )

$$
\nabla E = \frac{\partial{E}}{\partial{\textbf{w}}}
=
\begin{bmatrix}
\frac{\partial{E}}{\partial{w_1}}
\cdots
\frac{\partial{E}}{\partial{w_M}}
\end{bmatrix}
$$

<!-- M は層の数
$$
(
  \textbf{w} = \begin{bmatrix}
    w_1 \\
    \vdots \\
    w_M
  \end{bmatrix}
)
$$
-->


#### 学習率: $ \epsilon $

適切な大きさに調整が必要。

- 大きすぎる場合<br>
最小値にたどり着かずに発散。

- 小さすぎる場合<br>
発散はしないが、学習時間が長い。(非効率)<br>
また、最小値に至る前の、部分的な局所解に収束してしまう。<br>
( 学習率がある程度大きい場合、部分的な局所解である極小値を無視して、大域的な局所解に向かって収束させることができる )


#### 学習率の決定、収束性向上のためのアルゴリズム

- Momentum<br>
Stage 2 機械学習のステージテストで出題されたもの。
- AdaGrad
- AdaDelta
- Adam<br>
Momentum に学習率の調整を加えたもの。


#### 修正値の適用

勾配降下法によって、重み $ \textbf{W} $ と パイアス $ \textbf{b} $ を更新して、
再度、学習の試行をする。試行の単位を、エポックと言う。


### 確率的勾配降下法 ( SGD )

勾配降下法では、全サンプルに対して計算して、平均誤差を求める。
対して、確率的勾配降下法ではランダムに抽出したサンプルから誤差を求める。

勾配降下法

$$
\textbf{w}^{(t+1)} = \textbf{w}^{(t)} - \epsilon \nabla E
$$

に対して、

$$
\textbf{w}^{(t+1)} = \textbf{w}^{(t)} - \epsilon \nabla E_n
$$

( $ E_n $ : あるインデックスの訓練データにおける誤差 )

計算の効率化と、オンラインへ適用できることがメリット。



学習に使う全データを揃えてから学習を行うことを、バッチ学習と言う。
対して、オンライン学習は入手したデータを都度、学習することを言う。
徐々に集まったデータ、または、リアルタイムに発生したデータを使って学習する。

また、バッチ学習に対して、少ないメモリ量で学習をすることができる。


### ミニバッチ勾配降下法

ランダムに分割したデータの **集合** (複数のサンプルからなるミニバッチ)
$ D_t $ に属するサンプルの平均誤差を求める。

$$
\textbf{w}^{(t+1)} = \textbf{w}^{(t)} - \epsilon \nabla E_t \\
E_t = \frac{1}{N_t}
\sum_{n \in D_t} E_n \\
N_t = \vert D_t \vert
$$

ミニバッチの単位で並列化し、確率的勾配降下法のメリットを損なわずに、計算資源を有効活用し、学習時間を速めることができる。


### 誤差勾配の計算

数値微分をプログラムで計算するには?<br>
微小な数値 ( $ h $ ) を使って計算。( $ \lim_{\delta h \to 0} E_w $ )

$$
\frac{\nabla{E}}{\nabla{w_m}}
\approx
\frac{
  E (w_m + h) - E (w_m - h)
}
{2h}
$$

この計算では、順伝播の計算を繰り返し計算する必要があるため、負荷が大きい。<br>
よって、次章の 「Section 5: 誤差逆伝播法」 を使用する。


## 2. 確認テスト

以降の "page. " は、講義資料のページの番号です。


### page. 50

`1_3_stochastic_gradient_descent.ipynb` において、以下の箇所。<br>
(ここでは、確率的勾配降下法を使用)

```python
# 勾配降下の繰り返し
for dataset in random_datasets:
    x, d = dataset['x'], dataset['d']
    z1, y = forward(network, x)
    grad = backward(x, d, z1, y)
    # パラメータに勾配適用
    for key in ('W1', 'W2', 'b1', 'b2'):
        network[key]  -= learning_rate * grad[key]

    # 誤差
    loss = functions.mean_squared_error(d, y)
    losses.append(loss)

```

上記の、 `network[key]  -= learning_rate * grad[key]` が、<br>
$$
\textbf{w}^{(t+1)} = \textbf{w}^{(t)} - \epsilon \nabla E
$$
にあたる。


### page. 59

オンライン学習とは、入手したデータを都度、学習することを言う。
徐々に集まったデータ、または、リアルタイムに発生したデータを使って学習する。


### page. 62

新たな重み $ \textbf{w}^{(t+1)} $ 1つ前の勾配を使って求める。

- 1回目の試行 ( $ t $ ) 後<br>
$$ \textbf{w}^{(t+1)} = \textbf{w}^{(t)} - \epsilon \nabla E_t $$<br>
2回目に、 $ \textbf{w}^{(t+1)} $ を使って試行する。

- 2回目の試行 ( $ t + 1 $ ) 後<br>
$$ \textbf{w}^{(t+2)} = \textbf{w}^{(t+1)} - \epsilon \nabla E_{t+1} $$<br>
3回目に、 $ \textbf{w}^{(t+2)} $ を使って試行する。

- n回目の試行 ( $ t + (n - 1) $ ) 後<br>
$$ \textbf{w}^{(t+n)} = \textbf{w}^{(t+(n-1))} - \epsilon \nabla E_{t+(n-1)} $$<br>
n回目に、 $ \textbf{w}^{(t+n)} $ を使って試行する。<br>
もし、 $ E_{t+(n-1)}  $ が 0 ないし、充分に小さい値の場合は、<br>
または、試行上限回数に達した場合学習終了。
