## パラメータの最適化

### 確率的勾配降下法（SGD）
[ソースはこちら](../../../common/presentation/optimizer.py)
* 各地点で最も傾きが急な方向に進む
* ミニバッチ学習の場合は確率的勾配降下法、全データの学習の場合は最急降下法（あるいは単なる勾配降下法）と呼ばれる
* 勾配の方向と最小値の方向が一致しない場合非効率な探索になる

![SGD](fig/SGD.png)

### Momentum
[ソースはこちら](../../../common/presentation/optimizer.py)
* モーメンタムとは運動量のこと
* 球体を斜面に置いた時、勾配方向にチカラを受けて加速していく物理法則を取り入れたもの
* 直前の地点の速度も加えることで慣性(Momentum)をもたせている
* SGDより振動しにくい
![momentum](fig/momentum.png)

### Nesterovの加速法（Nesterov's Accelerated Gradient method)
[ソースはこちら](../../../common/presentation/optimizer.py)

* Momentumの改良版
※余裕あれば


In [None]:
            params[key] += self.momentum * self.momentum * self.v[key]
            params[key] -= (1 + self.momentum) * self.lr * grads[key]
            self.v[key] *= self.momentum
            self.v[key] -= self.lr * grads[key]

$$

### AdaGrad
[ソースはこちら](../../../common/presentation/optimizer.py)
* パラメータ空間の**次元ごと**に適応的に学習係数を調整しながら学習を進める方法
* Momentumでは振動抑制、NAGでは収束速度を改善したが、AdaGradでは **収束方向の情報(=学習度合)** を取り入れた
* 始めは学習係数を大きくして1ステップあたりの更新量を大きくとり、徐々に学習係数を小さくして慎重に学習を進めるようにする
    * 学習が進んだ次元(=傾きが急な)方向への更新度合を小さくしていくことで、学習が遅い次元(=傾きが緩やかな)方向への学習を促す
* 具体的には以下のように実現する：
    - 過去の勾配を2乗和で保持し続ける（2乗和なので単調増加し続ける）
    - 過去の勾配を2乗和の平方根で学習率を割る（これにより徐々に学習スケールが小さくなる）

![AdaGrad](fig/AdaGrad.png)

### Adam
[ソースはこちら](../../../common/presentation/optimizer.py)
* MomentumとAdaGradを融合したような手法
    * ただしオリジナルに比べて指数移動平均を使用しているため、より直近の値の影響が大きくなるようになっている。
* ハイパーパラメータの「バイアスの補正」も行える（←扱い方要相談）

![Adam](fig/Adam.png)

### RMSprop
[ソースはこちら](../../../common/presentation/optimizer.py)

※余裕あれば

## MNISTにおけるoptimizerの比較

[ソースはこちら](./optimizer_compare_mnist.py)

### モジュールの概説

#### optimizer_compare_mnist.pyの概略図

![overview_optimizer_compare_mnist.png](fig/overview_optimizer_compare_mnist.png)

#### gradientの概略図

![overview_gradient.png](fig/overview_gradient.png)

#### updateの概略図

![overview_update.png](fig/overview_update.png)