<a href="https://colab.research.google.com/github/peta-m175/rabbit_challenge/blob/master/deep_learning/day2/learning_rate_optimization.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 学習率最適化手法

## [勾配降下法(比較用)](https://colab.research.google.com/github/peta-m175/rabbit_challenge/blob/master/deep_learning/day1/gradient_descent.ipynb#scrollTo=nqxiGbqyffZm)

## Momentum

誤差をパラメータで微分したものと学習率の積を減算した後、現在の重みに前回の重みを減算した値と慣性の積を加算する
$$
V_t=\mu V_{t-1}-\varepsilon\nabla E \\
w^{(t+1)}=w^{(t)}+V_t
$$
慣性: $\mu$
```
self.v[key] = self.momentum* self.v[key] -self.learning_rate* grad[key]
params[key] += self.v[key]
```
- メリット
  - 局所的最適解にはならず、大域的最適解となる
  - 谷間についてから最も低い位置(最適値)にいくまでの時間が早い

## AdaGrad

誤差をパラメータで微分したものと再定義した学習率の積を減算する
$$
h_0=\theta \\
h_t=h_{t-1}+(\nabla E)^2 \\
w^{(t+1)}=w^{(t)}-\varepsilon\frac{1}{\sqrt{h_t+\theta}}\nabla E
$$
```
self.h[key] = np.zeros_like(val)
self.h[key] += grad[key] * grad[key]
params[key] -= self.learning_rate* grad[key] / (np.sqrt(self.h[key]) + 1e-7)
```
- メリット
  - 勾配の緩やかな斜面に対して、最適値に近づける
- 課題
  - 学習率が徐々に小さくなるので、鞍点問題を引き起こす事があった

## RMSProp

誤差をパラメータで微分したものと再定義した学習率の積を減算する
$$
h_t=\alpha h_{t-1}+(1-\alpha)(\nabla E)^2 \\
w^{(t+1)}=w^{(t)}-\varepsilon\frac{1}{\sqrt{h_t}+\theta}\nabla E
$$
```
self.h[key] *= self.decay_rate
self.h[key] += (1 -self.decay_rate) * grad[key] * grad[key]
params[key] -= self.learning_rate* grad[key] / (np.sqrt(self.h[key]) + 1e-7)
```

- メリット
  - 局所的最適解にはならず、大域的最適解となる。
  - ハイパーパラメータの調整が必要な場合が少ない

## Adam

- モメンタムの、過去の勾配の指数関数的減衰平均
- RMSPropの、過去の勾配の2乗の指数関数的減衰平均

- メリット
  - モメンタムおよびRMSPropのメリットを孕んだアルゴリズム

## 確認テスト

### P.47

- Q:モメンタム・AdaGrad・RMSPropの特徴をそれぞれ簡潔に説明せよ。
-A:
  - モメンタム
    - 谷間に落ちてからの収束のスピードが早い。
  - AdaGrad
    - 緩やかな斜面に対して最適値に近づける。
  - RMSProp
    - パラメータの調整が少なくて済む。

## 演習

https://colab.research.google.com/github/peta-m175/rabbit_challenge/blob/master/deep_learning/day2/exercises/2_4_optimizer.ipynb