<a href="https://colab.research.google.com/github/Strix9289/Introduction-of-Deep-Learning/blob/master/initializer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 初期化(initializer)
各層のパラメタは0を中心とした乱数で初期化されているが、大きすぎる値の場合学習の初期段階での勾配が過大になり、
小さすぎると勾配自体も過小になってしまい、いずれにしても学習がうまく進まない。

そこで、初期化にあたっては、その値のスケール(分散)をうまく調整する必要がある。

- #### LeCun : 
- #### Glorot : 活性化関数がすべて線形な場合
- #### He : 活性化関数がReLUであるとき



## LeCunの初期化

各層の入力次元を$n_{in}$として, 次のように初期化します.
$$
    \theta \sim \mathcal{U}\left(-\sqrt{\frac{3}{n_{\textrm{in}}}}, \sqrt{\frac{3}{n_{\textrm{in}}}}\right) \quad \textrm{or} \quad \mathcal{N}\left(0, \frac{1}{\sqrt{n_{\textrm{in}}}}\right)
$$

なお、$\mathcal{U}$は一様分布、$\mathcal{N}$は正規分布を表します。

Kerasでは、それぞれ`keras.initializers.lucun_uniform`、`keras.initializers.lucun_normal`として定義されていますが、

以下のようにlayerの引数としてキーワードで指定することも可能です。

```py
# LuCun's initializationの実装例
model.add(Dense(128, activation='relu', kernel_initializer='lucun_uniform'))
model.add(Dense(128, activation='relu', kernel_initializer='lucun_normal'))
```

参考：
https://keras.io/ja/initializers/#lecun_normal
https://keras.io/ja/initializers/#lecun_uniform

## Glorotの初期化（Xavierの初期化）

各層の入力次元を$n_{\textrm{in}}$, 出力次元を$n_{\textrm{out}}$として, 次のように初期化します.
$$
    \theta \sim \mathcal{U}\left(-\sqrt{\frac{6}{n_{\textrm{in}}+n_{\textrm{out}}}}, \sqrt{\frac{6}{n_{\textrm{in}}+n_{\textrm{out}}}}\right) \quad \textrm{or} \quad \mathcal{N}\left(0, \sqrt{\frac{2}{n_{\textrm{in}}+n_{\textrm{out}}}}\right)
$$

なお、$\mathcal{U}$は一様分布、$\mathcal{N}$は正規分布を表します。

Kerasでは、それぞれ`keras.initializers.glorot_uniform`、`keras.initializers.glorot_normal`として定義されていますが、

以下のようにlayerの引数としてキーワードで指定することも可能です。

```py
# Glorot's initializationの実装例
model.add(Dense(128, activation='sigmoid', kernel_initializer='glorot_uniform'))
model.add(Dense(128, activation='sigmoid', kernel_initializer='glorot_normal'))
```

参考：
https://keras.io/ja/initializers/#glorot_normal
https://keras.io/ja/initializers/#glorot_uniform

## Heの初期化

各層の入力次元を$n_{\textrm{in}}$として, 次のように初期化します.
$$
    \theta \sim \mathcal{U}\left(-\sqrt{\frac{6}{n_{\textrm{in}}}}, \sqrt{\frac{6}{n_{\textrm{in}}}}\right) \quad \textrm{or} \quad \mathcal{N}\left(0, \sqrt{\frac{2}{n_{\textrm{in}}}}\right)
$$

なお、$\mathcal{U}$は一様分布、$\mathcal{N}$は正規分布を表します。

Kerasでは、それぞれ`keras.initializers.he_uniform`、`keras.initializers.he_normal`として定義されていますが、

以下のようにlayerの引数としてキーワードで指定することも可能です。

```py
# He's initializationの実装例
model.add(Dense(128, activation='relu', kernel_initializer='he_uniform'))
model.add(Dense(128, activation='relu', kernel_initializer='he_normal'))
```

参考：
https://keras.io/ja/initializers/#he_normal
https://keras.io/ja/initializers/#he_uniform