### 学習に関するテクニック
#### 確率的勾配降下法
勾配方向にパラメータを更新する方法。  
stochastic gradient descent 略してSGD。  

##### SGDの欠点
関数の形状が等方的でない（伸びた形の関数だと）非効率な経路で探索してしまう。

#### Momentum
関連性のある方向へSGDを加速させ振動を抑制する方法。

#### AdaGrad
パラメータの要素ごとに適応的に学習係数を調整しながら学習を行う手法。  

#### Adam
MomentumとAdaGradを融合したような手法。  

#### 重みの初期値
重みの初期値は0にしてはいけない。  
正確には重みを均一な値にしてはいけない。  
=> 誤差逆伝播法において、すべての重みの値が均一に更新されてしまうから。  
(乗算ノードの逆伝播を思い出す)

#### Xavierの初期値
前層のノード数をnとしたとき、標準偏差が１/√nの標準偏差を持つガウス分布  
=> sigmoid関数やtanh関数に適している  

#### Heの初期値
前層のノード数をnとしたとき、標準偏差が１/√2/nの標準偏差を持つガウス分布  
=> ReLU関数に適している

### Batch Normalization
各層でのアクティベーション分布を、適度な広がりを持つように調整する

**特徴** 
- 学習を速く進行させることができる(学習係数を大きくすることができる)
- 初期値にそれほど依存しない
- 過学習を抑制する



### 過学習の問題
**過学習とは**
訓練データだけに適応しすぎてしまい、他のデータにうまく対応できない状態。  

**原因**
- パラメータを大量に持ち、表現力の高いモデルであること
- 訓練データが少ないこと

#### Weight decay
学習の過程において、大きな重みを持つことに対してペナルティを課すことで、過学習を抑制する。  
損失関数に対して重みのL2ノルムを加算する。  

#### Dropout
ニューラルネットワークのモデルが複雑になってくるとWeight decayだけでは対応が困難。  
Dropoutとはニューロンをランダムに消去しながら学習する手法。  

### ハイパーパラメータの最適化
ポイントはハイパーパラメータの「良い値」が存在する範囲を徐々に絞り込んでいくこと。  
(ベイズ最適化の定理を駆使)

Step0  
ハイパーパラメータの範囲を設定する。  

Step1  
設定されたハイパーパラメータの範囲から、ランダムにサンプリングする。  

Step2  
ステップ１でサンプリングした値を使用して学習を行い、検証データで認識精度を評価する。  

Step3  
Step1とStep2をある回数（100回くらい）繰り返し、それらの認識精度の結果から、ハイパーパラメータの範囲を狭める。  

In [None]:
# coding: utf-8
import sys, os
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
import matplotlib.pyplot as plt
from dataset.mnist import load_mnist
from common.multi_layer_net import MultiLayerNet
from common.util import shuffle_dataset
from common.trainer import Trainer

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True)

# 高速化のため訓練データの削減
x_train = x_train[:500]
t_train = t_train[:500]

# 検証データの分離
validation_rate = 0.20
validation_num = x_train.shape[0] * validation_rate
x_train, t_train = shuffle_dataset(x_train, t_train)
x_val = x_train[:validation_num]
t_val = t_train[:validation_num]
x_train = x_train[validation_num:]
t_train = t_train[validation_num:]


def __train(lr, weight_decay, epocs=50):
    network = MultiLayerNet(input_size=784, hidden_size_list=[100, 100, 100, 100, 100, 100],
                            output_size=10, weight_decay_lambda=weight_decay)
    trainer = Trainer(network, x_train, t_train, x_val, t_val,
                      epochs=epocs, mini_batch_size=100,
                      optimizer='sgd', optimizer_param={'lr': lr}, verbose=False)
    trainer.train()

    return trainer.test_acc_list, trainer.train_acc_list


# ハイパーパラメータのランダム探索======================================
optimization_trial = 100
results_val = {}
results_train = {}
for _ in range(optimization_trial):
    # 探索したハイパーパラメータの範囲を指定===============
    weight_decay = 10 ** np.random.uniform(-8, -4)
    lr = 10 ** np.random.uniform(-6, -2)
    # ================================================

    val_acc_list, train_acc_list = __train(lr, weight_decay)
    print("val acc:" + str(val_acc_list[-1]) + " | lr:" + str(lr) + ", weight decay:" + str(weight_decay))
    key = "lr:" + str(lr) + ", weight decay:" + str(weight_decay)
    results_val[key] = val_acc_list
    results_train[key] = train_acc_list

# グラフの描画========================================================
print("=========== Hyper-Parameter Optimization Result ===========")
graph_draw_num = 20
col_num = 5
row_num = int(np.ceil(graph_draw_num / col_num))
i = 0

for key, val_acc_list in sorted(results_val.items(), key=lambda x:x[1][-1], reverse=True):
    print("Best-" + str(i+1) + "(val acc:" + str(val_acc_list[-1]) + ") | " + key)

    plt.subplot(row_num, col_num, i+1)
    plt.title("Best-" + str(i+1))
    plt.ylim(0.0, 1.0)
    if i % 5: plt.yticks([])
    plt.xticks([])
    x = np.arange(len(val_acc_list))
    plt.plot(x, val_acc_list)
    plt.plot(x, results_train[key], "--")
    i += 1

    if i >= graph_draw_num:
        break

plt.show()
