# 6.1 パラメータの更新

パラメータを更新する勾配の算出方法は
 - SGD（確率的勾配降下法）
 - Momentum
 - AdaGrad
 - Gram
等がある

どれも一長一短なので、データによって使い方を変える

In [1]:
class SGD:
    def __init__(self, lr):
        self.lr = lr
        
    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr - grads[key]
            
class Momentum:
    def __init__(self, lr=0.01, momentum=0.9):
        self.lr = lr
        self.momentum = momentum
        self.v = None
        
    def update(self, params, grads):
        if self.v is None:
            self.v = {}
            for key,val in params.items():
                self.v[key] = np.zeros_like(val)
                
        for key in params.keys():
            self.v[key] = self.momentum*self.v[key] - self.lr*grads[key]
            params[key] += self.v[key]
            
class AdaGrad:
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
        
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
                
        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)

# 6.2 重みの初期化

初期値は非常に重要で、間違えた設定をすると全く学習が進まないこともある

隠れ層のアクティベーション（活性化関数後の出力データ）から
 - 線形　→ Xavierの初期値
 - 非線形　→ Heの初期値
 
を使用

# 6.3 Batch Nomalization

活性化関数の前後どちらかにミニバッチのデータを正規化（平均0,分散1）にする

メリット
 - 学習速度が速い
 - 重みの初期値にロバスト（依存しない）
 - 過学習を抑制
 
がある。<br>
行っていることが、正規化とシンプルなので使い所が多い

# 6.4 正則化

過学習の要因
 - パラメータを大量に持ち、表現力の高いモデルであること
 - 訓練データが少ないこと

解決策
 - weight decay（呼び方は異なるが、ただの正則化）
     - L2ノルムを重みパラメータの損失関数を出力時につける
 - Dropout（単アンサンブル学習のイメージ）
     - 各バッチで作成したニューラルネットをランダムで削除しながら学習する