07 誤差逆伝播法の実装
==================

* 実装したレイヤを組み合わせることで、レゴブロックを組み合わせて作るように、ニューラルネットワークを構築することができる

## 1. ニューラルネットワークの学習の全体図

### 前提

* ニューラルネットワークは、適応可能な重みとバイアスがあり、この重みとバイアスを訓練データに適用することに調整することを、`学習`と呼ぶ

* ニューラルネットワークの学習は、次の4つの手順で行う

### ステップ1(ミニバッチ)

* 訓練データの中からランダムに一部のデータを選び出す

### ステップ2(勾配の算出)

* 各重みパラメータに関する損失関数の勾配を求める

### ステップ3(パラメータの更新)

* 重みパラメータを勾配方向に微小量だけ更新する

### ステップ4(繰り返す)

* ステップ1、ステップ2、ステップ3を繰り返す

* 誤差逆伝播法が登場するのは、ステップ2の「勾配の算出」

* 前章では、この勾配を求めるために`数値微分`を用いたが、`誤差逆伝播法`を用いることで、高速に効率良く勾配を求めることができる

## 2. 誤差逆伝播法に対応したニューラルネットワークの実装

* ここでは、2層のニューラルネットワークを`TwoLayerNet`として実装する

* このインスタンス変数は、以下の表にまとめた

    * 変更箇所は、レイヤを使用していること
    
    * 認識結果を得る処理(`predict()`)や、勾配を求める処理(`gradient()`)がレイヤの伝播だけで達成できる

| 変数        | 説明                                                                                                                                                                                                             |
| ----------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `params`    | ニューラルネットワークのパラメータを保持するディクショナリ変数(インスタンス変数)<br>`params['W1']`は1層目の重み、`params['b1']`は1層目のバイアス<br>`params['W2']`は2層目の重み、`params['b2']`は2層目のバイアス |
| `layers`    | ニューラルネットワークのレイヤを保持する**順番付きディクショナリ変数**<br>`layers['Affine1']`、`layers['Relu1']`、`layers['Affine2']`<br>と言ったように、**順番付きディクショナリ**でレイヤを保持する            |
| `lastLayer` | ニューラルネットワークの最後のレイヤ<br>この例では、`SoftmaxWithLoss`レイヤ                                                                                                                                      |


| メソッド                                                                | 説明                                                                                                                                                                   |
| ----------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| `__init__(self, input_size, hidden_size, output_size, weight_init_std)` | 初期化を行う<br>引数は頭から順に、<br>「入力層のニューロンの数」<br>「隠れ層のニューロンの数」<br>「出力層のニューロンの数」<br>「重み初期化時のガウス分布のスケール」 |
| `predict(self, x)`                                                      | 認識(推論)を行う<br>引数の`x`は画像データ                                                                                                                              |
| `loss(self, x, t)`                                                      | 損失関数の値を求める<br>引数の`x`は画像データ、`t`は正解ラベル                                                                                                         |
| `accuracy(self, x, t)`                                                  | 認識精度を求める                                                                                                                                                       |
| `numerical_gradient(self, x, t)`                                        | 重みパラメータに対する勾配を求める                                                                                                                                     |
| `gradient(self, x, t)`                                                  | 重みパラメータに対する勾配を求める<br>`numerical_gradient()`の高速版                                                                                                   |



In [1]:
import sys, os
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
from common.layers import *
from common.gradient import numerical_gradient
from collections import OrderedDict


class TwoLayerNet:

    def __init__(self, input_size, hidden_size, output_size, weight_init_std = 0.01):
        # 重みの初期化
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size) 
        self.params['b2'] = np.zeros(output_size)

        # レイヤの生成
        self.layers = OrderedDict()
        self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])
        self.layers['Relu1'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])

        self.lastLayer = SoftmaxWithLoss()
        
    def predict(self, x):
        for layer in self.layers.values():
            x = layer.forward(x)
        
        return x
        
    # x:入力データ, t:教師データ
    def loss(self, x, t):
        y = self.predict(x)
        return self.lastLayer.forward(y, t)
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        if t.ndim != 1 : t = np.argmax(t, axis=1)
        
        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy
        
    # x:入力データ, t:教師データ
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads
        
    def gradient(self, x, t):
        # forward
        self.loss(x, t)

        # backward
        dout = 1
        dout = self.lastLayer.backward(dout)
        
        layers = list(self.layers.values())
        layers.reverse()
        for layer in layers:
            dout = layer.backward(dout)

        # 設定
        grads = {}
        grads['W1'], grads['b1'] = self.layers['Affine1'].dW, self.layers['Affine1'].db
        grads['W2'], grads['b2'] = self.layers['Affine2'].dW, self.layers['Affine2'].db

        return grads

* この実装では、レイヤを`OrderDict`として保存する

    * 順番付きのディクショナリであり、追加した順にレイヤの`forward()`メソッドを呼び出すだけで処理が完了する
    
    * また、逆伝播では逆の順番でレイヤを呼び出す
    
        * AffineレイヤとReLUレイヤが、それぞれの内部で順伝播と逆伝播を正しく処理してくれるので、レイヤを正しい順番で連結し、順番にレイヤを呼び出す

* このようにニューラルネットワークの構成要素を「レイヤ」として実装したので、ニューラルネットワークを簡単に構築できた

## 3. 誤差逆伝播法の勾配確認

* 誤差逆伝播法を用いることで、大量のパラメータが存在しても効率的に計算できた

    * そのため、計算に時間のかかる数値微分ではなく、誤差逆伝播法によって勾配を求める
    
* 数値微分は、誤差逆伝播法の正しさを確認する上では必要なツールとなる

* 数値微分の利点は、実装が簡単であること

    * 実装にはミスが起きにくく、誤差逆伝播法の結果を比較して、実装の正しさを確認することができる
    
    　* この数値微分で勾配を求めた結果と、誤差逆伝播法で求めた勾配の結果が一致することを確認する作業を、`勾配確認`と呼ぶ

In [3]:
import sys, os
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import numpy as np
from dataset.mnist import load_mnist

# データの読み込み
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

x_batch = x_train[:3]
t_batch = t_train[:3]

grad_numerical = network.numerical_gradient(x_batch, t_batch)
grad_backprop = network.gradient(x_batch, t_batch)

for key in grad_numerical.keys():
    diff = np.average( np.abs(grad_backprop[key] - grad_numerical[key]) )
    print(key + ":" + str(diff))

W1:3.58656116260018e-10
b1:2.089933073566369e-09
W2:4.880730265797046e-09
b2:1.397661387195215e-07


* ここでは誤差として、各重みパラメータにおける要素の差の絶対値を求め、その平均を算出する

* この結果から、数値微分と誤差逆伝播法でそれぞれ求めた勾配の差はかならい小さいことがわかる

## 4. 誤差逆伝播法を用いた学習

* 実装は、以下の通りになる

In [5]:
# coding: utf-8
import sys, os
sys.path.append(os.pardir)

import numpy as np
from dataset.mnist import load_mnist

# データの読み込み
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

iters_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iters_num):
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 勾配
    #grad = network.numerical_gradient(x_batch, t_batch)
    grad = network.gradient(x_batch, t_batch)
    
    # 更新
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
    
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print(train_acc, test_acc)

0.11235 0.1122
0.9033 0.9066
0.9241333333333334 0.9244
0.93685 0.9347
0.9445666666666667 0.9408
0.94975 0.946
0.9547 0.9516
0.96085 0.9549
0.96485 0.9567
0.9666833333333333 0.9607
0.9692166666666666 0.963
0.9709833333333333 0.9632
0.9727 0.9649
0.9742333333333333 0.9666
0.9753 0.9666
0.9767833333333333 0.9665
0.9783 0.9689


| 版   | 年/月/日   |
| ---- | ---------- |
| 初版 | 2019/05/11 |