# 計算グラフ
計算グラフとは、計算の過程をグラフによって表したもの。このグラフは複数のノードとそれをつなぐ直線（エッジ）で表される。ノードに演算内容を書き、計算結果が矢印の方向に流れていく。
<br>
<img src='https://camo.qiitausercontent.com/67dd08b85e6701a695d6e4a59ce5f7945e661161/68747470733a2f2f71696974612d696d6167652d73746f72652e73332e616d617a6f6e6177732e636f6d2f302f353631362f61393335366464632d626537392d346438322d356265642d3337396464393132666336632e706e67'>
<br>
計算グラフを用いて問題を解くには、
1. 計算グラフの構築
1. 計算グラフ上で左から右に計算を進める
<br>

この2つのステップが必要になる。この計算を左から右へ伝えるのを、順方向の伝播、略して**順伝播**と呼ぶ。また、右から左へ逆向きに伝播を行うことを**逆伝播**と言う。逆伝播が微分計算において重要な働きをする。

## 計算グラフの利点
計算グラフの利点は、「局所的な計算」を伝播することによって最終的な結果を得ることができることにある。どんな計算においても、各ノードでの「局所的な計算」を繰り返すことによって結果を得ることができる。これによって問題を単純化することができる。
また、別の利点として、途中の計算結果を全て保持できることがあげられる。また、計算グラフの逆伝播によって、効率的に微分計算を行うことができるのがこの分野におけるこのグラフの最大の利点である。

# 連鎖律
逆伝播では、「局所的な微分」を、順方向とは逆向きに伝達していく。この「局所的な微分」を伝達する原理は、**連鎖律**(chain rule)によるものである。

## 計算グラフの逆伝播
<img src='https://camo.qiitausercontent.com/90f1c5b0106a6aad600dee117755e85df25d5e9c/68747470733a2f2f71696974612d696d6167652d73746f72652e73332e616d617a6f6e6177732e636f6d2f302f353631362f32303033636231382d386239322d336135392d323165382d3463656330666639623736392e706e67'>
<br>
例えば、$y = f(x) = x^2$であるとき、逆伝播では入力$E$に$\frac{\partial y}{\partial x}=2x$を乗算して前のノードに渡す。

## 連鎖律とは
$
z = t^2
\\
t = x+y
$
といったように、複数の関数で構成される関数を合成関数という。（この場合は$z = (x+y)^2$を表す。）
連鎖律は合成関数の微分についての性質であり、次のように定義される。

> ある関数が合成関数で表される場合、その合成関数の微分は、合成関数を構成するそれぞれの関数の微分の積によって表すことができる。

これを連鎖律の原理という。上記の例で数式に表すと以下のように表せる。

$\large \frac{\partial z}{\partial x} = \frac{\partial z}{\partial t} \frac{\partial t}{\partial x}$
<br>
<br>
これは、$\partial t$が分子と分母で互いに打ち消し合うことから明らかである。上記の例では以下のように数式で表せる。
<br>
${\large \frac{\partial z}{\partial x} = \frac{\partial z}{\partial t} \frac{\partial t}{\partial x}}= 2t \cdot 1 = 2(x+y)$

## 連鎖律とグラフ
上記の例の連鎖律の計算を、計算グラフで表してみる。2乗の演算を「\*\*2」というノードで表すと、以下のように書くことができる。
<img src='https://cdn-ak.f.st-hatena.com/images/fotolife/l/losiz17/20180312/20180312192958.png'>
このとき、1番最後の逆伝播の結果の部分では
$\large{\frac{\partial z}{\partial z} \frac{\partial z}{\partial t} \frac{\partial t}{\partial x} = \frac{\partial z}{\partial t} \frac{\partial t}{\partial x} = \frac{\partial z}{\partial x}}$が成り立ち、「$x$に関する$z$の微分」に対応している。このように、逆伝播の原理は連鎖律によって裏付けられている。

# 逆伝播

## 加算ノードの逆伝播
$z = x+y$の微分について、以下のように解析的に計算することができる。
<br>
${\large \frac{\partial z}{\partial x}} = 1$
<br>
${\large \frac{\partial z}{\partial y}} = 1$
<br>
そのため、計算グラフ上の加算ノードでは単に上流から伝わった微分に1を乗算してそのまま下流のノードに流す。これを図で表すと次のようになる。
<img src='https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F5616%2F93f921dd-17bb-5d7a-55a2-6173e1f62fe4.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&w=1400&fit=max&s=9257b2c9393d047d8c033c7c3f7c3c91'>

## 乗算ノードの逆伝播
$z=xy$という式について、この式の微分は次の式で表される。
<br>
${\large \frac{\partial z}{\partial x}} = y
\\
{\large \frac{\partial z}{\partial y}} = x$
この式から、計算グラフは次のように書くことができる。
<img src='https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F5616%2F32448b65-11cd-8935-849e-a21e23e3d4c4.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&w=1400&fit=max&s=42d05fd65c278d621e4391b99d883679'>

これらのことから、最初に提示したリンゴの合計金額を表した計算グラフの逆伝播は、次のような図になる。
<img src='graph.jpg'>

# レイヤの実装
実際に上記のリンゴの例をpythonで実装する。各レイヤ（ノード）は共通の```forword()```と```backword()```というメソッドを持つように実装する。（それぞれ順伝播と逆伝播に対応する。）

## 乗算レイヤの実装


In [1]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None

    def forward(self, x, y):
        self.x = x
        self.y = y                
        out = x * y

        return out

    def backward(self, dout):
        dx = dout * self.y
        dy = dout * self.x

        return dx, dy

コンストラクタで宣言しているx,yは順伝播時に入力値を保持しておき、逆伝播の演算時に使用するためのもの。
<br>
実際にこのレイヤを使用して、前項目のリンゴの代金の例を実装してみる。

In [2]:
apple = 100
apple_num = 2
tax = 1.1

#layer
mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

# forward
apple_price = mul_apple_layer.forward(apple, apple_num)
price = mul_tax_layer.forward(apple_price, tax)

print(int(price))

220


In [3]:
# backward
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

print(dapple, int(dapple_num), dtax)

2.2 110 200


## 加算レイヤの実装

In [4]:
class AddLayer:
    def __init__(self):
        pass

    def forward(self, x, y):
        out = x + y

        return out

    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1

        return dx, dy

今度はこのレイヤを使用して、以下のような図に表される計算グラフを実装してみる。
<img src='https://camo.qiitausercontent.com/a360caa4521c95b32f192c8914c14005aec67a65/68747470733a2f2f71696974612d696d6167652d73746f72652e73332e616d617a6f6e6177732e636f6d2f302f353631362f64313633363031332d316339332d346364362d313961302d3933386230343763313335382e706e67'>

In [5]:
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

# layer
mul_apple_layer = MulLayer()
mul_orange_layer = MulLayer()
add_apple_orange_layer = AddLayer()
mul_tax_layer = MulLayer()

# forward
apple_price = mul_apple_layer.forward(apple, apple_num)  # (1)
orange_price = mul_orange_layer.forward(orange, orange_num)  # (2)
all_price = add_apple_orange_layer.forward(apple_price, orange_price)  # (3)
price = mul_tax_layer.forward(all_price, tax)  # (4)

# backward
dprice = 1
dall_price, dtax = mul_tax_layer.backward(dprice)  # (4)
dapple_price, dorange_price = add_apple_orange_layer.backward(dall_price)  # (3)
dorange, dorange_num = mul_orange_layer.backward(dorange_price)  # (2)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)  # (1)

print(int(price))
print(int(dapple_num), dapple, int(dorange), int(dorange_num), dtax)

715
110 2.2 3 165 650


# 活性化関数レイヤの実装
計算グラフの考え方をニューラルネットワークに応用していく。
まずは、活性化関数であるReLUとSigmoidを実装する。

## ReLUレイヤ
ReLU関数は次のような式で表される。
<br>
<br>
$y = 
\left \{
\begin{array}{l}
x　( x > 0) \\
0　( x \leqq 0)
\end{array}
\right.$
<br>
<br>
よって、$x$に関する$y$の微分は以下のように求められる。
<br>
<br>
${\large \frac{\partial y}{\partial x}} = 
\left \{
\begin{array}{l}
1　( x > 0) \\
0　( x \leqq 0)
\end{array}
\right.$
<br>
<br>
これを実装すると以下のようになる。

In [6]:
class Relu:
    def __init__(self):
        self.mask = None

    def forward(self, x):
        self.mask = (x <= 0)
        out = x.copy()
        out[self.mask] = 0

        return out

    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout

        return dx

ReLUレイヤはスイッチのような役割をしている。

## Sigmoidレイヤ
シグモイド関数は以下の式で表される。
<br>
<br>
$y = {\large \frac{1}{1 + \exp(-x)}}$
<br>
<br>
これを計算グラフで表すと次の図となる。
<img src='https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F5616%2F0353ba71-c937-bdda-4c7b-ae21137eb1aa.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=defab7c336c8c44cab758dc5ddf32783'>
<br>
「exp」ノードでは$y = \exp(x)$の計算を行い、「/」ノードでは$y = {\large \frac{1}{x}}$の計算を行う。
<br>
「exp」ノードに関して、微分は解析的に以下のように計算できる。
<br>
${\large \frac{\partial y}{\partial x}} = \exp(x)$
<br>
<br>
また、「/」ノードに関しても以下のように計算できる。
<br>
$\begin{align}\frac{\partial y}{\partial x} &= -\frac{1}{x^2} \\ &= -y^2 \end{align}$
<br>
よって、このグラフの逆伝播を計算グラフに表すと以下のようになる。
<img src='https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F5616%2F31147beb-58cd-b452-bb76-fab8e4f792f6.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=e0901d96504e7ae0ccb0067cf3d57cdb'>
これを簡略化して、このようになる。
<img src='https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.amazonaws.com%2F0%2F5616%2F0c2cec9f-e5d9-54fb-ff93-23d896091d2c.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&w=1400&fit=max&s=0b2db0a76b2ccabc1ddfd0165b7d3c1e'>
また、さらにここからこのように式を変形できる。
<br>
$\begin{align}
\frac{\partial L}{\partial y}y^2\exp(-x) &= \frac{\partial L}{\partial y} \frac{1}{(1+\exp(-x))^2}\exp(-x)\\
&= \frac{\partial L}{\partial y} \frac{1}{1+\exp(-x)} \frac{\exp(-x)}{1+\exp(-x)}\\
&= \frac{\partial L}{\partial y} y(1-y)
\end{align}$
<br>
<br>
これらを元に、Sigmoidレイヤをpythonで実装すると以下のようになる。

In [7]:
class Sigmoid:
    def __init__(self):
        self.out = None

    def forward(self, x):
        out = sigmoid(x)
        self.out = out
        return out

    def backward(self, dout):
        dx = dout * (1.0 - self.out) * self.out

        return dx

このコードでは、順伝播時に出力をインスタンス変数```out```に保存しておき、それを用いて逆伝播の計算を行う。

# Affine/Softmaxレイヤの実装

## Affineレイヤ
ニューラルネットワークの順伝播では、重み付き信号の総和の計算に行列の積計算を用いた。ニューラルネットワークの順伝播で行う行列の積計算を、幾何学の分野では「アフィン変換」と呼ぶ。そのため、ここではアフィン変換の処理を「Affineレイヤ」として実装する。

$X \cdot W = Y$

<br>
この式について、今までのスカラー値に対する計算と同じ手順で逆伝播について考えると、以下の式が得られる。

$
{\large\frac{\partial L}{\partial X}} = {\large\frac{\partial L}{\partial Y}} \cdot W^T \\
{\large\frac{\partial L}{\partial W}} = X^T \cdot {\large\frac{\partial L}{\partial Y}}
$

<br>
$W^T$のTは転置を表す。
このとき特に、$X$と$\frac{\partial L}{\partial X}$、$W$と$\frac{\partial L}{\partial W}$はそれぞれ同じ形状である。
<br>
バッチ処理に対応する形に実装すると以下のようになる。

In [8]:
import numpy as np
class Affine:
    def __init__(self, W, b):
        self.W =W
        self.b = b
        
        self.x = None
        self.dW = None
        self.db = None

    def forward(self, x):
        self.x = x
        out = np.dot(self.x, self.W) + self.b

        return out

    def backward(self, dout):
        dx = np.dot(dout, self.W.T)
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis=0)
        
        return dx

## Softmax-with-Lossレイヤ
ここでは、損失関数である交差エントロピー誤差(cross entropy error)も含めて、「Softmax-with-Lossレイヤ」という名前で実装する。
このとき、最終的な計算グラフは次のようになる。
<img src='https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FrWMeM%2FbtqQptySbcy%2FOcmx41ncd8SD6e7nPhVAkK%2Fimg.png'>
これを見ると分かるとおり、逆伝播における出力は現在のニューラルネットワークの出力と教師データの差となっている。これにより、ニューラルネットワークの出力の誤差が大きければ大きいほど、逆伝播では前のレイヤが学習する内容も大きくなる。
<br>
これを実装すると以下のようになる。

In [9]:
from common.functions import *

class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None
        self.y = None # softmaxの出力
        self.t = None # 教師データ

    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t)
        
        return self.loss

    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        if self.t.size == self.y.size: # 教師データがone-hot-vectorの場合
            dx = (self.y - self.t) / batch_size
        else:
            dx = self.y.copy()
            dx[np.arange(batch_size), self.t] -= 1
            dx = dx / batch_size
        
        return dx

# 誤差逆伝播法の実装

## 誤差逆伝播法に対応したニューラルネットワークの実装
先週に学習した2層のニューラルネットワークを誤差逆伝播法に対応するよう改変する。

In [10]:
import numpy as np
from common.layers import *
from common.gradient import numerical_gradient
from collections import OrderedDict

class TwoLayerNet:

    def __init__(self, input_size, hidden_size, output_size, weight_init_std = 0.01):
        # 重みの初期化
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size) 
        self.params['b2'] = np.zeros(output_size)

        # レイヤの生成
        self.layers = OrderedDict()
        self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])
        self.layers['Relu1'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])

        self.lastLayer = SoftmaxWithLoss()
        
    def predict(self, x):
        for layer in self.layers.values():
            x = layer.forward(x)
        
        return x
        
    # x:入力データ, t:教師データ
    def loss(self, x, t):
        y = self.predict(x)
        return self.lastLayer.forward(y, t)
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        if t.ndim != 1 : t = np.argmax(t, axis=1)
        
        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy
        
    # x:入力データ, t:教師データ
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads
        
    def gradient(self, x, t):
        # forward
        self.loss(x, t)

        # backward
        dout = 1
        dout = self.lastLayer.backward(dout)
        
        layers = list(self.layers.values())
        layers.reverse()
        for layer in layers:
            dout = layer.backward(dout)

        # 設定
        grads = {}
        grads['W1'], grads['b1'] = self.layers['Affine1'].dW, self.layers['Affine1'].db
        grads['W2'], grads['b2'] = self.layers['Affine2'].dW, self.layers['Affine2'].db

        return grads

```OrderedDict```には、順伝播で処理したレイヤの順番を記録し、逆伝播のときにその逆の順番をなぞっている。

## 誤差逆伝播法の勾配確認
誤差逆伝播法は効率的に計算できる一方、実装が複雑でありミスが起きやすい。そのため、実装が簡単である数値微分の結果と比較して一致することを確認することがある。この作業を**勾配確認**と言う。実装は以下に示す。

In [11]:
import numpy as np
from dataset.mnist import load_mnist

# データの読み込み
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

x_batch = x_train[:3]
t_batch = t_train[:3]

grad_numerical = network.numerical_gradient(x_batch, t_batch)
grad_backprop = network.gradient(x_batch, t_batch)

for key in grad_numerical.keys():
    diff = np.average( np.abs(grad_backprop[key] - grad_numerical[key]) )
    print(key + ":" + str(diff))

W1:4.4295685577171375e-10
b1:2.3793310187857856e-09
W2:5.558634955766584e-09
b2:1.4058574143160918e-07


それぞれとても小さい値になっていることから、十分な精度で実装されていることが分かる。

## 誤差逆伝播法を使った学習
誤差逆伝播法を用いて学習を行う実装をする。先週学んだコードの数値微分の部分を誤差逆伝播法に置き換えるだけである。

In [13]:
# データの読み込み
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

iters_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iters_num):
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 勾配
    #grad = network.numerical_gradient(x_batch, t_batch)
    grad = network.gradient(x_batch, t_batch)
    
    # 更新
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
    
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print(train_acc, test_acc)

0.11721666666666666 0.1174
0.90255 0.9065
0.9247666666666666 0.9266
0.9381 0.9367
0.9455333333333333 0.9442
0.95275 0.9496
0.9571833333333334 0.9534
0.9611666666666666 0.9577
0.96385 0.96
0.9688 0.9624
0.9692 0.9625
0.9716833333333333 0.9638
0.9742333333333333 0.9669
0.9749166666666667 0.9665
0.9745333333333334 0.9662
0.9772666666666666 0.9685
0.9779333333333333 0.9681


このように、数値微分では処理が非効率的で時間がかかった処理も、誤差逆伝播法を用いることで効率的に処理できた。