# 誤差逆伝播法

勾配を求めたい変数を微小量変化させることで、損失関数に対する勾配を求めるforward的処理には時間がかかる
そこで、入力側から出なく、出力側から逆向きに勾配を求めていき、微分のチェインルールを用いて勾配を計算することで、
処理時間を短縮することができる。これを、誤差逆電波法という。

## ReLuレイヤ
![%E3%82%B9%E3%82%B1%E3%83%83%E3%83%81.png](attachment:%E3%82%B9%E3%82%B1%E3%83%83%E3%83%81.png)

In [28]:
class Relu:
    def __init__(self):
        self.mask = None

    def forward(self, x):
        self.mask = (x <= 0)
        out = x.copy()
        #x<=0を満たす箇所を0にする
        out[self.mask] = 0

        return out

    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout #dx=1*dout

        return dx

In [31]:
import numpy as np

x = np.array([[-1.0, 2.0], [3.0, -4.0]])

relu = Relu()
forward = relu.forward(x)
print("forward: {}".format(forward))
print(x)
backward = relu.backward(x)
print("backward: {}".format(backward))
print(x)

forward: [[0. 2.]
 [3. 0.]]
[[-1.  2.]
 [ 3. -4.]]
backward: [[0. 2.]
 [3. 0.]]
[[0. 2.]
 [3. 0.]]


## sigmoid layer
![%E3%82%B9%E3%82%B1%E3%83%83%E3%83%81.png](attachment:%E3%82%B9%E3%82%B1%E3%83%83%E3%83%81.png)

In [35]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

class Sigmoid:
    def __init__(self):
        self.out = None

    def forward(self, x):
        out = sigmoid(x)
        self.out = out
        return out

    def backward(self, dout):
        dx = dout * (1.0 - self.out) * self.out

        return dx

In [36]:
sig = Sigmoid()
print(x)
sig.forward(x)
sig.backward(x)

[[0. 2.]
 [3. 0.]]


array([[0.        , 0.20998717],
       [0.13552998, 0.        ]])

## Affine layer
![%E3%82%B9%E3%82%B1%E3%83%83%E3%83%81.png](attachment:%E3%82%B9%E3%82%B1%E3%83%83%E3%83%81.png)

In [37]:
class Affine:
    def __init__(self, W, b):
        self.W =W
        self.b = b
        
        self.x = None
        self.original_x_shape = None
        # 重み・バイアスパラメータの微分
        self.dW = None
        self.db = None

    def forward(self, x):
        # テンソル対応
        self.original_x_shape = x.shape
        x = x.reshape(x.shape[0], -1)
        self.x = x

        out = np.dot(self.x, self.W) + self.b

        return out

    def backward(self, dout):
        dx = np.dot(dout, self.W.T)
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis=0)
        
        dx = dx.reshape(*self.original_x_shape)  # 入力データの形状に戻す（テンソル対応）
        return dx

In [38]:
x = np.array([[1.0, 2.0], [3.0, 4.0]])
W = np.random.randn(2, 3)
b = np.array([1.0, 2.0, 3.0])
affine = Affine(W, b)

In [39]:
affine.forward(x)

array([[ 4.1549457 , -2.13623504,  4.00238323],
       [ 7.70548308, -8.16050244,  4.29483204]])

## softmax-with-loss layer
![%E3%82%B9%E3%82%B1%E3%83%83%E3%83%81.png](attachment:%E3%82%B9%E3%82%B1%E3%83%83%E3%83%81.png)

In [40]:
#ミニバッチに対応した交差エントロピー誤差を計算する関数（出力は平均値)
#pred, ansはそれぞれ学習後の予測値と正解ラベル
#入力はarray。行方向がサンプル数（バッチ数)に対応している。
def cross_entropy_error(pred, ans):
    #1次元配列の場合は1行n列の2次元に変換する
    if pred.ndim ==1:
        pred = pred.reshape(1, pred.size)
        ans = pred.reshape(1, ans.size)
    #行数を取得（行数＝データサイズ＝バッチサイズ） 
    batch_size = pred.shape[0]
    return -np.sum(ans * np.log(pred + 1e-7)) / batch_size

#ソフトマックス関数。xはarray。返り値も同じ形のarray。
def softmax(x):
    if x.ndim == 2:
        x = x.T
        x = x - np.max(x, axis=0)
        y = np.exp(x) / np.sum(np.exp(x), axis=0)
        return y.T 

    x = x - np.max(x) # オーバーフロー対策
    return np.exp(x) / np.sum(np.exp(x))

class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None
        self.y = None # softmaxの出力
        self.t = None # 教師データ

    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t)
        
        return self.loss

    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        if self.t.size == self.y.size: # 教師データがone-hot-vectorの場合
            dx = (self.y - self.t) / batch_size
        else:
            dx = self.y.copy()
            dx[np.arange(batch_size), self.t] -= 1
            dx = dx / batch_size
        
        return dx

In [48]:
x = np.array([0.1, 0.9])
t = np.array([0, 1])

softmaxwithloss = SoftmaxWithLoss()


In [49]:
softmaxwithloss.forward(x, t)

0.6191208810457112

In [50]:
softmaxwithloss.backward()

array([ 0.15501276, -0.15501276])