# 誤差逆伝播法

- 重みパラメータの勾配の計算を効率よく行う手法
- 正しく理解する方法
    - 「数式」によるもの
    - 「計算グラフ」によるもの

## 計算グラフで解く
- 手順
    - 計算グラフを構築する
    - 計算グラフ上で計算を左から右へ進める（**順伝播**）
    - 計算グラフ上で計算を右から左へ進める（**逆伝播**）
- なぜ計算グラフで解くのか？
    - 「局所的な計算」によって、各ノードでは単純な計算に集中することで、問題を単純化できる

## 順伝播
![image.png](attachment:image.png)

## 逆伝播
- 逆伝播は「局所的な微分」を伝達し、その微分の値を矢印の下側に記載
    - 例）　「りんごの値段に関する支払い金額の微分の値」： 2.2
        - これは、りんごが1円値上がりしたら、最終的な支払い金額が2.2円増えることを意味する
![image.png](attachment:image.png)

## 連鎖律

- 連鎖律とは
    - 合成関数の概念![messageImage_1630080216236.jpg](attachment:messageImage_1630080216236.jpg)

## 乗算ノードの逆伝播

$$
z = xy　についての微分は↓のように表せる \\
\frac{∂f}{∂x} = y \\
\frac{∂f}{∂y} = x
$$

- `__init()__`で、インスタンス変数であるxとyの初期化を行う
- `forward()`ではx,yの2つの引数を受け取り、それらを乗算して出力する
- `backward()`では、上流から伝わってきた微分（dout）に対して、「順伝播のひっくり返した値」を乗算して下流に渡す

In [1]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
    
    def forward(self,x,y):
        self.x = x
        self.y = y
        out = x*y
        
        return out
    
    def backward(self,dout):
        dx = dout * self.y # xとyをひっくり返す
        dy = dout * self.x
        
        return dx, dy

この乗算レイヤを使えば、下図の順伝播, 逆伝播は次のように実装することができる
![image.png](attachment:image.png)

In [2]:
apple = 100
apple_num = 2
tax = 1.1

# layer
mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

# forward
apple_price = mul_apple_layer.forward(apple, apple_num)
price = mul_tax_layer.forward(apple_price, tax)

print(price)

# backward
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)

dapple, dapple_num = mul_apple_layer.backward(dapple_price)
print(dapple, dapple_num, dtax)

220.00000000000003
2.2 110.00000000000001 200


## 加算ノードの逆伝播

- 初期化は必要ないので、`__init__()`は何も行わない
- `forward()`では、2つの引数x,yを受け取り、それらを加算して出力する。
- `backward()`では、上流から伝わっってきた微分（dout）をそのまま下流に流すだけ

![image.png](attachment:image.png)

In [5]:
class AddLayer:
    def __init__(self):
        pass
    
    def forward(self, x, y):
        out = x+y
        return out
    
    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1
        return dx, dy

In [7]:
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

# layer
mul_apple_layer = MulLayer()
mul_orange_layer = MulLayer()
add_apple_orange_layer = AddLayer()
mul_tax_layer = MulLayer()

# forward
apple_price = mul_apple_layer.forward(apple, apple_num)
orange_price = mul_orange_layer.forward(orange, orange_num)
all_price = add_apple_orange_layer.forward(apple_price, orange_price)
price = mul_tax_layer.forward(all_price, tax)

# backward
dprice = 1
dall_price,  dtax = mul_tax_layer.backward(dprice)
dapple_price, dorange_price = add_apple_orange_layer.backward(dall_price)
dorange, dorange_num = mul_orange_layer.backward(dorange_price)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

print(price)
print(dapple_num, dapple, dorange, dorange_num, dtax)

715.0000000000001
110.00000000000001 2.2 3.3000000000000003 165.0 650
