# 오차역전파법 backpropagation

- 미분을 계산해서 할 경우에는 계산도 쉽고 간단해서 좋지만 사실상 연산이 너무 오래 걸린다는 단점이 있음.
- 그래서 효율적인 계산을 위해 사용하는 방법 두가지가 수식을 통한 계산과 계산 그래프를 사용한 방법임.

## 계산 그래프

- 계산그래프는 노드와 에지로 구성된 그래프 자료구조의 한 종류.
- 계산그래프는 왼쪽에서 오른쪽으로 계산을 진행함.
- 계산그래프의 특징으로 국소적 계산이 가능한데 이는 전체 연산이 얼마나 복잡한지와는 관계없이 각 노드는 자신이 직접 연관된(관련된)연산만을 수행하면 된다는 것.
- 계산그래프를 사용하는 이유?  
국소적 계산으로 문제를 단순한 계산으로 단순화 할수 있음. 또한 계산그래프는 각 단계에서의 값을 저장할수 있어서 미분의 계산에 용이함.

## 연쇄 법칙

- 계산그래프로 역전파를 계산하는 원리는 미분의 연쇄법칙에 따릅니다.
- 연쇄법칙은 "합성 함수의 미분은 합성함수를 구성하는 각 함수의 미분의 곱으로 나타낼수 있다"입니다.
- 따라서 계산그래프에서 미분을 계산할때는 상류에서 넘어온 값에 해당노드에서의 미분 값을 곱하므로 구할수 있습니다.


### 덧셈과 곱셈의 역전파

- 덧셈 노드에서 역전파를 구할때는 갈라지는 각각의 엣지에 상류에서 넘어온 값을 그대로 전달해 줍니다. 덧셈 연산에 대한 미분은 1이기 때문입니다.
- 곱셈 노드에서 역전파를 구할때는 상류에서 넘어오는 값을 갈라지는 각각의 엣지를 맞바꿔서 곱해줍니다. xy의 x에 대한 미분은 y, y에 대한 미분은 x이기 때문입니다.
-곱셈 노드와 덧셈 노드를 레이어로 간단하게 구현해보면 아래와 같습니다.

In [12]:
import numpy as np

In [7]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
        
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x*y
        return out
        
    def backward(self, dout):
        dx = dout * self.y
        dy = dout * self.x
        return dx, dy

In [8]:
class AddLayer():
    def __init__(self):
        self.x = None
        self.y = None
    
    def forward(self, x, y):
        self.x = x
        self.y = y
        return self.x + self.y
        
    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1
        return dx, dy

- 두개의 레이어를 사용해서 간단한 사과를 구매하는 경우를 작성해봅니다.
- 순전파와 역전파를 각각 계산합니다.

In [10]:
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

# layer
mul_apple_layer = MulLayer()
mul_orange_layer = MulLayer()
add_apple_orange_layer = AddLayer()
mul_tax_layer = MulLayer()

# forward
apple_price = mul_apple_layer.forward(apple, apple_num)  # (1)
orange_price = mul_orange_layer.forward(orange, orange_num)  # (2)
all_price = add_apple_orange_layer.forward(apple_price, orange_price)  # (3)
price = mul_tax_layer.forward(all_price, tax)  # (4)

# backward
dprice = 1
dall_price, dtax = mul_tax_layer.backward(dprice)  # (4)
dapple_price, dorange_price = add_apple_orange_layer.backward(dall_price)  # (3)
dorange, dorange_num = mul_orange_layer.backward(dorange_price)  # (2)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)  # (1)

print("price:", int(price))
print("dApple:", dapple)
print("dApple_num:", int(dapple_num))
print("dOrange:", dorange)
print("dOrange_num:", int(dorange_num))
print("dTax:", dtax)

price: 715
dApple: 2.2
dApple_num: 110
dOrange: 3.3000000000000003
dOrange_num: 165
dTax: 650


## 활성화 함수 레이어 구현하기

- 위에서 덧셈과 곱셈 레이어를 구현했습니다. 이제는 앞에서 공부했던 활성화 함수를 구현해봅니다.

In [11]:
class Relu:
    def __init__(self):
        self.mask = None
        
    def forward(self, x):
        self.mask = (x<=0)
        out = x.copy()
        out[self.mask] = 0
        
        return out
    
    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout
        return dx

In [15]:
class Sigmoid:
    def __init__(self):
        self.out = None

    def forward(self, x):
        out = 1/(1+np.exp(-x))
        self.out = out
        
        return out
    
    def backward(self, dout):
        dx = dout*(1.0-self.out)*self.out
        
        return dx

## Affine / softmax 계층 구현하기

- 앞에서 구현했던 연산들에서 행렬의 내적이 있었음. 행렬의 내적을 기하학에서는 어파인 변환이라고 해서 어파인 계층이라고 표현.


In [16]:
class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b
        self.x = None
        self.dw = None
        self.db = None
        
    def forward(self, x):
        self.x = x
        out = np.dot(x, self.W) + self.b
        return out

    def backward(sefl, dout):
        dx = np.dot(dout, self.W.T)
        self.dw = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axix=0)
        return dx

In [None]:
class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None
        self.y = None
        self.t = None
        
    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t)
        return self.loss
    
    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t)/batch_size
        return dx