## 오차역전파
지금까지 신경망 학습에 관한 내용에선, 신경망의 가중치 매개변수에 대한 손실 함수의 기울기를 수치 미분을 통해 구했다.  
수치 미분은 단순하지만 계산 시간이 오래 걸린다는 단점이 있다.

따라서 더 빠른 계산법인 오차역전파를 알아보고 도입해보자.

### 계산 그래프
오차역전파를 좀 더 이해하기 쉽게 하고자 계산 그래프라는 것을 통해 먼저 알아보려한다.  
계산 그래프는 계산 과정을 노드와 화살표로 표현하는 것으로,
- 노드는 동그라미로 표기하고, 그 안에 연산 내용을 적는다.
- 계산 결과를 화살표 위에 적어 각 노드의 계산 결과가 왼쪽에서 오른쪽으로 전해지게 한다.

예를 들면,  
***슈퍼에서 1개에 100원인 사과 2개를 구매하려 할 때 지불 금액을 구하라. 단, 소비세 10%가 부과된다.***
<img src="img/deep_learning_images/fig_5-1.png" height=448 width=448>

이를 좀 더 세분화하여 **사과의 개수**와 **소비세를 변수**로 취급하고, 노드에는 연산자만을 담아 재구성하면,
<img src="img/deep_learning_images/fig_5-2.png" height=448 width=448>

계산 과정이 왼쪽에서 오른쪽으로 진행되는 단계를 순전파(forward propagation)라하고, 반대로 오른쪽에서 왼쪽으로 진행하는 것을 역전파(back propagation)이라 한다.

### 계산 그래프 특징
1. 주목해야 할 점은 국소적 계산이 가능하다는 것으로 각 노드는 자신과 관련된 계산 외에는 아무것도 신경 쓰지 않아도 된다는 뜻이다.  
   사과의 개수와 가격이 곱해질 때는 이후 단계인 소비세가 어떻게 되는지 관련이 없다는 것.
   
2. 중간 계산 결과를 보관할 수 있다.
   사과 2개를 계산했을 때의 금액은 200원. 소비세를 더한 후의 값은 220원.
   
이 두 가지의 특징들을 종합했을 때의 강점은 바로 미분을 효과적으로 계산할 수 있다는 점이다.  
가령 사과의 가격이 올랐을 때 최종 계산 금액이 어떻게 변하는지 알고 싶을 때면 ***사과 가격에 대한 지불 금액의 미분을 구하는 문제***이다.  
사과 값을 $x$, 지불 금액을 $L$이라 했을 때 $\frac {\partial L}{\partial x}$

<img src="img/deep_learning_images/fig_5-5.png" width=448 height=448>
사과 값이 1원 오르면 최종 금액은 2.2원 오르게 된다는 뜻

## 연쇄법칙

그렇다면 역전파에서 국소적인 미분을 오른쪽에서 왼쪽으로 어떻게 전달한다는 것인가? 바로 연쇄법칙의 원리를 이용한다.  
먼저 합성 함수에 대해 알아야 한다.

### 합성 함수
합성 함수는 여러 함수로 구성된 함수로 $z=(x+y)^2$라는 식은 다음 두 개의 식으로 구성된다.
<img src="img/deep_learning_images/e_5.1.png" width=150 height=150>
> 합성 함수의 미분은 합성 함수를 구성하는 각 함수의 미분의 곱으로 나타낼 수 있으며 이것이 바로 연쇄법칙의 원리이다.

가령 x에 대한 z의 미분($\frac {\partial z}{\partial x}$)은 t에 대한 z의 미분($\frac {\partial z}{\partial t}$)과 x에 대한 t의 미분($\frac {\partial t}{\partial x}$)의 곱으로 나타낼 수 있다.

<img src="img/deep_learning_images/e_5.2.png" width=150 height=150>
<img src="img/deep_learning_images/e_5.3.png" width=100 height=100>
<img src="img/deep_learning_images/e_5.4.png" width=320 height=320>

이를 계산 그래프로 나타내보면,
<img src="img/deep_learning_images/fig_5-7.png" width=384 height=384>

입력은 $\frac {\partial z}{\partial z}$이고, 이에 국소적인 미분인 $\frac {\partial z}{\partial t}$가 곱해진다.  
(순전파에서 입력이 t이고 출력이 z이므로 해당 노드에서의 국소적 미분은 $\frac {\partial z}{\partial t}$이다.)  

가장 왼쪽을 보면 연쇄법칙에 의해 $\frac {\partial z}{\partial z}\frac {\partial z}{\partial t}\frac {\partial t}{\partial x} = \frac {\partial z}{\partial t}\frac {\partial t}{\partial x} = \frac {\partial z}{\partial x}$가 성립되어 x에 대한 z의 미분이 된다.
<img src="img/deep_learning_images/fig_5-8.png" height=384 width=384>

### 덧셈 노드 역전파
$z=x+y$ 라는 식을 대상으로 역전파를 살펴보면, 해당 식에 대한 미분은 다음과 같이 해석적으로 계산할 수 있다.  
<img src="img/deep_learning_images/e_5.5.png" height=90 width=90>

이를 계산 그래프로 나타내보면
<img src="img/deep_learning_images/fig_5-9.png" height=448 width=448>
<img src="img/deep_learning_images/fig_5-11.png" height=448 width=448>

***그림에서 보이듯 덧셈 노드의 역전파는 입력된 값을 그대로 다음 노드로 보낸다.***

### 곱셈 노드 역전파
이번에는 $z=xy$라는 식을 통해 알아보자. 해당 식의 미분은 다음과 같다.
<img src="img/deep_learning_images/e_5.6.png" height=90 width=90>

따라서 계산 그래프를 그려보면 아래의 모양일텐데, 한 가지 특이점이 있다.
<img src="img/deep_learning_images/fig_5-12.png" height=448 width=448>

입력으로 받은 $\frac {\partial L}{\partial z}$에 국소적 미분 값을 곱해서 다음으로 전달하는 형태는 덧셈 노드 역전파와 동일하지만,  
***곱해지는 값이 순전파의 입력 신호들을 서로 바꾼 값을 곱하였다.(순전파 때 x였다면 역전파에서는 y, 순전파 때 y였다면 역전파에서는 x로 바꾼다는 뜻)***

<img src="img/deep_learning_images/fig_5-13.png" height=448 width=448>

### 예제

이번 예제에서는 사과의 가격, 사과의 개수, 소비세라는 세 변수 각각이 최종 금액에 어떻게 영향을 주느냐를 풀고자 한다.
- 사과 가격에 대한 지불 금액의 미분
- 사과 개수에 대한 지불 금액의 미분
- 소비세에 대한 지불 금액의 미분

<img src="img/deep_learning_images/fig_5-14.png" height=448 width=448>

앞서서곱셈 노드의 역전파에서는 입력 신호를 서로 바꿔서 전달함을 배웠다.  
그림을 통한 결과를 보면 사과 가격의 미분은 2.2, 사과 개수의 매분은 110, 소비세의 미분은 200이다.  
(입력값 1에서 곱셈노드 연산을 하게되므로 순전파의 입력값 200과 1.1이 서로 바꿔서 곱해지므로 소비세의 미분은 200)

이를 응용해서 아래 빈칸을 채워볼 것.
<img src="img/deep_learning_images/fig_5-15.png" height=512 width=512>

In [None]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
        
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y
        
        return out
    
    def backward(self, dout):
        dx = dout * self.y
        dy = dout * self.x
        
        return dx, dy

<img src="img/deep_learning_images/fig_5-16.png" height=448 width=448>

In [3]:
apple = 100
apple_num = 2
tax = 1.1

mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

apple_price = mul_apple_layer.forward(apple, apple_num)
price = mul_tax_layer.forward(apple_price, tax)

print(price)

220.00000000000003


In [5]:
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

print(dapple, dapple_num, dtax)

2.2 110.00000000000001 200


In [7]:
class AddLayer:
    def __init__(self):
        pass
    
    def forward(self, x, y):
        out = x + y
        
        return out
    
    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1
        
        return dx, dy

In [8]:
apple = 100
apple_num = 2

orange = 150
orange_num = 3

tax = 1.1

In [9]:
mul_apple_layer = MulLayer()
mul_orange_layer = MulLayer()
add_apple_orange_layer = AddLayer()
mul_tax_layer = MulLayer()

In [11]:
apple_price = mul_apple_layer.forward(apple, apple_num)
orange_price = mul_orange_layer.forward(orange, orange_num)
all_price = add_apple_orange_layer.forward(apple_price, orange_price)
price = mul_tax_layer.forward(all_price, tax)
print(price)

715.0000000000001


In [12]:
dpirce = 1
dall_price, dtax = mul_tax_layer.backward(dprice)
dapple_price, dorange_price = add_apple_orange_layer.backward(dall_price)
dorange, dorange_num = mul_orange_layer.backward(dorange_price)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)
print(dapple_num, dapple, dorange, dorange_num, dtax)

110.00000000000001 2.2 3.3000000000000003 165.0 650
