# 5. 오차역전파법

- 앞 장에서는 신경망의 가중치 매개변수의 기울기(정확히는 가중치 매개변수에 대한 손실함수의 기울기)는 수치 미분을 사용해 구했으나, <br>
   수치 미분은 단순하고 구현하기도 쉽지만 계산 시간이 오래 걸리는 단점이 있음
- **오차역전파법(backpropagation, backward propagation of errors)**은 가중치 매개변수에 대한 손실함수의 기울기를 효율적으로 계산하기 위한 방법
- 오차역전파법을 이해하는 방법은 수식을 통한 방법 또는 계산 그래프를 이용한 방법이 있음(이번 장에서는 계산 그래프를 사용해 시각적으로 이해)

## 5.1 계산 그래프

- **계산 그래프(Computational Graph)**는 계산 과정을 그래프로 나타낸 것
- 그래프는 그래프 자료구조로, 복수의 **노드(Node)**와 **에지(Edge)**로 표현(노드 사이의 직선을 '에지'라고 함)

### [계산 그래프로 풀다]

- 계산 그래프는 계산 과정을 노드와 화살표로 표현함
- 노드는 원으로 표기하고, 원 안에 연산 내용을 기술
- 계산 결과를 화살표 위에 적어서 각 노드의 계산 결과가 왼쪽에서 오른쪽으로 전해짐
- 사과 지불 금액 계산 그래프 [그림 5.1]

>![사과 계산 그래프 순전파](./images/0001.jpeg)

- 사과와 귤의 지불금액 계산 그래프 [그림 5.2]

>![사과와 귤 계산 그래프 순전파](./images/0002.jpeg)

- **계산 그래프를 이용한 문제풀이 흐름**

> 1. 계산 그래프를 구성한다.
> 1. 그래프에서 계산을 왼쪽에서 오른쪽으로 진행한다.

- 계산을 왼쪽에서 오른쪽으로 진행하는 단계를 **순전파(Forward Propagation)** 라고 함
- 반대방향(오른쪽에서 왼쪽)으로 전파가 진행하는 단계를 **역전파(Backward Propagation)** 라고 함

### [국소적 계산]

- 계산 그래프의 특징은 **"국소적 계산"을 전파함으로써 최종 결과를 얻는다**는 점에 있음
- 국소적이란 **"자신과 직접 관계된 작은 범위"**라는 뜻
- 국소적 계산은 결국 전체에서 어떤 일이 벌어지든 상관 없이 자신과 관계된 정보만으로 다음 결과(그 후의 결과)를 출력할 수 있음. <br>
   각 노드는 자신과 관련된 계산 외에는 아무것도 신경 쓸 게 없음

### [왜 계산 그래프로 푸는가?]

1. 국소적 계산을 통해 전체가 아무리 복잡해도 각 노드에서는 단순한 계산에 집중하여 문제를 단순화할 수 있음
1. 계산 그래프는 중간 계산 결과를 모두 보관할 수 있음
1. 역전파를 통해 "미분"을 효율적으로 계산할 수 있음

>예로, **"사과 가격이 오르면 최종 금액에 어떤 영향을 끼치는지"**를 알고 싶다면, <br>
이 문제는 **"사과 가격에 대한 지불 금액의 미분"**을 구하는 문제에 해당함. <br>
기호로 나타내면 사과 값을 $x$, 지불 금액을 $L$ 이라 했을 때, $\frac{\delta L}{\delta x}$을 구하는 것. <br>
**이 미분 값은 사과 값이 "아주 조금" 올랐을 때 지불 금액이 얼마나 증가하느냐를 표시한 것 이며,** <br>
**"사과 가격에 대한 지불 금액의 미분" 같은 값은 계산 그래프에서 역전파를 하면 구할 수 있음**

- **역전파에 의한 미분 값의 전달** [그림 5.3]

>![역전파에 의한 미분 값의 전달](./images/0003.jpg)
> - 역전파는 순전파와는 반대 방향의 화살표(굵은 선)로 그리며, 국소적 미분 값을 전달하고 그 미분 값은 화살표의 아래에 적음
> - 위의 그림에서, "사과 가격에 대한 지불 금액의 미분" 값은 2.2라 할 수 있으며, <br>
     사과 값이 아주 조금 오르면 최종 금액은 그 아주 작은 값의 2.2배 만큼 오른다는 뜻
> - 소비세에 대한 지불 금액의 미분이나, 사과 개수에 대한 지불 금액의 미분도 구할 수 있으며, <br>
     이러한 계산 시 중간까지 구한 미분 결과를 공유할 수 있어서 다수의 미분을 효율적으로 계산할 수 있음

## 5.2 연쇄법칙

- 국소적 미분을 전달하는 원리는 **"연쇄법칙(Chain Rule)"**에 따른 것임
- **연쇄법칙은 계산 그래프의 역전파와 같음**

### [계산 그래프의 역전파]

- **$\normalsize y = f(x)$ 계산 그래프의 역전파** [그림 5.4]

>![계산 그래프의 역전파](./images/0004.jpg)
> - 역전파의 계산 절차는 신호 $E$에 노드의 국소적 미분($\large \frac{\delta y}{\delta x}$)을 곱한 후 다음 노드로 전달 함
> - 국소적 미분은 순전파 때의 y = f(x) 계산의 미분을 구한다는 것이며, 이는 x에 대한 y의 미분($\large \frac{\delta y}{\delta x}$)을 구한다는 뜻
> - 가령, $y = f(x) = x^2$ 이라면, $\large \frac{\delta y}{\delta x}$는 $2x$ 가 되며, 이 국소적인 미분을 상류에서 전달된 값($E$)에 곱해서 앞쪽 노드로 전달 함
> - 이러한 방식을 따르면 목표로 하는 미분 값을 효율적으로 구할 수 있다는 것이 이 전파의 핵심임

### [연쇄법칙이란?]

- 합성 함수란 여러 함수로 구성된 함수로, $\normalsize z = (x + y)^2$ 은 다음 두 개의 식으로 구성됨

> $\large z = t^2 \\
     \large t = x + y$ &nbsp;&nbsp;&nbsp;&nbsp; --- \[식 5.1]

- 연쇄법칙은 합성 함수의 미분에 대한 성질이며, <br>
   **연쇄법칙의 정의**는 **"합성 함수의 미분은 합성 함수를 구성하는 각 함수의 미분의 곱으로 나타낼 수 있다."** <br><br>

- $\Large \frac{\delta z}{\delta x}$($x$에 대한 $z$의 미분)은  $\Large \frac{\delta z}{\delta t}$($t$에 대한 $z$의 미분)과 $\Large \frac{\delta t}{\delta x}$($x$에 대한 $t$의 미분)의 곱으로 나타낼 수 있음 ---- \[식 5.2]

>$$\large \frac{\delta z}{\delta x} = \frac{\delta z}{\delta t} \frac{\delta t}{\delta x}$$ <br>

- 위 식에서 $\delta t$는 분모와 분자에서 서로 지울 수 있음

>$$\large \frac{\delta z}{\delta x} = \frac{\delta z}{\not \delta t} \frac{\not \delta t}{\delta x}$$ <br>

- \[식 5.1]에서 국소적 미분(편미분)을 구하면 아래와 같음 ---- \[식 5.3]

>$$\large \frac{\delta z}{\delta t} = 2t \\
\large \frac{\delta t}{\delta x} = 1$$ <br>
> - $\large \frac{\delta z}{\delta t}$는 $2t$이고, $\large \frac{\delta t}{\delta x}$는 1 이며, 이는 미분 공식에서 해석적으로 구한 결과임

- 최종적으로 구하고 싶은 $\large \frac{\delta z}{\delta x}$는 [식 5.3]에서 구한 두 미분을 곱해서 계산 함 ---- \[식 5.4]

>$$\large \frac{\delta z}{\delta x} = \frac{\delta z}{\delta t} \frac{\delta t}{\delta x} = 2t \cdot 1 = 2(x + y)$$

### [연쇄법칙과 계산 그래프]

- [식 5.4]의 계산 그래프 : 순전파와 반대 방향으로 국소적 미분을 곱하여 전달 [그림 5.5]

>![식 5.4의 계산 그래프](./images/0005.jpg)

- "$**2$" 노드에서의 역전파는 입력이 $\large \frac{\delta z}{\delta z}$이며, 이에 극소적 미분인 $\large \frac{\delta z}{\delta t}$를 곱하고 다음 노드로 넘김 <br>
   (순전파 시에는 입력이 $t$이고 출력이 $z$이므로 이 노드에서 국소적 미분은 $\large \frac{\delta z}{\delta t}$)
- 역전파의 첫 신호인 $\large \frac{\delta z}{\delta z}$의 값은 1
- 맨 왼쪽의 역전파는 연쇄법칙에 따르면, 아래 식이 성립되어 "$x$에 대한 $z$의 미분"이 됨

>$$\large \frac{\delta z}{\delta z} \frac{\delta z}{\delta t} \frac{\delta t}{\delta x} = \frac{\delta z}{\delta t} \frac{\delta t}{\delta x} = \frac{\delta z}{\delta x}$$

- 즉, **역전파가 하는 일은 연쇄법칙의 원리와 같다.**
- [그림 5.5]에 [식 5.3]을 대입한 계산 그래프의 역전파 결과

> ![계산 그래프 역전파 결과](./images/00051.jpg)

## 5.3 역전파

### [덧셈 노드의 역전파]

- $\normalsize z = x + y$의 미분은 다음과 같이 해석적으로 계산할 수 있음 ---- \[식 5.5]

>$$\large \frac{\delta z}{\delta x} = 1 \\
    \large \frac{\delta z}{\delta y} = 1$$

- **덧셈 노드의 역전파**는 $\large \frac{\delta z}{\delta x}$와 $\large \frac{\delta z}{\delta y}$ 모두 1 이이서, **입력 값을 그대로 흘려보냄** [그림 5.6]

>![덧셈 노드의 역전파](./images/0006.jpg)
> - 상류에서 전해진 미분(이 예에서는 $\Large \frac{\delta z}{\delta t}$)에 $\normalsize 1$을 곱하여 하류로 흘림

### [곱셈 노드의 역전파]

- $\normalsize z = x \: y$의 미분은 다음과 같이 해석적으로 계산할 수 있음 ---- [식 5.6]

> $$\large \frac {\delta z}{\delta x} = y \\
       \large \frac {\delta z}{\delta y} = x$$

- 곱셈 노드의 역전파 계산 그래프 [그림 5.7]

> ![곱셈 노드의 역전파](./images/0007.jpg)
> - 곱셈 노드의 역전파는 상류의 값에 순전파 때의 입력 신호들을 "서로 바꾼 값"을 곱해서 하류로 보냄
> - "서로 바꾼 값"이란 순전파 때 $x$ 였다면 역전파에서는 $y$, 순전파 때 $y$ 였다면 역전파에서는 $x$로 바꾼다는 의미
> - 곱셈의 역전파는 순방향 입력 신호의 값이 필요하기 때문에 곱셈 노드를 구현할 때는 순전파의 입력 신호를 지유해야 함

### [사과 쇼핑의 예]

- 사과의 가격, 사과의 개수, 소비세라는 세 변수 각각이 최종 금액에 어떻게 영향을 주는지 문제를 풀고자 함
- 이는 "사과 가격에 대한 지불 금액의 미분", "사과 개수에 대한 지불 금액의 미분", "소비세에 대한 지불 금액의 미분"을 구하는 것임
- 사과 쇼핑의 역전파 예 [그림 5.8]

>![사과 쇼핑 역전파](./images/0008.jpeg)
> - 곱셈 노드의 역전파에서는 상류의 값에 입력 신호를 서로 바꾼 값을 곱해서 하류로 흘림

- 사과와 귤 쇼핑의 역전파 예 [그림 5.9]

>![사과와 귤 쇼핑 역전파](./images/0009.jpeg)

## 5.4 단순한 계층 구현하기

- 신경망을 구성하는 층(계층) 각각을 하나의 클래스로 구현(연산을 담당하는 노드를 클래스로 구현)

### [곱셈 계층]

- 모든 계층은 forward()와 backward()라는 공통의 메서드(인터페이스)를 갖도록 구현. forward()는 순전파, backward()는 역전파

In [1]:
# 곱셈 계층 계산 그래프 구현
class MultiLayer():
    def __init__(self):
        self.x = None   # 역전파에 사용하기 위해, 순전파 때의 입력 값을 유지하기 위한 변수
        self.y = None

    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y

        return out

    def backward(self, dout):   # dout은 상류층의 순전파의 미분 값
        dx = dout * self.y    # 상류에서 전달된 값에 x와 y를 바꿔서 곱한다.
        dy = dout * self.x

        return dx, dy

In [2]:
apple = 100
apple_num = 2
tax = 1.1

# 계층들
mul_apple_layer = MultiLayer()
mul_tax_layer = MultiLayer()

# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num)
price = mul_tax_layer.forward(apple_price, tax)

print("price : {:.2f}".format(price))

price : 220.00


In [3]:
# 역전파
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

print("dapple, dapple_num, dtax : {:.2f}, {:.2f}, {:.2f}".format(
    dapple, dapple_num, dtax))

dapple, dapple_num, dtax : 2.20, 110.00, 200.00


- [그림 5.8]의 곱셈의 역전파 그래프와 결과가 동일함

### [덧셈 계층]

In [4]:
# 덧셈 계층 계산 그래프 구현
class AddLayer:
    def __init__(self):
        pass      # 덧셈 노드에서는 순전파 때의 입력 값을 유지할 필요 없음(역전파에서 사용하지 않음)

    def forward(self, x, y):
        out = x + y
        return out

    def backward(self, dout):
        dx = dout * 1     # 상류에서 내려온 미분(dout) 값을 그대로 하류로 흘려 보냄
        dy = dout * 1

        return dx, dy

In [5]:
# 덧셈 계층과 곱셈 계층을 사용한 사과와 귤의 계산 그래프 구현
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

# 계층들
mul_apple_layer = MultiLayer()
mul_orange_layer = MultiLayer()
add_apple_orange_layer = AddLayer()
mul_tax_layer = MultiLayer()

# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num)
orange_price = mul_orange_layer.forward(orange, orange_num)
all_price = add_apple_orange_layer.forward(apple_price, orange_price)
price = mul_tax_layer.forward(all_price, tax)

# 역전파
dprice = 1
dall_price, dtax = mul_tax_layer.backward(dprice)
dapple_price, dorange_price = add_apple_orange_layer.backward(dall_price)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)
dorange, dorange_num = mul_orange_layer.backward(dorange_price)

print("price : {:.0f}".format(price))
print("dapple, dapple_num, dorange, dorange_num, dtax: {:.2f}, {:.2f}, {:.2f}, {:.2f}, {:.2f}".format(
    dapple, dapple_num, dorange, dorange_num, dtax))

price : 715
dapple, dapple_num, dorange, dorange_num, dtax: 2.20, 110.00, 3.30, 165.00, 650.00


- 필요한 계층을 만들고 순전파 메서드인 **forward()를 적절한 순서로 호출** (계산 그래프의 순전파 순서 대로 호출)
- **순전파와 반대 순서로 역전파 메서드인 backward()를 호출하면 미분이 계산됨**
- [그림 5.9]의 사과와 귤 쇼핑의 역전파 결과와 동일함

## 5.5 활성화 함수 계층 구현하기

- 신경망을 구성하는 층(계층) 각각을 클래스 하나로 구현

### [ReLU 계층]

- ReLU 수식 ---- \[식 5.7]

> $$\normalsize y = \begin{cases} x \ \ \ \ \ (x > 0) \\ 
    0 \ \ \ \ \ (x \le 0) \end{cases}$$

- $x$에 대한 $y$의 미분 ---- \[식 5.8]

> $$\normalsize \frac{\delta y}{\delta x} = \begin{cases} 1 \ \ \ \ \ (x > 0) \\ 
   0 \ \ \ \ \ (x \le 0) \end{cases}$$
> - [식 5.8]에서와 같이 **순전파 때의 입력인 $x$가 $0$ 보다 크면 역전파는 상류의 값을 그대로 하류로 흘리고 ($1$을 곱해서 하류로 흘리고)**,
> - **순전파 때 $x$가 $0$ 이하이면 역전파 때는 하류에 신호를 보내지 않음 ($0$을 보냄)**

- ReLU 계층의 계산 그래프 [그림 5.10]

> ![ReLU 계층 계산 그래프](./images/0010.jpg)

In [6]:
# ReLU 계층 구현 (forward() 함수와 backward() 함수는 numpy 배열을 인수로 받는 것으로 가정)
class ReLU:
    def __init__(self):
        # True/False로 구성된 numpy 배열로, 순전파의 입력인 x의 원소 값이 0 이하인 인덱스는 True, 그 외의 인덱스는 False
        self.mask = None

    def forward(self, x):
        self.mask = (x <= 0)
        out = x.copy()
        out[self.mask] = 0  # self.mask가 True인 인덱스의 값을 0으로 변경

        return 0

    def backward(self, dout):
        # 순전파에서 만든 mask를 써서 mask가 True인 곳은 상류에서 전파된 dout을 0으로 변경
        dout[self.mask] = 0

        return dout

In [7]:
import numpy as np

x = np.array([[1.0, -0.5], [-2.0, 3.0]])
print(x)

mask = (x <= 0)
print(mask)

[[ 1.  -0.5]
 [-2.   3. ]]
[[False  True]
 [ True False]]


### [Sigmoid 계층]

- 시그모이드 함수 식 ---- \[식 5.9]

> $$\normalsize y = \frac{1}{1 + exp(-x)}$$
> - $\normalsize exp(-x)$는 지수함수 $\large e^{-x}$를 의미

- Sigmoid 계층의 계산 그래프(순전파)  ---- \[그림 5.11]

> ![시그모이드 순전파](./images/0011.jpg)
> - "$\normalsize exp$" 노드는 $\normalsize y = exp(-x)$ 계산을 수행하고,
> - "$\normalsize /$" 노드는 $\normalsize y = \large \frac{1}{x}$ 계산을 수행 ($\normalsize x$는 국소적 미분의 입력값을 의미)

#### <<Sigmoid 역전파 흐름>>

- **1단계**

> - $\normalsize y = \frac{1}{\large x}$ 미분 식은, ---- \[식 5.10]
> $$\normalsize \frac{\delta y}{\delta x} = - \frac{1}{x^2}$$ <br>
> $$\normalsize \ \ \ = - y^2$$ <br>
> - $\normalsize y = \frac{1}{\large x}$의 $x$를 시그모이드 출력의 분모 부분으로 생각하면 시그모이드 출력의 미분에 그대로 적용 가능 <br>
> $$\normalsize y = \frac{1}{1 + exp(-x)}$$ <br>
> $$\normalsize \frac{\delta y}{\delta x} = - \frac{1}{(1 + exp(-x))^2}$$ <br>
> $$\normalsize = - \Big(\frac{1}{1 + exp(-x)} \Big)^2$$ <br>
> $$\normalsize = - y^2$$ <br>
> - **"$\normalsize /$" 노드는 상류의 예측값에 $-y^2$(순전파의 출력을 제곱한 후 마이너스를 붙인 값)을 곱해서 하류로 전달** <br><br>
> $$\normalsize - \frac{\delta L}{\delta y} \ y^2$$ <br>

- **2단계**

> - **"$\normalsize +$" 노드는 상류의 값을 여과 없이 하류로 내보냄** (1단계 출력과 동일함)

- **3단계**

> - **"$\normalsize exp$" 노드는 $\normalsize y = exp(-x)$ 연산을 수행** 하며, 그 미분은 다음과 같음 (밑이 $\normalsize e$인 지수 함수의 도함수는 자기 자신) ---- \[식 5.11] <br><br>
> $$\normalsize \frac{\delta y}{\delta x} = exp(-x)$$ <br>
> - "$\normalsize exp$" 노드의 연산 결과는 상류의 예측값에 위의 값을 곱하여 아래와 같이 하류로 전달 <br><br>
>  $$\normalsize - \frac{\delta L}{\delta y} \ y^2 \ exp(-x)$$

- **4단계**

> - **"$\normalsize x$" 노드는 순전파 때의 값을 서로 바꿔 곱함**. 이 예에서는 **-1을 곱 하면 됨** <br><br>
> - 역전파의 최종 출력은,
> $$\normalsize \frac{\delta L}{\delta y} \ y^2 \ exp(-x)$$ <br>
> - 역전파 전체 과정을 포함한 Sigmoid 계층의 계산 그래프(순전파 &역전파) ---- \[그림 5.12] <br>
> ![단순한 시그모이드 역전파](./images/0012.jpg) <br>
> - 위의 식 처럼, **$\large \frac{\delta L}{\delta y} \normalsize y^2 exp(-x)$를 순전파의 입력 $x$와 출력 $y$ 만으로 계산할 수 있으며**, <br>
    **계산 그래프의 중간 과정을 그룹화 하여 아래와 같이 단순한 "sigmoid" 노드 하나로 대체할 수 있음** ---- \[그림 5.13]
> ![단순한 시그모이드 역전파](./images/0013.jpg)
> - \[그림 5.12]와 \[그림 5.13]의 결과는 똑같음. \[그림 5.13]의 간소화 버전이 역전파 과정의 중간 계산들을 생략할 수 있어 더 효율적인 계산이라 말할 수 있음 <br>
> - 노드를 그룹화 하여 sigmoid 계층의 세세한 내용을 노출하지 않고 입력과 출력에만 집중할 수 있다는 것도 중요한 포인트

#### <<Sigmoid 계층의 계산 그래프 간소화>>

- $\large \frac{\delta L}{\delta y} \normalsize y^2 exp(-x)$는 다음처럼 정리해서 쓸 수 있음 ---- \[식 5.12]
> $$\normalsize \frac{\delta L}{\delta y} y^2 exp(-x) = \frac{\delta L}{\delta y} \frac{1}{(1 + exp(-x))^2} exp(-x)$$ <br>
> $$\normalsize = \frac{\delta L}{\delta y} \frac{1}{1 + exp(-x)} \frac{exp(-x)}{1 + exp(-x)}$$ <br>
> $$\normalsize = \frac{\delta L}{\delta y} \ y \ (1 - y)$$ <br>
> - 참고로, $\normalsize (1 - y)$로 축약되는 과정을 역으로 풀면, $\normalsize 1$의 분모와 분자에 동일한 값$\normalsize (1 + exp(-x))$을 곱한 후 분자 끼리 더함 <br><br>
> $$\normalsize (1 - y) = \frac{\not 1 + exp(-x)}{1 + exp(-x)} + \frac{\not -1}{1 + exp(-x)}$$ <br>
> - 결론적으로, **sigmoid 계층의 역전파는 순전파의 출력($\normalsize y$) 만으로 계산할 수 있음**

- **Sigmoid 계층의 계산 그래프 : 순전파의 출력 $\normalsize y$ 만으로 역전파 계산** ---- \[그림 5.14]
> ![Sigmoid 계층의 계산 그래프 최종](./images/0014.jpg)

In [8]:
# Sigmoid 계층 구현하기
class Sigmoid:
    def __init__(self):
        self.out = None     # 역전파 계산을 위한 순전파 출력값을 저장하기 위한 인스턴스 변수

    def forward(self, x):
        # sigmoid 출력 공식을 그대로 구현 (x는 numpy 배열이라는 전제)
        out = 1 / (1 + np.exp(-x))
        self.out = out                     # 역전파 계산을 위해 인스턴스 변수에 저장

        return out

    def backward(self, dout):
        # [식 5.12]와 [그림 5.14]의 역전파 최종 출력 공식
        dx = dout * self.out * (1 - self.out)

        return dx

## 5.6 Affine/Softmax 계층 구현하기

### [Affine 계층]