# Chapter 05. 오차역전파법

Chapter 04. 신경망 학습에서는 신경망의 가중치 매개변수에 대한 손실함수의 기울기를 구하는 것에 대해 배웠다. 

- 장점: 구현이 쉽다.
- 단점: 계산 시간이 오래 걸린다.

$\Rightarrow$ **오차역전파법(backpropagation)**


## 5.1 계산 그래프
- 계산 그래프(computational graph): 계산 과정을 그래프로 나타낸 것

- Graph = node + edge(node 사이의 직선)


### 5.1.1 계산 그래프로 풀다

Q1. 1개 100원 사과 2개, 소비세 10%, 지불 금액은?

- 사과 $\rightarrow^{100}$ x2 $\rightarrow^{200}$ x1.1 $\rightarrow^{220}$ L 

"x"만 연산으로 생각하면 "사과 개수", "소비세"를 변수로 취급

**문제 풀이 Flow**
1. 계산 그래프 구성
2. 그래프에서 계산을 왼쪽에서 오른쪽으로 진행 (**순전파(forwardpropagation)**)


### 5.1.2 국소적 계산

그래프 계산의 특징: **국소적 계산** 전파함으로 최종 결과를 얻음 \
(국소적: 자신과 관계된 작은 범위) (국소적 계산: 자신과 관계된 정보만으로 결과 출력)


### 5.1.3 왜 계산 그래프로 푸는가?

계산 그래프의 이점
1. 국소적 계산: 전체 복잡해도, 각 노드서는 단순 계산 집중, 문제 단순화 가능
2. 중간 계산 결과 보관
3. **역전파 통해 '미분' 효율적 계산**

e.g) 사과 가격이 오르면 최종 금액 어떤 영향?

'사과 가격($x$)'에 대한 '지불 금액($L$)'의 미분 $\Rightarrow$ $\frac{\partial L}{\partial x}$


## 5.2 연쇄 법칙(Chain Rule)

계산 그래프
- 순전파(forward propagation): left $\rightarrow$ right
- 역전파(backward propagation): **국소적 미분**을 right $\rightarrow$ left
    - 국소적 미분 전달 원리: **연쇄법칙(chain rule)**
    
    
### 5.2.1 계산 그래프의 역전파

e.g) $y = f(x)$

- $\overset{x}{\rightarrow}$ $f$ $\overset{y}{\rightarrow}$
- $\underset{E \frac{\partial y}{\partial x}}{\leftarrow}$ $f$ $\underset{E}{\leftarrow}$

계산 그래프를 이용하여 역전파를 계산하면 **미분값을 효율적으로 계산함**

### 5.2.2 연쇄법칙이란?

연쇄법칙: 합성 함수의 미분에 대한 성질

""함성함수의 미분은 합성 함수를 구성하는 **각 함수**의 **미분의 곱**으로 나타낼 수 있다.""

$z = (x + y)^2$ 
- $z = t^2$ 
- $t = x+ y$

- $\frac{\partial z}{\partial t} = 2t$
- $\frac{\partial t}{\partial x} = 1$

$\frac{\partial z}{\partial x} (x에 대한 z의 미분) = \frac{\partial z}{\partial t} \frac{\partial t}{\partial x} = 2t = 2(x+y)$


### 5.2.3 연쇄법칙과 계산 그래프

역전파가 하는일 = 연쇄법칙의 원리


## 5.3 역전파

### 5.3.1 덧셈 노드의 역전파

e.g) $z = x + y$
- $\frac{\partial z}{\partial x} = 1$
- $\frac{\partial z}{\partial y} = 1$

$\Rightarrow$ 상류에 전해진 미분($\frac{\partial L}{\partial z}$)에 **1**곱해 하류로 흘린다.
$\Rightarrow$ 입력값을 그대로 다음 노드로 보낸다.

### 5.3.2 곱셈 노드의 역전파

e.g) $z = xy$
- $\frac{\partial z}{\partial x} = y$
- $\frac{\partial z}{\partial y} = x$

$\Rightarrow$ 상류에 순전파 때의 **입력 신호** 들을 **서로 바꾼 값**을 곱해 하류로 흘린다.

### 정리)
- 덧셈의 역전파: 상류 값 그대로 흘려, 순방향 **입력 신호 필요 없다**
- 곱셈의 역전파: 입력 신호를 서로 바꾼 값을 곱하여 하류로 흘린다. **순방향 입력 신호 값 필요**, 곱셈 노드 구현 시, 순전파 입력 신호 변수 저장


## 5.4 단순한 계측 구현하기

### 5.4.1 곱셈 계층

In [1]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
    
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y
        return out
    
    def backward(self, dout):
        dx = dout * self.y  # x, y를 교환
        dy = dout * self.x
        return dx, dy

In [2]:
apple = 100
apple_num = 2
tax = 1.1

# 계층들
mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num)
price = mul_tax_layer.forward(apple_price, tax)

print(price)

# 역전파
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

print(dapple, dapple_num, dtax)

220.00000000000003
2.2 110.00000000000001 200


backward() 호출 순서는 forward() 때와는 반대. backward()가 받는 인수는 '순전파의 출력에 대한 미분'

### 5.4.2 덧셈 계층

In [3]:
class AddLayer:
    def __init__(self):
        pass
    
    def forward(self, x, y):
        out = x + y
        return out
    
    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1
        return dx, dy

In [4]:
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

# 계층들
mul_apple_layer = MulLayer()
mul_orange_layer = MulLayer()
mul_tax_layer = MulLayer()
add_apple_orange_layer = AddLayer()

# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num)
orange_price = mul_orange_layer.forward(orange, orange_num)
all_price = add_apple_orange_layer.forward(apple_price, orange_price)
price = mul_tax_layer.forward(all_price, tax)

# 역전파
dprice = 1
dall_price , dtax = mul_tax_layer.backward(dprice)
dapple_price, dorange_price = add_apple_orange_layer.backward(dall_price)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)
dorange, dorange_num = mul_orange_layer.backward(dorange_price)

print(price)
print(dapple, dapple_num, dorange, dorange_num, dtax)

715.0000000000001
2.2 110.00000000000001 3.3000000000000003 165.0 650


##  5.5 활성화 함수 계층 구현하기

ReLU, Sigmoid 계층 구현

### 5.5.1 ReLU 계층

활성화 함수 ReLU 수식
- $y = x (x > 0)$
- $y = 0 (x \leq 0)$

- $\frac{\partial y}{\partial x} = 1 (x > 0)$
- $\frac{\partial y}{\partial x} = 0(x \leq 0)$

In [5]:
class Relu:
    def __init__(self):
        self.mask = None
    
    def forward(self, x):
        self.mask = (x <= 0)
        out = x.copy()
        out[self.mask] = 0
        
        return out
    
    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout
        
        return dx

mask instance 변수는 T/F 구성된 numpy array, 순전파의 입력 $x$의 원소 값이 0 이하인 인덱스는 True, 그 외는 (0보다 큰 원소)는 False.

In [6]:
import numpy as np
x = np.array([[1.0, -0.5], [-2.0, 3.0]])
print(x)

mask = (x <=0)
print(mask)

[[ 1.  -0.5]
 [-2.   3. ]]
[[False  True]
 [ True False]]


순전파 때의 입력이 0 이하면 역전파 때의 값은 0이 돼야 한다. 그래서 역전파 때는 순전파 때 만들어둔 mask를 사용해 mask의 원소가 True인 곳에는 상류에서 전파된 dout을 0으로 설정한다.

### 5.5.2 Sigmoid 계층

Sigmoid 수식: $y = \frac{1}{1 + \exp(-x)}$

#### 1단계
상류에서 흘러온 값에 $-y^2$을 곱해 하류로 전달

'/'노드, $y = \frac{1}{x}$
- $\frac{\partial y}{\partial x} =- \frac{1}{{x}^{2}} = -y^2$


$\underset{- \frac{\partial L}{\partial y} y^{2}}{\leftarrow}$ $/$ $\underset{\frac{\partial L}{\partial y}}{\leftarrow}$

#### 2단계
'+'노드, 상류의 값을 그대로 하류로 내보낸다. 

$\underset{- \frac{\partial L}{\partial y} y^{2}}{\leftarrow}$ $+$ $\underset{- \frac{\partial L}{\partial y} y^{2}}{\leftarrow}$ $/$ $\underset{\frac{\partial L}{\partial y}}{\leftarrow}$


#### 3단계
'exp' 노드는 $y = exp(x)$ 연산을 수행
- $\frac{\partial y}{\partial x} = \exp(x)$

$\underset{- \frac{\partial L}{\partial y} y^{2} exp(-x)}{\leftarrow}$ $exp$ $\underset{- \frac{\partial L}{\partial y} y^{2}}{\leftarrow}$ $+$ $\underset{- \frac{\partial L}{\partial y} y^{2}}{\leftarrow}$ $/$ $\underset{\frac{\partial L}{\partial y}}{\leftarrow}$

#### 4단계 
'x'노드, 순전파 때의 값을 '서로 바꿔' 곱한다. 

$\underset{\frac{\partial L}{\partial y} y^{2} exp(-x)}{\leftarrow}$ $'\times'$ $\underset{- \frac{\partial L}{\partial y} y^{2} exp(-x)}{\leftarrow}$ $'exp'$ $\underset{- \frac{\partial L}{\partial y} y^{2}}{\leftarrow}$ $'+'$ $\underset{- \frac{\partial L}{\partial y} y^{2}}{\leftarrow}$ $'/'$ $\underset{\frac{\partial L}{\partial y}}{\leftarrow}$


#### 간소화 버전

$\underset{\frac{\partial L}{\partial y} y^{2} exp(-x)}{\leftarrow}$ $sigmoid$ $\underset{\frac{\partial L}{\partial y}}{\leftarrow}$


$\frac{\partial L}{\partial y} y^{2} exp(-x) = \frac{\partial L}{\partial y} \frac{1}{(1+\exp(-x))^2}\exp(-x) = \frac{\partial L}{\partial y} \frac{1}{(1+\exp(-x))^2} \frac{exp(-x)}{(1+\exp(-x))^2} = \frac{\partial L}{\partial y}y(1-y)$

sigmoid 계층의 역전파는 순전파의 출력($y$)만으로 계산 가능

In [7]:
class Sigmoid:
    def __init__(self):
        self.out = None
    
    def forward(self, x):
        out = 1 / (1 + np.exp(-x))
        self.out = out
        return out
    
    def backward(self, dout):
        dx = dout * (1.0 - self.out) * self.out
        return dx

위 구현에서 순전파의 출력을 out에 보관, 역전파 계산 때 그 값을 사용

## 5.6 Affine/Softmax 계층 구현하기

### 5.6.1 Affine 계층

신경망 순전파에서는 가중치 신호의 총합을 계산하기 위해 행렬의 곱 (np.dot())을 사용

In [8]:
X = np.random.rand(2)  # 입력
W = np.random.rand(2,3)  # 가중치
B = np.random.rand(3)  # 편향

print(X.shape)
print(W.shape)
print(B.shape)
Y = np.dot(X, W) + B

print(Y)

(2,)
(2, 3)
(3,)
[1.94606992 0.96905767 1.67903606]


**어파인 변환(Affine transformation)**: 기하학에서 신경망의 순전파 때 수행하는 행렬의 곱

### 5.6.2 배치용 Affine 계층


In [9]:
X_dot_W = np.array([[0, 0, 0], [10, 10, 10]])
B = np.array([1,2,3])

print(X_dot_W)
print(X_dot_W + B)

dY = np.array([[1, 2, 3], [4, 5, 6]])
print(dY)

dB = np.sum(dY, axis=0)
print(dB)

[[ 0  0  0]
 [10 10 10]]
[[ 1  2  3]
 [11 12 13]]
[[1 2 3]
 [4 5 6]]
[5 7 9]


In [10]:
class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b
        self.x = None
        self.dW = None
        self.db = None
        
    def forward(self, x):
        self.x = x
        out = np.dot(x, self.W) + self.b
        
        return out
    
    def backward(self, dout):
        dx = np.dot(dout, self.W.T)
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis=0)
        
        return dx

### 5.6.3 Softmax-with-Loss 계층

softmax function은 입력값을 정규화하여 출력한다. 

신경망에서 수행하는 작업은 **학습**, **추론** 두 가지이다. 추론시에는 Softmax를 사용하지 않고 Affine 계층의 출력을 인식 결과로 이용한다.
신경망 추론에서는 답을 하나만 내는 경우, 가장 높은 점수만 알면 되니 Softmax 계층이 필요 없다.

신경망에서 정규화하지 않은 출력 결과를 **점수(score)** 라고 한다. 신경망 학습에는 Softmax 계층이 필요하다.

softmax 함수의 손실 함수로 **교차 엔트로피 오차**를 사용, 항등함수의 손실 함수로 **오차제곱합**을 이용. (3.5 출력층 설계하기 참고)

In [11]:
class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None  # 손실
        self.y = None  # softmax의 출력
        self.t = None  # 정답 레이블(one-hot-vector)
        
    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t)
        return self.loss
    
    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t) / batch_size
        
        return dx

## 5.7 오차역전파법 구현하기

지금까지 구현한 계층을 조합하여 신경망 구축

### 5.7.1 신경망 학습의 전체 그림

신경망 학습 순서

#### 전제
신경망에는 적응 가능한 **가중치**, **편향** 존재, 이 가중치와 편향이 훈련 데이터에 적응하도록 조정하는 과정을 '학습'이라 함.

#### 1단계 - 미니배치

훈련 데이터 중 일부 무작위로 가져옴, 이 데이터를 미니배치라고 하고, 그 미니배치의 손실함수 값을 줄이는 것이 목표

#### 2단계 - 기울기 산출

미니배치의 손실 함수 값을 줄이기 위해 각 가중치 매개변수의 기울기를 구함, 기울기는 손실 함수의 값을 가장 자게 하는 방향을 제시

#### 3단계 - 매개변수 갱신

가중치 매개변수를 기울기 방향으로 아주 조금 갱신

#### 4단계 - 반복

1~3단계를 반복


앞장의 기울기 산출에서는 **수치 미분**을 사용, 구현이 쉽지만 계산 시간이 오래 걸렸다. 하지만, 오차역전파법을 사용하면 기울기를 효율적으로 구할 수 있다.

### 5.7.2 오차역전파법을 적용한 신경망 구현하기

2층 신경망을 TwoLayerNet 클래스로 구현

In [12]:
def softmax(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    return y

def cross_entropy_error(y, t):
    delta = 1e-7  # log 0은 -inf로 발산하게 되므로 아주 작은 값을 더했다.
    return -np.sum(t * np.log(y + delta))

def _numerical_gradient_no_batch(f, x):
    h = 1e-4 # 0.0001
    grad = np.zeros_like(x) # x와 형상이 같은 배열을 생성
    
    for idx in range(x.size):
        tmp_val = x[idx]
        
        # f(x+h) 계산
        x[idx] = float(tmp_val) + h
        fxh1 = f(x)
        
        # f(x-h) 계산
        x[idx] = tmp_val - h 
        fxh2 = f(x) 
        
        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val # 값 복원
        
    return grad


def numerical_gradient(f, X):
    if X.ndim == 1:
        return _numerical_gradient_no_batch(f, X)
    else:
        grad = np.zeros_like(X)
        
        for idx, x in enumerate(X):
            grad[idx] = _numerical_gradient_no_batch(f, x)
        
        return grad    

In [13]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from collections import OrderedDict

class TwoLayerNet:
    
    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):
        # 가중치 초기화
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)
        
        # 계층 생성
        self.layers = OrderedDict()
        self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])
        self.layers['Relu1'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])
        self.lastlayer = SoftmaxWithLoss()
        
    def predict(self, x):
        for layer in self.layers.values():
            x = layer.forward(x)
        
        return x
    
    # x: 입력 데이터, t: 정답 레이블
    def loss(self, x, t):
        y = self.predict(x)
        return self.lastlayer.forward(y, t)
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        if t.ndim != 1: t = np.argmax(t, axis=1)
            
        accuracy = np.sum(y == t) / float(x.shape[0])
        
        return accuracy
    
    # x: 입력 데이터, t: 정답 레이블
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        return grads
    
    def gradient(self, x, t):
        self.loss(x, t)
        
        dout = 1
        dout = self.lastlayer.backward(dout)
        
        layers = list(self.layers.values())
        layers.reverse()
        for layer in layers:
            dout = layer.backward(dout)
        
        # 결과 저장
        grads = {}
        grads['W1'] = self.layers['Affine1'].dW
        grads['b1'] = self.layers['Affine1'].db
        grads['W2'] = self.layers['Affine2'].dW
        grads['b2'] = self.layers['Affine2'].db
        
        return grads

### 5.7.3 오차역전파법으로 구한 기울기 검증하기

수치미분은 구현하기 쉽지만 계산 시간이 오래 걸려, 오차역접파법을 이용해 기울기를 구하였다.

수치미분의 결과와 오차역전파법의 결과를 비교해 오차역전파법을 제대로 구현했는지 **검증** 하곤 한다.

이 처럼 두 가지 방식으로 구한 기울기가 일치함을 확인하는 작업을 **기울기 확인(gradient check)** 이라고 한다.

In [14]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist

# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

x_batch = x_train[:3]
t_batch = t_train[:3]

grad_numerical = network.numerical_gradient(x_batch, t_batch)
grad_backprop = network.gradient(x_batch, t_batch)

# 각 가중치의 차이의 절댓값을 구한 후, 그 절댓값들의 평균을 낸다.
for key in grad_numerical.keys():
    diff = np.average(np.abs(grad_backprop[key] - grad_numerical[key]))
    print(key + ":" + str(diff))

W1:0.0009675287498732883
b1:0.005918786815175965
W2:0.013700021152345702
b2:0.3060766584070989


올바르게 구했다면 0에 아주 가까운 작은 값이 된다. 그 값이 크면 오차역전파법을 잘못 구현했다고 의심해야한다.

### 5.7.4 오차역전파법을 사용한 학습 구현하기

In [15]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist

# load data
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)
network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

iters_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iters_num):
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 오차역전파법으로 기울기를 구한다.
    grad = network.gradient(x_batch, t_batch)
    
    # 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
        
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print(train_acc, test_acc)

0.12123333333333333 0.1226


  exp_a = np.exp(a)
  y = exp_a / sum_exp_a
  self.mask = (x <= 0)


0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098
0.09871666666666666 0.098


## 5.8 정리

동작을 계층으로 모듈화하여, 신경망의 계층을 자유롭게 조합하여 원하는 신경망을 쉽게 만들 수 있다.

- 계산 그래프를 사용하면 계산 과정을 시각적으로 파악할 수 있다.
- 계산 그래프의 노드는 국소적 계산으로 구성된다. 국소적 계산을 조합해 전체 계산을 구성한다.
- 계산 그래프의 순전파는 통상의 계산을 수행한다. 한편, 계산 그래프의 역전파로는 각 노드의 미분을 구할 수 있다. 
- 신경망의 구성 요소를 계층으로 구현하여 기울기를 효울적으로 계산할 수 있다.(오차역전파법)
- 수치 미분과 오차역전파법의 결과를 비교하면 오차역전파법의 구현에 잘못이 없는지 확인할 수 있다.(기울기 확인(gradient check))