# 오차 역전파 - Backpropagation
[Backpropagation](https://wikidocs.net/37406)

---

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

plt.rc('figure', figsize=(10, 6))

from matplotlib import rcParams
rcParams['font.family'] = 'New Gulim'
rcParams['font.size'] = 10
rcParams['axes.unicode_minus'] = False

# 1 계산 그래프 - Computational graph
- 노드(node)
- 에지(edge)

### 1.1 계산 그래프 예제

#### 문제1) 1개에 100원인 사과를 2개 샀다. 단 소비세는 10%이다.

- 계산 그래프 적용
<img src="./images/fig_5-1.png" width="500"/>

- 사과의 개수와 소비세를 변수로 설정
<img src="./images/fig_5-2.png" width="500"/>

#### 문제2) 1개에 100원인 사과를 2개, 1개에 150원인 귤 3개를 샀다. 단 소비세는 10%이다.

- 계산 그래프 적용
<img src="./images/fig_5-3.png" width="500"/>

### 1.2 계산 그래프의 특징

- 중간 계산 결과 보관 가능

- 국소적 계산
<img src="./images/fig_5-4.png" width="500"/>

- 역전파에 의한 미분 값의 전달(미분을 효율적으로 계산)
<img src="./images/fig_5-5.png" width="500"/>

# 2 연쇄법칙 - Chain rule

### 2.1 계산 그래프의 역전파

- $y = f(x)$
<img src="./images/fig_5-6.png" width="300"/>

### 2.2 합성 함수의 미분

- $z = (x + y)^2$

- 합성 함수의 분해 - 치환
<img src="./images/e_5.1.png" width="100"/>

- 연쇄법칙(Chain rule) 적용
<img src="./images/e_5.2.png" width="150"/>

- 각 함수 미분
<img src="./images/e_5.3.png" width="100"/>

- 합성 함수 미분 계산 - 치환 변수 환원( $t = x + y$ )
<img src="./images/e_5.4.png" width="300"/>

### 2.3 연쇄법칙과 계산 그래프

- 연쇄법칙을 계산 그래프에 적용
<img src="./images/fig_5-7.png" width="400"/>

- 연쇄법칙과 계산 그래프를 통해 합성 함수의 미분 구현
- $z = (x + y)^2$
<img src="./images/fig_5-8.png" width="400"/>

# 3 역전파

### 3.1 덧셈 노드의 역전파

- 국소적 계산
<img src="./images/fig_5-10.png" width="500"/>

#### 3.2.1 덧셈 노드의 역전파 구현

- 함수
$$z = x + y$$

- 함수의 편미분
<img src="./images/e_5.5.png" width="70"/>

- 덧셈 노드의 순전파와 역전파: *덧셈 노드의 역전파는 입력값을 그대로 흘려 보낸다.*
<img src="./images/fig_5-9.png" width="500"/>

- 덧셈 노드의 구체적인 예
<img src="./images/fig_5-11.png" width="500"/>

### 3.2 곱셈 노드의 역전파

- 함수
$$z = xy$$

- 함수의 편미분
<img src="./images/e_5.6.png" width="70"/>

- 곱셈 노드의 순전파와 역전파: *곱셈 노드의 역전파는 입력값을 서로 바꾸고 곱해서 흘려 보낸다.*
<img src="./images/fig_5-12.png" width="500"/>

- 곱셈 노드의 구체적인 예
<img src="./images/fig_5-13.png" width="500"/>

### 3.3 사과 쇼핑의 예

- 사과 쇼핑의 역전파 예
<img src="./images/fig_5-14.png" width="500"/>

- 사과와 귤 쇼핑의 역전파 예 - 문제
<img src="./images/fig_5-15.png" width="500"/>

- 사과와 귤 쇼핑의 역전파 예 - 정답
<img src="./images/fig_5-17.png" width="500"/>

# 4 연산 계층 코드 구현
- AddLayer
- MulLayer

### 4.1 덧셈 계층 코드 구현

In [None]:
class AddLayer:
    def __init__(self):
        pass

    def forward(self, x, y):
        out = x + y
        return out

    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1
        return dx, dy

### 4.2 곱셈 계층 코드 구현

In [None]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None

    def forward(self, x, y):
        self.x = x
        self.y = y                
        out = x * y
        return out

    def backward(self, dout):
        dx = dout * self.y  # x와 y를 바꾼다.
        dy = dout * self.x
        return dx, dy

### 4.3 사과 쇼핑 계층 실행

- 사과 2개 구입
<img src="./images/fig_5-16.png" width="500"/>

In [None]:
# 입력값 설정
apple = 100
apple_num = 2

tax = 1.1

In [None]:
# 곱셈 계층 생성
mul_apple_layer = MulLayer()
mul_tax_layer   = MulLayer()

In [None]:
# forward
apple_price = mul_apple_layer.forward(apple, apple_num)
price       = mul_tax_layer.forward(apple_price, tax)

In [None]:
# backward
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

In [None]:
# 출력
print('price:', int(price))
print('dApple:', dapple)
print('dApple_num:', int(dapple_num))
print('dTax:', dtax)

### 4.4 사과, 귤 쇼핑 계층 실행

- 사과 2개, 귤 3개 구입
<img src="./images/fig_5-17.png" width="500"/>

In [None]:
# 입력값 설정
apple = 100
apple_num = 2

orange = 150
orange_num = 3

tax = 1.1

In [None]:
# 곱셈 계층, 덧셈 계층 생성
mul_apple_layer  = MulLayer()
mul_orange_layer = MulLayer()

add_apple_orange_layer = AddLayer()

mul_tax_layer = MulLayer()

In [None]:
# forward
apple_price  = mul_apple_layer.forward(apple, apple_num)               # (1)
orange_price = mul_orange_layer.forward(orange, orange_num)            # (2)

all_price = add_apple_orange_layer.forward(apple_price, orange_price)  # (3)
price     = mul_tax_layer.forward(all_price, tax)                      # (4)

In [None]:
# backward
dprice = 1
dall_price, dtax = mul_tax_layer.backward(dprice)                          # (4)
dapple_price, dorange_price = add_apple_orange_layer.backward(dall_price)  # (3)
dorange, dorange_num = mul_orange_layer.backward(dorange_price)            # (2)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)                # (1)

In [None]:
# 출력
print('price:', int(price))

print('dApple:', dapple)
print('dApple_num:', int(dapple_num))
print('dOrange:', dorange)
print('dOrange_num:', int(dorange_num))
print('dTax:', dtax)

# 5 활성화 함수 계층 코드 구현
- ReLU
- Sigmoid

### 5.1 ReLU 계층 코드 구현

- ReLU 함수 수식
<img src="./images/e_5.7.png" width="150"/>

- ReLU 함수 미분
<img src="./images/e_5.8.png" width="150"/>

- ReLU 계층의 계산 그래프
<img src="./images/fig_5-18.png" width="500"/>

#### ReLU 계층 코드 구현

In [None]:
class Relu:
    def __init__(self):
        self.mask = None

    def forward(self, x):
        self.mask = (x <= 0)
        out = x.copy()
        out[self.mask] = 0
        return out

    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout
        return dx

#### <참고> mask 활용 예제

In [None]:
x = np.array([[1.0, -0.5], [-2.0, 3.0]])
print(x)

In [None]:
mask = (x <= 0)
print(mask)

In [None]:
x[mask] = 0
print(x)

### 5.2 Sigmoid 계층 코드 구현

- Sigmoid 함수 수식
<img src="./images/e_5.9.png" width="200"/>

- Sigmoid 계층의 계산 그래프(순전파)
<img src="./images/fig_5-19.png" width="600"/>

- Sigmoid 계층의 계산 그래프(역전파)
<img src="./images/fig_5-20.png" width="600"/>

- Sigmoid 계층의 계산 그래프(간소화 버전)
<img src="./images/fig_5-21.png" width="300"/>

- Sigmoid 함수 미분
<img src="./images/e_5.12.png" width="400"/>

- Sigmoid 계층의 계산 그래프: 순전파의 출력 y 만으로 계산 가능
<img src="./images/fig_5-22.png" width="300"/>

#### Sigmoid 계층 코드 구현

In [None]:
class Sigmoid:
    def __init__(self):
        self.out = None

    def forward(self, x):
        out = sigmoid(x)
        self.out = out    # 순전파의 출력 보관 후 역전파때 사용
        return out

    def backward(self, dout):
        dx = dout * (1.0 - self.out) * self.out
        return dx

# 6 Affine/Softmax 계층 코드 구현

### 6.1 Affine 계층 코드 구현

- Affine 계층의 계산 그래프(순전파): 변수가 행렬
<img src="./images/fig_5-24.png" width="300"/>

- Affine 계층 미분
<img src="./images/e_5.13.png" width="150"/>

- 행렬과 전치 행렬
<img src="./images/e_5.14.png" width="150"/>

- Affine 계층의 계산 그래프(역전파): 변수가 행렬
<img src="./images/fig_5-25.png" width="500"/>

- 변수의 형상
<img src="./images/e_5.15.png" width="300"/>

- 배치용 Affine 계층의 계산 그래프
<img src="./images/fig_5-27.png" width="500"/>

#### Affine 계층 코드 구현

In [None]:
class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b
        self.x = None
        self.dW = None
        self.db = None

    def forward(self, x):
        self.x = x
        out = np.dot(self.x, self.W) + self.b
        return out

    def backward(self, dout):
        dx = np.dot(dout, self.W.T)
        self.dW = np.dot(self.x.T, dout)
        self.db = np.sum(dout, axis=0)
        return dx

### 6.2 Softmax 계층 코드 구현

- Softmax 계층의 출력
<img src="./images/fig_5-28.png" width="500"/>

- Softmax-with-Loss 계층의 계산 그래프
<img src="./images/fig_5-30.png" width="400"/>

#### Softmax-with-Loss 계층 코드 구현

In [None]:
class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None # 손실함수
        self.y = None    # softmax의 출력
        self.t = None    # 정답 레이블(원-핫 인코딩 형태)
        
    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t)
        return self.loss

    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t) / batch_size
        return dx

# 7 오차 역전파 코드 구현

### 7.1 오차 역전파를 적용한 신경망 코드 구현

In [None]:
from common.layers import *
from common.gradient import numerical_gradient
from collections import OrderedDict

class TwoLayerNet:

    def __init__(self, input_size, hidden_size, output_size, weight_init_std = 0.01):
        # 가중치 초기화
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size) 
        self.params['b2'] = np.zeros(output_size)

        # 계층 생성
        self.layers = OrderedDict()
        self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])
        self.layers['Relu1'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])

        self.lastLayer = SoftmaxWithLoss()
        
    def predict(self, x):
        for layer in self.layers.values():
            x = layer.forward(x)
        
        return x
        
    # x : 입력 데이터, t : 정답 레이블
    def loss(self, x, t):
        y = self.predict(x)
        return self.lastLayer.forward(y, t)
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        if t.ndim != 1 : t = np.argmax(t, axis=1)
        
        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy
        
    # x : 입력 데이터, t : 정답 레이블
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads
        
    def gradient(self, x, t):
        # forward
        self.loss(x, t)

        # backward
        dout = 1
        dout = self.lastLayer.backward(dout)
        
        layers = list(self.layers.values())
        layers.reverse()
        for layer in layers:
            dout = layer.backward(dout)

        # 결과 저장
        grads = {}
        grads['W1'], grads['b1'] = self.layers['Affine1'].dW, self.layers['Affine1'].db
        grads['W2'], grads['b2'] = self.layers['Affine2'].dW, self.layers['Affine2'].db

        return grads

### 7.2 수치 미분 - 오차 역전파 기울기 비교

In [None]:
from dataset.mnist import load_mnist

# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

In [None]:
%time
network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

x_batch = x_train[:3]
t_batch = t_train[:3]

# 수치 미분 사용
grad_numerical = network.numerical_gradient(x_batch, t_batch)

# 오차 역전파 사용
grad_backprop  = network.gradient(x_batch, t_batch)

In [None]:
# 각 가중치의 절대 오차의 평균을 구한다.
for key in grad_numerical.keys():
    diff = np.average( np.abs(grad_backprop[key] - grad_numerical[key]) )
    print(key + ':' + str(diff))

### 7.3 오차 역전파를 사용한 신경망 학습 코드 구현

In [None]:
from dataset.mnist import load_mnist

# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

In [None]:
# 입력값 설정
iters_num = 10000
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.1

In [None]:
%%time
train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)

# 네트워크 생성
network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

for i in range(iters_num):
    # 미니배치 획득
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 기울기 계산
    #grad = network.numerical_gradient(x_batch, t_batch) # 수치 미분 방식
    grad = network.gradient(x_batch, t_batch) # 오차역전파법 방식(훨씬 빠르다)
    
    # 매개변수 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
        
    # 학습 경과 기록
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    # 1에폭당 정확도 계산
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print(f'<{int(i//iter_per_epoch):03}> train acc: {train_acc:.3f}, test acc: {test_acc:.3f}')

# 정리

- 계산그래프를 이용하연 계산 과정을 시각적으로 파악할수 있다.
- 계산 그래프의 노드는 국소적 계산으로 구성된다. 국소적 계산을 조합해 전체 계산을 구성한다.
- 계산 그래프의 순전파는 통상의 계산을 수행한다. 한편, 계산 그래프의 역전파로는 각 노드의 미분을 구할 수 있다.
- 신경망의 구성 요소를 계층으로 구현하여 기울기를 효율적으로 계산할수 있다(오차역전파법).
- 수치 미분과 오차역전파법의 결과를 비교하면 오차역전파법의 구현에 잘못이 없는지 확인할 수 있다(기울기 확인).

---

In [None]:
# End of file