- 순전파forward propagation : 계산을 왼쪽에서 오른쪽으로 진행


- 역전파backward propagation : 계산을 반대 방향으로 진행. 미분을 효율적으로 계산할 수 있다.

### buy_apple문제
#### 슈퍼에서 1개 100원인 사과를 2개 사고 소비세가 10%일 때, 지불 금액은?

100 * 2 * 1.1 = 220

-> 사과 가격이 오를 때 최종 가격에 미치는 영향(=사과 가격에 대한 지불 금액의 미분)을 구하고 싶다.
따라서 사과 값 : x, 지불 금액 : L일 때, ∂L/∂x를 구하는 것.

계산 그래프의 역전파를 이용해서 구할 수 있다.

In [1]:
from layer_naive import *

In [2]:
# 곱셈 계층 구현
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
        
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y
        return out
    
    def backward(self, dout):
        dx = dout * self.y
        dy = dout * self.x
        return dx, dy

In [3]:
apple = 100
apple_num = 2
tax = 1.1

# 계층들
mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

In [4]:
# 순전파(forward)
apple_price = mul_apple_layer.forward(apple, apple_num)
price = mul_tax_layer.forward(apple_price, tax)
print(price) # 220

220.00000000000003


In [5]:
# 역전파(backward): 호출순서가 forward() 때와 반대. backward()가 받는 인수는 '순전파의 출력에 대한 미분'임을 주의!
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

print('price:', int(price)) # 220
print('dApple:', dapple) # 2.2
print('dApple_num:', int(dapple_num)) # 110
print('dTax:', dtax) # 200

price: 220
dApple: 2.2
dApple_num: 110
dTax: 200


따라서, 사과가 1원 오르면 최종 금액은 2.2원(dApple) 오른다.

### buy_apple_orange문제
#### 슈퍼에서 1개 100원인 사과를 2개 사고 150원인 귤을 3개 샀다. 소비세가 10%일 때, 지불 금액은?

((100 * 2) + (150 * 3)) * 1.1 = 715

In [6]:
# 덧셈 계층 구현
class AddLayer:
    def __init__(self):
        pass
    
    def forward(self, x, y):
        out = x + y
        return out
    
    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1
        return dx, dy

In [7]:
from layer_naive import *

In [8]:
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

# 계층들
mul_apple_layer = MulLayer()
mul_orange_layer= MulLayer()
add_apple_orange_layer = AddLayer()
mul_tax_layer = MulLayer()

In [9]:
# 순전파(forward)
apple_price = mul_apple_layer.forward(apple, apple_num) #(1)
orange_price = mul_orange_layer.forward(orange, orange_num) #(2)
all_price = add_apple_orange_layer.forward(apple_price, orange_price) #(3)
price = mul_tax_layer.forward(all_price, tax) #(4)

print(price) # 715

715.0000000000001


In [10]:
# 역전파(backward) - 미분
dprice = 1
dall_price, dtax = mul_tax_layer.backward(dprice) #(4)
dapple_price, dorange_price = add_apple_orange_layer.backward(dall_price) #(3)
dorange, dorange_num = mul_orange_layer.backward(dorange_price) #(2)
dapple, dapple_num = mul_apple_layer.backward(dapple_price) #(1)

print('price:', int(price)) # 715
print('dApple:', dapple) # 2.2
print('dApple_num:', int(dapple_num)) # 110
print('dOrange:', dorange) # 3.3
print('dOrange_num:', int(dorange_num)) # 165
print('dTax:', dtax) # 650

price: 715
dApple: 2.2
dApple_num: 110
dOrange: 3.3000000000000003
dOrange_num: 165
dTax: 650


## 신경망 학습 순서

**전제**
신경망에는 적응 가능한 가중치와 편향이 있고, 이 가중치와 편향을 훈련 데이터에 적응하도록 조정하는 과정을 '학습'이라 한다. 신경망 학습은 다음과 같이 4단계로 수행한다.

**1단계 - 미니배치**
훈련 데이터 중 일부를 무작위로 가져온다. 이렇게 선별한 데이터를 미니배치라 하며, 그 미니배치의 손실함수 값을 줄이는 것이 목표이다.

**2단계 - 기울기 산출**
미니배치의 손실 함수 값을 줄이기 위해 각 가중치 매개변수의 기울기를 구한다. 기울기는 손실 함수의 값을 가장 작게 하는 방향을 제시한다.

**3단계 - 매개변수 갱신**
가중치 매개변수를 기울기 방향으로 아주 조금 갱신한다.

**4단계 - 반복**
1~3단계를 반복한다.


- 수치 미분과 오차역전파법은 2단계에서 사용
- 수치 미분은 구현은 쉽지만 계산이 오래걸림
- 오차역전파법을 통해 기울기를 효율적이고 빠르게 구할 수 있음

### gradient_check(오차역전파법으로 구한 기울기 검증하기)

앞에서 설명했듯이, 기울기를 구하는데에는 두 가지 방법이 있다.
1. 수치 미분 : 느리다. 구현이 쉽다.
2. 해석적으로 수식을 풀기(오차 역전파법) : 빠르지만 실수가 있을 수 있다.

두 기울기 결과를 비교해서 오차역전파법을 제대로 구현했는지 검증한다. 이 작업을 기울기 확인(gradient check)라고 한다.

In [11]:
# 파이썬 라이브러리 경로 찾기
import os
import inspect
print(inspect.getfile(os))
print(inspect.getfile(inspect)) 
os.path.dirname(inspect.getfile(inspect)) 

C:\ProgramData\Anaconda3\lib\os.py
C:\ProgramData\Anaconda3\lib\inspect.py


'C:\\ProgramData\\Anaconda3\\lib'

In [12]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet

In [13]:
# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

x_batch = x_train[:3]
t_batch = t_train[:3]

grad_numerical = network.numerical_gradient(x_batch, t_batch)
grad_backprop = network.gradient(x_batch, t_batch)

# 각 가중치의 차이의 절댓값을 구한 후, 그 절댓값들의 평균(절대 오차의 평균)을 구한다.
for key in grad_numerical.keys():
    diff = np.average(np.abs(grad_backprop[key] - grad_numerical[key]))
    print(key + ':' + str(diff))

W1:2.913299121868167e-13
b1:8.525248649388084e-13
W2:9.497696787028055e-13
b2:1.199040727817291e-10


결과를 확인해 보면, 수치 미분과 오차역전파법으로 구한 기울기의 차이가 매우 작다. 이는 오차역전파가 실수 없이 구현되었을 확률이 높다는 것을 의미한다.
컴퓨터가 할 수 있는 계산의 정밀도가 유한하기 때문에 수치 미분과 오차역전파법의 결과 오차는 0이 될 수 없다.

### train_neuralnet(오차역전파법을 사용한 신경망 학습 구현)

In [14]:
import sys, os
sys.path.append(os.pardir)

import numpy as np
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet

In [15]:
# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

In [16]:
# 하이퍼 파라메터
iters_num = 10000 # 반복횟수
train_size = x_train.shape[0]
batch_size = 100 # 미니배치 크기
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

# 1에포당 반복 수 (1에포: 학습 횟수)
iter_per_epoch = max(train_size / batch_size, 1)

In [17]:
for i in range(iters_num):
    # 미니배치 획득
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 오차역전파법으로 기울기를 구한다.
    grad = network.gradient(x_batch, t_batch)
    
    # 매개변수 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
    
    # 학습 경과 기록
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    # 1에포당 정확도 계산
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print(train_acc, test_acc)

0.08836666666666666 0.0927
0.9015333333333333 0.9041
0.9221666666666667 0.9267
0.9366666666666666 0.9375
0.9444166666666667 0.9446
0.9487166666666667 0.948
0.95715 0.9554
0.9624 0.9597
0.9651333333333333 0.9608
0.9675166666666667 0.9622
0.97045 0.9644
0.9724 0.9664
0.9740166666666666 0.9666
0.9753166666666667 0.9672
0.9770333333333333 0.9681
0.9773666666666667 0.9676
0.97855 0.9698
