# *오차역전파법*

## 7. 오차역전파법 구현하기

### 1) 신경망 학습의 전체 그림

>##### 전제
> - 신경망의 가중치와 편향을 훈련데이터에 적응하도록 조정하는 과정을 '학습'이라고 함

>##### 1단계 - 미니배치
> - 훈련 데이터 중 일부를 무작위로 추출
> - 해당 데이터를 미니배치라 하며, 미니배치의 손실함수값을 최소화 하는 것이 목표임

>##### 2단계 - 기울기 산출
> - 각 가중치 매개변수의 기울기를 산출
> - 기울기는 손실함수의 값을 최소화 할 수 있는 방향을 제시

>##### 3단계 - 매개변수 갱신
> - 가중치 매개변수를 기울기 방향으로 아주 조금(learning rate 만큼) 갱신

>##### 4단계 - 반복
> - 1~3단계를 반복

___

#### 2) 오차역전파법을 적용한 신경망 구현하기

- TwoLayerNet 클래스로 2층 신경망 구현
- 이하 TwoLayerNet클래스의 인스턴스 변수

인스턴스 변수 | 설명
---|:---
params | 딕셔너리 변수로 신경망의 매개변수를 보관
| params['W1']은 1번째 층의 가중치, params['b1']은 1번째 층의 편향
| params['W2']은 2번째 층의 가중치, params['b2']은 2번째 층의 편향
layers | 순서가 있는 딕셔너리 변수로, 신경망의 계층을 보관
|layers['Affine1'], layers['Relu1'], layers['Affine2']와 같이 각 계층을 순서대로 유지
lastLayer | 신경망의 마지막 계층
|이 예에서는 SoftmaxWithLoss 계층

- 이하 TwoLayerNet 클래스의 메서드

메서드|설명
---|---
\__init__(self, input_size, hidden_size, output_size, weight_init_std) | 초기화를 수행
| 인수는 앞에서부터 입력층 뉴런수, 은닉층 뉴런수, 출력층 뉴런수, 가중치, 초기화 시 정규분포의 스케일
predict(self, x)| 예측(추론) 수행
|인수 X는 이미지 데이터
loss(self, x, t)| 손실함수의 값 계산
|인수 x는 이미지 데이터, t는 정답 레이블
accuracy(self, x, t)| 정확도 계산
numerical_gradient(self, x, t)| 가중치 매개변수의 기울기를 수치 미분 방식으로 계산
gradient(self, x, t)| 가중치 매개변수의 기울기를 오차역전파법으로 계산

<br>
- "3-5 학습 알고리즘 구현하기"와 상당부분 공통적으로 사용
- 다만 계층을 사용하여 인식 결과를 얻는 predict()와 기울기를 구하는 gradient() 처리 계층의 전파만으로 동작이 이루어짐
- 이하 코드 구현 참조;

In [4]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from data.layers import *
from data.gradient import numerical_gradient
from collections import OrderedDict

In [6]:
class TwoLayerNet:
    def __init(self, input_size, hidden_size, output_size, weight_init_std = 0.01):
        #가중치 초기화
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(input_size, output_size)
        self.params['b1'] = np.zeros(hidden_size)
        
        #계층 생성
        self.layers = OrderedDict()
        self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])
        self.layers['Relu1'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])
        
        self.lastLayer = SoftmaxWithLoss()
        
        
    def predict(self, x):
        for layer in self.layers.values():
            x = layer.forward(x)
        
        return x
    
    
    #x: 입력데이터, t: 정답레이블
    def loss(self, x, t):
        y = self.predict(x)
        return self.lastLayer.forward(y, t)
    
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis = 1)
        if t.ndim != 1: t = np.argmax(t, axis = 1)
        
        accuracy = np.sum(y ==t) / float(x.shape[0])
        
        return accuracy
    
    
    #x: 입력데이터, t: 정답레이블
    def numerical_gradient(slef, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads
    
    
    def gradient(self, x, t):
        #순전파
        self.loss(x, t)
        
        #역전파
        dout = 1
        dout = self.lastLayer.backward(dout)
        
        layers = list(self.layers.values())
        layers.reverse()
        for layer in layers:
            dout = layers.backward(dout)
        
        #결과 저장
        grads = {}
        grads['W1'] = self.layers['Affine1'].dW
        grads['b1'] = self.layers['Affine1'].db
        grads['W2'] = self.layers['Affine1'].dW
        grads['b2'] = self.layers['Affine1'].db
        
        return grads

___
#### 3) 오차역전파법으로 구한 기울기 검증하기

- 기울기를 구하는 방법은 수치미분으로 구하는 법과, 해석적으로 수식을 풀어 구하는 오차역전파 방법이 있음
- 오차역전파 방법은 매개변수가 많아도 효율적으로 계산 가능
- 수치미분은 느리지만 구현하기 쉽고, 오류가 발생할 확률이 낮음
- 따라서 오차역전파 방법이 효율적이기는 하지만, 수치미분 방식으로 기울기를 검증하며, 이를 graient check(기울기 확인) 이라고 함
- 이하 예제 코드;

In [8]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from data.mnist import load_mnist
from data.two_layer_net import TwoLayerNet

In [9]:
#데이터 읽기
(x_train, t_train),(x_test,t_test) = load_mnist(normalize = True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

x_batch = x_train[:3]
t_batch = t_train[:3]

grad_numerical = network.numerical_gradient(x_batch, t_batch)
grad_backprop = network.gradient(x_batch, t_batch)

#각 가중치의 차이의 절댓값을 구한 후, 그 절댓값들의 평균을 계산
for key in grad_numerical.keys():
    diff = np.average(np.abs(grad_backprop[key] - grad_numerical[key]))
    print(key + ':' + str(diff))

W1:2.0262688809995014e-10
b1:9.7694318079006e-10
W2:6.891865648499252e-08
b2:1.3896521671163954e-07


- 위의 결과는 수치미분과 오차역전파법으로 구한 기울기의 차이가 매우 작다고 증명 가능
___

### 4) 오차역전파법을 사용한 학습 구현하기

- 마지막으로 오차역전파법을 사용한 신경망 학습을 구현

In [10]:
import sys, os
sys.path.append(os.pardir)
import numpy as np
from data.mnist import load_mnist
from data.two_layer_net import TwoLayerNet

In [11]:
#데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)
network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

In [17]:
iters_num = 6000
train_size = x_train.shape[0] #60,000
batch_size = 100
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

iter_per_epoch = max(train_size / batch_size, 1)  #600

In [19]:
for i in range(iters_num):
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    #오차역전법으로 기울기 계산
    grad = network.gradient(x_batch, t_batch)
    
    #갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -=learning_rate * grad[key]
    
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    if i% iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_train, t_train)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print(train_acc, test_acc)

0.11236666666666667 0.11236666666666667
0.7688833333333334 0.7688833333333334
0.8752666666666666 0.8752666666666666
0.8991333333333333 0.8991333333333333
0.9081833333333333 0.9081833333333333
0.9159166666666667 0.9159166666666667
0.9204333333333333 0.9204333333333333
0.9248333333333333 0.9248333333333333
0.9281833333333334 0.9281833333333334
0.9315 0.9315


- epoch이 증가함에 따라 정확도도 가파르게 증가하는 모습을 확인 가능