Deep-Learning-from-scratch
## Chap5. Backpropagation
## 5.7 오차역전파법 구현하기

앞 절에서 구현한 계층을 조합하면 마치 레고 블록을 조립하듯 신경망을 구축할 수 있다.<br/>
이번 절에서는 지금까지 구현한 계층을 조합해서 신경망을 구축해보자.<br/>
레고 블록을 조립하듯 구축할 수 있다는 소식은 좋았으나... 뒤에서 난적들을 마주하게 되는데...

### 5.7.1 신경망 학습의 전체 그림
* 신경망의 학습 순서를 다시한번 복습해보자
    * 전제
        * 신경망에는 적응 가능한 가중치와 편향이 있고, 이 가중치와 편향을 훈련 데이터에 적응하도록 조정하는 과정을 '학습'이라고 한다. 신경망의 학습은 다음 4단계로 수행된다.
    * 1단계 - 미니배치
        * 훈련 데이터 중 일부를 무작위로 가져온다. 이렇게 선별한 데이터를 미니배치라 하며, 그 미니배치의 손실 함수 값을 줄이는 것이 목표이다.
    * 2단계 - 기울기 산출
        * 미니배치의 손실 함수 값을 줄이기 위해 각 가중치 매개변수의 기울기를 구한다. 기울기는 손실 함수의 값을 가장 작게 하는 방향을 제시한다.
    * 3단계 - 매개변수 갱신
        * 가중치 매개변수를 기울기 방향으로 아주 조금 갱신한다.
    * 4단계 - 반복
        * 1~3단계를 반복한다.

* 다시한번 강조하지만 학습이란 결국 '손실함수'를 줄이는 것이고,
* 손실함수를 가장 작게 만드는 최적의 파라메터를 구하는 과정이다.
1. 미니배치를 통해 데이터를 무작위로 가져온다. <br/>
2. 기울기를 구해 손실 함수의 값을 가장 작게 만드는 방향을 파악한다.<br/>
3. 가중치 매개변수를 기울기가 제시하는 방향으로 아주 조금 갱신한다.
4. 위의 3단계 과정을 반복하는 것이다.

### 5.7.2 오차역전파법을 적용한 신경망 구현하기

드디어! 본격적인 구현이다. (드디어 계산그래프를 신경망에 적용한 데 이어 드디어 본격적으로 구현을 한다!!) <br/>
본 절에서는 2층 신경망을 TwoLaylerNet 클래스로 구현한다.

#### TwoLayerNet 클래스의 인스턴스 변수
* Params
    * 딕셔너리 변수로, 신경망의 매개변수를 보관한다.
    * params['W1']은 1번째 층의 가중치, params['b1']은 1번째 층의 편향
* Layers
    * 순서가 있는 딕셔너리 변수로, 신경망의 계층을 보관한다. (* 순서가 있다)
    * layers['Affine1'], layers['Relu1'], layers['Affine2']와 같이 각 계층을 순서대로 유지한다.
* lastLayer
    * 신경망의 마지막 계층이다.
    * 본 예제에서는 SoftmaxWithLoss 계층을 사용한다.

#### TwoLayerNet 클래스의 메서드

* __init__(self, input_size, hidden_size, output_size, weight_init_std)
    * 초기화를 수행한다. 
    * (인수는)앞에서부터 입력층 뉴런 수, 은닉층 뉴런 수, 출력층 뉴런 수, 가증치 초기화시 정규분포의 스케일
* predict(self, x) 
    * 예측(추론)을 수행한다.
    * 인수 x는 이미지 데이터
* loss(self, x, t)
    * 손실 함수의 값을 구한다.
    * 인수 x는 이미지 데이터, t는 정답 레이블
* accuracy(self, x, t) 
    * 정확도를 구한다.
* numericcal_gradient(self, x, t)
    * 가중치 매개변수의 기울기를 수치 미분 방식으로 구한다.(앞 장에서 다뤘던 내용과 같다)
* gradient
    * 가중치 매개변수의 기울기를 오차역전파법으로 구한다.

### 오차역전파법을 적용한 신경망을 구현해보자!

In [7]:
import sys, os
sys.path.append('C:\\Users\\stevelee\\Documents\\30-Days-Challenges\\deep_learning_scratch_master\\deep-learning-from-scratch-master')
import numpy as np

from common.layers import *
from common.gradient import numerical_gradient
from collections import OrderedDict  # 순서가 있는 dictionary?

class TwoLayerNet:
    
    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):  # 입력층의 뉴런수, 은닉층 뉴런수, 출력층의 뉴런수, 
                                                                                     # 가중치 초기화 시 정규분포의 스케일
        # 가중치 초기화
        self.params = {}
        self.params['W1'] = weight_init_std * \
                            np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * \
                            np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)
        
        # 계층 생성
        self.layers = OrderedDict()  # layer(계층)의 경우 순서가 있는 dictionary로 저장해준다
        self.layers['Affine1'] = \
            Affine(self.params['W1'], self.params['b1'])
        self.layers['Relu1'] = Relu()
        self.layers['Affine2'] = \
            Affine(self.params['W2'], self.params['b2'])
        
        # latLayer
        self.lastLayer = SoftmaxWithLoss()  #신경망의 마지막 계층은 softmaxwithloss 계층으로 구현한다.
        
    def predict(self, x):  # 입력 데이터(이미지) x를 가지고 예측(추론)을 수행한다.
        for layer in self.layers.values():
            x = layer.forward(x)
            
        return x
    
    # x : 입력 데이터, t : 정답 레이블
    def loss(self, x, t):
        y = self.predict(x)
        return self.lastLayer.forward(y, t)
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        if t.ndim != 1 : t = np.argmax(t, axis=1)
            
        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy
    
    # x : 입력 데이터, t: 정답 레이블
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)  # lambda?
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        return grads
    
    def gradient(self, x, t):
        # 순전파
        self.loss(x, t)
        
        # 역전파
        dout = 1
        dout = self.lastLayer.backward(dout)
        
        layers = list(self.layers.values())
        layers.reverse()
        for layer in layers:
            dout = layer.backward(dout)
            
        # 결과 저장
        grads = {}
        grads['W1'] = self.layers['Affine1'].dW
        grads['b1'] = self.layers['Affine1'].db
        grads['W2'] = self.layers['Affine2'].dW
        grads['b2'] = self.layers['Affine2'].db
        
        return grads
        
        
        

hmm...지금까지 잘 따라왔었는데...

### 5.7.3 오차역전파법으로 구한 기울기 검증하기 

지금까지 기울기를 구하는 방법을 두 가지 설명했다. <br/>
하나는 수치 미분을 써서 구하는 방법, 또 하나는 해석적으로 수식을 풀어 구하는 방법이다. <br/>
후자인 해석적으로 수식을 풀어 구하는 방법은 오차역전파법을 이용하여 매개변수가 많아도 효율적으로 계산할 수 있다. <br/>
이제부터는 효율적이고 계산속도가 빠른 오차역전파법(backpropagation)을 사용하도록 한다.<br/>
그렇다면 수치미분은 필요 없는 걸까? 수치미분은 backprop이 제대로 구현했는지 확인하기 위해 필요하다. <br/>
이처럼 두 방식으로 구한 기울기가 일치함(엄밀히 말하면 거의 같음)을 확인하는 작업을 **기울기 확인(gradient check)**라고 한다.


gradient check는 다음과 같이 구할 수 있다.

In [9]:
import sys, os
sys.path.append('C:\\Users\\stevelee\\Documents\\30-Days-Challenges\\deep_learning_scratch_master\\deep-learning-from-scratch-master')
import numpy as np
from dataset.mnist import load_mnist
# 여기에 위에서 구현한 TowLayerNet을 사용한다.

# 데이터 읽기
(x_train, t_train), (x_test, t_test) = \
    load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

x_batch = x_train[:3]
t_batch = t_train[:3]

grad_numerical = network.numerical_gradient(x_batch, t_batch)
grad_backprop = network.gradient(x_batch, t_batch)

# 각 가중치의 차이의 절댓값을 구한 후, 그 절댓값의 평균을 낸다.
for key in grad_numerical.keys():
    diff = np.average(np.abs(grad_backprop[key] - grad_numerical[key]))
    print(key + ":" + str(diff))

W1:4.905945456311921e-10
b1:3.0680023546040927e-09
W2:5.445617807660519e-09
b2:1.4079563401964146e-07


결과 수치 미분과 오차역전파법으로 구한 기울기의 차이가 매우 작다는 것을 알 수 있다.<br/>
예를들어 1번째 층의 편향 오차는 4.905945456311921e-10(0.0000000004905945456311921)이다.<br/>
이로써 오차역전파법으로 구한 기울기도 올바름이 드러나면서 실수 없이 구현했다는 믿음이 커지는 것이다.

### 5.7.4 오차역전파법을 사용한 학습 구현하기