# 밑바닥 부터 시작하는 딥러닝

## 목차
```
5.1 계산 그래프 
__5.1.1 계산 그래프로 풀다 
__5.1.2 국소적 계산 
__5.1.3 왜 계산 그래프로 푸는가? 
5.2 연쇄법칙 
__5.2.1 계산 그래프에서의 역전파 
__5.2.2 연쇄법칙이란? 
__5.2.3 연쇄법칙과 계산 그래프 
5.3 역전파 
__5.3.1 덧셈 노드의 역전파 
__5.3.2 곱셈 노드의 역전파 
__5.3.3 사과 쇼핑의 예 
5.4 단순한 계층 구현하기 
__5.4.1 곱셈 계층 
__5.4.2 덧셈 계층 
5.5 활성화 함수 계층 구현하기 
__5.5.1 ReLU 계층 
__5.5.2 Sigmoid 계층 
5.6 Affine/Softmax 계층 구현하기 
__5.6.1 Affine 계층 
__5.6.2 배치용 Affine 계층 
__5.6.3 Softmax-with-Loss 계층 
5.7 오차역전파법 구현하기 
__5.7.1 신경망 학습의 전체 그림 
__5.7.2 오차역전파법을 적용한 신경망 구현하기 
__5.7.3 오차역전파법으로 구한 기울기 검증하기 
__5.7.4 오차역전파법을 사용한 학습 구현하기
```
---

# Chapter 5: 오차역전파법

- 수치 미분: 단순하고 구현하기 쉽다 but, 오래 걸린다.
- **오차역전파법(backpropagation):** 가중치 매개변수의 기울기를 효율적으로 계산 가능
    - 계산 그래프를 통한 이해

## 5.1 계산 그래프

- 계산 그래프(computational graph): 노드(node)와 엣지(edge)로 포현 

### 5.1.1 계산 그래프로 풀다

- 문제 1 : 현빈 군은 슈퍼에서 1개의 100원인 사과를 2개 샀습니다. 이때 지불 금액을 구하세요. 단, 소비세가 10% 부과됩니다.

<img src = "deep_learning_images/fig 5-1.png" width = "50%" height = "50%" align="left">

- 계산 그래프로 풀어본 문제 1의 답: '사과의 개수'와 '소비세'를 변수로 취급해 원 밖에 표기

<img src = "deep_learning_images/fig 5-2.png" width = "50%" height = "50%" align="left">

- 문제 2 : 현빈 군은 슈퍼에서 사과를 2개, 귤을 3개 샀습니다. 사과는 1개에 100원, 귤은 1개 150원입니다. 소비세가 10%일 때 지불 금액을 구하세요.

<img src = "deep_learning_images/fig 5-3.png" width = "50%" height = "50%" align="left">

- 회로에 전류가 흐르듯 계산 결과가 왼쪽에서 오른쪽으로 전달
- 계산 그래프 문제풀이 흐름
    1. 계산 그래프를 구성한다.
    2. 그래프에서 계산을 왼쪽에서 오른쪽으로 진행한다.(순전파, forward propagation) <-> (역전파, backward propagation)

### 5.1.2 국소적 계산

- 계산 그래프의 특징: '국소적 계산'을 전파함으로써 최종 결과를 얻는다

    <img src = "deep_learning_images/fig 5-4.png" width = "50%" height = "50%" align="left">

- 전체 계산이 제아무리 복잡하더라도 각 단계에서 하는 일은 해당 노드의 '국소적 계산'
- 국소적 계산은 단순하지만, 그 결과를 전달함으로써 전체를 구성하는 복잡한 계산을 해낼 수 있다.
> 복잡한 계산도 분해하면 단순한 계산으로 구성됨

### 5.1.3 왜 계산 그래프로 푸는가?

- 계산 그래프의 이점
    1. 국소적 계산: 전체가 아무리 복잡해도 각 노드에서는 단순한 계산에 집중하여 문제를 단순화 할 수 있다.
    2. 중간 계산 결과 보관 가능
    3. **역전파를 통해 '미분'을 효율적으로 계산할 수 있다.**

- 역전파에 의한 미분 값의 전달
    
    <img src = "deep_learning_images/fig 5-5.png" width = "50%" height = "50%" align="left">

- 오른쪽에서 왼쪽으로 '1 -> 1.1 -> 2.2' 순으로 미분 값 전달: '사과 가격에 대한 지불 금액의 미분'값은 2.2.
- 사과가 1원 오르면 최종 금액은 2.2배만큼 오른다.

## 5.2 연쇄법칙

- '국소적 미분'을 전달하는 원리: **연쇄법칙(chain rule)**

### 5.2.1 계산 그래프의 역전파

- y = f(x)의 역전파

    <img src = "deep_learning_images/fig 5-6.png" width = "30%" height = "30%" align="left">

- 신호E에 국소적 미분을 곱한 후 다음 노드로 전달
- ex) f(x)=x^2 -> E * 2x

### 5.2.2 연쇄법칙이란?

- 연쇄법칙은 합성 함수의 미분에 대한 성질
> 함성 함수의 미분은 합성 함수를 구성하는 각 함수의 미분의 곱으로 나타낼 수 있다.

- 합성함수 z = (x+y)^2

    <img src = "deep_learning_images/e 5.1.png" width = "20%" height = "20%" align="left">

- (x에 대한 z의 미분) = (t에 대한 z의 미분) x (x에 대한 t의 미분)

    <img src = "deep_learning_images/e 5.2.png" width = "15%" height = "15%" align="left">

- 연쇄법칙을 써서 x에 대한 z의 미분 구하기.
- 국소적 미분(편미분) 구하기

    <img src = "deep_learning_images/e 5.3.png" width = "10%" height = "10%" align="left">

- 구한 두 미분의 곱

    <img src = "deep_learning_images/e 5.4.png" width = "30%" height = "30%" align="left">

### 5.2.3 연쇄법칙과 계산 그래프

- 순전파와는 반대 방향으로 국소적 미분을 곱하여 전달


<img src = "deep_learning_images/fig 5-7.png" width = "40%" height = "40%" align="left">

- 맨 왼쪽 역전파: 연쇄법칙에 의해 'x에 대한 z의 미분'. 즉,  역전파가 하는 일은 연쇄법칙의 원리와 같다

<img src = "deep_learning_images/fig 5-8.png" width = "40%" height = "40%" align="left">

## 5.3 역전파

### 5.3.1 덧셈 노드의 역전파

- ex) z = x + y
- 미분

    <img src = "deep_learning_images/e 5.5.png" width = "10%" height = "10%" align="left">


- 덧셈 노드의 역전파: 왼쪽이 순전파, 오른쪽이 역전파.
- **덧셈 노드의 역전파는 입력 값을 그대로 흘려보낸다.**

<img src = "deep_learning_images/fig 5-9.png" width = "50%" height = "50%" align="left">

- L: 최종 출력 값 가정
    
<img src = "deep_learning_images/fig 5-10.png" width = "50%" height = "50%" align="left">

- 10 + 5 = 15

<img src = "deep_learning_images/fig 5-11.png" width = "50%" height = "50%" align="left">

### 5.3.2 곱셈 노드의 역전파

- ex) z = xy
- 미분

    <img src = "deep_learning_images/e 5.6.png" width = "10%" height = "10%" align="left">

- 곱셈 노드의 역전파: 왼쪽이 순전파, 오른쪽이 역전파.
- **(곱셈 노드 역전파) = (상류의 값) x (순전파 때의 입력 신호들을 '서로 바꾼 값')**

<img src = "deep_learning_images/fig 5-12.png" width = "50%" height = "50%" align="left">

- 10 x 5 = 50
- 5 x 1.3 = 6.5
- 10 x 1.3 = 1.3

<img src = "deep_learning_images/fig 5-13.png" width = "50%" height = "50%" align="left">

- 덧셈의 역전파: 상류의 값을 그대로 흘려보내서 순방향 입력 신호의 값은 필요하지 않다.
- 곱셈의 역전파: 순방향 입력 신호 값 필요. 변수에 저장.

### 5.3.3 사과 쇼핑의 예

- 변수
    - 사과의 가격
    - 사과의 개수
    - 소비세
- 최종 금액에 어떻게 영향?
    - 사과 가격에 대한 지불 금액의 미분: 2.2
    - 사과 개수에 대한 지불 금액의 미분: 110
    - 소비세에 대한 지불 금액의 미분: 200
    

<img src = "deep_learning_images/fig 5-14.png" width = "60%" height = "60%" align="left">

## 5.4 단순한 계층 구현하기

In [22]:
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
    
    # 순전파
    def forward(self, x, y):
        self.x = x
        self.y = y
        out = x * y
        
        return out
        
    # 역전파
    def backward(self, dout):
        dx = dout * self.y # x와 y를 바꾼다
        dy = dout * self.x
        
        return dx, dy

<img src = "deep_learning_images/fig 5-16.png" width = "60%" height = "60%" align="left">

In [23]:
apple = 100
apple_num = 2
tax = 1.1

# 계층들
mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num)
price = mul_tax_layer.forward(apple_price, tax)

print(price)

220.00000000000003


In [24]:
#역전파
dprice = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_num = mul_apple_layer.backward(dapple_price)

print(dapple, dapple_num, dtax)

2.2 110.00000000000001 200


### 5.4.2 덧셈 계층

In [31]:
class AddLayer:
    def __init__(self):
        pass
    
    def forward(self, x, y):
        out = x + y
        return out
    
    def backward(self, dout):
        dx = dout * 1
        dy = dout * 1
        return dx, dy

<img src = "deep_learning_images/fig 5-17.png" width = "60%" height = "60%" align="left">

In [37]:
apple = 100
apple_num = 2
orange = 150
orange_num = 3
tax = 1.1

# 계층들
mul_apple_layer = MulLayer()
mul_orange_layer = MulLayer()
add_apple_orange_layer = AddLayer()
mul_tax_layer = MulLayer()

# 순전파
apple_price = mul_apple_layer.forward(apple, apple_num) # (1)
orange_price = mul_orange_layer.forward(orange, orange_num) # (2)
all_price = add_apple_orange_layer.forward(apple_price, orange_price) # (3)
price = mul_tax_layer.forward(all_price, tax) # (4)

# 역전파
dprice = 1
dallprice, dtax = mul_tax_layer.backward(dprice) # (4)
dapple_price, dorange_price = add_apple_orange_layer.backward(dallprice) # (3)
dorange, dorange_num = mul_orange_layer.backward(dorange_price) # (2)
dapple, dapple_num = mul_apple_layer.backward(dapple_price) # (1)

print(price)
print(dapple_num, dapple, dorange, dorange_num, dtax)

715.0000000000001
110.00000000000001 2.2 3.3000000000000003 165.0 650


## 5.5 활성화 함수 계층 구현하기

- 활성화 함수
    - ReLU 계층 구현
    - Sigmoid 계층 구현

### 5.5.1 ReLU 계층

- ReLU 수식


<img src = "deep_learning_images/e 5.7.png" width = "30%" height = "30%" align="left">

- 미분



<img src = "deep_learning_images/e 5.8.png" width = "30%" height = "30%" align="left">

<img src = "deep_learning_images/fig 5-18.png" width = "70%" height = "70%" align="left">

In [47]:
class Relu:
    def __init__(self):
        self.mask = None
        
    # 넘파이 배열로 인수를 받는다
    def forward(self, x):
        self.mask = (x <= 0)
        out = x.copy()
        out[self.mask] = 0
        
        return out
    
    # 넘파이 배열로 인수를 받는다
    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout
        
        return dx

In [48]:
import numpy as np

x = np.array([[1.0, -0.5], [-2.0, 3.0]])
print(x)

mask = (x<=0)
print(mask)

[[ 1.  -0.5]
 [-2.   3. ]]
[[False  True]
 [ True False]]


### 5.5.2 Sigmoid 계층

<img src = "deep_learning_images/e 5.9.png" width = "30%" height = "30%" align="left">

- 순전파 계산 그래프


<img src = "deep_learning_images/fig 5-19.png" width = "70%" height = "70%" align="left">

- 역전파 흐름

- **1 단계 ('/'노드)**
    - y = 1/x 미분
    - (상류에서 흘러온 값) x (-y^2, 순전파의 출력을 제곱한 후 마이너스를 붙인 값)

    <img src = "deep_learning_images/e 5.10.png" width = "20%" height = "20%" align="left">

- **2 단계 ('+'노드)**
    - 그대로 하류로

- **3 단계 ('exp'노드)**
    - y = exp(x) 미분
    - (상류에서 흘러온 값) x (순전파 때의 출력)

    <img src = "deep_learning_images/e 5.11.png" width = "20%" height = "20%" align="left">

- **4 단계 ('x'노드)**
    - '서로 바꿔' 곱

- Sigmoid 계층의 계산 그래프

<img src = "deep_learning_images/fig 5-20.png" width = "70%" height = "70%" align="left">

- 계산 그래프의 중간 과정을 모두 묶어 단순한 'sigmoid' 노드 하나로 대체 가능
- 역전파 과정의 중간 계산들을 생략할 수 있어 더 효율적인 계산
- Sigmoid 계층의 역전파는 순전파의 출력(y)만으로 계산 가능

<img src = "deep_learning_images/fig 5-21.png" width = "60%" height = "60%" align="left">

<img src = "deep_learning_images/e 5.12.png" width = "60%" height = "60%" align="left">

<img src = "deep_learning_images/fig 5-22.png" width = "60%" height = "60%" align="left">

In [55]:
class Sigmoid:
    def __init__(self):
        self.out = None
        
    def forward(self, x):
        out = 1 / (1+np.exp(-x))
        self.out = out # 순전파의 출력을 인스턴스 변수 out에 보관
        
        return out
    
    def backward(self, dout):
        dx = dout * (1.0 - self.out) * self.out
        
        return dx

## 5.6 Affine/Softmax 계층 구현하기

### 5.6.1 Affine 계층

In [57]:
X = np.random.rand(2) # 입력
W = np.random.rand(2,3) # 가중치
B = np.random.rand(3) # 편향

print(X.shape) # (2, )
print(W.shape) # (2, 3)
print(B.shape) # (3, )

Y = np.dot(X, W) + B
print(Y)

(2,)
(2, 3)
(3,)
[1.69238563 1.40828733 0.79051141]


- 행렬의 곱 계산은 대응하는 차원의 원소 수를 일치시키는 게 핵심
- **어파인 변환(affine transformation):** 신경망의 순전파 때 수행하는 행렬의 곱(기하학)

<img src = "deep_learning_images/fig 5-23.png" width = "40%" height = "40%" align="left">

- Affine 계층의 계산 그래프: 변수가 행렬임에 주의

<img src = "deep_learning_images/fig 5-24.png" width = "50%" height = "50%" align="left">

- Affine 계층의 역전파: 변수가 다차원 배열임에 주의
- 전치행렬


<img src = "deep_learning_images/fig 5-25.png" width = "60%" height = "60%" align="left">

- 행렬 곱('dot'노드)의 역전파는 행렬의 대응하는 차원의 원소 수가 일치하도록 곱을 조립하여 구할 수 있다.
- 형상이 같다는 점 이용


<img src = "deep_learning_images/fig 5-26.png" width = "60%" height = "60%" align="left">

### 5.6.2 배치용 Affine 계층

- 데이터 N개를 묶어 순전파하는 경우
- 배치용 Affine 계층의 계산 그래프


<img src = "deep_learning_images/fig 5-27.png" width = "60%" height = "60%" align="left">

- 입력인 X의 형상이 (N,2)
- 편향을 더할 때 주의필요

In [60]:
# 편향의 덧셈은 각 데이터에 더해진다
X_dot_W = np.array([[0,0,0],[10,10,10]])
B = np.array([1,2,3])

print(X_dot_W)
print(X_dot_W + B)

[[ 0  0  0]
 [10 10 10]]
[[ 1  2  3]
 [11 12 13]]


In [67]:
# 역전파 때는 각 데이터의 역전파 값이 편향의 원소에 모여야 한다.
dY = np.array([[1,2,3],[4,5,6]])
print(dY)

dB = np.sum(dY, axis=0) # 0번째 축의 총합으로..
print(dB)

[[1 2 3]
 [4 5 6]]
[5 7 9]


In [70]:
class Affine:
    def __init__(self, W, b):
        self.W = W
        self.b = b
        self.x = None
        self.dW = None
        self.db = None
        
    def forward(self, x):
        self.x = x
        out = np.dot(x, self.W) + self.b
        
        return out
    
    def backward(self, dout):
        dx = np.dot(dout, self.W.T)
        self.dW = np.dout(self.x.T, dout)
        self.db = np.sum(dout, axis=0)
        
        return dx

### 5.6.3 Softmax-with-Loss 계층

- 출력층에서 사용하는 소프트맥스 함수
- 소프트맥스 함수는 입력 값을 정규화(출력의 합이 0이 되도록 변형)하여 출력한다.


<img src = "deep_learning_images/fig 5-28.png" width = "60%" height = "60%" align="left">

> 신경망에서 수행하는 작업 **'학습'**, **'추론'**. 추론할 때는 일반적으로 Softmax 계층을 사용하지 않는다. 신경망 추론에서 답을 하나만 내는 경우에는 가장 높은 점수만 알면되기 때문. (Softmax 앞의 Affine 계층의 출력을 **'점수(score)'** 라 한다). 반면, 신경망 학습할 때는 Softmax 계층이 필요하다.

- 손실함수인 교차 엔트로피 오차도 포함 -> 'Softmax-with-Loss'계층

<img src = "deep_learning_images/fig 5-29.png" width = "70%" height = "70%" align="left">

- '간소화한'Softmax-with-Loss 계층의 계산 그래프

<img src = "deep_learning_images/fig 5-30.png" width = "60%" height = "60%" align="left">

- 3클래스 분류
    - Softmax 계층 입력 (a1, a2, a3) -> 정규화 (y1, y2, y3)
    - 정답 레이블 (t1, t2, t3) -> 손실 L
- 역전파의 결과
    - (y1 - t1, y2 - t2, y3 - t3): Softmax 계층의 출력과 정답 레이블의 차분
    - 신경망의 현재 출력과 정답 레이블의 오차를 있는 그대로 드러낸다.

In [73]:
# 3.5.2
def softmax(a):
    c = np.max(a)
    exp_a = np.exp(a - c) # 오버플로 대책
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a

    return y

# 4.2.4
def cross_entropy_error(y, t):
    if y.ndim == 1: # y가 1차원이라면(데이터 하나당 교차 엔트로피 오차를 구하는 경우)
        t = t.reshape(1, t.size) # 데이터 형상 바꿈
        y = y.reshape(1, y.size)
    
    batch_size = y.shape[0]
    return -np.sum(t * np.log(y + 1e-7)) / batch_size  # 배치 크기로 나누어 정규화


# Softmax-with-Loss 계층 구현
class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None # 손실
        self.y = None # softmax의 출력
        self.t = None # 정답 레이블(원-핫 벡터)
        
    def forward(self, x, t):
        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t)
        return self.loss
    
    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dx = (self.y - self.t) / batch_size
        return dx

## 5.7 오차역전파법 구현하기

### 5.7.1 신경망 학습의 전체 그림

- 신경망 학습의 절차
    - 전제:<br/>신경망에는 적용 가능한 가중치와 편향이 있고, 이 가중치와 편향을 훈련 데이터에 적응하도록 조정하는 과정을 '학습'이라 한다. 신경망 학습은 다음과 같이 4단계로 수행한다.
        
    1. 미니배치:<br/> 훈련 데이터 중 일부를 무작위로 가져온다. 이렇게 선별한 데이터를 미니배치라 하며, 그 미니배치의 손실 함수 값을 줄이는 것이 목표다.
    <br/> **-> 확률적 경사 하강법(stochastic gradient descent, SGD)**
    2. 기울기 산출:<br/> 미니배치의 손실 함수 값을 줄이기 위해 각 가중치 매개변수의 기울기를 구한다. 기울기는 손실 함수의 값을 가장 작게 하는 방향을 제시한다.
    <br/> **-> 수치미분 / 오차역전파법**
    3. 매개변수 갱신:<br/> 가중치 매개변수를 기울기 방향으로 아주 조금 갱신한다.
    4. 반복:<br/> 1 ~ 3단계를 반복한다.

In [3]:
import sys, os
sys.path.append(os.pardir)
from common.layers import *
from common.gradient import numerical_gradient
from collections import OrderedDict

# 2층 신경망 클래스 TwoLayerNet
class TwoLayerNet:
    # 초기화 수행
    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):
        
        # 가중치 초기화: 정규분포 난수, 편향은 0으로
        self.params = {} # 매개변수 보관 딕셔너리
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)
        
        # 계층 생성
        self.layers = OrderedDict() # 순서가 있는 딕셔너리
        self.layers['Affine1'] = Affine(self.params['W1'], self.params['b1'])
        self.layers['Relu1'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W2'], self.params['b2'])
        
        self.lastLayer = SoftmaxWithLoss()
    
    # 예측(추론) 수행
    def predict(self, x):
        
        for layer in self.layers.values():
            x = layer.forward(x)
        
        return x
    
    # x: 입력 데이터, t: 정답 레이블
    def loss(self, x, t):
        y = self.predict(x)
        
        return self.lasyLayer.forward(y, t)
    
    # 정확도 구하기
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        if t.ndim != 1 : t = np.argmax(t, axis=1)
        
        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy
    
    # 가중치 매개변수의 기울기 구하기(수치 미분 방식) / 고속(오차역전파법)
    # x: 입력 데이터, t: 정답 레이블
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {} # 기울기 보관 딕셔너리 
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads
    
    def gradient(self, x, t):
        # 순전파
        self.loss(x, t) 
        
        # 역전파
        dout = 1 
        dout = self.lastLayer.backward(dout)
        
        layers = list(self.layers.values())
        layers.reverse() # 역순으로 호출
        for layer in layers:
            dout = layer.backward(dout)
        
        # 결과 저장
        grads = {}
        grads['W1'] = self.layers['Affine1'].dW
        grads['b1'] = self.layers['Affine1'].db
        grads['W2'] = self.layers['Affine2'].dW
        grads['b2'] = self.layers['Affine2'].db
        
        return grads

### 5.7.3 오차역전파법으로 구한 기울기 검증하기

- 기울기를 구현하는 두 가지 방법 
    1. 수치 미분: 느리다 / 간단, 버그 가능성 낮음
    2. 오차역전파법(해석적): 효율적 / 복잡, 버그 가능성 있음
    <br/>**-> 기울기 확인(gradient check):** 수치 미분을 통해 오차역전파법 결과를 검증


In [5]:
import sys, os
sys.path.append(os.pardir)  
import numpy as np
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet

# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

x_batch = x_train[:3]
t_batch = t_train[:3]

grad_numerical = network.numerical_gradient(x_batch, t_batch) # 수치미분
grad_backprop = network.gradient(x_batch, t_batch) # 오차역전파법

# 각 가중치의 차이의 절댓값을 구한 후, 그 절댓값들의 평균을 낸다.
for key in grad_numerical.keys():
    diff = np.average( np.abs(grad_backprop[key] - grad_numerical[key]) ) 
    print(key + ":" + str(diff))


W1:4.689236677889815e-10
b1:2.915377738366663e-09
W2:5.115742907919787e-09
b2:1.4018969399648417e-07


### 5.7.4 오차역전파법을 사용한 학습 구현하기

In [None]:
import sys, os
sys.path.append(os.pardir)  
import numpy as np
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet


# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)
network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

# 하이퍼파라미터
iters_num = 10000 # 반복 횟수
train_size = x_train.shape[0]
batch_size = 100 # 미니배치 크기
learning_rate = 0.1

train_loss_list = []
# 에폭 리스트 추가
train_acc_list = []
test_acc_list = []

# 1에폭당 반복 수(10,000 / 100 -> 100회)
iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iters_num):
    
    # 미니배치 획득
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]

    # 기울기 계산
    #grad = network.numerical_gradient(x_batch, t_batch)
    grad = network.gradient(x_batch, t_batch) # 성능 개선판!, 오차역전파법으로 기울기를 구한다.

    # 매개변수 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
    
    # 학습 경과 기록
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    # 1에폭당 정확도 계산
    if i % iter_per_epoch == 0: # 100번 마다(1에폭 마다)
        
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        
        print("train acc, test acc | " + str(train_acc) + ", " + str(test_acc))
