# 신경망 학습
* 학습 : 훈련 데이터에서 가중치 매개변수의 최적값을 자동으로 획득
* 지표 : 손실 함수  
* 손실 함수의 결괏값을 최소화하는 가중치 매개변수 찾기  
* 경사법 : 함수의 기울기 활용

## 데이터에서 학습!
신경망은 데이터를 보고 학습할 수 있다. 가중치 매개변수의 값을 데이터를 보고 자동으로 결정한다.  
* 퍼셉트론 수렴 정리(perceptron convergence theorem) : 선형 분리 가능 문제는 퍼셉트론도 학습을 통해 풀 수 있다.

### 데이터 주도 학습
기계학습은 데이터가 생명이다.  
신경망과 딥러닝 : 기존 ML보다 사람의 개입을 더 배제할 수 있는 특성을 지닌다.  
ex) 이미지에서 5라는 숫자를 인식하는 프로그램. 
![png](./deep_learning_images/fig_4-1.png)

주어진 데이터로 해결하기  
1. 이미지에서 특징 feature를 추출한다.  
2. 그 특징의 패턴을 기계학습 기술로 학습한다.  
* 특징. 
입력 데이터에서 본질적인 데이터를 정확하게 추출하도록 설계된 변환기. 
이미지 특징은 벡터로 기술, 컴퓨터 비전에서는 SIFT, SURF, HOG 특징을 활용한다.  
> SIFT, SURF, HOG?

* 이미지를 벡터로 변환할 때 사용하는 특징은 여전히 '사람'이 설계한다.  
문제에 적합한 특징을 쓰지 않으면 좋은 결과가 나오지 않는다.  
* 딥러닝과 신경망은 이미지에 포함된 중요한 특징까지도 '기계'가 스스로 학습한다.  
![fig_4-2.png](./deep_learning_images/fig_4-2.png)

신경망은 모든 문제를 같은 맥락에서 풀 수 있다.  
모든 문제를 주어진 데이터 그대로를 입력 데이터로 활용해 **end-to-end**로 학습할 수 있다.  
> 딥러닝 = 종단간 기계학습 end-to-end machine learning  
> 처음부터 끝까지라는 의미로, 데이터 입력에서 목표한 결과 출력까지 사람의 개입 없이 얻는다.

### 훈련 데이터와 시험 데이터
* 기계학습 문제  
데이터 = 훈련 데이터(training data) + 시험 데이터(test data)  
학습과 실험을 수행한다.  
1. 훈련 데이터만 사용해서 학습하면서 최적의 매개변수 찾기. 
2. 시험 데이터로 훈련한 모델의 실력을 평가.  

* 필요성   
범용적으로 사용 가능한 모델 추구  
범용 능력 평가를 위해 분리  

* 오버 피팅(overfitting)  
한 데이터셋에만 지나치게 최적화된 상태  
이를 피하기는 기계학습의 중요한 과제이다.


## 손실 함수
신경망 학습에서 사용하는 지표  
최적의 매개변수 값을 탐색하는 기준이 된다.  
* 평균 제곱 오차(MSE), 교차 엔트로피 오차 사용

### 평균 제곱 오차
가장 많이 쓰이는 손실 함수로, Mean Squared Error, MSE, 수식으로 다음과 같다.  
$$E = {1 \over 2} \sum_k (y_k - t_k)^2$$
$y_k$ 신경망의 출력(신경망 추정한 값)   
$t_k$ 정답 레이블  
$k$ 데이터의 차원의 수

In [1]:
# 손글씨 숫자 인식에서 10개짜리 원소 데이터
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0] #소프트맥스 함수의 출력으로 각 클래스로 분류될 확률로 해석한다.
t = [0,0,1,0,0,0,0,0,0,0] # 정답을 가리키는 위치의 원소는 1이므로, 실제 레이블은 2를 가리킨다. True이면 1로 표기한다. 따라서 여기서는 2가 정답이다.
# 이처럼 한 원소만 1이고 나머지 0으로 표기하는 걸 원-핫 인코딩이라 한다.

In [2]:
# 평균 제곱 오차
def mean_squared_error(y, t):
    return 0.5*np.sum((y-t)**2) # python에서 제곱은 ** 을 사용한다.

In [3]:
import numpy as np
#y와 t는 넘파이 배열이다.

t = [0,0,1,0,0,0,0,0,0,0]

# 예1 : 2일 확률이 높은 경우
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0] 
mean_squared_error(np.array(y), np.array(t))

0.09750000000000003

In [4]:
# 예2 : 7일 확률이 가장 높은 경우
y = [0.1,0.05,0.1,0.0,0.05,0.1,0.0,0.6,0.0,0.0]
mean_squared_error(np.array(y), np.array(t))

0.5975

평균 제곱 오차를 기준으로는 첫 번째 추정 결과가 오차가 더 작으므로, 정답과 더 가까울 것으로 판단한다.

### 교차 엔트로피 오차
교차 엔트로피 오차(Cross entropy error, CEE)
$$ E = -\sum_k t_k \log y_k$$
$y_k$ 신경망의 출력  
$t_k$ 정답 레이블(원-핫 인코딩)  
이 식은 정답일 때의 추정의 자연로그 값을 계산하는 식이 된다. 정답일 때의 출력이 전체 값을 결정한다.  
정답일 때의 출력 값이 작아질수록 오차는 커진다.

자연로그의 그래프
![fig_4-2.png](./deep_learning_images/fig_4-3.png)
x가 1일 때는 y가 0이되고, x가 0에 가까워질수록 y 값이 작아진다.(음수 값)

In [5]:
# 교차 엔트로피 오차
def cross_entropy_error(y, t):
    delta = 1e-7
    return -np.sum(t*np.log(y + delta)) # delta라는 작은 값을 더하여, 로그 값에 0을 넣어 마이너스 무한대가 되는 걸 방지한다.

In [6]:
t = [0,0,1,0,0,0,0,0,0,0]
y = [0.1,0.05,0.6,0.0,0.05,0.1,0.0,0.1,0.0,0.0]
cross_entropy_error(np.array(y), np.array(t))

0.510825457099338

In [7]:
y = [0.1,0.05,0.1,0.0,0.05,0.1,0.0,0.6,0.0,0.0]
cross_entropy_error(np.array(y), np.array(t))
# 뒤의 오차가 더 크게 나타났고, 첫 번째 추정이 정답일 가능성이 높다. MSE의 결과와 일치한다.

2.302584092994546

### 미니배치 학습
모든 훈련 데이터를 대상으로 훈련 데이터 손실 함수 값을 구해야 한다.  
훈련 데이터 모두에 대한 손실함수의 합을 구해본다.  
$$E = -{1 \over N} \sum_n \sum_k t_{nk} log y_{nk}$$  
데이터가 N개이면, $t_{nk}$ : n번째 데이터의 k번째 값  
손실함수를 단순히 N개의 데이터로 확장했다. 마지막에 N으로 나누어 정규화 실시하여, '평균 손실 함수'를 구한다.  
* 평균 손실 함수 : 훈련 데이터 개수와 관계없이 동일한 지표를 얻는다.  
데이터가 큰 경우, 그 일부를 추려 전체의 '근사치'로 이용한다. 신경망 학습에서도 일부 훈련 데이터로 학습한다.  
* 미니배치 mini-batch : 훈련 데이터 일부. 
* 미니배치 학습 : 전체 훈련 데이터 중 100장(일부)를 무작위로 뽑아서 그 일부만을 사용하여 학습하는 것.

In [8]:
#미니배치 학습
import sys, os
sys.path.append(os.pardir) #부모 디렉토리 설정
import numpy as np
from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(normalize= True, one_hot_label= True) #정규화하고 원핫 인코딩도 한다.

print(x_train.shape)

(60000, 784)


In [9]:
print(t_train.shape)

(60000, 10)


In [10]:
# 무작위로 10장만 빼낸다. 넘파이 함수 이용한다.
train_size = x_train.shape[0]
batch_size = 10
batch_mask = np.random.choice(train_size, batch_size)
x_batch = x_train[batch_mask]
t_batch = t_train[batch_mask]

In [11]:
# 지정한 범위에서 무작위로 원하는 갯수만 뽑아낼 수 있다.
np.random.choice(60000, 10)

array([24997, 15994, 34633, 46685, 48617, 10003, 40445,  9253, 53095,
       41352])

In [12]:
# 무작위 인덱스로 미니배치를 뽑는다. 손실 함수도 미니배치로 계산한다.
# 배치용 교차 엔트로피 오차 구현하기

def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
        
        batch_size = y.shape[0]
        return -np.sum(t * np.log(y + 1e-7)) / batch_size
    

In [13]:
#정답 레이블이 원핫 인코딩이아니라 숫자레이블인경우 교차 엔트로피 오차
def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
        
        batch_size = y.shape[0]
        return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size #레이블 표현에서 원-핫 인코딩과 다르게 이렇게 변형 한다. 
    

* np.log(y[np.arange(batch_size), t])
1. np.arange(batch_size) : 0부터 batch_size -1 까지 배열을 생성  
2. [0,1,2,3,4] 넘파이 배열 생성.  
3. t에는 [2,7,0,9,4]로 저장되어, y[np.arange(batch_size), t]는 각 정답 레이블에 해당하는 신경망의 출력을 추출한다.  
4. 여기서는 [y[0,2], y[1,7], y[2,0], y[3,9]. y[4,4]] 로 출력이 될 것이다. 각각 y[넘파이 배열, 대응하는 t 정답레이블 원소]로 구성된 넘파이 배열이 된다.

### 손실 함수의 필요성
정확도 안쓰고 손실 함수의 값을 사용하는 이유?  
미분의 역할 고려하면, 미분 값이 대부분의 장소에서 0이 되어 매개변수를 갱신할 수 없기 때문이다.  
_신경망을 학습할 때 정확도를 지표로 삼아서는 안 된다. 매개변수의 미분이 대부분의 장소에서 0이 되기 때문이다._  

정확도는 매개변수를 조정해도 개선되지 않고 일정하게 유지한다. 연속적인 변화보다는 33%나 34%처럼 불연속적인 값으로 변한다.  
신경망에서 계단함수를 활성화함수로 사용하지 않는 이유와 같다. 매개변수의 작은 변화를 계단 함수가 무시하여 손실 함수 값에는 변화가 없게 된다.  
계단 함수의 미분은 대부분 0이지만, 시그모이드 함수의 미분은 어느 장소에서도 0이 되지 않는다. 기울기가 0이 되지 않아서 신경망이 올바르게 작동한다.  
![img4](./deep_learning_images/fig_4-4.png)

## 수치 미분
경사법은 기울기(경사) 값을 기준으로 실시한다.  
### 미분
미분은 한순간의 변화량이다.  
$${df(x) \over dx} = \lim_{h \to 0} {f(x+h) - f(x) \over h}$$  
x의 작은 변화가 함수 f(x)를 얼마나 변화시키느냐 의미한다.

In [14]:
# 나쁜 구현
def numerical_diff(f, x): #수치 미분 numerical differentiation
    h = 10e-50
    return(f(x+h) - f(x)) / h

개선할 점  
1. 반올림 오차 rounding error 문제  
작은 값이 생략되어 0.0으로 처리되므로, 최종 계산 결과 오차가 생긴다. 미세한 값 h로 $10^{-4}$를 사용하면 좋다.
2. 함수 f의 차분  
x+h와 x의 사이의 함수 f의 차분 계산에서 오차가 있다. 즉, x 위치의 함수의 기울기가 아니라 (x+h)와 x 사이의 기울기가 된다.  
h를 무한히 0으로 가깝게 만들 수 없기 때문에 발생한다.
![img5](./deep_learning_images/fig_4-5.png)  
이 경우 중심 차분(중앙 차분)을 활용한다. (x+h)와 (x-h)일 때 함수 f의 차분을 계산한다. x를 중심으로 그 전후의 차분을 계산한다.  
_(x+h)와 x의 차분: **전방 차분**_

3. 참고 : 수치미분과 해석적 미분  
수치 미분은 근사치를 구하고, 해석적 미분이 오차를 포함하지 않는 진정한 미분값을 구한다.

In [15]:
#개선한 수치미분
def numerical_diff(f, x):
    h = 1e-4
    return (f(x+h) - f(x-h)) / (2*h)

In [16]:
# 수치 미분의 예
def function_1(x):
    return 0.01*x**2 + 0.1*x

$$y = 0.01 x^2 + 0.1x$$

In [17]:
import numpy as np
import matplotlib.pylab as plt

x = np.arange(0.0, 20.0, 0.1)
y = function_1(x)
plt.xlabel("x")
plt.ylabel("f(x)")
plt.plot(x,y)
plt.show()

<Figure size 640x480 with 1 Axes>

In [18]:
# x= 5일때와 10일때 함수의 미분
numerical_diff(function_1, 5)

0.1999999999990898

In [19]:
numerical_diff(function_1, 10)

0.2999999999986347

위 값은 함수의 기울기에 해당한다. 해석적 해는 다음과 같다.  
$${df(x) \over dx} = 0.02x +0.1$$  
따라서 x가 5, 10일때 진정한 미분은 0.2, 0.3이다. 앞의 수치 미분과 오차가 매우 적고 거의 같다.  
![img6](./deep_learning_images/fig_4-7.png)

### 편미분
$$f(x_0, x_1) = x_0^2 + x_1^2$$
![img7](./deep_learning_images/fig_4-8.png)

In [20]:
def function_2(x):
    return x[0]**2 + x[1]**2 # return np.sum(x**2)

변수가 2개 있고, 어느 변수에 대한 미분인가를 구분한다. 변수가 여럿인 함수에 대한 미분을 **편미분**이라 한다.  

In [21]:
# x_0 = 3, x_1 = 4일때 x_0 편미분?
def function_tmp1(x0):
    return x0 * x0 + 4.0**2.0

numerical_diff(function_tmp1, 3.0)

6.00000000000378

In [22]:
# x_0 = 3, x_1 = 4, x_1 편미분?
def function_tmp2(x1):
    return 3.0**2.0 + x1*x1

numerical_diff(function_tmp2, 4.0) #해석적 미분과 거의 결과가 같다. 
# 목표 변수 하나에 초점을 맞추고 다른 변수는 값을 고정한다. 새로운 함수를 정의한다.

7.999999999999119

## 기울기
기울기 gradient는 모든 변수의 편미분을 벡터로 정리한 것이다. $$\left( {\partial f \over \partial x_0},{\partial f \over \partial x_1} \right)$$

In [23]:
# 기울기
def numerical_gradient(f, x):
    h = 1e-4
    grad = np.zeros_like(x) #x와 형상이 같은 배열
    
    for idx in range(x.size):
        tmp_val = x[idx]
        #f(x+h)
        x[idx] = tmp_val + h
        fxh1 = f(x)
        
        # f(x-h)
        x[idx] = tmp_val - h
        fxh2 = f(x)
        
        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val # 값 복원
        
    return grad

In [24]:
numerical_gradient(function_2, np.array([3.0, 4.0]))

array([6., 8.])

In [25]:
numerical_gradient(function_2, np.array([0.0, 2.0]))

array([0., 4.])

In [26]:
numerical_gradient(function_2, np.array([3.0, 0.0]))

array([6., 0.])

이 기울기는 함수의 가장 낮은 장소(최소값)을 나타낸다. 최소값에서 멀어질수록 화살표 크기가 커진다.  
_기울기가 가리키는 쪽은 각 장소에서 함수의 출력 값을 가장 크게 줄이는 방향이다._  
![img8](./deep_learning_images/fig_4-9.png)

### 경사법(경사하강법)
경사법은 기울기로 손실 함수의 최솟값을 찾는다.
다만, 기울기가 가리키는 곳에 함수의 최솟값이 있는지는 알 수 없다. 실제로 복잡한 경우, 없는 경우가 많다.  
* 극솟값, 최솟값, 안장점(saddle point) : 기울기가 0인 장소이다.  
* 고원(plateau) : 학습이 진행되지 않는 정체기   

* 경사법(gradient method) : 현 위치에서 기울어진 방향으로 일정 거리만큼 이동하고, 기울기 구하고, 또 기울어진 방향으로 나아가서 함수의 값을 점차 줄이기. 
기계학습 최적화에서 많이 사용한다. 신경망 학습에서 많이 사용한다.  
* 경사 하강법(gradient descent method), 경사 상승법(gradient ascent method) : 최솟값, 최댓값 찾는 방법이나 손실함수의 부호만 다르다. 주로 경사하강법 많이 사용한다.  

$$ x_0 = x_0 - \eta {\partial f \over \partial x_0} \\
 x_1 = x_1 - \eta {\partial f \over \partial x_1}$$  
 $\eta$ : 신경망 학습에서 학습률 learning rate로 갱신하는 양을 나타낸다. 한 번의 학습으로 매개변수 값을 얼마나 갱신하는 가를 정한다.  
 보통 이 학습률을 0.01이나 0.001 등 미리 정한다. 너무 크거나 작으면 좋은 장소를 찾아갈 수 없다. 이를 변경하면서 학습 진행을 확인하고 결정한다.  

In [27]:
def gradient_descent(f, init_x, lr=0.01, step_num = 100): # f: 최적화 함수, init_x 초깃값, lr 학습률, step_num 경사법 반복횟수
    x = init_x
    
    for i in range(step_num):
        grad = numerical_gradient(f, x)
        x -= lr*grad
    return x

In [28]:
# 경사법으로 위 함수의 최솟값 구하기
def function_2(x):
    return x[0]**2 + x[1]**2

init_x = np.array([-3.0, 4.0])
gradient_descent(function_2, init_x = init_x, lr = 0.1, step_num = 100) # 거의 (0,0)에 가깝다. 실제로 최솟값은 (0,0)이다.

array([-6.11110793e-10,  8.14814391e-10])

* 경사법에 의한 갱신 과정 : 점선은 함수의 등고선이다.
![img9](./deep_learning_images/fig_4-10.png)

In [29]:
# 학습률이 너무 큰 경우 : lr = 10
init_x = np.array([-3.0, 4.0])
gradient_descent(function_2, init_x = init_x, lr = 10, step_num = 100)  #너무 큰 값으로 발산한다.

array([-2.58983747e+13, -1.29524862e+12])

In [30]:
# 학습률이 너무 큰 경우 : lr = 10
init_x = np.array([-3.0, 4.0])
gradient_descent(function_2, init_x = init_x, lr = 1e-10, step_num = 100)  # 갱신되지 못하고 끝난다.

array([-2.99999994,  3.99999992])

* 하이퍼파라미터 hyper parameter: 학습률 같은 매개변수로, 사람이 직접 설정해야하는 매개변수이다. 여러 후보 값 중에서 시험을 통해 가장 잘 학습하는 값을 찾는다.

### 신경망에서의 기울기
가중치 매개변수에 대한 손실 함수의 기울기  
가중치가 W, 손실 함수가 L인 신경망 : 경사 = $\partial L \over \partial \mathbf{W}$
$$  \mathbf{W} = \pmatrix{w_{11} w_{12} w_{13} \\ w_{21} w_{22} w_{23}} \\
{\partial L \over \partial \mathbf{W}} =  \pmatrix{{\partial L \over w_{11}} {\partial L \over w_{12}} {\partial L \over w_{13}} \\ {\partial L \over w_{21}} {\partial L \over w_{22}} {\partial L \over w_{23}}}$$

각 원소에 대한 편미분 값이다. 결국 첫번째 편미분 원소는 $w_{11}$을 조금 변경했을 때 손실 함수 L이 얼마나 변화하는가를 보여준다.  
중요한 점은 두 행렬 모두 $2 \times 3$ 의 형상이다.

In [31]:
# 기울기 구하는 코드
import sys, os
sys.path.append(os.pardir)
import numpy as np
from common.functions import softmax, cross_entropy_error
from common.gradient import numerical_gradient

class simpleNet:
    def __init__(self):
        self.W = np.random.randn(2, 3) #정규분포 초기화
        
    def predict(self, x):
        return np.dot(x, self.W)
    
    def loss(self, x, t):
        z = self.predict(x)
        y = softmax(z)
        loss = cross_entropy_error(y, t)
        
        return loss

In [32]:
# simpleNet 시험
net = simpleNet()
print(net.W) # 가중치

[[-1.5502921  -0.54133735 -0.3463818 ]
 [-0.45569383  2.05034381  0.69028705]]


In [33]:
x = np.array([0.6, 0.9])
p = net.predict(x)
print(p)

[-1.3402997   1.52050702  0.41342926]


In [34]:
np.argmax(p) #최댓값의 인덱스

1

In [35]:
t = np.array([0,0,1])
net.loss(x, t)

1.4347581873029989

In [36]:
# 기울기 : 함수의 인수 W는 더미로 만든다.
def f(W):
    return net.loss(x, t)

dW = numerical_gradient(f, net.W)
print(dW)


[[ 0.0247405   0.4323556  -0.4570961 ]
 [ 0.03711075  0.64853339 -0.68564415]]


In [37]:
# 간단한 함수는 람다lambda 기법이 더 편하다.
f = lambda w: net.loss(x, t)
dW = numerical_gradient(f, net.W)

## 학습 알고리즘 구현하기
신경망 학습 절차
0. 전제
신경망 : 적응 가능한 가중치와 편향이 있다.  
학습 : 이 가중치와 편향을 훈련 데이터에 적응하도록 조정한다.  
1. 미니배치
훈련 데이터 중 일부를 무작위로 가져온다.(미니배치)  
그 미니배치의 손실함수 줄인다.  
2. 기울기 산출  
미니배치의 손실 함수 값을 줄이고자 각 가중치 매개변수의 기울기 구한다.  
기울기 : 손실 함수의 값을 가장 작게 하는 방향을 제시  
3. 매개변수 갱신  
가중치 매개변수를 기울기 방향으로 아주 조금 갱신  
4. 반복. 

신경망 학습은 경사 하강법으로 매개변수를 갱신한다.  
미니배치로 무작위 선정하므로, **확률적 경사 하강법(stochastic gradient descent)**이라 한다.  
딥러닝 프레임 워크는 SGD 함수로 이 기능을 구현한다.

In [2]:
import sys, os
sys.path.append(os.pardir)  # 부모 디렉터리의 파일을 가져올 수 있도록 설정
from common.functions import *
from common.gradient import numerical_gradient


class TwoLayerNet:

    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):
        # 가중치 초기화
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)

    def predict(self, x):
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']
    
        a1 = np.dot(x, W1) + b1
        z1 = sigmoid(a1)
        a2 = np.dot(z1, W2) + b2
        y = softmax(a2)
        
        return y
        
    # x : 입력 데이터, t : 정답 레이블
    def loss(self, x, t):
        y = self.predict(x)
        
        return cross_entropy_error(y, t)
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        t = np.argmax(t, axis=1)
        
        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy
        
    # x : 입력 데이터, t : 정답 레이블
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads
        
    def gradient(self, x, t):
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']
        grads = {}
        
        batch_num = x.shape[0]
        
        # forward
        a1 = np.dot(x, W1) + b1
        z1 = sigmoid(a1)
        a2 = np.dot(z1, W2) + b2
        y = softmax(a2)
        
        # backward
        dy = (y - t) / batch_num
        grads['W2'] = np.dot(z1.T, dy)
        grads['b2'] = np.sum(dy, axis=0)
        
        da1 = np.dot(dy, W2.T)
        dz1 = sigmoid_grad(a1) * da1
        grads['W1'] = np.dot(x.T, dz1)
        grads['b1'] = np.sum(dz1, axis=0)

        return grads

In [None]:
##미니 배치 학습
import numpy as np
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet

(x_train, t_train), (x_test, t_test) = load_mnist(normalize = True, one_hot_label = True)

train_loss_list = []

# 하이퍼파라미터
iters_num = 10000 #반복횟수
train_size = x_train.shape[0]
batch_size = 100 # 미니배치 크기
learning_rate = 0.1
network = TwoLayerNet(input_size = 784, hidden_size = 50, output_size = 10)

for i in range(iters_num):
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 기울기 계산
    grad = network.numerical_gradient(x_batch, t_batch)
    # 개선판으로, grad = network.gradient(x_batch, t_batch)
    
    # 매개변수 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
        
    # 학습 경과 기록
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)

미니배치 크기 : 100  
* 6만개 중 100개(이미지 + 정답 레이블) 임의로 추출
* 100개 대상으로 SGD 수행하여 매개변수 갱신  
* 경사법 갱신 횟수(반복 횟수) : 10000번 설정
* 갱신할 때마다 훈련 데이터 손실 함수 계산 후, 배열에 추가  
![img10](./deep_learning_images/fig_4-11.png)

학습 횟수가 늘면서 손실 함수 값이 줄어든다. 학습이 잘 되고, 신경망 가중치 매개변수가 서서히 데이터에 적응한다.(= 신경망이 학습한다.)  
데이터를 반복해서 학습하여, 최적의 가중치 매개변수로 다가간다.


* 에폭(epoch) : 하나의 단위로, 학습에서 훈련 데이터를 모두 소진했을 때의 횟수에 해당한다  
* 훈련 데이터 10000개를 100개의 미니배치로 학습하면, SGD를 100회 반복했을 때, 훈련 데이터를 모두 '소진'한다.  
= 100회가 1 epoch이 된다.

In [None]:
# 시험 데이터로 평가하기
import numpy as np
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet
(x_train, t_train), (x_test, t_test) = load_mnist(normalize = True, one_hot_label = True)

network = TwoLayerNet(input_size = 784, hidden_size = 50, output_size = 10)

# 하이퍼 파라미터
iters_num = 10000 # 반복횟수 적절히 설정
train_size = x_train.shape[0]
batch_size = 100 # 미니 배치 크기
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

# 1 에폭당 반복 수
iter_per_epoch = max(train_size / batch_size, 1) # 둘 중 가장 큰 걸 출력한다?

for i in range(iters_num):
    #미니배치
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    #기울기 계산
    grad = network.numerical_gradient(x_batch, t_batch)
    #grad = network.gradient(x_batch, t_batch)
    
    # 매개변수 갱신
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print("훈련 정확도, 시험 정확도 : " + str(train_acc) + ", " + str(test_acc))

1에폭(=100회 SGD로 훈련데이터 모두 소진)마다 모든 훈련 데이터와 시험 데이터 정확도 계산하고, 그 결과를 기록한다.  
정확도를 1에폭마다 계산 이유 : for 문 안에 매번 계산 시간이 길다. 추이만 알 수 있으면 된다.  

![img12](./deep_learning_images/fig_4-12.png)

* 훈련 데이터 정확도 실선, 시험 데이터 정확도 점선 표기   
* 에폭이 진행될수록, 훈련 데이터와 시험 데이터를 사용하여 평가한 정확도가 모두 좋아진다.  
* 두 정확도에 차이가 없다.(= 오버피팅이 일어나지 않았다.)  
* 오버피팅 방지를 위해 조기 종료(early stopping)을 권한다. 시험데이터 정확도가 떨어지는 순간 학습을 중단한다.

## 정리
신경망 학습 : 손실 함수라는 지표를 도입  
신경망 학습의 목표 : 손실 함수 기준으로 그 값이 가장 작아지는 가중치 매개변수 값을 찾기  
경사법 : 함수의 기울기 이용해서, 가능한 작은 손실 함수의 값 찾는 방법  
* 요약  
* 기계학습에서 사용하는 데이터셋은 _훈련 데이터와 시험 데이터_로 나눠 사용한다.
* 훈련 데이터로 학습한 모델의 **범용 능력**을 시험 데이터로 평가한다.
* 신경망 학습은 **손실 함수**를 지표로, 손실 함수의 값이 작아지는 방향으로 가중치 매개변수를 갱신한다.
* 가중치 매개변수를 갱신할 때는 가중치 매개변수의 **기울기**를 이용하고, 기울어진 방향으로 가중치의 값을 갱신하는 작업을 반복한다.
* 아주 작은 값을 주었을 때의 차분으로 미분하는 것을 **수치 미분**이라고 한다.
* 수치 미분을 이용해 가중치 매개변수의 기울기를 구할 수 있다.
* 수치 미분을 이용한 계산에는 시간이 걸리지만, 그 구현은 간단하다. 한편, 다음 장에서 구현하는 (다소 복잡한) 오차역전파법은 기울기를 고속으로 구할 수 있다.