# 신경망 학습

---

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

plt.rc('figure', figsize=(10, 6))

from matplotlib import rcParams
rcParams['font.family'] = 'New Gulim'
rcParams['font.size'] = 10
rcParams['axes.unicode_minus'] = False

#### 딥러닝의 특징

<img src="./images/fig_4-2.png" width="500"/>

# 1 손실 함수
- 학습시 사용되는 지표: 손실 함수
- 최종 평가시 사용되는 지표: 정확도, 정밀도, 재현율 등

### 1.1 평균 제곱 오차 - MSE(mean squared error)

<img src="./images/e_4.1.png" width="200"/>

In [None]:
# MSE 함수 구현

def mean_squared_error(y, t):
    return 0.5 * np.sum((y- t)**2)

In [None]:
# 정답: '2'
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [None]:
# 올바른 예측일 경우의 MSE
# '2' 일 확률이 가장 높다고 추정함(0.6)
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

mean_squared_error(np.array(y), np.array(t))

In [None]:
# 잘못된 예측일 경우의 MSE
# '7' 일 확률이 가장 높다고 추정 함(0.6)
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]

mean_squared_error(np .array(y) , np.array(t))

### 1.2 교차 엔트로피 - Cross entropy

<img src="./images/e_4.2.png" width="200"/>

- 자연로그 y = logx의 그래프
<img src="./images/fig_4-3.png" width="400"/>

In [None]:
# Cross entropy 함수 구현

def cross_entropy_error(y, t):
    delta =  1e-7
    return -np.sum(t * np.log(y + delta))

In [None]:
# 정답: '2'
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

In [None]:
# 올바른 예측일 경우의 Cross entropy
# '2' 일 확률이 가장 높다고 추정함(0.6)
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

cross_entropy_error(np.array(y) , np.array(t))

In [None]:
# 잘못된 예측일 경우의 Cross entropy
# '7' 일 확률이 가장 높다고 추정 함(0.6)
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]

cross_entropy_error(np.array(y), np.array(t))

### 1.3 미니 배치 학습

<img src="./images/e_4.3.png" width="300"/>

In [None]:
# Cross entropy 함수 구현 - 미니 배치

def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
        
    batch_size = y.shape[0]
    
    # 정답(t)이 One-hot-encoding 인 경우
    return -np.sum(t * np.log(y + 1e-7)) / batch_size
    
    # 정답(t)이 One-hot-encoding이 아닌 경우
    #return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size

In [None]:
# 데이터 로딩

from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

print(x_train.shape) # (68888, 784)
print(t_train.shape) # (68888 , 10)

In [None]:
# 미니 배치 선택

train_size = x_train.shape[0]
batch_size = 10
batch_mask =  np.random.choice(train_size , batch_size)

x_batch = x_train[batch_mask]
t_batch = t_train[batch_mask]

print(x_batch.shape)
print(t_batch.shape)

In [None]:
# Cross entropy - 미니 배치 적용

y = [[0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0],
     [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0],
     [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0],
     [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0],
     [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0],
     [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0],
     [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0],
     [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0],
     [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0],
     [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]]

cross_entropy_error(np.array(y), t)

# 2 수치 미분 - Numerical differentiation

- 도함수의 정의
<img src="./images/e_4.4.png" width="300"/>

### 2.1 수치 미분 구현

- 접선(도함수 사용) - 수치 미분(근사값)
<img src="./images/fig_4-5.png" width="500"/>

In [None]:
# 수치 미분 구현

# h값 조정: 반올림 오차 해결
# 중앙 차분 사용
def numerical_diff(f , x):
    h = 1e-4 # 8 8881
    return (f(x+h) - f(x-h)) / (2*h)

### 2.2 수치 미분 적용 - 기울기 구하기

- 2차 함수 정의
<img src="./images/e_4.5.png" width="200"/>

In [None]:
# 2차 함수 정의 코드 구현
def function_1(x):
    return 0.01*x**2 + 0.1*x

In [None]:
x = np.arange(0.0, 20.0, 0.1) # 0에서 20 까지 0.1 간격의 배열 X를 만든다
y = function_1(x)

plt.plot(x, y)
plt.xlabel('x')
plt.ylabel('f( x)')
plt.show()

In [None]:
# x = 5 에서의 기울기
numerical_diff(function_1 , 5)

In [None]:
# x = 10 에서의 기울기
numerical_diff(function_1, 10)

### 2.3 도함수 이용 - 기울기 구하기

#### 도함수
$$ \frac{df(x)}{dx} = 0.02x + 0.1 $$

- x = 5 에서의 기울기: 0.2
- x = 10 에서의 기울기: 0.3

- x= 5, x = 10 에서의 접선의 기울기
<img src="./images/fig_4-7.png" width="600"/>

### 2.4 편미분

#### 2.4.1 다변수 함수

- 다변수 함수 정의
<img src="./images/e_4.6.png" width="200"/>

In [None]:
# 다변수 함수 코드 구현
def function_2(x):
    return x[0]**2 + x[1]**2
    #return np.sum(x**2)

- 다변수 함수 그래프
<img src="./images/fig_4-8.png" width="400"/>

#### 2.4.2 다변수 함수 기울기 - Gradient

In [None]:
# 수치 미분 구현 - 다변수 함수

def numerical_gradient(f, x):

    h = 1e-4 # 0.0001
    grad = np.zeros_like(x) # x와 형상이 같은 배열을 생성
    
    for idx in range(x.size):
        tmp_val = x[idx]
        
        # f(x+h) 계산
        x[idx] = tmp_val + h
        fxh1 = f(x)
        
        # f(x-h) 계산
        x[idx] = tmp_val - h
        fxh2 = f(x)
        
        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val # 값 복원
        
    return grad

In [None]:
# x1 = 3, x2 = 4 에서의 기울기(벡터)
numerical_gradient(function_2, np.array([3.0, 4.0]))

In [None]:
# x1 = 0, x2 = 2 에서의 기울기(벡터)
numerical_gradient(function_2, np.array([0.0, 2.0]))

In [None]:
# x1 = 3, x2 = 0 에서의 기울기(벡터)
numerical_gradient(function_2, np.array([3.0, 0.0]))

- 다변수 함수 기울기(벡터)
<img src="./images/fig_4-9.png" width="400"/>

# 3 경사 하강법 - Gradient descent

- 경사 하강법 수식
- $\eta$: 학습율(learning rate)
<img src="./images/e_4.7.png" width="200"/>

In [None]:
# 경사 하강법 코드 구현

def gradient_descent(f, init_x, lr=0.01, step_num=100):
    x = init_x

    for i in range(step_num):
        grad = numerical_gradient(f, x)
        x -= lr * grad

    return x

### 3.1 경사 하강법 활용 - 최소값 구하기

- 함수 정의
<img src="./images/e_4.6.png" width="200"/>

In [None]:
# 함수 코드 구현
def function_2(x):
    return x[0]**2 + x[1]**2

In [None]:
# x1 = 0, x2 = 0 일 때 최소값

init_x = np.array([-3.0, 4.0])    

gradient_descent(function_2, init_x=init_x, lr=0.1, step_num=100)

- 경사 하강법에 의한 최소값 갱신 과정: 점선은 등고선
<img src="./images/fig_4-10.png" width="400"/>

#### 잘못된 학습률 지정

In [None]:
# 학습률이 너무 큰 예 lr=10 0: 발산
init_x = np.array([-3.0, 4.0])
gradient_descent(function_2, init_x=init_x, lr=10.0, step_num=100)

In [None]:
# 학습률이 너무 작은 예 lr=1e-10
init_x = np.array([-3.0, 4.0])
gradient_descent(function_2, init_x=init_x, lr=1e-10, step_num=100)

### 3.2 신경망의 기울기

<img src="./images/e_4.8.png" width="300"/>

#### 3.2.1 신경망의 기울기 구하는 코드 구현

In [None]:
from common.functions import softmax, cross_entropy_error
from common.gradient import numerical_gradient

class simpleNet:
    def __init__(self):
        self.W = np.random.randn(2,3) # 정규분포로 초기화

    def predict(self, x):
        return np.dot(x, self.W)

    def loss(self, x, t):
        z = self.predict(x)
        y = softmax(z)
        loss = cross_entropy_error(y, t)

        return loss

#### 3.2.2 주어진 w(초기값) 에서 loss function의 기울기 구하기

In [None]:
x = np.array([0.6, 0.9])
t = np.array([0, 0, 1])

net = simpleNet()

f = lambda w: net.loss(x, t)
dW = numerical_gradient(f, net.W)

print(dW)

# 4 신경망 학습 구현

### 4.1 신경망(2층) 클래스 구현

In [None]:
from common.functions import *
from common.gradient import numerical_gradient

class TwoLayerNet:

    def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):
        # 가중치 초기화
        self.params = {}
        self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)

    def predict(self, x):
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']
    
        a1 = np.dot(x, W1) + b1
        z1 = sigmoid(a1)
        a2 = np.dot(z1, W2) + b2
        y = softmax(a2)
        
        return y
        
    # x : 입력 데이터, t : 정답 레이블
    def loss(self, x, t):
        y = self.predict(x)
        
        return cross_entropy_error(y, t)
    
    def accuracy(self, x, t):
        y = self.predict(x)
        y = np.argmax(y, axis=1)
        t = np.argmax(t, axis=1)
        
        accuracy = np.sum(y == t) / float(x.shape[0])
        return accuracy
        
    # x : 입력 데이터, t : 정답 레이블
    def numerical_gradient(self, x, t):
        loss_W = lambda W: self.loss(x, t)
        
        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])
        
        return grads
        
    # 오차 역전파 이용
    def gradient(self, x, t):
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']
        grads = {}
        
        batch_num = x.shape[0]
        
        # forward
        a1 = np.dot(x, W1) + b1
        z1 = sigmoid(a1)
        a2 = np.dot(z1, W2) + b2
        y = softmax(a2)
        
        # backward
        dy = (y - t) / batch_num
        grads['W2'] = np.dot(z1.T, dy)
        grads['b2'] = np.sum(dy, axis=0)
        
        da1 = np.dot(dy, W2.T)
        dz1 = sigmoid_grad(a1) * da1
        grads['W1'] = np.dot(x.T, dz1)
        grads['b1'] = np.sum(dz1, axis=0)

        return grads

### 4.2 미니배치 학습 적용

In [None]:
%%time
from dataset.mnist import load_mnist

# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

# 하이퍼파라미터
iters_num = 10000  # 반복 횟수를 적절히 설정한다.
train_size = x_train.shape[0]
batch_size = 100   # 미니배치 크기
learning_rate = 0.1

train_loss_list = []

network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

for i in range(iters_num):
    # 미니배치 획득
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 기울기 계산
    #grad = network.numerical_gradient(x_batch, t_batch)
    # 오차 역전파 사용: 학습 시간 차이
    grad = network.gradient(x_batch, t_batch)
    
    # 매개변수 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
    
    # 학습 경과 기록
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)

In [None]:
plt.plot(train_loss_list)
plt.title('손실 함수 값의 추이 (iter:10,000)')
plt.xlabel('iteration')
plt.ylabel('loss')
plt.show()

In [None]:
plt.plot(train_loss_list[:1000])
plt.title('손실 함수 값의 추이 (iter:1,000)')
plt.xlabel('iteration')
plt.ylabel('loss')
plt.show()

### 4.3 성능 테스트

In [None]:
%%time
from dataset.mnist import load_mnist

# 데이터 읽기
(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

# 하이퍼파라미터
iters_num = 10000  # 반복 횟수를 적절히 설정한다.
train_size = x_train.shape[0]
batch_size = 100   # 미니배치 크기
learning_rate = 0.1

train_loss_list = []
train_acc_list = []
test_acc_list = []

# 1에폭당 반복 수
iter_per_epoch = max(train_size / batch_size, 1)

# 네트워크 생성
network = TwoLayerNet(input_size=784, hidden_size=50, output_size=10)

for i in range(iters_num):
    # 미니배치 획득
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = x_train[batch_mask]
    t_batch = t_train[batch_mask]
    
    # 기울기 계산
    #grad = network.numerical_gradient(x_batch, t_batch)
    # 오차 역전파 사용: 학습 시간 차이
    grad = network.gradient(x_batch, t_batch)
    
    # 매개변수 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]
    
    # 학습 경과 기록
    loss = network.loss(x_batch, t_batch)
    train_loss_list.append(loss)
    
    # 1에폭당 정확도 계산
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(x_train, t_train)
        test_acc = network.accuracy(x_test, t_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print(f'<{int(i//iter_per_epoch):03}> train acc: {train_acc:.3f}, test acc: {test_acc:.3f}')

In [None]:
# 그래프 그리기
markers = {'train': 'o', 'test': 's'}
x = np.arange(len(train_acc_list))
plt.plot(x, train_acc_list, label='train acc')
plt.plot(x, test_acc_list, label='test acc', linestyle='--')
plt.xlabel("epochs")
plt.ylabel("accuracy")
plt.ylim(0, 1.0)
plt.legend(loc='lower right')
plt.show()

# 정리

- 기계학습에서 사용하는 데이터셋은 훈련 데이터와 시험 데이터로 나눠 사용한다.
- 훈련 데이터로 학습한모델의 범용능력을 시험 데이터로 평가한다.
- 신경망 학습은 손실 함수를 지표로, 손실 함수의 값이 작아지는 방항으로 가중치 매개변수를 갱신한다.
- 가중치 매개변수를 갱신할 때는 가중치 매개변수의 기울기를 이용하고, 기울어진 방향으로 가중치의 값을 갱신히는 작업을 반복한다.
- 아주 작은 값을 주었을 때의 차분으로 미분하는 것을 수치 미분이라고 한다.
- 수치 미분을 이용해 가중치 매개변수의 기울기를 구할수 있다.
- 수치 미분을 이용한 계산에는 시간이 걸리지만, 그 구현은 간단하다.
- 오차역전파법은 복잡하지만 기울기를 고속으로 구할수 있다.

---

In [None]:
# End of file