## 4.2 손실 함수

신경망은 '하나의 특정한 지표'를 기준으로 최적의 매개변수 값을 탐색 <br>
이 지표가 신겸망에서는 '손실 함수(loss function)' 이라고 칭한다. <br>
손실 함수는 임의의 함수를 사용할 수도 있지만 일반적으로 오차제곱합과 교차 엔트로피 오차를 사용 <br>

손실 함수는 신경망 성능의 '나쁨'을 나타내는 지표<br>
현재 신경망이 훈련 데이터를 엄라나 잘 처리하지 '못'하느냐를 측정 <br>

## 4.2.1 오차제곱합

In [1]:
# 이미지가 해당 인덱스일 확률 의미. (ex. 이미지가 '1'일 확률은 0.05)
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
# 정답 레이블 (one-hot encoding)
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0] 

In [2]:
def sum_squares_error(y, t):
    return 0.5 * np.sum((y-t)**2)

In [3]:
import numpy as np
sum_squares_error(np.array(y), np.array(t))

0.09750000000000003

In [4]:
# '7'일 확률이 가장 높다고 추정 (0.6)
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
sum_squares_error(np.array(y), np.array(t))

0.5975

## 4.2.2 교차 엔트로피 오차

교차 엔트포리의 오차는 정답일 때의 출력이 전체 값을 정한다. <br>


In [5]:
def cross_entropy_error(y, t):
    delta = 1e-7
    # log0은 inf이므로, 아주 작은 값인 delta를 더한다.
    return -np.sum(t * np.log(y+delta))

In [6]:
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
y = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
cross_entropy_error(np.array(y), np.array(t))

2.302584092994546

In [7]:
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
cross_entropy_error(np.array(y), np.array(t))

0.510825457099338

## 4.2.3 미니배치 학습

In [8]:
import numpy as np
import pickle
from dataset.mnist import load_mnist

(X_train, y_train), (X_test, y_test) = load_mnist(one_hot_label=True, normalize=False)
print('X_train shape = ',X_train.shape)
print('y_train shape = ',y_train.shape)

X_train shape =  (60000, 784)
y_train shape =  (60000, 10)


In [9]:
# 무작위 10장 추출 (minibatch)
train_size = X_train.shape[0]
batch_size = 10
batch_mask = np.random.choice(train_size, batch_size)
x_batch = X_train[batch_mask]
y_batch = y_train[batch_mask]

## 4.2.4 (배치용) 교차 엔트로피 오차 구현하기

In [10]:
def cross_entrophy_error(y, t):
    # y가 1차원 즉, 데이터 하나라면 reshape 함수로 데이터 형상 변환.
    if y.ndin == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)

    batch_size = y.shape[0]
    return -np.sum(t * np.log(y + 1e-7)) / batch_size

In [11]:
# 정답 레이블이 원-핫 인코딩이 아닌 경우

def cross_entropy_error(y, t):
    if y.ndim == 1:
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)

    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size

## 4.2.5 왜 손실 함수를 설정하는가?

신경망 학습에서의 '미분'의 역할에 주목하자 <br>
신경망 학습에서는 최적의 매개변수(가중치와 편향)를 탐색 할 때 손실함수의 값을 가능한 작게 하는 매개변수 값을 찾는 것 <br>
매개변수의 미분(정확히는 기울기)을 계산하고, 그 미분 값을 단서로 매개변수의 값을 서서히 갱신하는 과정 반복 <br>
가중치 매개변수의 손실 함수의 미분이란 '가중치 매개변수의 값을 아주 조금 변화 시켰을 때, 손실 함수가 어떻게 변하나' 라는 의미 <br>
<br>
정확도를 지표로 삼아서는 안되는 이유 -> 대부분의 장소에서 미분값이 0이 될 시 매개변수를 갱신할 수 없음 

## 4.4 기울기

In [12]:
def numerical_gradient(f, x):
    h = 1e-4 # 아주 작은 값
    grad = np.zeros_like(x)
    
    for idx in range(x.size):
        tmp_val = x[idx]
        # f(x + h) 계산
        x[idx] = tmp_val + h
        fxh1 = f(x)
        
        # f(x - h) 계산
        x[idx] = tmp_val - h
        fxh2 = f(x)
        
        grad[idx] = (fxh1 - fxh2) / (2*h)
        x[idx] = tmp_val # 값 복원
        
    return grad


## 4.4.1 경사법(경사 하강법)

기계학습 문제 대부분은 학습 단계에서 최적의 매개변수를 찾아낸다 <br>
여기에서 최적이란 손실 함수가 최솟값이 될 때의 매개변수 값. <br>
그러나 주의할 점은 각 지점에서 함수의 값을 낮추는 방안을 제시하는 지표가 '기울기'라는 것 <br>
해당 기울기가 가리키는 곳에 정말 함수의 최솟값이 존재하는지 보장 X <br>

<br>
경사법은 현 위치에서 기울어진 방향으로 일정 거리만큼 이동 <br>


In [13]:
def gradient_descent(f, init_x, lr = 0.01, step_num = 100):
    x = init_x

    for i in range(step_num):
        grad = numerical_gradient(f, x)
        x -= lr * grad
    
    return x

## 4.4.2 신경망에서의 기울기

In [14]:
import numpy as np
from common.functions import softmax, cross_entropy_error
from common.gradient import numerical_gradient

class simpleNet:
    def __init__(self):
        self.W = np.random.randn(2,3) # 정규분포로 초기화

    def predict(self, x):
        return np.dot(x, self.W)

    def loss(self, x, t):
        z = self.predict(x)
        y = softmax(z)
        loss = cross_entropy_error(y, t)

        return loss

In [15]:
net = simpleNet()
print(net.W)

[[ 0.07361655  0.94504201 -0.63466312]
 [ 0.99411904  0.01062444  1.68236377]]


In [16]:
x = np.array([0.6, 0.9])
p = net.predict(x)
print(p)

[0.93887707 0.5765872  1.13332952]


In [17]:
np.argmax(p)

2

In [18]:
t = np.array([0, 0, 1])
net.loss(x, t)

0.8739499459263292

In [19]:
f = lambda w : net.loss(x, t)
dW = numerical_gradient(f, net.W)

In [20]:
dW

array([[ 0.20613407,  0.14348592, -0.34961999],
       [ 0.3092011 ,  0.21522888, -0.52442998]])

## 학습 알고리즘 구현하기

<b>전제</b> <br>
신경망에는 적응 가능한 가중치와 편향이 있고, 이 가중치와 편향을 훈련 데이터에 적응하도록 조정하는 과정을 '학습'이라고 한다. 

<b>1단계 - 미니배치</b> <br>
훈련 데이터 중 일부를 무작위로 가져온다. <br>
이렇게 선별한 데이터를 미니배치라 하며, 그 미니배치의 손실함수 값을 줄이는 것이 목표

<b>2단계 - 기울기 산출</b> <br>
미니배치의 손실 함수 값을 줄이기 위해 각 가중치 매개변수의 기울기를 구한다. <br>
기울기는 손실 함수의 값을 가장 작게 하는 방향을 제시한다.<br>

<b>3단계 - 매개변수 갱신</b> <br>
가중치 매개변수를 기울기 방향으로 아주 조금 갱신한다. <br>

<b>4단계 - 반복</b> <br>
1~3단계를 반복한다.

## 4.5.1 2층 신경망 클래스 구현하기

In [21]:
from common.functions import *
from common.gradient import numerical_gradient

In [22]:
class TwoLayerNet:
    def __init__(self, input_size, hidden_size, output_size,
                 weight_init_std = 0.01):

        # 가중치 초기화
        # 정규분포를 따르는 난수로, 표준편차는 0으로 초기화
        self.params = {}
        self.params['W1'] = weight_init_std * \
                            np.random.randn(input_size, hidden_size)
        self.params['b1'] = np.zeros(hidden_size)
        self.params['W2'] = weight_init_std * \
                            np.random.randn(hidden_size, output_size)
        self.params['b2'] = np.zeros(output_size)


    def predict(self, x):
        W1, W2 = self.params['W1'], self.params['W2']
        b1, b2 = self.params['b1'], self.params['b2']

        a1 = np.dot(x, W1) + b1
        z1 = sigmoid(a1)
        a2 = np.dot(z1, W2) + b2
        y = softmax(a2)

        return y

    # x : 입력 데이터, t : 정답 레이블
    # 손실 함수 계산
    # 예측 결과와 정답 레이블을 바탕으로 교차 엔트로피 측정.
    def loss(self, x, t):
        y = self.predict(x)

        return cross_entropy_error(y, t)

    def accuracy(self, x):
        y = self.predict(x)
        y = np.argmax(y, axis = 1)
        t = np.argmax(t, axis = 1)

        accuracy = np.sum( y == t ) / float(x.shape[0])
        return accuracy

    # 각 매개변수 기울기 측정
    def numerical_gradient(self, x, t):
        # 함수 형태로 정의
        loss_W = lambda W: self.loss(x, t)

        grads = {}
        grads['W1'] = numerical_gradient(loss_W, self.params['W1'])
        grads['b1'] = numerical_gradient(loss_W, self.params['b1'])
        grads['W2'] = numerical_gradient(loss_W, self.params['W2'])
        grads['b2'] = numerical_gradient(loss_W, self.params['b2'])


In [23]:
net = TwoLayerNet(input_size = 784, hidden_size = 100, output_size = 10)
print(net.params['W1'].shape)
print(net.params['b1'].shape)
print(net.params['W2'].shape)
print(net.params['b2'].shape)

(784, 100)
(100,)
(100, 10)
(10,)


In [24]:
# 예측처리
x = np.random.rand(100, 784)
y = net.predict(x)

In [25]:
# 기울기 계산
x = np.random.rand(100, 784)
t = np.random.rand(100, 10)

grads = net.numerical_gradient(x, t) # 기울기 계산

KeyboardInterrupt: 

## 4.5.2 미니배치 학습 구현하기

훈련 데이터 중 일부를 무작위로 꺼내고(미니배치), 그 매니배치에 대해서 경사법으로 매개변수를 갱신

In [None]:
from dataset.mnist import load_mnist
from two_layer_net import TwoLayerNet

In [None]:
(X_train, y_train), (X_test, y_test) = \
    load_mnist(normalize = True, one_hot_label = True)

# 60,000개의 샘플, 하나의 샘플 당 784차원 (28x28 pixel)
print(X_train.shape)
print(y_train.shape)

# 하이퍼파라미터
iters_num = 10000 # 반복 횟수
train_size = X_train.shape[0]
batch_size = 100 # 미니배치 크기
learning_rate = 0.1

network = TwoLayerNet(input_size = 784, hidden_size = 50, output_size = 10)

for i in range(iters_num):
    # 미니배치 획득
    batch_mask = np.random.choice(train_size, batch_size)
    
    x_batch = X_train[batch_mask]
    
    # 정답 레이블
    y_batch = y_train[batch_mask]

    # 기울기 계산
    grad = network.numerical_gradient(x_batch, y_batch)

   # 매개변수 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]

    # 학습 경과 기록
    loss = network.loss(x_batch, y_batch)
    train_loss_list.append(loss)

## 4.5.3 시험 데이터로 평가하기

손실 함수의 값이란, '훈련 데이터의 미니배치에 대한 손실 함수'의 값 <br>
신경망 학습에서는 훈련 데이터 외의 데이터를 올바르게 인식하는지를 확인해야 한다. <br>
즉, 오버피팅 유무를 확인해야 한다. <br> 
오버피팅이 되었다는 것은 훈련 데이터에 포함된 이미지만 제대로 구별하고, 그렇지 않은 이미지는 식별할 수 없다는 뜻 <br>


<b> 에폭(epoch) </b>
에폭은 하나의 단위이다. 1에폭은 학습에서 훈련 데이터를 모두 소진했을 때의 횟수에 해당한다. <br>
예를 들어 10,000개를 100개의 미니배치로 학습할 경우, 확률적 경사 하강법을 100회 반복하면 모든 훈련 데이터를 소진한 게 된다. <br>
이 경우 100회가 1에폭이 된다. <br>

In [None]:
train_loss_list = []
train_acc_list = []
test_acc_list = []

# 미니배치로 쪼개서 훈련 시키는 횟수 --> EX:(600000/ 100 ,1) 중 큰 숫자가 에폭 수
iter_per_epoch = max(train_size / batch_size, 1)

for i in range(iters_num):
    # 미니배치 획득
    batch_mask = np.random.choice(train_size, batch_size)
    x_batch = X_train[batch_mask]
    y_batch = y_train[batch_mask]

    # 기울기 계산
    grad = network.numerical_gradient(x_batch, y_batch)

    # 매개변수 갱신
    for key in ('W1', 'b1', 'W2', 'b2'):
        network.params[key] -= learning_rate * grad[key]

    # 학습 경과 기록
    loss = network.loss(x_batch, y_batch)
    train_loss_list.append(loss)

    # 매 에폭(epoch)마다 훈련 데이터와 테스트 데이터에 대한 정확도를 계산
    # iter_per_epoch는 한 번의 에폭을 처리하는데 필요한 반복 횟수 (전체 데이터를 모두 한 바퀴 돌았을 때)     
    # EX) 100000 / 100(미니배치 사이즈)  ==> 한 에폭: 100
    # 즉, 매 에폭마다 실행
    if i % iter_per_epoch == 0:
        train_acc = network.accuracy(X_train, y_train)
        test_acc = network.accuracy(X_test, y_test)
        train_acc_list.append(train_acc)
        test_acc_list.append(test_acc)
        print("Epoch {0}: train acc, test acc | {1}, {2}".format(i // iter_per_epoch, train_acc, test_acc))


## 4.6 정리

1. 신경망 학습은 손실 함수를 지표로, 손실 함수의 값이 작아지는 방향으로 가중치 매개변수를 갱신한다.<br>
2. 가중치 매개변수 갱신 시, 가중치 매개변수의 '기울기'를 이용하고 기울어진 방향으로 가중치의 값을 갱신하는 작업을 반복한다. <br>
3. 아주 작은 값을 주었을 때의 차분으로 미분하는 것을 수치 미분이라 한다. <br>
4. 수치 미분을 이용해 가중치 매개변수의 기울기를 구할 수 있다. <br>
5. 수치 미분 -> 계산에는 시간이 걸리지만 구현은 간단. <br>
6. 오차역전파법은 기울기를 고속으로 구할 수 있다.<br>