# 4.2 손실함수(loss function)

In [6]:
import numpy as np

In [16]:
# 2가 정답
y1 = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]
y2 = [0.1, 0.05, 0.1, 0.0, 0.05, 0.1, 0.0, 0.6, 0.0, 0.0]
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

## 평균 제곱 오차 mean squared error(MSE)

## $E = \frac{1}{2}\sum_{k}(y_k-t_k)^2$

- $y$ = 신경망의 출력
- $t$ = 정답 레이블
- $k$ = 데이터의 차원 수

오차가 적을 수록 정답에 가까움

In [17]:
def mean_squared_error(y, t):
    return 0.5 * np.sum((y-t)**2)

In [19]:
mean_squared_error(np.array(y1), np.array(t))

0.097500000000000031

In [20]:
mean_squared_error(np.array(y2), np.array(t))

0.59750000000000003

## 교차 엔트로피 오차 cross entropy error(CEE)

## $E = -\sum_{k}{t_k}\log{y_k}$

- $y$ = 신경망의 출력
- $t$ = 정답 레이블
- $k$ = 데이터의 차원 수

정답이 아닐때 오차가 매우커짐

> log에 0을 넣을 시 -inf이기 때문에 아주 작은 delta를 더해줌

In [21]:
def cross_entropy_error(y, t):
    delta = 1e-7
    return -np.sum(t * np.log(y + delta))

In [28]:
cross_entropy_error(np.array(y1), np.array(t))

0.51082545709933802

In [29]:
cross_entropy_error(np.array(y2), np.array(t))

2.3025840929945458

## 미니배치 mini batch

모든 데이터로 손실함수를 구하는 것은 힘듦  
여러 학습 데이터 중 대표하는 일부 데이터로 사용

one-hot encoding과 np.random.choice를 이용해서 추출

In [30]:
import numpy as np
import sys, os
sys.path.append(os.pardir)
from dataset.mnist import load_mnist

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

In [36]:
train_size = x_train.shape[0]
batch_size = 10
batch_mask = np.random.choice(train_size, batch_size)
x_batch = x_train[batch_mask]
t_batch = t_train[batch_mask]

In [37]:
batch_mask

array([10051, 40497, 46678, 43214,  5953, 17144, 13189, 15665,  7349, 13835])

## 배치용 교차 엔트로피 오차 구현

one-hot encoding 의 경우

In [38]:
def cross_entropy_error(y, t):
    if y.ndim == 1: #y가 1차원이라면
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
        
    batch_size = y.shape[0]
    return -np.sum(t * np.log(y)) / batch_size

one-hot encoding 이 아닌 경우

In [39]:
def cross_entropy_error(y, t):
    if y.ndim == 1: #y가 1차원이라면
        t = t.reshape(1, t.size)
        y = y.reshape(1, y.size)
        
    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), t])) / batch_size