**평균 손실 함수**   

$$ -E = \frac{1}{N}\sum\sum t_nk logy_nk $$  

N으로 나눔으로써 '평균 손실 함수'를 구하는 것이다. 이렇게 평균을 구해 사용하면 훈련 데이터 개수와 상관없이 언제든 동일한 지표를 얻을 수 있다.   

신경망 학습에서도 훈련데이터의 일부를 추려 전체의 근사치로 이용할 수 있다. 신경망 학습에서도 훈련데이터로부터 일부만 골라 학습을 수행한다.   
이 일부를 **미니 배치**라고 한다. 가령 60000자의 훈련 데이터 중에서 100장을 무작위로 뽑아 그 100장만을 사용하여 학습하는 것이다.   
이러한 학습 방법을 **미니배치 학습** 이라고 한다.

In [1]:
import sys,os
sys.path.append(os.pardir)
import numpy as np
from dataset.mnist import load_mnist

(x_train, t_train),(x_test, t_test)= load_mnist(normalize=True, one_hot_label=True)

print(x_train.shape) #훈련데이터는 700, 입력데이터 784
print(t_train.shape) #정답레이블은 10줄

(60000, 784)
(60000, 10)


In [2]:
#무작위로 10장만 빼내려면 어떻게 하면 될까

train_size=x_train.shape[0]
batch_size=10
batch_mask=np.random.choice(train_size, batch_size)
x_batch=x_train[batch_mask]
t_batch=t_train[batch_mask]

In [3]:
np.random.choice(60000,10)

array([21617, 30614, 55735,  8109,  5085, 33513, 28955, 14488, 41178,
        8293])

In [6]:
#배치용 교차 엔트로피

def cross_entropy_error(y,t):
    if y.dim==1:
        t=t.reshape(1,t.size) # t: 정답 레이블
        y=y.reshape(1,y.size) # y: 신경망의 출력
        
    batch_size=y.shape[0]
    return -np.sum(t*np.log(y+1e-7))/batch_size

In [7]:
#정답 레이블이 원핫 인코딩이 아니라 '2','7'등의 숫자 레이블로 주어졌을때 교차 엔트로피

def cross_entropy_error(y,t):
    if y.dim==1:
        t=t.reshape(1,t_size) # t: 정답 레이블
        y=y.reshape(1,y_size) # y: 신경망의 출력
        
    batch_size=y.shape[0]
    return -np.sum(np.log(y[np.arrange(batch_size),t]+1e-7))/batch_size #np.arrange(batch_size)는 0부터 batch_size -1까지 배열 생성


t가 0일 때는 교차 엔트로피도 0이기 때문에 그 계산은 무시해도 좋다

**왜 정확도가 아닌 손실함수를 사용해야 할까?**  

정확도를 지표로 하면 매개변수의 미분이 대부분의 장소에서 0이 되기 때문이다. 정확도는 불연속적인 띄엄띄엄한 값으로 바뀌어버리고 손실함수의 값은 연속적으로 변화한다. 이는 계단 함수를 활성화 함수로 사용하지 않는 이유이기도 하다.

In [15]:
#미분 계산 예제

#나쁜 구현의 예

def numerical_diff(f,x):
    h=10e-50
    return (f(x+h)-f(x))/h

1. 반올림 오차를 발생시킨다. 반올림 오차는 소숫점 8자리 이하가 생략되어 최종 결과에 오차가 생긴다.  

2. 애당초 오차가 있기 때문에 진정한 미분이 아니다.

In [16]:
def numerical_diff(x,y):
    h=1e-4
    return (f(x+h)-f(x-h))/ (2*h)