## 훈련 데이터와 시험 데이터

기계학습 문제는 훈련 데이터만을 사용하여 학습하면서 최적의 매개변수를 찾는다.

이후 시험 데이터를 사용하여 앞서 훈련한 모델의 실력을 평가한다.

### 훈련 데이터와 시험 데이터를 나누는 이유
1. 범용적으로 모델을 사용할 수 있기 때문이다 (범용 능력을 제대로 평가하기 위해 훈련, 시험 데이터로 분리)

## 오버피팅
한 데이터셋에만 지나치게 최적화된 상태

## 손실 함수
### 오차제곱합
각 원소의 출력(추정 값)과 정답 레이블(참 값)의 차를 제곱한 후, 그 총합을 구하는 손실함수

$$ E = \frac{1}{2} \sum_{k} (y_k - t_k)^2 $$

- $y_{k}$: 신경망의 출력 (신경망이 추정한 값)
- $t_{k}$: 정답 레이블
- $k$: 데이터의 차원 수



In [1]:
import numpy as np

# 오차제곱합 구현
def sum_squares_error(y, t):
    return 0.5 * np.sum((y-t)**2)

In [2]:
# 정답은 '2'
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

# '2'일 확률이 가장 높다고 추정 (0.6)
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

answer = sum_squares_error(np.array(y), np.array(t))
print(answer)

0.09750000000000003


### 교차 엔트로피 오차
$$ E = -\sum_{k} t_{k} \log(y_{k}) $$

- $log$: 밑이 e인 자연로그
- $y_{k}$: 신경망의 출력 (신경망이 추정한 값)
- $t_{k}$: 정답 레이블, 정답에 해당하는 인덱스의 원소만 1이고 나머지는 0이다 (원-핫 인코딩)




In [4]:
# 교차 엔트로피 오차 구현
def cross_entropy_error(y, t):
    delta = 1e-7
    return -np.sum(t * np.log(y + delta))   # np.log()함수에 0을 넣으면 마이너스 무한대를 뜻하는 -inf가 됨을 방지하기 위해 delta를 더함

In [5]:
# 정답은 '2'
t = [0, 0, 1, 0, 0, 0, 0, 0, 0, 0]

# '2'일 확률이 가장 높다고 추정 (0.6)
y = [0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]

answer = cross_entropy_error(np.array(y), np.array(t))
print(answer)

0.510825457099338
