# 손실함수

## 지표
  * 상황 판단을 내리기 위한 기준을 정량화 한 것

## 머신러닝에서의 지표
  * `MSE`, `MAE`, `RMSE`
  * 재현율, 정밀도, f1 score
  * Accuracy

## 신경망에서의 지표
  * 머신러닝에서 사용하는 지표는 모두 사용
  * 잘 맞춘 것을 지표로 삼을 것인지( score / accuracy )
  * **잘 못맞춘 것을 지표로 삼을 것인지 ( loss / cost ) - 잘 못맞춘 것을 주로 사용한다.**

좋은 신경망이란? Loss 가 적은 신경망 ( 잘 못맞춘 것이 **낮은** 신경망이 좋은 신경망 )

# 평균 제곱 오차 ( Mean Squared Error )
신경망에서의 MSE
$$
MSE = \frac{1}{2}\sum_k(y_k-t_k)^2
$$

인간이 신경망을 공부할 때 사용하는 공부용 MSE 입니다..

* $y_k$ : 신경망의 예측값
* $t_k$ : 정답 레이블
* $k$ : 출력층의 뉴런 개수
  * `강아지, 고양이, 말을 예측 하면` $k$는 3 - `클래스는 [0, 1, 2]`
  * MNIST 손글씨 데이터 셋이면 $k$는 10 - `클래스는 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]`

----------
* 보통 신경망에서는 `MSE`를 잘 쓰지 않고 `Cross Entropy Error`를 활용
  * `MSE`는 신경망으로 회귀를 할 때 많이 사용
* `MSE`를 배우는 이유는 말 그대로 `loss`에 대한 이해를 하기 위함
* `MSE`는 신경망을 우리가 공부 할 때 개념을 익히는 데에 좋다. ( 실무에서는 사용 잘 안한다. )
* 정상적인 $\frac{1}{n}$을 사용하지 않고 $\frac{1}{2}$을 사용한 이유는
  * `MSE`를 미분 했을 때 남는게 순수한 오차라고 할 수 있는 $(y-t)$만 남기 때문에

In [None]:
import numpy as np

y = np.array([0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 60%
t = np.array([0,      0,   1,   0,    0,   0,   0,   0,   0,   0]) # 정답은 2라는 이야기 이다. 클래스의 개수만큼 One Hot Encoding이 되어있는 상태

In [None]:
# 각 클래스별 순수한 오차
y - t

array([ 0.1 ,  0.05, -0.4 ,  0.  ,  0.05,  0.1 ,  0.  ,  0.1 ,  0.  ,
        0.  ])

In [None]:
# MSE를 사용해서 손실값(Loss값)확인
def mean_squared_error(y, t):
  return 0.5 * np.sum((y-t)**2)

In [None]:
print("정답을 2로 추정했을 때의 MSE값(0.6) : {:.3f}".format(mean_squared_error(y, t)))

정답을 2로 추정했을 때의 MSE값(0.6) : 0.098


In [None]:
y = np.array([0.1, 0.05, 0.8, 0.0, 0.05, 0.0, 0.0, 0.0, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 80%
print("정답을 2로 추정했을 때의 MSE값(0.8) : {:.3f}".format(mean_squared_error(y, t)))

정답을 2로 추정했을 때의 MSE값(0.8) : 0.027


In [None]:
y = np.array([0.7, 0.05, 0.1 , 0.0, 0.05, 0.0, 0.0, 0.1, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 10%
print("정답을 2로 추정했을 때의 MSE값(0.1) : {:.3f}".format(mean_squared_error(y, t)))

정답을 2로 추정했을 때의 MSE값(0.1) : 0.657


# 교차 엔트로피 오차( Cross Entropy Error )
$$
CEE = -\sum_{k}t_k\log{y_k}
$$

* $t_k$는 `One Hot Encoding`이 되어있는 상태
* $k$는 클래스의 개수
* 정답 레이블의 소프트맥스의 결과가 0.6이면 $-\log{0.6}$을 구한것과 똑같다.

In [None]:
def cross_entropy_error(y, t):
  delta = 1e-7 # 0.0000001
  return -np.sum(t * np.log(y + delta))

`np.log` 함수에 0이 대입 되면 음수 무한대가 되어 버린다. 따라서 아주 작은 값인 `delta`를 더해준다.

In [None]:
t = np.array([0, 0, 1,   0,    0,   0,   0,   0,   0,   0]) # 정답은 2

y = np.array([0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 60%
print("정답을 2로 추정했을 때의 CEE값(0.6) : {:.3f}".format(cross_entropy_error(y, t)))

y = np.array([0.1, 0.05, 0.8, 0.0, 0.05, 0.0, 0.0, 0.0, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 80%
print("정답을 2로 추정했을 때의 CEE값(0.8) : {:.3f}".format(cross_entropy_error(y, t)))

y = np.array([0.7, 0.05, 0.1 , 0.0, 0.05, 0.0, 0.0, 0.1, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 10%
print("정답을 2로 추정했을 때의 CEE값(0.1) : {:.3f}".format(cross_entropy_error(y, t)))

정답을 2로 추정했을 때의 CEE값(0.6) : 0.511
정답을 2로 추정했을 때의 CEE값(0.8) : 0.223
정답을 2로 추정했을 때의 CEE값(0.1) : 2.303


실무에서는 `MSE`보다 `CEE`를 많이 쓴다.