In [None]:
import numpy as np

y = np.array([0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 60%
t = np.array([0,      0,   1,   0,    0,   0,   0,   0,   0,   0]) # 정답은 2라는 이야기 이다. 클래스의 개수만큼 One Hot Encoding이 되어있는 상태

# 평균 제곱 오차 ( Mean Squared Error )
신경망에서의 MSE
$$
MSE = \frac{1}{2}\sum_k(y_k-t_k)^2
$$

인간이 신경망을 공부할 때 사용하는 공부용 MSE 입니다..

* $y_k$ : 신경망의 예측값 햇y
* $t_k$ : 정답 레이블 target
* $k$ : 출력층의 뉴런 개수
  * `강아지, 고양이, 말을 예측 하면` $k$는 3 - `클래스는 [0, 1, 2]`
  * MNIST 손글씨 데이터 셋이면 $k$는 10 - `클래스는 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]`

----------
* 보통 신경망에서는 `MSE`를 잘 쓰지 않고 `Cross Entropy Error`를 활용
  * `MSE`는 신경망으로 회귀를 할 때 많이 사용
* `MSE`를 배우는 이유는 말 그대로 `loss`에 대한 이해를 하기 위함
* `MSE`는 신경망을 우리가 공부 할 때 개념을 익히는 데에 좋다. ( 실무에서는 사용 잘 안한다. )
* 정상적인 $\frac{1}{n}$을 사용하지 않고 $\frac{1}{2}$을 사용한 이유는
  * `MSE`를 미분 했을 때 남는게 순수한 오차라고 할 수 있는 $(y-t)$만 남기 때문에 (정확한 설명은 아님)

In [None]:
# 각 클래스 별 순수한 오차
y-t

array([ 0.1 ,  0.05, -0.4 ,  0.  ,  0.05,  0.1 ,  0.  ,  0.1 ,  0.  ,
        0.  ])

In [None]:
# mse(sse)
0.5 * np.sum((y-t)**2)

0.09750000000000003

In [None]:
# MSE를 사용해서 손실값(Loss값)확인
def mean_squared_error(y, t):
  return 0.5 * np.sum((y-t)**2)

In [None]:
y = np.array([0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 60%
print("정답을 2로 추정했을 때의 MSE값(0.6) : {:.3f}".format(mean_squared_error(y, t)))

y = np.array([0.1, 0.05, 0.8, 0.0, 0.05, 0.0, 0.0, 0.0, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 80%
print("정답을 2로 추정했을 때의 MSE값(0.8) : {:.3f}".format(mean_squared_error(y, t)))

y = np.array([0.7, 0.05, 0.1 , 0.0, 0.05, 0.0, 0.0, 0.1, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 10%
print("정답을 2로 추정했을 때의 MSE값(0.1) : {:.3f}".format(mean_squared_error(y, t)))

정답을 2로 추정했을 때의 MSE값(0.6) : 0.098
정답을 2로 추정했을 때의 MSE값(0.8) : 0.027
정답을 2로 추정했을 때의 MSE값(0.1) : 0.657


# 교차 엔트로피 오차( Cross Entropy Error )
$$
CEE = -\sum_{k}t_k\log{y_k}
$$

* $t_k$는 `One Hot Encoding`이 되어있는 상태
* $k$는 클래스의 개수
* 정답 레이블의 소프트맥스의 결과가 0.6이면 $-\log{0.6}$을 구한것과 똑같다.

In [None]:
def cross_entropy_error(y,t):
  delta = 1e-7  # 0.0000001
  return -np.sum( t * np.log(y + delta))

  # delta는 log0이 나오는걸 방지해주려고 넣어준 아주작은값.

In [None]:
t = np.array([0, 0, 1,   0,    0,   0,   0,   0,   0,   0]) # 정답은 2

y = np.array([0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 60%
print("정답을 2로 추정했을 때의 CEE값(0.6) : {:.3f}".format(cross_entropy_error(y, t)))

y = np.array([0.1, 0.05, 0.8, 0.0, 0.05, 0.0, 0.0, 0.0, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 80%
print("정답을 2로 추정했을 때의 CEE값(0.8) : {:.3f}".format(cross_entropy_error(y, t)))

y = np.array([0.7, 0.05, 0.1 , 0.0, 0.05, 0.0, 0.0, 0.1, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 10%
print("정답을 2로 추정했을 때의 CEE값(0.1) : {:.3f}".format(cross_entropy_error(y, t)))

# 잘못된 예측에 대해서 훨씬 큰 loss를 나타냄. 극단적으로 바뀜!!
# mse보다 cee가 잘못된 loss를 더 빨리 캐치가능.
# 잘못되면 잘못될수록 극단적인 error를 나타내줌

정답을 2로 추정했을 때의 CEE값(0.6) : 0.511
정답을 2로 추정했을 때의 CEE값(0.8) : 0.223
정답을 2로 추정했을 때의 CEE값(0.1) : 2.303
