<a href="https://colab.research.google.com/github/GNuSeekK/ICTCOG/blob/main/4_06_%5B%EB%94%A5%EB%9F%AC%EB%8B%9D%5D_%EC%86%90%EC%8B%A4_%ED%95%A8%EC%88%98.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 손실함수

## 지표
* 상황 판단을 내리기 위한 기준을 정량화 한 것
    * 상황 판단은 사람이 내리는 것!

## 머신러닝에서의 지표
* MSE, MAE, RMSE 등
* 재현율, 정밀도, f1_score 등
* Accuracy(정확도)

## 신경망에서의 지표
* 머신러닝에서 사용하는 지표는 모두 사용
* 잘 맞춘 것을 지표로 삼을 것인가? (score, accuracy)
* 잘 못맞춘 것을 지표로 삼을 것인가? (loss, cost) => 주로 사용
    * loss는 신경망에서만 사용되는 지표가 아니다
    * 좋은 신경망 : 틀린 것이 거의 없다 - loss가 작은 신경망
    * 나쁜 신경망 : 틀린 것이 많다.

# 평균 제곱 오차 ( Mean Squared Error )
신경망의 MSE
$$
MSE = \frac{1}{2}\sum_{k}(y_i-t_i)^2
$$

인간이 신경망을 공부할 때 사용하는 공부용 MSE
* $y_k$ : 신경망의 예측값
* $t_k$ : 정답 레이블
* $k$ : 출력층의 뉴런 개수
    * `강아지, 고양이, 말을 예측하는` $k$는 3 `[0,1,2]`
    * MNIST 손글씨 숫자 데이터 셋이면 $k$는 10 `[0,1,2,3,4,5,6,7,8,9]`

---
* 보통 신경망에서는 `MSE`를 잘 쓰지 않고 `Cross Entorypy Error`를 활용
    * `MSE`는 신경망으로 회귀를 할 떄 많이 사용
* `MSE`를 배우는 이유는 말 그대로 `loss`에 대한 이해를 하기 위함
* `MSE`는 신경망을 공부 할 떄 개념을 익히기가 좋다. (실무에서 사용 x)
* 정상적인 $\frac{1}{n}$를 사용 하지 않고 $\frac{1}{2}$를 사용한 이유
    * `MSE`를 미분 했을 때의 도함수가 **순수한 오차**를 의미하는 (y-t)만 남기 때문

    
$$
MSE = \frac{1}{2}\sum_{k}(y_i-t_i)^2
$$

$$
MSE^{\prime} = (y-t)
$$

In [None]:
import numpy as np

y = np.array([0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0])
t = np.array([0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]) # 정답이 2, 클래스 개수만큼 One-Hot Encoding

In [None]:
# 각 클래스 별 순수한 오차
y - t

array([ 0.1 ,  0.05, -0.4 ,  0.  ,  0.05,  0.1 ,  0.  ,  0.1 ,  0.  ,
        0.  ])

In [None]:
# MSE를 직접 구현해서 손실값을 확인
def mean_squared_error(y, t):
    return 0.5 * np.sum((y-t)**2)

`y`는 softmax의 결과물로써 각 뉴런마다의 예측될 확률을 의미
* 정답 레이블의 예측 확률이 높아지면 loss 감소
* 정답 레이블의 예측 확률이 낮아지면 loss 증가

In [None]:
print('정답을 2로 추정했을 때의 MSE(0.6) : {:.3f}'.format(mean_squared_error(y,t)))

정답을 2로 추정했을 때의 MSE(0.6) : 0.098


In [None]:
y = np.array([0.1, 0.05, 0.8, 0.0, 0.05, 0.0, 0.0, 0.0, 0.0, 0.0]) # 80%
print('정답을 2로 추정했을 때의 MSE(0.8) : {:.3f}'.format(mean_squared_error(y,t)))

정답을 2로 추정했을 때의 MSE(0.8) : 0.027


In [None]:
y = np.array([0.7, 0.05, 0.1, 0.0, 0.05, 0.0, 0.0, 0.1, 0.0, 0.0]) # 10%
print('정답을 2로 추정했을 때의 MSE(0.1) : {:.3f}'.format(mean_squared_error(y,t)))

정답을 2로 추정했을 때의 MSE(0.1) : 0.657


# 교차 엔트로피 오차( Cross Entropy Error )

$$
CEE = -\sum_{k}t_k\log{y_k}
$$

* $t_k$는 `One Hot Encoding`이 되어 있는 상태
* $k$는 클래스의 개수
* `t=[0,0,1]`, `y=[0.2,0.1,0.7]`
  * $-1 * (t_0\log_y0+t_1\log_y1+t_2\log_y2)$
  * $ -1 * (0\cdot\log{0.2} + 0\cdot\log{0.1} + 1\cdot\log{0.7})$
  * $ - \log{0.7}$
* 정답 레이블의 소프트맥스 결과가 0.6이면 $-\log{0.6}$을 구한것과 같다.

In [None]:
def cross_entropy_error(y,t):
    delta = 1e-7 # 0.0000001
    return -np.sum(t*np.log(y+delta)) # delta를 더하는 이유 => log0은 음수 무한대가 되기때문

In [None]:
t = np.array([0, 0, 1,   0,    0,   0,   0,   0,   0,   0]) # 정답은 2

y = np.array([0.1, 0.05, 0.6, 0.0, 0.05, 0.1, 0.0, 0.1, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 60%
print("정답을 2로 추정했을 때의 CEE값(0.6) : {:.3f}".format(cross_entropy_error(y, t)))

y = np.array([0.1, 0.05, 0.8, 0.0, 0.05, 0.0, 0.0, 0.0, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 80%
print("정답을 2로 추정했을 때의 CEE값(0.8) : {:.3f}".format(cross_entropy_error(y, t)))

y = np.array([0.7, 0.05, 0.1 , 0.0, 0.05, 0.0, 0.0, 0.1, 0.0, 0.0]) # 2번 클래스로의 예측 확률이 10%
print("정답을 2로 추정했을 때의 CEE값(0.1) : {:.3f}".format(cross_entropy_error(y, t)))

정답을 2로 추정했을 때의 CEE값(0.6) : 0.511
정답을 2로 추정했을 때의 CEE값(0.8) : 0.223
정답을 2로 추정했을 때의 CEE값(0.1) : 2.303
