## 손실 함수

- 경사 하강법은 학습률($\eta$, learning rate)과 손실 함수의 순간 기울기를 이용하여 가중치를 업데이트 하는 방법이다.

- 즉, 미분의 기울기를 이용하여 오차를 비교하고 최소화하는 방향으로 이동시키는 방법이다.

- 이때 오차를 구하는 방법이 손실 함수이다.

- 즉, 손실 함수는 학습을 통해 얻은 데이터의 추정치가 실제 데이터와 얼마나 차이가 나는지 평가하는 지표라고 할 수 있다.

- 이 값이 클수록 많이 틀렸다는 의미이고, 이 값이 '0'에 가까우면 완벽하게 추정할 수 있다는 의미이다.

- 대표적인 손실 함수로는 평균 제곱 오차(Mean Squared Error, MSE)와 크로스 엔트로피 오차(Cross Entropy Error, CEE)가 있다.

### 평균 제곱 오차를 구하는 수식

$$
\text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y_i})^2
$$

$$
\begin{aligned}
& i: \text{데이터의 차원 인덱스} \\
& y_i: \text{정답 레이블} \\
& \hat{y_i}: \text{신경망의 출력(신경망이 추정한 값)}
\end{aligned}
$$

### 파이토치에서는 다음과 같이 사용

In [None]:
import torch

loss_fn = torch.nn.MSELoss(reduction='sum')
y_pred = model(x)
loss = loss_fn(y_pred, y)

### 크로스 엔트로피 오차

- 크로스 엔트로피 오차(CEE)는 분류(classification) 문제에서 원-핫 인코등(one-hot encoding) 했을 때만 사용할 수 있는 오차 계산법이다.

- 일반적으로 분류 모델에서는 데이터의 출력을 0과 1로 구분하기 위해 시그모이드 함수를 사용한다.

- 시그모이드 함수에 포함된 자연 상수 e 때문에 평균 제곱 오차를 적용하면 매끄럽지 못한 그래프(울퉁불퉁한 그래프)가 출력된다.

- 크로스 엔트로피 손실 함수를 사용하는데, 이 손실 함수를 적용할 경우 경사 하강법 과정에서 학습이 지역 최소점에서 멈출 수 있다.

- 이것을 방지하고자 자연 상수 e에 반대되는 자연 로그를 모델의 출력 값에 취한다.

#### Binary Cross Entropy를 구하는 수식
- 하나의 데이터 샘플에 대한 손실 함수
- 이진 분류에 사용 (클래스 구분이 1 또는 0)

$$
\text{Binary Cross Entropy} = -(y log\hat{y} + (1 - y)log(1 - \hat{y}))
$$

$$
\begin{aligned}
& \hat{y} : \text{신경망의 출력(신경망이 추정한 값)} \\
& y : \text{정답 레이블}
\end{aligned}
$$

#### Cross Entropy를 구하는 수식
- 하나의 데이터 샘플에 대한 손실 함수
- 다중 분류에 사용 (클래스 구분이 1의 위치)

$$
\text{Cross Entropy} = -\sum_{i=1}^n y_i log\hat{y_i}
$$

$$
\begin{aligned}
& \hat{y} : \text{신경망의 출력(신경망이 추정한 값)} \\
& y : \text{정답 레이블} \\
& i : \text{데이터의 차원 개수}
\end{aligned}
$$

#### 파이토치에서는 다음과 같이 사용

In [None]:
loss = nn.CrossEntropyLoss()
input = torch.randn(5, 6, requires_grad=True) # torch.randn은 평균이 0이고 표준편차가 1인 가우시안 정규분포를 이용하여 숫자를 생성 
target = torch.empty(5, dtype=torch.long).random_(5) # torch.empty는 dtype torch.float32의 랜덤한 값으로 채워진 텐서를 반환
output = loss(input, target)
output.backward()