## 3.3. 손실 함수
### 3.3.1. 평균 제곱 오차 손실
- MSE(Mean Squared Error): 출력(y_hat)과 타깃(y)이 연속값인 회귀 문제에 사용 
- 예측과 타깃값의 차이를 제곱하여 평균 
- "평균 절댓값 오차"(MAE: mean absolute error), "평균 제곱근 오차"(RMSE: root mean squared error) 등

In [1]:
import torch
import torch.nn as nn

mse_loss = nn.MSELoss()
outputs = torch.randn(3,5,requires_grad=True)
targets = torch.randn(3,5)
loss = mse_loss(outputs, targets)
print(loss)

tensor(2.5505, grad_fn=<MseLossBackward0>)


### 3.3.2. 범주형 크로스 엔트로피 손실 (Categorical Cross-Entropy)
- 다중 분류 문제에 사용 (출력이 클래스 소속 확률에 대한 예측)
- y: 모든 클래스에 대한 다항 분포를 나타내는 원소 n개로 이뤄진 벡터
    - Multinomial Distribution: 벡터 원소 합 1, 모든 원소 양수
    - 하나의 클래스만 정답이면 "원-핫 벡터"
- y_hat: 다항 분포에 대한 신경망의 예측 (n개 벡터)

<신경망 출력과 손실 함수 간 관계 결정 정보 4가지>
- 1) 수 범위 제한
- 2) 소프트맥스 함수의 지수 함수 입력 음수(--> 매우작은수), 양수(-->매우큰수)
- 3) 신경망의 출력은 소프트맥스 함수를 사용하기 직전의 벡터라고 가정
- 4) 로그 함수는 지수 함수의 역함수, long(exp(x)) = x
--> 지수 함수(소프트맥스)& 로그 함수(크로스엔트로피 계산)를 간소화 --> 너무 작거나 큰 값 피함.
- --> 이런 간소화로 소프트맥스 함수 사용하지 않고, CrossEntropyLoss() 사용해 확률 분포 최적화 가능
    - CrossEntropyLoss(): LogSoftmax() + LogSoftmax()

In [2]:
ce_loss = nn.CrossEntropyLoss()
""" 각 입력이 클래스 하나의 속하고,
각 클래스에는 고유한 인덱스가 있다고 가정 
--> 인덱스를 모델 출력으로 변환하는 매우 효율적인 계산 가능 """

outputs = torch.randn(3,5,requires_grad=True)
targets = torch.tensor([1,0,3], dtype=torch.int64)
# 각 샘플의 정답 클래스에 해당하는 인덱스를 나타내는 원소 3개

loss = ce_loss(outputs, targets)
print(loss)

tensor(2.0814, grad_fn=<NllLossBackward0>)


### 3.3.3. 이진 크로스 엔트로피 손실(Binary cross-entropy: BCE)
- 이중 클래스 분류(이진 분류) 작업에 효율적
- 예제) <레스토랑 리뷰 감성 분석하기> (3,6절)

In [3]:
bce_loss = nn.BCELoss()
sigmoid = nn.Sigmoid()

probabilities = sigmoid(torch.randn(4,1,requires_grad=True))
# 시그모이드 이용 이진확률벡터 만들기

targets = torch.tensor([1,0,1,0], dtype=torch.float32).view(4,1)
# 정답(y)을 0과 1로 이뤄진 벡터로 만들기

loss = bce_loss(probabilities, targets)
# 크로스 엔트로피 손실 계산

print(probabilities)
print(loss)

tensor([[0.7640],
        [0.8272],
        [0.4852],
        [0.2810]], grad_fn=<SigmoidBackward0>)
tensor(0.7695, grad_fn=<BinaryCrossEntropyBackward0>)
