# 150. PyTorch 다중 분류 손실 함수

## Categorical Crossentropy
    
<img src="https://gombru.github.io/assets/cross_entropy_loss/softmax_CE_pipeline.png" width=500 />

##  `nn.CrossEntropyLoss`

- `nn.LogSoftmax()` 와 `nn.NLLLoss()` 를 단일 class 로 combine한 것.

    즉, `nn.CrossEntropyLoss()` = `nn.NLLLoss(nn.LogSoftmax())`

### nn.CrossEntropyLoss

$$loss(x, class) = -\log(\frac{exp(x[class])}{\sum_{j}{exp(x[j])}}) = -x[class] + log(\sum_{j}exp(x[j]))$$

### nn.LogSoftmax

$$LogSoftmax(x_i) = \log(\frac{exp(x_i)}{\sum_{j}{exp(x_j)}})$$

### nn.NLLLoss (Negative Log Likelihood Loss)
$$l(x, y) = - \frac{1}{N} \sum_{1}^{N}l_n$$

### 결론적으로, Pytorch 에서는 Cross Entropy Loss 값의 결과를 얻기 위해 2가지 방식이 존재

In [None]:
def NLLLoss(logs, targets):
    # targets와 동일한 크기의 텐서를 생성하고, 데이터 타입은 float으로 설정합니다.
    # 각 타겟 클래스에 대해 로그 확률을 선택합니다.
        # logs[i][targets[i]]를 통해, i번째 샘플의 타겟 클래스에 해당하는 로그 확률을 선택합니다.
    # 선택된 로그 확률의 합을 구하고, 음수로 변환한 후, 샘플 수로 나누어 평균을 계산합니다.
    # 이는 Negative Log Likelihood Loss를 계산하는 과정입니다.

In [None]:
# 예시 데이터
# out[i] = logs[i][targets[i]]의 동작 과정

## 손실 함수 비교

In [None]:
# 이 텐서는 모델의 출력으로 볼 수 있으며, 각 요소는 특정 클래스에 속할 확률 또는 점수를 나타냅니다.
# 여기서는 10개의 다른 클래스에 대한 점수를 포함하고 있습니다.
# 주어진 샘플의 실제 클래스를 1번 클래스로 지정

### 방법 1
### nn.CrossEntropyLoss 함수 사용

-  `NNLLoss(Log(Softmax))`

$-x[class] + log(\sum_{j}exp(x[j]))$

In [None]:
# torch.nn.CrossEntropyLoss를 인스턴스화합니다.
# 이 손실 함수는 소프트맥스와 NLLLoss(Negative Log Likelihood Loss)를 결합한 것입니다.
# 손실 함수를 사용하여 예측값 x와 실제 레이블 y 사이의 크로스 엔트로피 손실을 계산합니다.
# CrossEntropyLoss는 내부적으로 x에 대해 소프트맥스 함수를 적용하여 확률 분포를 얻고,
# 이 확률 분포와 실제 레이블 y 사이의 NLLLoss를 계산합니다.
# 계산된 손실값 출력

### 방법 2
### nn.LogSoftmax + NLLLoss

- LogSoftmax : Log + Softmax - 두 함수를 따로 적용한 것 보다 수학적 안정성이 좋다.

In [None]:
# torch.nn.LogSoftmax를 인스턴스화합니다.
# LogSoftmax는 입력 텐서에 대해 소프트맥스 함수를 적용한 후, 그 결과의 로그 값을 반환
# 'dim=1' 매개변수는 소프트맥스 함수가 적용될 차원
# 여기서는 각 샘플의 클래스 점수에 대해 소프트맥스 적용
# log_softmax를 사용하여 x에 대한 로그 소프트맥스 값을 계산
# 이 결과는 각 클래스에 대한 로그 확률을 나타냅니다.
# 앞서 정의한 NLLLoss 함수를 사용하여,
# 로그 소프트맥스 값(x_log)과 실제 레이블(y) 사이의 음의 로그 가능도 손실(NLL Loss)을 계산합니다.
# NLLLoss는 모델의 예측 로그 확률과 실제 레이블 간의 차이를 측정합니다.
# 여기서는 모델의 예측 로그 확률(x_log)이 더 정확할수록, 즉 실제 레이블에 해당하는 로그 확률 값이 높을수록 손실이 줄어듭니다.
# 계산된 손실값 출력

In [None]:
# torch.nn.NLLLoss()를 인스턴스화하고, 계산된 로그 소프트맥스 값(x_log)과
# 실제 레이블(y)을 사용하여 음의 로그 가능도 손실(Negative Log Likelihood Loss)을 계산합니다.

### 사용상의 주의 사항

#### nn.CrossEntropyLoss 를 사용할 경우
-  nn.CrossEntropyLoss 내에 softmax 함수가 포함되어 있으므로 Neural Network의 마지막 activation 함수로 Softmax를 지정 않고, logit 만 출력한다.  

#### nn.NLLLoss 를 사용할 경우
- nn.NLLLoss 는 입력으로 확률 분포가 와야 하므로, Neural Network의 마지막 actiovation 함수로 LogSoftmax를 지정 한다.

In [None]:
# CrossEntropyLoss 인스턴스를 생성합니다. 이 손실 함수는 소프트맥스 함수를 적용한 뒤,
# 크로스 엔트로피 손실을 계산합니다.
# LogSoftmax 인스턴스를 생성합니다. 이 함수는 입력 텐서에 대해 로그 소프트맥스 함수를 적용합니다.
# NLLLoss(Negative Log Likelihood Loss) 인스턴스를 생성합니다.
# 이 손실 함수는 로그 확률에 대한 NLL 손실을 계산합니다.

In [None]:
# True Label을 나타내는 텐서를 생성합니다.
# 좋은 예측값을 나타내는 텐서를 생성합니다.
# 이 텐서는 각 샘플에 대해 모델이 예측한 클래스 점수를 담고 있습니다.
# 나쁜 예측값을 나타내는 텐서를 생성합니다.
# torch.max 함수를 사용하여 y_pred_good의 각 샘플에 대해 가장 높은 점수를 가진 클래스의 인덱스를 얻습니다.
# True Label과 같은 결과가 나온 것을 확인합니다.
# torch.max 함수를 사용하여 y_pred_bad의 각 샘플에 대해 가장 높은 점수를 가진 클래스의 인덱스를 얻습니다.
# True Label 과 다른 결과가 나온 것을 확인합니다.

In [None]:
# CrossEntropy Loss
# nn.CrossEntropyLoss()는 내부적으로 로그 소프트맥스와 NLLLoss를 결합한 것으로,
# 좋은 예측과 나쁜 예측에 대한 크로스 엔트로피 손실을 계산합니다.
# NLLLoss
# 먼저 nn.LogSoftmax()를 사용하여 로그 소프트맥스 값을 계산한 후,
# nn.NLLLoss()로 네거티브 로그 우도 손실(NLLLoss)을 계산합니다.

### forward method 의 return value

In [None]:
# nn.Module을 상속받아 사용자 정의 신경망 클래스를 정의합니다.
class Ex_NN(nn.Module):
    def __init__(self):
        # 첫 번째 선형 레이어를 정의합니다. 입력 차원은 2, 출력 차원은 8입니다.
        # 두 번째 선형 레이어를 정의합니다. 입력 차원은 8, 출력 차원은 3입니다.
        # LogSoftmax 활성화 함수를 정의합니다.
    def forward1(self, x):
        # CrossEntropyLoss를 사용할 경우, 마지막에 log softmax를 사용하지 않습니다.
    def forward2(self, x):
        # NLLLoss를 사용할 경우, 마지막에 log softmax를 적용합니다.

- CrossEntropyLoss 사용

- Negative Log Likelihood Loss 사용

### category 분류

In [None]:
# prob는 모델의 출력 확률 분포를 나타내는 텐서입니다.
# torch.argmax 함수는 주어진 차원(axis)에 대해 최대값을 갖는 인덱스를 반환합니다.
# 여기서 axis=-1은 텐서의 마지막 차원을 의미합니다. 다중 클래스 분류 문제에서는
# 각 샘플의 예측된 클래스 인덱스를 찾는 데 사용됩니다.

In [None]:
# `torch.max` 함수는 주어진 텐서에서 최대 값을 찾습니다.
# 이 함수는 두 개의 반환값을 가집니다: 최대 값과 해당 값의 인덱스입니다.
# `prob` 변수는 특정 확률 분포 또는 점수가 포함된 텐서를 가정합니다.
# `axis=-1` 매개변수는 최대 값을 찾을 차원을 지정합니다.
# `-1`은 텐서의 마지막 차원을 의미합니다. 이는 다차원 텐서에서 각 벡터별로 최대 값을 찾는 데 사용됩니다.