# 150. PyTorch 다중 분류 손실 함수

## Categorical Crossentropy
    
<img src="https://gombru.github.io/assets/cross_entropy_loss/softmax_CE_pipeline.png" width=500 />

##  `nn.CrossEntropyLoss` 

- `nn.LogSoftmax()` 와 `nn.NLLLoss()` 를 단일 class 로 combine한 것.

    즉, `nn.CrossEntropyLoss()` = `nn.NLLLoss(nn.LogSoftmax())`

### nn.CrossEntropyLoss

$$loss(x, class) = -\log(\frac{exp(x[class])}{\sum_{j}{exp(x[j])}}) = -x[class] + log(\sum_{j}exp(x[j]))$$

### nn.LogSoftmax

$$LogSoftmax(x_i) = \log(\frac{exp(x_i)}{\sum_{j}{exp(x_j)}})$$

### nn.NLLLoss (Negative Log Likelihood Loss)
$$l(x, y) = - \frac{1}{N} \sum_{1}^{N}l_n$$

### 결론적으로, Pytorch 에서는 Cross Entropy Loss 값의 결과를 얻기 위해 2가지 방식이 존재

In [1]:
import torch
import torch.nn as nn
import numpy as np

In [2]:
def NLLLoss(logs, targets):
    out = torch.zeros_like(targets, dtype=torch.float)
    for i in range(len(targets)):
        out[i] = logs[i][targets[i]]
    return -out.sum()/len(out)

In [3]:
# class label 이 1 인 다중분류 
x = torch.Tensor([[0.8982, 0.805, 0.6393, 0.9983, 0.5731, 0.0469, 0.556, 0.1476, 0.8404, 0.5544]])
y = torch.LongTensor([1])

## 방법 1
### nn.CrossEntropyLoss 함수 사용

-  `NNLLoss(Log(Softmax))`

$-x[class] + log(\sum_{j}exp(x[j]))$ 

In [4]:
cross_entropy_loss = torch.nn.CrossEntropyLoss()
cross_entropy_loss(x, y)

tensor(2.1438)

## 방법 2
### nn.LogSoftmax + NLLLoss 

- LogSoftmax : Log + Softmax - 두 함수를 따로 적용한 것 보다 수학적 안정성이 좋다.

In [5]:
log_softmax = torch.nn.LogSoftmax(dim=1)
x_log = log_softmax(x)
NLLLoss(x_log, y) 

tensor(2.1438)

In [8]:
nn.NLLLoss()(x_log, y)

tensor(2.1438)

### 사용상의 주의 사항 

#### nn.CrossEntropyLoss 를 사용할 경우
-  nn.CrossEntropyLoss 내에 softmax 함수가 포함되어 있으므로 Neural Network의 마지막 activation 함수로 Softmax를 지정 않고, logit 만 출력한다.  

#### nn.NLLLoss 를 사용할 경우 
- nn.NLLLoss 는 입력으로 확률 분포가 와야 하므로, Neural Network의 마지막 actiovation 함수로 LogSoftmax를 지정 한다.

In [9]:
from torch.distributions import Categorical

cross_entropyloss = nn.CrossEntropyLoss()
log_softmax = nn.LogSoftmax(dim=1)
negative_LLLoss = nn.NLLLoss()

# true label
Y = torch.tensor([0, 2, 1])  

# good prediction
y_pred_good = torch.tensor([[2.0, 1.0, 0.1], [0.5, 1.0, 3.1], [0.3, 1.0, 0.1]])
# bad prediction
y_pred_bad  = torch.tensor([[0.1, 1.0, 2.5], [3.1, 1.0, 0.5], [3.1, 0.1, 2.5]])

print("argmax index")
_, pred1 = torch.max(y_pred_good, 1)
print(_, pred1)

_, pred2 = torch.max(y_pred_bad, 1)
print(_, pred2)

argmax index
tensor([2.0000, 3.1000, 1.0000]) tensor([0, 2, 1])
tensor([2.5000, 3.1000, 3.1000]) tensor([2, 0, 0])


In [10]:
# CrossEntropy Loss
loss_good = cross_entropyloss(y_pred_good, Y)
loss_bad = cross_entropyloss(y_pred_bad, Y)
print('nn.CrossEntropyLoss() 사용 결과 :')
print(loss_good.item(), loss_bad.item())
print()

# NLLLoss
m1 = log_softmax(y_pred_good)
m2 = log_softmax(y_pred_bad)

loss_good = negative_LLLoss(m1, Y)
loss_bad = negative_LLLoss(m2, Y)
print('nn.LogSoftmax() + nn.NLLLoss() 사용 결과 :')
print(loss_good.item(), loss_bad.item())

nn.CrossEntropyLoss() 사용 결과 :
0.41337862610816956 2.973893404006958

nn.LogSoftmax() + nn.NLLLoss() 사용 결과 :
0.41337862610816956 2.973893404006958


### forward method 의 return value

In [11]:
class Ex_NN(nn.Module):
    def __init__(self):
        super().__init__()
        self.linear1 = nn.Linear(2, 8)
        self.linear2 = nn.Linear(8, 3)
        self.log_softmax = nn.LogSoftmax(dim=1)
        
    def forward1(self, x):
        x = self.linear1(x)
        x = self.linear2(x)
        # CrossEntropyLoss를 사용할 경우
        # no log softmax at the end
        return x
    
    def forward2(self, x):
        x = self.linear1(x)
        x = self.linear2(x)
        # NLLLoss 를 사용할 경우
        # log softmax 를 output 에 사용
        x = self.log_softmax(x)
        return x

In [17]:
model = Ex_NN()

x = torch.FloatTensor([[20, 10], [10, 30], [10, 1]])
y = torch.tensor([0, 2, 1])
x

tensor([[20., 10.],
        [10., 30.],
        [10.,  1.]])

- CrossEntropyLoss 사용

In [20]:
loss = nn.CrossEntropyLoss()
logits = model.forward1(x)
print(loss(logits, y))

tensor(5.3101, grad_fn=<NllLossBackward0>)


- Negative Log Likelihood Loss 사용

In [21]:
loss = nn.NLLLoss()
prob = model.forward2(x)
print(loss(prob, y))

tensor(5.3101, grad_fn=<NllLossBackward0>)


### category 분류

In [22]:
print(prob)

tensor([[-1.3639e+00, -3.4139e-01, -3.3949e+00],
        [-5.9470e+00, -2.6188e-03, -1.3211e+01],
        [-8.9062e-01, -1.3551e+00, -1.1036e+00]],
       grad_fn=<LogSoftmaxBackward0>)


In [23]:
torch.argmax(prob, axis=-1)

tensor([1, 1, 0])

In [24]:
torch.max(prob, axis=-1)

torch.return_types.max(
values=tensor([-0.3414, -0.0026, -0.8906], grad_fn=<MaxBackward0>),
indices=tensor([1, 1, 0]))