# 각종 모듈 선언

In [None]:
# nn : neural network 에 필요한 각종 함수 *CrossEntropyLoss 등 포함
# tensor : array를 tensor type 로 바꿔줌
# max : 주어진 텐서 배열의 최대 값이 들어있는 index를 리턴하는 함수
from torch import nn, tensor, max 

# numpy : array 만들 때 사용
import numpy as np

# 1. Cross entropy 예시

In [None]:
# Cross entropy example
# One hot
# 0: 1 0 0
# 1: 0 1 0
# 2: 0 0 1
# y 실제값
Y = np.array([1, 0, 0])

# y 예측값 1,2
Y_pred1 = np.array([0.7, 0.2, 0.1]) # 최댓값 0.7의 index 가 y 실제값의 최댓값 index와 일치 -> right
Y_pred2 = np.array([0.1, 0.3, 0.6]) # 최댓값 0.6의 index 가 y 실제값 최댓값 index와 아예 다름 -> wrong

# -y*log(y_pred) 통해 오차 구함 --> 극적인 차이가 발생하지는 않는다.
print(f'Loss1: {np.sum(-Y * np.log(Y_pred1)):.4f}') # 출력 값 0.35 -> 낮은 오차
print(f'Loss2: {np.sum(-Y * np.log(Y_pred2)):.4f}') # 출력 값 2.3 -> 높은 오차

# 2. Softmax + CrossEntropy (LogSoftmax + NLLLoss) Tensor 행 1개 버전

### LogSoftmax 
LogSoftmax(xi) = log( exp(xi)  / ∑ j exp(xj) )
-> 특정 행에서 i번째 열의 exp(xi)값 / 특정 행의 모든 값에 exp취한 것의 합계
-> 나중에 손실함수에서 첫번째 argument 로 들어갈 y_pred 값에 적용

### NLLLoss (negative log likelihood loss)
-> 나중에 손실함수에서 
-> 첫번째 argument 로 들어갈 y_pred 값을 받음
-> 두번째 argument 로 들어갈 target : class 값인 y 값을 받아서 원 핫 인코딩
-> 
-ylog(y_pred) 연산 해줌(?)

In [None]:
# Softmax + CrossEntropy (logSoftmax + NLLLoss)
loss = nn.CrossEntropyLoss()

##  target y 초기화 - [0] : 행 1개 짜리 [1,0,0] 원핫을 class 로 사용할 것임

In [None]:
# target is of size nBatch
# each element in target has to have 0 <= value < nClasses (0-2)
# Input is class, not one-hot
Y = tensor([0], requires_grad=False)

## y_pred 선언 (logit 선언)

In [None]:
# input is of size nBatch x nClasses = 1 x 4
# Y_pred are logits (not softmax)
Y_pred1 = tensor([[2.0, 1.0, 0.1]])
Y_pred2 = tensor([[0.5, 2.0, 0.3]])

## Test

In [None]:
# Y_pred 는 input softmax 적용이 안된 logit 단계
# Y 는 class
l1 = loss(Y_pred1, Y)
l2 = loss(Y_pred2, Y)

print(f'PyTorch Loss1: {l1.item():.4f} \nPyTorch Loss2: {l2.item():.4f}') # 0.41, 1.84
print(f'Y_pred1: {max(Y_pred1.data, 1)[1].item()}') 
print(f'Y_pred2: {max(Y_pred2.data, 1)[1].item()}')

# 3. Softmax + CrossEntropy (LogSoftmax + NLLLoss) Tensor 미니배치버전

##  target y 초기화 - [2,0,1] : 행 3개 짜리 [[0,0,1],[1,0,0],[0,1,0]] 원핫을 class 로 사용할 것임

In [None]:
# target is of size nBatch
# each element in target has to have 0 <= value < nClasses (0-2)
# Input is class, not one-hot
Y = tensor([2, 0, 1], requires_grad=False) 




## y_pred 미니배치 선언 (logit 선언)

In [None]:
# input is of size nBatch x nClasses = 2 x 4
# Y_pred are logits (not softmax)
Y_pred1 = tensor([[0.1, 0.2, 0.9],
                  [1.1, 0.1, 0.2],
                  [0.2, 2.1, 0.1]])

Y_pred2 = tensor([[0.8, 0.2, 0.3],
                  [0.2, 0.3, 0.5],
                  [0.2, 0.2, 0.5]])

## Test

In [None]:
l1 = loss(Y_pred1, Y)
l2 = loss(Y_pred2, Y)
print(f'Batch Loss1:  {l1.item():.4f} \nBatch Loss2: {l2.data:.4f}') # 0.5, 1.24