In [15]:
# one hot encoding
# 선택지의 개수만큼의 차원을 가지며
# 각 선택지의 인덱스에 해당하는 원소에 1 나머지에 0
# one-hot-encoding으로 얻은 벡터
# one-hot-vector
# 각 class간의 관계가 균등! (표현 방법이 무작위성을 가짐!!)
# 정수 encoding은 부여된 수가
# class간의 관계에 대한 오해를 불러일으킬 수 있음

In [16]:
#SoftMax! => Multi-Class Classification!
#확률의 총합이 1이 되도록 함!
#선택지의 개수만큼 차원을 가지는 벡터 생성
#해당 벡터가 벡터의 모든 원소의 합이 1이 되도록!

#만약 3개의 class로 classification하는 문제라면,
#n차원의 입력 => 3차원의 vector
#n번째 class일 확률 = vector의 n번째 요소를 SoftMax에 입력한 결과
#[1번째 class일 확률, 2번째 class일 확률, 3번째 class일 확률]
#이런 식의 OutPut

#오차는 정답에 해당하는 One Hot Vector와의 Cross Entropy로 구함


In [17]:
import torch
import torch.nn.functional as F

In [18]:
torch.manual_seed(1)

<torch._C.Generator at 0x7828dc3894b0>

In [19]:
z = torch.FloatTensor([1, 2, 3])

#dim=0 => column단위로 정규화!
hypothesis = F.softmax(z, dim=0)
print(hypothesis)

tensor([0.0900, 0.2447, 0.6652])


In [20]:
hypothesis.sum()

tensor(1.)

In [21]:
z = torch.rand(3, 5, requires_grad=True)

#dim=1 row 단위로 정규화! (2번째 차원)
hypothesis = F.softmax(z, dim=1)
print(hypothesis)

tensor([[0.2645, 0.1639, 0.1855, 0.2585, 0.1277],
        [0.2430, 0.1624, 0.2322, 0.1930, 0.1694],
        [0.2226, 0.1986, 0.2326, 0.1594, 0.1868]], grad_fn=<SoftmaxBackward0>)


In [22]:
y = torch.randint(5, (3,)).long()
print(y)

tensor([0, 2, 1])


In [23]:
# 모든 원소가 0의 값을 가진 3 × 5 텐서 생성
y_one_hot = torch.zeros_like(hypothesis)
y_one_hot.scatter_(1, y.unsqueeze(1), 1)

tensor([[1., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0.],
        [0., 1., 0., 0., 0.]])

In [24]:
print(y.unsqueeze(1))

tensor([[0],
        [2],
        [1]])


In [25]:
print(y_one_hot)

tensor([[1., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0.],
        [0., 1., 0., 0., 0.]])


In [26]:
cost = (y_one_hot * -torch.log(hypothesis)).sum(dim=1).mean()
print(cost)

tensor(1.4689, grad_fn=<MeanBackward0>)


In [27]:
# Low level
torch.log(F.softmax(z, dim=1))

tensor([[-1.3301, -1.8084, -1.6846, -1.3530, -2.0584],
        [-1.4147, -1.8174, -1.4602, -1.6450, -1.7758],
        [-1.5025, -1.6165, -1.4586, -1.8360, -1.6776]], grad_fn=<LogBackward0>)

In [28]:
# High level
F.log_softmax(z, dim=1)

tensor([[-1.3301, -1.8084, -1.6846, -1.3530, -2.0584],
        [-1.4147, -1.8174, -1.4602, -1.6450, -1.7758],
        [-1.5025, -1.6165, -1.4586, -1.8360, -1.6776]],
       grad_fn=<LogSoftmaxBackward0>)

In [29]:
# Low level
# 첫번째 수식
(y_one_hot * -torch.log(F.softmax(z, dim=1))).sum(dim=1).mean()

tensor(1.4689, grad_fn=<MeanBackward0>)

In [30]:
# 두번째 수식
(y_one_hot * - F.log_softmax(z, dim=1)).sum(dim=1).mean()

tensor(1.4689, grad_fn=<MeanBackward0>)

In [31]:
# High level
# 세번째 수식
F.nll_loss(F.log_softmax(z, dim=1), y)

tensor(1.4689, grad_fn=<NllLossBackward0>)

In [32]:
# 네번째 수식
F.cross_entropy(z, y)

tensor(1.4689, grad_fn=<NllLossBackward0>)