원본: https://pytorch.org/tutorials/beginner/deep_learning_nlp_tutorial.html

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#DEEP-LEARNING-FOR-NLP-WITH-PYTORCH" data-toc-modified-id="DEEP-LEARNING-FOR-NLP-WITH-PYTORCH-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>DEEP LEARNING FOR NLP WITH PYTORCH</a></span><ul class="toc-item"><li><span><a href="#Deep-Learning-Building-Blocks:-Affine-maps,-non-linearities-and-objectives" data-toc-modified-id="Deep-Learning-Building-Blocks:-Affine-maps,-non-linearities-and-objectives-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Deep Learning Building Blocks: Affine maps, non-linearities and objectives</a></span></li><li><span><a href="#Affine-Maps" data-toc-modified-id="Affine-Maps-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Affine Maps</a></span></li><li><span><a href="#Non-Linearities" data-toc-modified-id="Non-Linearities-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Non-Linearities</a></span></li><li><span><a href="#Softmax-and-Probabilities" data-toc-modified-id="Softmax-and-Probabilities-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Softmax and Probabilities</a></span></li><li><span><a href="#Objective-Functions" data-toc-modified-id="Objective-Functions-1.5"><span class="toc-item-num">1.5&nbsp;&nbsp;</span>Objective Functions</a></span></li><li><span><a href="#Optimization-and-Training" data-toc-modified-id="Optimization-and-Training-1.6"><span class="toc-item-num">1.6&nbsp;&nbsp;</span>Optimization and Training</a></span></li><li><span><a href="#Creating-Network-Components-in-PyTorch" data-toc-modified-id="Creating-Network-Components-in-PyTorch-1.7"><span class="toc-item-num">1.7&nbsp;&nbsp;</span>Creating Network Components in PyTorch</a></span></li><li><span><a href="#Example:-Logistic-Regression-Bag-of-Words-classifier" data-toc-modified-id="Example:-Logistic-Regression-Bag-of-Words-classifier-1.8"><span class="toc-item-num">1.8&nbsp;&nbsp;</span>Example: Logistic Regression Bag-of-Words classifier</a></span></li></ul></li></ul></div>

# DEEP LEARNING FOR NLP WITH PYTORCH

## Deep Learning Building Blocks: Affine maps, non-linearities and objectives

딥러닝은 영리한 방법으로 비선형성을 가진 선형성을 구성하는 것으로 이루어집니다. 

비선형성의 도입은 강력한 모델을 가능하게 합니다. 

이 섹션에서 이 핵심 구성 요소를 다루고, 객체 함수를 만들고, 어떻게 모델이 학습되지는 살펴봅시다.

## Affine Maps

딥러닝의 핵심 요소 중 하나는 affine map입니다. 

이것은 함수 f (x)입니다.

$$f(x) = Ax + b$$

행렬 A 및 벡터 x, b에 대해. 여기서 학습해야 할 모수는 A와 b입니다. 종종 b는 편항이라고합니다.

PyTorch 및 대부분의 다른 딥 러닝 프레임 워크는 기존 선형 대수와 약간 다르게 작동합니다. 

열 대신 입력 행을 매핑합니다. 

즉, 아래 출력의 i 번째 행은 A의 i 번째 행과 편항을 매핑 한 것입니다.

아래 예를보십시오.

In [1]:
# Author: Robert Guthrie

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

torch.manual_seed(1)

<torch._C.Generator at 0x2c1801dc1f0>

In [2]:
lin = nn.Linear(5, 3)  # maps from R^5 to R^3, parameters A, b
# data is 2x5.  A maps from 5 to 3... can we map "data" under A?
data = torch.randn(2, 5)
print(lin(data))  # yes

tensor([[ 0.1755, -0.3268, -0.5069],
        [-0.6602,  0.2260,  0.1089]], grad_fn=<AddmmBackward>)


## Non-Linearities

먼저 다음 사실을 주목하십시오. 

왜냐하면 처음에 비선형성이 왜 필요한지 설명 할 것입니다. 

두 개의 affin map f(x) = Ax + b와 g(x) = Cx + d가 있다고 가정합니다. f(g(x)) 란 무엇입니까?

f(g(x))=A(Cx+d)+b=ACx+(Ad+b)

AC는 행렬이고 Ad + b는 벡터이므로 affine map을 구성하면 affine map을 얻을 수 있습니다.

affine layer 사이에 비선형성을 도입하면 훨씬 더 강력한 모델을 만들 수 있습니다.

몇 가지 핵심적인 비선형성이 있습니다. tanh(x), σ(x), ReLU(x)가 가장 일반적입니다. 

아마도 궁금 할 것입니다. "이러한 기능이 왜 작동합니까? 다른 많은 비선형 성도 생각할 수 있습니다."

그 이유는 계산하기 쉬운 그라디언트가 있고 그라디언트 계산이 학습에 필수적이기 때문입니다.

In [3]:
# In pytorch, most non-linearities are in torch.functional (we have it imported as F)
# Note that non-linearites typically don't have parameters like affine maps do.
# That is, they don't have weights that are updated during training.
data = torch.randn(2, 2)
print(data)
print(F.relu(data))

tensor([[-0.5404, -2.2102],
        [ 2.1130, -0.0040]])
tensor([[0.0000, 0.0000],
        [2.1130, 0.0000]])


## Softmax and Probabilities

Softmax(x) 함수는 비선형성을 가질 뿐만 아니라 일반적으로 네트워크에서 마지막으로 수행된다는 점에서 특별합니다. 

실수로 구성된 벡터를 받아서 확률 분포로 반환하기 때문입니다.

그런 다음 Softmax(x)의 i 번째 구성 요소는

$$ \frac{\exp(x_i)}{\sum_j \exp(x_j)} $$

결과는 확률 분포임이 분명해야합니다. 각 요소는 음수가 아니고 모든 구성 요소의 합은 1입니다.

In [4]:
# Softmax is also in torch.nn.functional
data = torch.randn(5)
print(data)
print(F.softmax(data, dim=0))
print(F.softmax(data, dim=0).sum())  # Sums to 1 because it is a distribution!
print(F.log_softmax(data, dim=0))  # theres also log_softmax

tensor([ 1.3800, -1.3505,  0.3455,  0.5046,  1.8213])
tensor([0.2948, 0.0192, 0.1048, 0.1228, 0.4584])
tensor(1.)
tensor([-1.2214, -3.9519, -2.2560, -2.0969, -0.7801])


## Objective Functions

목적함수는 네트워크가 무엇인가를 최소화하도록 훈련되는 함수입니다(이 경우 손실함수 또는 비용함수라고도 함).

먼저 훈련 인스턴스를 선택하고 신경망을 통해 실행 한 다음 출력의 손실을 계산합니다.

그 다음, 손실함수에 미분을 취하여 모델의 파라미터를 업데이트합니다.

직관적으로 모델이 답변을 확신하지만 만약 답변이 틀리다면 손실이 커질 것입니다. 

하지만 답변에 확신이 있고 만약 답변이 정확하다면 손실은 감소할 것입니다.

손실 함수의 예로는 negative log likelihood loss로, 이는 다중 클래스 분류 문제의 경우에 일반적으로 사용됩니다.

## Optimization and Training

그렇다면 인스턴스에 대한 손실 함수를 계산할 수있는 것은 무엇입니까? 

우리는 그걸로 무엇을합니까? 

우리는 텐서가 그라디언트를 계산하는데 사용 된 것들과 관련하여 그라디언트를 계산하는 방법을 알고 있음을 앞에서 보았습니다. 

우리의 손실은 텐서이므로, 계산에 사용된 모든 파라미터와 관련하여 기울기를 계산할 수 있습니다! 

그런 다음 그라디언트 업데이트를 수행 할 수 있습니다. 

θ를 우리의 매개 변수, L(θ) 손실 함수, η을 학습률이라고 합시다. 

$$ \theta^{(t+1)} = \theta^{(t)} - \eta \nabla_\theta L(\theta) $$

이 바닐라 그래디언트 업데이트 이외의 다른 작업을 시도하는 방대한 알고리즘과 연구들이 있었습니다.

하지만 실제로 관심이 없다면 이러한 알고리즘이 무엇을하고 있는지에 대해 걱정할 필요가 없습니다. 

Torch는 torch.optim 패키지에 많은 것을 제공하며, 명쾌합니다.

네트워크의 성능을 최적화하려면 업데이트 알고리즘에 대해 다른 업데이트 알고리즘과 다른 파라미터 (예 : 초기 학습률)를 시도하는 것이 중요합니다. 

종종 바닐라 SGD를 Adam 또는 RMSProp와 같은 최적화 옵티마이저로 교체하면 성능이 현저하게 향상됩니다.

## Creating Network Components in PyTorch

NLP에 초점을 맞추기 전에 affine map과 비선형성만 사용하여 PyTorch에 네트워크를 구축하는 예를 들어 보겠습니다. 

또한 PyTorch에 내장된 negative log likelihood loss를 사용하여 손실 함수를 계산하고, 역전파를 통해 파라미터를 업데이트하는 방법도 살펴 봅니다.

모든 네트워크 구성 요소는 nn.Module에서 상속하고 forward() 메서드를 override 해야합니다.

nn.Module에서 상속하여 구성 요소에 기능을 제공합니다.

예제로 희소한 bag-of-words 단어를 표현하고 "English"와 "Spanish"라는 두 레이블에 대한 확률 분포를 출력하는 네트워크를 작성해 봅시다. 

이 모델은 로지스틱 회귀입니다.

## Example: Logistic Regression Bag-of-Words classifier

우리는 vocab의 각 단어에 index를 할당합니다. 

예를 들어, 우리의 전체 어휘가 "hello"와 "world"라는 두 단어이며 각각 index 0과 1을 가지고 있다고 가정하십시오. 

"hello hello hello hello" 문장의 BoW 벡터는 [4,0]이며, "hello world world hello"는 [2,2]로 나타낼 수 있습니다. 

이는 일반적으로 BoW백터를 [Count(hello),Count(world)]로 나타낼 수 있습니다.

우리 네트워크의 출력은 다음과 같습니다.

$$ \log \text{Softmax}(Ax + b) $$

즉, 입력을 affin map을 통해 전달한 다음 log softmax를 수행합니다.

In [16]:
data = [("me gusta comer en la cafeteria".split(), "SPANISH"),
        ("Give it to me".split(), "ENGLISH"),
        ("No creo que sea una buena idea".split(), "SPANISH"),
        ("No it is not a good idea to get lost at sea".split(), "ENGLISH")]

test_data = [("Yo creo que si".split(), "SPANISH"),
             ("it is lost on me".split(), "ENGLISH")]

# word_to_ix maps each word in the vocab to a unique integer, which will be its
# index into the Bag of words vector
word_to_ix = {}
for sent, _ in data + test_data:
    for word in sent:
        if word not in word_to_ix:
            word_to_ix[word] = len(word_to_ix)
print(word_to_ix)

VOCAB_SIZE = len(word_to_ix)
NUM_LABELS = 2


class BoWClassifier(nn.Module):  # inheriting from nn.Module!

    def __init__(self, num_labels, vocab_size):
        # calls the init function of nn.Module.  Dont get confused by syntax,
        # just always do it in an nn.Module
        super(BoWClassifier, self).__init__()

        # Define the parameters that you will need.  In this case, we need A and b,
        # the parameters of the affine mapping.
        # Torch defines nn.Linear(), which provides the affine map.
        # Make sure you understand why the input dimension is vocab_size
        # and the output is num_labels!
        self.linear = nn.Linear(vocab_size, num_labels)

        # NOTE! The non-linearity log softmax does not have parameters! So we don't need
        # to worry about that here

    def forward(self, bow_vec):
        # Pass the input through the linear layer,
        # then pass that through log_softmax.
        # Many non-linearities and other functions are in torch.nn.functional
        return F.log_softmax(self.linear(bow_vec), dim=1)


def make_bow_vector(sentence, word_to_ix):
    vec = torch.zeros(len(word_to_ix))
    for word in sentence:
        vec[word_to_ix[word]] += 1
    return vec.view(1, -1)


def make_target(label, label_to_ix):
    return torch.LongTensor([label_to_ix[label]])


model = BoWClassifier(NUM_LABELS, VOCAB_SIZE)

# the model knows its parameters.  The first output below is A, the second is b.
# Whenever you assign a component to a class variable in the __init__ function
# of a module, which was done with the line
# self.linear = nn.Linear(...)
# Then through some Python magic from the PyTorch devs, your module
# (in this case, BoWClassifier) will store knowledge of the nn.Linear's parameters
for param in model.parameters():
    print(param)

# To run the model, pass in a BoW vector
# Here we don't need to train, so the code is wrapped in torch.no_grad()
with torch.no_grad():
    sample = data[0]
    bow_vector = make_bow_vector(sample[0], word_to_ix)
    print(bow_vector)
    log_probs = model(bow_vector)
    print(log_probs)

{'me': 0, 'gusta': 1, 'comer': 2, 'en': 3, 'la': 4, 'cafeteria': 5, 'Give': 6, 'it': 7, 'to': 8, 'No': 9, 'creo': 10, 'que': 11, 'sea': 12, 'una': 13, 'buena': 14, 'idea': 15, 'is': 16, 'not': 17, 'a': 18, 'good': 19, 'get': 20, 'lost': 21, 'at': 22, 'Yo': 23, 'si': 24, 'on': 25}
Parameter containing:
tensor([[ 0.1860, -0.1301,  0.0245,  0.1464,  0.1421,  0.1218, -0.1419, -0.1412,
         -0.1186,  0.0246,  0.1955, -0.1239,  0.1045, -0.1085, -0.1844, -0.0417,
          0.1130,  0.1821, -0.1218,  0.0426,  0.1692,  0.1300,  0.1222,  0.1394,
          0.1240,  0.0507],
        [-0.1341, -0.1647, -0.0899, -0.0228, -0.1202,  0.0717,  0.0607, -0.0444,
          0.0754,  0.0634,  0.1197,  0.1321, -0.0664,  0.1916, -0.0227, -0.0067,
         -0.1851, -0.1262, -0.1146, -0.0839,  0.1394, -0.0641, -0.1466,  0.0755,
          0.0628,  0.1270]], requires_grad=True)
Parameter containing:
tensor([-0.1015,  0.0425], requires_grad=True)
tensor([[1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 

위의 값 중 ENGLISH, SPANISH의 로그 확률과 일치하는 값은 무엇입니까? 

우리는 정의하지 않았지만, 훈련시키고 싶다면 어느 것인지 정의를 해야합니다.

In [7]:
label_to_ix = {"SPANISH": 0, "ENGLISH": 1}

이제 훈련을 해봅시다!

이를 위해 인스턴스를 통해 로그 확률을 얻고 손실 함수를 계산하고 손실 함수의 기울기를 계산 한 다음 단계로 파라미터를 업데이트합니다. 

손실함수는 Torch의 nn패키지에서 제공합니다. 

nn.NLLLoss()는 우리가 원하는 negative log likelihood loss입니다. 

또한 torch.optim에 최적화 기능을 정의합니다. 여기서는 SGD만 사용하겠습니다.

NLLLoss에 대한 입력 값은 로그 확률로 구성된 벡터이며 대상 레이블입니다. 

우리가 직접 로그 확률을 계산하지 않습니다. 

이것이 네트워크의 마지막 계층이 log softmax인 이유입니다. 

손실 함수 nn.CrossEntropyLoss ()는 log softmax를 제외하고 NLLLoss ()와 동일합니다.

In [8]:
with torch.no_grad():
    for instance, label in test_data:
        bow_vec = make_bow_vector(instance, word_to_ix)
        log_probs = model(bow_vec)
        print(log_probs)

# Print the matrix column corresponding to "creo"
print(next(model.parameters())[:, word_to_ix["creo"]])

loss_function = nn.NLLLoss()
optimizer = optim.SGD(model.parameters(), lr=0.1)

# Usually you want to pass over the training data several times.
# 100 is much bigger than on a real data set, but real datasets have more than
# two instances.  Usually, somewhere between 5 and 30 epochs is reasonable.
for epoch in range(100):
    for instance, label in data:
        # Step 1. Remember that PyTorch accumulates gradients.
        # We need to clear them out before each instance
        model.zero_grad()

        # Step 2. Make our BOW vector and also we must wrap the target in a
        # Tensor as an integer. For example, if the target is SPANISH, then
        # we wrap the integer 0. The loss function then knows that the 0th
        # element of the log probabilities is the log probability
        # corresponding to SPANISH
        bow_vec = make_bow_vector(instance, word_to_ix)
        target = make_target(label, label_to_ix)

        # Step 3. Run our forward pass.
        log_probs = model(bow_vec)

        # Step 4. Compute the loss, gradients, and update the parameters by
        # calling optimizer.step()
        loss = loss_function(log_probs, target)
        loss.backward()
        optimizer.step()

with torch.no_grad():
    for instance, label in test_data:
        bow_vec = make_bow_vector(instance, word_to_ix)
        log_probs = model(bow_vec)
        print(log_probs)

# Index corresponding to Spanish goes up, English goes down!
print(next(model.parameters())[:, word_to_ix["creo"]])

tensor([[-0.9297, -0.5020]])
tensor([[-0.6388, -0.7506]])
tensor([-0.1488, -0.1313], grad_fn=<SelectBackward>)
tensor([[-0.2093, -1.6669]])
tensor([[-2.5330, -0.0828]])
tensor([ 0.2803, -0.5605], grad_fn=<SelectBackward>)


우리는 정답을 얻었습니다! 

첫 번째 예에서는 스페인어의 로그 확률이 훨씬 높고, 테스트 데이터의 경우 영어의 로그 확률이 두번째로 훨씬 높음을 알 수 있습니다.

이제 PyTorch 구성 요소를 작성하고 일부 데이터를 전달하며 그라디언트 업데이트를 수행하는 방법을 살펴 보았습니다. 

우리는 NLP가 제공하는 것에 대해 더 깊이 파고들 준비가되어 있습니다.