In [2]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import torch.utils.data as data_utils

## (핸들링) 텐서 다루기 https://wikidocs.net/52460

- 자연어 처리는 보통 (batch size, 문장 길이, 단어 벡터의 차원)이라는 3차원 텐서를 사용함
    - 문장 샘플들, 문장 샘플들의 길이(단어 수), 해당 문장에 대한 차원(밀집 벡터)

In [77]:
# 3차원 감각 익히기
t = np.array([[[0, 1, 2, 4], [3, 4, 5, 4], [2, 5, 4, 3]],
            [[6, 7, 8, 4], [9, 10, 11, 4], [8, 13, 24, 5]]])
ft = torch.FloatTensor(t)

In [16]:
print(ft.shape)  # 샘플의 최종 묶음(문장)은 두개, 세개 단어씩, 그리고 각 문장마다 표현할 밀집 벡터. 가장 바깥쪽 괄호부터 하나씩 진입해서 보면 눈에 보인다

torch.Size([2, 2, 3])


##### 4) 뷰

In [3]:
# 4) 뷰 (https://wikidocs.net/52846)
t = np.array([[[0, 1, 2],
               [3, 4, 5]],
              [[6, 7, 8],
               [9, 10, 11]]])
ft = torch.FloatTensor(t)

In [10]:
print(ft)
print(ft.shape)

tensor([[[ 0.,  1.,  2.],
         [ 3.,  4.,  5.]],

        [[ 6.,  7.,  8.],
         [ 9., 10., 11.]]])
torch.Size([2, 2, 3])


In [11]:
# 3차원 to 2차원
print(ft.view([-1, 3])) # ft라는 텐서를 (?, 3)의 크기로 변경
print(ft.view([-1, 3]).shape)  # -1은 파이토치에게 맡기는 것. 결과적으로 (4, 3)의 크기를 가지는 텐서로 처리됨

tensor([[ 0.,  1.,  2.],
        [ 3.,  4.,  5.],
        [ 6.,  7.,  8.],
        [ 9., 10., 11.]])
torch.Size([4, 3])


In [17]:
# 3차원 텐서 크기만 변경(샘플 개수)
print(ft.view([-1, 1, 3]))
print(ft.view([-1, 1, 3]).shape)

tensor([[[ 0.,  1.,  2.]],

        [[ 3.,  4.,  5.]],

        [[ 6.,  7.,  8.]],

        [[ 9., 10., 11.]]])
torch.Size([4, 1, 3])


##### 5) 스퀴즈 - 1인 차원을 제거

In [39]:
# 5) 스퀴즈 - 1인 차원을 제거함
ft = torch.FloatTensor([[0], [1], [2]])  # 2차원
print(ft)
print(ft.shape)

tensor([[0.],
        [1.],
        [2.]])
torch.Size([3, 1])


In [23]:
print(ft.squeeze())   # 1인 차원이 제거되어 1차원 벡터로 변환됨
print(ft.squeeze().shape)

tensor([0., 1., 2.])
torch.Size([3])


##### 6) 언스퀴즈 - 특정 위치에 1인 차원을 추가

In [30]:
# 특정 위치에 1인 차원을 추가함
ft = torch.Tensor([0, 1, 2])  # 1차원
print(ft.shape)

torch.Size([3])


In [31]:
print(ft.unsqueeze(0)) # 인덱스가 0부터 시작하므로 0은 첫번째 차원을 의미
print(ft.unsqueeze(0).shape)

tensor([[0., 1., 2.]])
torch.Size([1, 3])


In [43]:
# 동일한 처리를 view로
print(ft.view(1, -1))  # 첫번째 차원을 1로 (x축(행)이 1개), 두번째 차원은 임의
print(ft.view(1, -1).shape)
print(ft.view(3, -1))  # 첫번째 차원을 3으로 (x축(행)이 3개), 두번째 차원은 임의
print(ft.view(3, -1).shape)

tensor([[0., 1., 2.]])
torch.Size([1, 3])
tensor([[0.],
        [1.],
        [2.]])
torch.Size([3, 1])


In [24]:
# Question
ft = torch.FloatTensor([[0, 1, 2]])  # 2차원
ft2 = torch.FloatTensor([[0], [1], [2]])  # 2차원
print(ft.shape)
print(ft2.shape)

# 1) ft.unsqueeze(1)
#ft.unsqueeze(0).shape

# 2) ft.unsquessze(-1)

# 3) view
ft2.view(1, 3, -1)

torch.Size([1, 3])
torch.Size([3, 1])


tensor([[[0.],
         [1.],
         [2.]]])

In [32]:
ft.view(1, 3, -1)

tensor([[[0.],
         [1.],
         [2.]]])

In [33]:
ft3 = torch.FloatTensor([[[0, 1, 2]]])
ft3.shape

torch.Size([1, 1, 3])

In [37]:
# make 1, 3, 2
torch.FloatTensor([[[2, 1],[3, 4],[4, 3]]]).shape

torch.Size([1, 3, 2])

## (개념) 단어의 표현 방법 https://wikidocs.net/60852


### 원핫 인코딩 한계
 1. 단어 개수가 늘어날수록 벡터 공간도 함께 늘어남(저장 공간 측면에서 매우 비효율적)
 2. 단어의 유사도를 표현하지 못함

### 희소 표현(희소 벡터)
 - 벡터 또는 행렬(matrix)의 값이 대부분 0으로 표현되는 방법을 희소 표현(sparse representation)이라고 함). 원-핫 벡터는 희소 벡터이다(원핫 인코딩의 한계를 그대로 가짐)
 
 Ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0] # 이 때 1 뒤의 0의 수는 9995개. 차원은 10,000 (단어가 10,000개라고 가정 시)
 
### 밀집 표현(밀집 벡터)
 - 사용자가 밀집 표현의 차원을 128로 설정한다면, 모든 단어의 벡터 표현의 차원은 128로 바뀌면서 모든 값이 실수가 된다.
 
 Ex) 강아지 = [0.2 1.8 1.1 -2.1 1.1 2.8 ... 중략 ...] # 이 벡터의 차원은 128
 
### 워드 임베딩
 - 단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩이라고 함. 그리고 이 밀집 벡터를 워드임베딩 과정을 통해 나온 결과라고 하여 임베딩 벡터라고도 한다.
 
 - 워드 임베딩 방법론으로는 LSA, Word2Vec, FastText, Glove 등이 있음 
 - Pytorch 에서 제공하는 도구인 nn.embedding()는 앞서 언급한 방법들을 사용하지는 않지만, 단어를 랜덤한 값을 가지는 밀집 벡터로 변환한 뒤에, 인공 신경망의 가중치를 학습하는 것과 같은 방식으로 단어 벡터를 학습하는 방법을 사용함
 
### 워드투벡터(Word2Vec)
 - 단어 간 유사도를 반영할 수 있도록 단어의 의미를 벡터화 하는 방법
 - 분산 표현 : 단어의 '의미'를 다차원 공간에 벡터화하는 방법
 - 이렇게 분산 표현을 이용하여 단어의 유사도를 벡터화하는 작업은 워드 임베딩(embedding) 작업에 속하기 때문에 이렇게 표현된 벡터 또한 임베딩 벡터(embedding vector)라고 하며, 저차원을 가지므로 바로 앞의 챕터에서 배운 밀집 벡터(dense vector)에도 속함
 
### 분산표현
 - 요약하면 희소 표현이 고차원에 각 차원이 분리된 표현 방법이었다면, 분산 표현은 저차원에 단어의 의미를 여러 차원에다가 분산하여 표현한다. 이런 표현 방법을 사용하면 단어 간 유사도를 계산할 수 있다.

 - 이를 위한 학습 방법으로는 NNLM, RNNLM 등이 있으나 요즘에는 해당 방법들의 속도를 대폭 개선시킨 Word2Vec가 많이 쓰이고 있다.

---------------------------------------------

### PyTorch의 nn.Embedding()
- 파이토치에서는 임베딩 벡터를 사용하는 방법이 크게 두 가지가 있다. 
    - 임베딩 층(embedding layer)을 만들어 훈련 데이터로부터 처음부터 임베딩 벡터를 학습하는 방법
    - 미리 사전에 훈련된 임베딩 벡터(pre-trained word embedding)들을 가져와 사용하는 방법
    
### 임베딩 층은 룩업 테이블이다.
- 임베딩 층의 입력으로 사용하기 위해서 입력 시퀀스의 각 단어들은 모두 정수 인코딩이 되어있어야 한다

어떤 단어 → 단어에 부여된 고유한 정수값 → 임베딩 층 통과 → 밀집 벡터

1) 임베딩 층은 입력 정수에 대해 밀집 벡터(dense vector)로 매핑

2) 이 밀집 벡터는 인공 신경망의 학습 과정에서 가중치가 학습되는 것과 같은 방식으로 훈련됨. 

3) 훈련 과정에서 단어는 모델이 풀고자하는 작업에 맞는 값으로 업데이트 된다. 

이 밀집 벡터를 임베딩 벡터라고 부른다.
    

정수를 밀집 벡터 또는 임베딩 벡터로 맵핑한다는 것은 어떤 의미일까요? 특정 단어와 맵핑되는 정수를 인덱스로 가지는 테이블로부터 임베딩 벡터 값을 가져오는 룩업 테이블이라고 볼 수 있습니다. 그리고 이 테이블은 단어 집합의 크기만큼의 행을 가지므로 모든 단어는 고유한 임베딩 벡터를 가집니다.

룩업테이블에 있는 단어의 임베딩 벡터들은 역전파 과정에서 값이 학습된다.

In [4]:
import torch
train_data = 'you need to know how to code'
word_set = set(train_data.split()) # 중복을 제거한 단어들의 집합인 단어 집합 생성.
vocab = {word: i+2 for i, word in enumerate(word_set)}  # 단어 집합의 각 단어에 고유한 정수 매핑.
vocab['<unk>'] = 0
vocab['<pad>'] = 1
print(vocab)

{'to': 2, 'code': 3, 'need': 4, 'know': 5, 'you': 6, 'how': 7, '<unk>': 0, '<pad>': 1}


In [5]:
# 단어 집합의 크기만큼의 행을 가지는 테이블 생성. (임베딩 벡터의 차원은 3이라 가정)
embedding_table = torch.FloatTensor([
                               [ 0.0,  0.0,  0.0],  # 0
                               [ 0.0,  0.0,  0.0],  # 1
                               [ 0.2,  0.9,  0.3],  # 2
                               [ 0.1,  0.5,  0.7],  # 3
                               [ 0.2,  0.1,  0.8],  # 4
                               [ 0.4,  0.1,  0.1],  # 5
                               [ 0.1,  0.8,  0.9],  # 6
                               [ 0.6,  0.1,  0.1]])  # 7

In [8]:
# 임의의 샘플 문장
sample = 'you need to run'.split()
idxes=[]
# 각 단어를 정수로 변환
for word in sample:
  try:
    idxes.append(vocab[word])
  except KeyError: # 단어 집합에 없는 단어일 경우 <unk>로 대체된다.
    idxes.append(vocab['<unk>'])
idxes = torch.LongTensor(idxes) # tensor([6, 4, 2, 0])

# 룩업 테이블
lookup_result = embedding_table[idxes, :] # 각 정수를 인덱스로 임베딩 테이블에서 값을 가져온다.
print(lookup_result)

tensor([[0.1000, 0.8000, 0.9000],
        [0.2000, 0.1000, 0.8000],
        [0.2000, 0.9000, 0.3000],
        [0.0000, 0.0000, 0.0000]])


### 임베딩 층 사용하기

nn.Embedding은 크게 두 가지 인자를 받는데 각각 num_embeddings과 embedding_dim입니다.

 - num_embeddings : 임베딩을 할 단어들의 개수. 다시 말해 단어 집합의 크기.
 - embedding_dim : 임베딩 할 벡터의 차원. 사용자가 정해주는 하이퍼파라미터이다.
 - padding_idx : 선택적으로 사용하는 인자. 패딩을 위한 토큰의 인덱스를 알려준다.

In [None]:
train_data = 'you need to know how to code'
word_set = set(train_data.split()) # 중복을 제거한 단어들의 집합인 단어 집합 생성.
vocab = {tkn: i+2 for i, tkn in enumerate(word_set)}  # 단어 집합의 각 단어에 고유한 정수 맵핑.
vocab['<unk>'] = 0
vocab['<pad>'] = 1

In [11]:
import torch.nn as nn

embedding_layer = nn.Embedding(num_embeddings = len(vocab), 
                               embedding_dim = 3,
                               padding_idx = 1)

In [14]:
#print(embedding_layer)
print(embedding_layer.weight)

Parameter containing:
tensor([[ 2.8888,  1.5721,  0.5345],
        [ 0.0000,  0.0000,  0.0000],
        [-0.2195,  1.0877, -0.9658],
        [-0.9405,  0.2130,  1.4181],
        [ 0.8394,  0.2810,  0.8668],
        [ 0.2448, -0.5023,  0.9176],
        [-0.8760,  0.8622,  0.7863],
        [-0.4443,  0.6083, -0.7428]], requires_grad=True)


### 사전 훈련된 워드 임베딩(Pretrained Word Embedding) : https://wikidocs.net/64904
 - nn.Embedding()을 사용하는 것보다 다른 텍스트 데이터로 사전 훈련되어 있는 임베딩 벡터를 불러오는 것이 나은 선택일 수 있다.
 - 훈련 데이터가 적다면 파이토치의 nn.Embedding()으로 해당 문제에 충분히 특화된 임베딩 벡터를 만들어내는 것이 쉽지 않다. 이 경우, 해당 문제에 특화된 것은 아니지만 보다 일반적이고 보다 많은 훈련 데이터로 이미 Word2Vec이나 GloVe 등으로 학습되어져 있는 임베딩 벡터들을 사용하는 것이 성능의 개선을 가져올 수 있다.


In [25]:
from torchtext import data, datasets

ModuleNotFoundError: No module named 'torchtext'

## (구현부) 워드 임베딩

In [3]:
def make_batch(sentences):
    input_batch = [[src_vocab[n] for n in sentences[0].split()]] # input 문장을 단어로 분리 후 워드 임베딩
    output_batch = [[tgt_vocab[n] for n in sentences[1].split()]] # output 문장을 단어로 분리 후 워드 임베딩
    target_batch = [[tgt_vocab[n] for n in sentences[2].split()]] 
    return torch.LongTensor(input_batch), torch.LongTensor(output_batch), torch.LongTensor(target_batch)

In [4]:
src_vocab = {'P': 0, 'ich': 1, 'mochte': 2, 'ein': 3, 'bier': 4}
src_vocab_size = len(src_vocab)
print(src_vocab_size)
tgt_vocab = {'P': 0, 'i': 1, 'want': 2, 'a': 3, 'beer': 4, 'S': 5, 'E': 6}
number_dict = {i: w for i, w in enumerate(tgt_vocab)}
tgt_vocab_size = len(tgt_vocab)
print(tgt_vocab_size)
d_model = 512
print(d_model)

5
7
512


In [5]:
src_vocab_size = 5 # 단어 사전 크기
d_model = 512  # 단어 임베딩 크기 지정(하이퍼 파라미터)
src_len = 5 # length of source?
n_layers = 6  # number of Encoder of Decoder Layer
n_heads = 8  # number of heads in Multi-Head Attention

nn.Embedding(src_vocab_size, d_model) # 128 크기의 단어수 만큼 임베딩 벡터 공간을 만듬
# nn.Embedding.from_pretrained(get_sinusoid_encoding_table(src_len+1, d_model),freeze=True) # Positional Encoding
# nn.ModuleList([EncoderLayer() for _ in range(n_layers)]) # 인코더 레이어 생성. ModuleList를 활용하여 레이어 층만큼 반복 생성. 총 6개 생성


Embedding(5, 512)

In [6]:
d_model = 512  # 단어 임베딩 크기 지정(하이퍼 파라미터)
n_heads = 8  # number of heads in Multi-Head Attention
d_k = d_v = 64  # dimension of K(=Q), V

W_Q = nn.Linear(d_model, d_k * n_heads)  # input : 512 , output : 64 * 8(=512)
W_Q

Linear(in_features=512, out_features=512, bias=True)

In [7]:
sentences = ['ich mochte ein bier P', 'S i want a beer', 'i want a beer E']

In [8]:
src_vocab = {'P': 0, 'ich': 1, 'mochte': 2, 'ein': 3, 'bier': 4}
src_vocab

{'P': 0, 'bier': 4, 'ein': 3, 'ich': 1, 'mochte': 2}

In [9]:
tgt_vocab = {'P': 0, 'i': 1, 'want': 2, 'a': 3, 'beer': 4, 'S': 5, 'E': 6}
tgt_vocab

{'E': 6, 'P': 0, 'S': 5, 'a': 3, 'beer': 4, 'i': 1, 'want': 2}

In [10]:
number_dict = {i: w for i, w in enumerate(tgt_vocab)}
number_dict

{0: 'P', 1: 'i', 2: 'want', 3: 'a', 4: 'beer', 5: 'S', 6: 'E'}

In [11]:
input_batch = [[src_vocab[n] for n in sentences[0].split()]]
output_batch = [[tgt_vocab[n] for n in sentences[1].split()]]
target_batch = [[tgt_vocab[n] for n in sentences[2].split()]]

In [12]:
print(input_batch)
print(output_batch)
print(target_batch)

[[1, 2, 3, 4, 0]]
[[5, 1, 2, 3, 4]]
[[1, 2, 3, 4, 6]]


In [13]:
print(torch.LongTensor(input_batch))
print(torch.LongTensor(output_batch))
print(torch.LongTensor(target_batch))

tensor([[1, 2, 3, 4, 0]])
tensor([[5, 1, 2, 3, 4]])
tensor([[1, 2, 3, 4, 6]])


In [14]:
# 워드임베딩(각 단어 별 512 차원 할당)
src_emb = nn.Embedding(src_vocab_size, d_model)
src_emb

Embedding(5, 512)

In [15]:
enc_inputs, dec_inputs, target_batch = make_batch(sentences)

enc_outputs = src_emb(enc_inputs)  # 5개의 단어 512차원의 워드임베딩 확인
print(enc_outputs.shape)
print(enc_outputs)

torch.Size([1, 5, 512])
tensor([[[-0.4063,  1.4891,  0.1087,  ...,  0.1397,  0.4253, -0.3399],
         [-0.6871,  1.1994,  0.9692,  ..., -0.1375, -0.6566, -1.9956],
         [ 1.0790,  0.6000, -0.7118,  ..., -1.5002,  0.5742,  1.2614],
         [ 0.7972,  1.0337,  0.5715,  ..., -1.2297, -0.2310, -0.6980],
         [ 0.0772,  1.0031,  1.0915,  ..., -0.3470,  1.2601, -1.4068]]],
       grad_fn=<EmbeddingBackward>)


### (핸들링) Multihead Attention 연산

In [51]:
t1 = torch.rand([32, 128, 768])
print(t1.shape)

new_shape = t1.size()[:-1] + (12, 64)
print(new_shape)

q = t1.view(new_shape)
print(q.shape)

torch.Size([32, 128, 768])
torch.Size([32, 128, 12, 64])
torch.Size([32, 128, 12, 64])


### (개념) Multihead
https://catsirup.github.io/ai/2020/04/09/transformer-code.html  
http://incredible.ai/nlp/2020/02/29/Transformer/#261-q-k-and-v

예를 들어서 Q (256, 33, 512), K (256, 33, 512), V (256, 33, 512) 이렇게 embedding vectors가 있을때,
33은 33개의 단어가 있다는 뜻이고, 단어 하나당 512개의 dense vector로 표현이 된다.
이때 512에 해당되는 부분에 대해서, single attention을 하는 것이 아니라, 512이 부분을 
h개로 쪼개서 multi-head attention을 한다.

In [5]:
d_model = 512
n_head = 8
d_k = d_model//n_head
d_v = d_model//n_head
print(d_k)

Q = torch.rand(256, 33, d_model) # Encoder시에는 Q, K, V는 모두 동일하다
K = Q
V = Q

linear_q = nn.Linear(d_model, n_head * d_k, bias=False) # 512 * 512 (input * output)
linear_k = nn.Linear(d_model, n_head * d_k, bias=False) # 512 * 512 (input * output)
linear_v = nn.Linear(d_model, n_head * d_k, bias=False) # 512 * 512 (input * output)

q = linear_q(Q) # Linear Transformation (256, 33, 512)
print(q.shape)
k = linear_k(Q) # Linear Transformation (256, 33, 512)
v = linear_v(Q) # Linear Transformation (256, 33, 512)

# Multi Head : d_model(512) vector부분을 h개 (8개)로 나눈다
q_s = q.view(256, 33, n_head * d_k) # (256, 33, 8, 64)
k_s = k.view(256, 33, n_head * d_k) # (256, 33, 8, 64)
v_s = v.view(256, 33, n_head * d_v) # (256, 33, 8, 64)

64
torch.Size([256, 33, 512])


In [6]:
x = torch.rand(16, 32, 3)
y = x.transpose(0, 2)
print(y.shape)
z = x.permute(2, 1, 0)
print(z.shape)

p = x.transpose(-2, 0)
print(p.shape)

torch.Size([3, 32, 16])
torch.Size([3, 32, 16])
torch.Size([32, 16, 3])


## (모듈) MultiHead Attention Class

In [7]:
import torch.nn.functional as F

class MultiHeadAttention(nn.Module):
    """
    512인 embedding vector를 -> n_head에 따라서 나눈다.
    예를 들어, n_head=8일 경우 512 vector를 -> 8 * 64 vector 로 변형한다
    """

    def __init__(self, embed_dim: int, n_head: int, dropout: float = 0.1):
        super(MultiHeadAttention, self).__init__()

        self.embed_dim = embed_dim
        self.n_head = n_head
        self.dk = embed_dim // n_head
        self.dv = embed_dim // n_head

        self.linear_q = nn.Linear(embed_dim, embed_dim, bias=False)
        self.linear_v = nn.Linear(embed_dim, embed_dim, bias=False)
        self.linear_k = nn.Linear(embed_dim, embed_dim, bias=False)
        self.linear_f = nn.Linear(embed_dim, embed_dim, bias=False)  # Final linear layer

        self.attention = ScaleDotProductAttention(self.dk, dropout=dropout)

        self.dropout = nn.Dropout(dropout)

    def forward(self, q: torch.Tensor, k: torch.Tensor, v: torch.Tensor, mask: torch.Tensor) -> torch.Tensor:
        """
         * 마지막 skip connection 은 layer 부분에서 구현함
        """
        batch_size, n_head, dk, dv = q.size(0), self.n_head, self.dk, self.dv

        # Linear Transformation (256, 33, 512)
        # Multi Head : d_model(512) vector부분을 h개 (8개) 로 나눈다
        q = self.linear_q(q).view(batch_size, -1, n_head, dk)
        k = self.linear_k(k).view(batch_size, -1, n_head, dk)
        v = self.linear_v(v).view(batch_size, -1, n_head, dv)

        q = q.transpose(1, 2)
        k = k.transpose(1, 2)
        v = v.transpose(1, 2)

        scores = self.attention(q, k, v, mask)

        # multi head dimension 을 원래의 형태로 되돌린다
        # (batch, n_head, seq_len, d_v) (256, 8, 33, 64) --> (batch, seq_len, n_head, d_v) (256, 33, 8, 64)
        scores = scores.transpose(1, 2).contiguous().view(batch_size, -1, self.embed_dim)

        # Final linear Layer
        scores = self.linear_f(scores)
        return scores

    
class ScaleDotProductAttention(nn.Module):
    """
    Attention(Q, K, V) = softmax( (QK^T)/sqrt(d_k) )
    """

    def __init__(self, d_k: int, dropout: float):
        """
        :param d_k: the number of heads
        """
        super(ScaleDotProductAttention, self).__init__()
        self.sqrt_dk = d_k ** 0.5  # 8 = 64**0.5
        self.dropout = nn.Dropout(dropout)

    def forward(self, q: torch.Tensor, k: torch.Tensor, v: torch.Tensor, mask: torch.Tensor = None) -> torch.Tensor:
        """
        :param q: Queries (256 batch, 8 d_k, 33 sequence, 64)
        :param k: Keys    (256, 8, 33, 64)
        :param v: Values  (256, 8, 33, 64)
        :param mask: mask (256, 1, 28) Source Mask
        :return: scaled dot attention: (256, 8, 33, 64)
        """
        attn = (q @ k.transpose(-2, -1)) / self.sqrt_dk
        if mask is not None:  # 논문에는 안나온 내용. 하지만 masking을 해주어야 한다
            mask = mask.unsqueeze(1)
            attn = attn.masked_fill(~mask, -1e9) # -10000000 같은 큰 음수값을 할당. (softmax에서 0으로 나오게 됨)

        attn = self.dropout(F.softmax(attn, dim=-1))  # softmax 이후 dropout도 논문에는 없으나 해야 한다
        output = attn @ v  # (256, 8, 33, 64)
        return output


input_tensor = torch.rand(256, 33, 512)

attention = MultiHeadAttention(512, 8)
output = attention(input_tensor, input_tensor, input_tensor, None)

print('output:', output.shape)  # output: torch.Size([256, 33, 512])

output: torch.Size([256, 33, 512])


## (모듈) Masking Function

- Padding Mask: input sentence안에 padding이 있을경우 masking은 attention outputs을 zero out 시킨다.
- Look Ahead Mask: Decoder가 다음 단어를 예측할때, 그 다음 단어 및 뒤에 나오는 문장을 미리 peaking ahead하지 않도록 막는다. (A.K.A No Peaking Mask)

In [8]:
def create_mask(src: torch.Tensor,
                trg: torch.Tensor,
                src_pad_idx: int,
                trg_pad_idx: int) -> Tuple[torch.Tensor, torch.Tensor]:
    src_mask = _create_padding_mask(src, src_pad_idx)
    trg_mask = None
    if trg is not None:
        trg_mask = _create_padding_mask(trg, trg_pad_idx)  # (256, 1, 33)
        nopeak_mask = _create_nopeak_mask(trg)  # (1, 33, 33)
        trg_mask = trg_mask & nopeak_mask  # (256, 33, 33)
    return src_mask, trg_mask

def _create_padding_mask(seq: torch.Tensor, pad_idx: int) -> torch.Tensor:
    """
    seq 형태를  (256, 33) -> (256, 1, 31) 이렇게 변경합니다.

    아래와 같이 padding index부분을 False로 변경합니다. (리턴 tensor)
    아래의 vector 하나당 sentence라고 보면 되고, True로 되어 있는건 단어가 있다는 뜻.
    tensor([[[ True,  True,  True,  True, False, False, False]],
            [[ True,  True, False, False, False, False, False]],
            [[ True,  True,  True,  True,  True,  True, False]]])
    """
    return (seq != pad_idx).unsqueeze(-2)

def _create_nopeak_mask(trg) -> torch.Tensor:
    """
    NO PEAK MASK
    Target의 경우 그 다음 단어를 못보게 가린다
    """
    batch_size, seq_len = trg.size()
    nopeak_mask = (1 - torch.triu(torch.ones(1, seq_len, seq_len, device=trg.device), diagonal=1)).bool()
    return nopeak_mask

sentences = torch.Tensor([[2., 2., 2., 2., 1., 1., 1.],
                          [2., 2., 1., 1., 1., 1., 1.],
                          [2., 2., 2., 2., 2., 2., 1.]])
src_mask, trg_mask = create_mask(sentences, sentences, 1, 1)

print('sentences:', sentences.shape)
print('src_mask :', src_mask.shape)
print('trg_mask :', trg_mask.shape)
# sentences: torch.Size([3, 7])
# src_mask : torch.Size([3, 1, 7])
# trg_mask : torch.Size([3, 7, 7])

NameError: name 'Tuple' is not defined

## (모듈) Masking and Dropout

In [49]:
import torch.nn.functional as F
mask = torch.BoolTensor([True, True, False, False])
vector = torch.FloatTensor([3.5, 2.9, 1, 1])
masked_vector = vector.masked_fill(~mask, -1e9) # False에만 마스크 음수 값 적용

#list(F.softmax(masked_vector)).numpy()
print(vector)
print(masked_vector)

list(F.softmax(masked_vector).numpy())  # 0~1사이로 변환하고 총 합은 1

tensor([3.5000, 2.9000, 1.0000, 1.0000])
tensor([ 3.5000e+00,  2.9000e+00, -1.0000e+09, -1.0000e+09])


  # Remove the CWD from sys.path while we load stuff.


[0.6456563, 0.3543437, 0.0, 0.0]

## (구현부) Multihead Attention - 이어서

In [17]:
Q = K = V = enc_outputs   # 위에서 실행하고 와야함
residual, batch_size = Q, Q.size(0)
print(residual)

tensor([[[-0.4063,  1.4891,  0.1087,  ...,  0.1397,  0.4253, -0.3399],
         [-0.6871,  1.1994,  0.9692,  ..., -0.1375, -0.6566, -1.9956],
         [ 1.0790,  0.6000, -0.7118,  ..., -1.5002,  0.5742,  1.2614],
         [ 0.7972,  1.0337,  0.5715,  ..., -1.2297, -0.2310, -0.6980],
         [ 0.0772,  1.0031,  1.0915,  ..., -0.3470,  1.2601, -1.4068]]],
       grad_fn=<EmbeddingBackward>)


In [18]:
W_Q = nn.Linear(d_model, d_k * n_heads) # Q Linear Transformation, input : 512 , output : 64 * 8(=512)
W_K = nn.Linear(d_model, d_k * n_heads) # K Linear Transformation
W_V = nn.Linear(d_model, d_v * n_heads) # V Linear Transformation
linear = nn.Linear(n_heads * d_v, d_model) # 전이 층
layer_norm = nn.LayerNorm(d_model) # Normalize 층 

In [21]:
q_s = W_Q(Q).view(batch_size, -1, n_heads, d_k).transpose(1,2)  # q_s: [batch_size x n_heads x len_q x d_k]
k_s = W_K(K).view(batch_size, -1, n_heads, d_k).transpose(1,2)  # k_s: [batch_size x n_heads x len_k x d_k]
v_s = W_V(V).view(batch_size, -1, n_heads, d_v).transpose(1,2) 

In [22]:
# padding mask
def get_attn_pad_mask(seq_q, seq_k):
    batch_size, len_q = seq_q.size()
    batch_size, len_k = seq_k.size()
    # eq(zero) is PAD token
    pad_attn_mask = seq_k.data.eq(0).unsqueeze(1)  # batch_size x 1 x len_k(=len_q), one is masking
    return pad_attn_mask.expand(batch_size, len_q, len_k)  # batch_size x len_q x len_k

In [26]:
# Mask
print(enc_inputs)  # 'ich mochte ein bier P'
enc_self_attn_mask = get_attn_pad_mask(enc_inputs, enc_inputs)   
print(enc_self_attn_mask) # 최초 마스크

#attn_mask = enc_self_attn_mask
#attn_mask = attn_mask.unsqueeze(1).repeat(1, n_heads, 1, 1) # Multi Head용 마스크로 차원 확대 후, head 수 만큼 마스크 복제
#print(attn_mask)

tensor([[1, 2, 3, 4, 0]])
tensor([[[False, False, False, False,  True],
         [False, False, False, False,  True],
         [False, False, False, False,  True],
         [False, False, False, False,  True],
         [False, False, False, False,  True]]])


In [33]:
# 마스크 쪼개서 확인해보기
seq_q = seq_k = enc_inputs
batch_size , len_q = enc_inputs.size()
batch_size , len_k = enc_inputs.size()
print(len_q)
print(seq_k.data)
print(seq_k.data.eq(0)) # 패딩 값은 0이므로 true로 바꿈 # https://pytorch.org/docs/stable/generated/torch.eq.html
print(seq_k.data.eq(0).unsqueeze(1)) # 차원 추가

5
tensor([[1, 2, 3, 4, 0]])
tensor([[False, False, False, False,  True]])
tensor([[[False, False, False, False,  True]]])


## (구현부) ScaleDotProductAttention

In [30]:
Q = q_s
K = k_s
V = v_s

scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k) # scores : [batch_size x n_heads x len_q(=len_k) x len_k(=len_q)]
#print(scores)
#scores.masked_fill_(attn_mask, -1e9) # Fills elements of self tensor with value where mask is one.
attn = nn.Softmax(dim=-1)(scores) # 스코어값을 0~1 양수로 만듬, 얼마나 각 단어들의 표현이 들어갈지 결정?
context = torch.matmul(attn, V) # 가장 관련있는 단어만 필터링하는 역할
#print(scores)
print(attn.shape)
#print(context)

torch.Size([1, 8, 5, 5])


In [41]:
n_heads = 8
print(context.transpose(1, 2).shape)
print(context.transpose(1, 2).contiguous().view(batch_size, -1, n_heads * d_v).shape)
print(context.transpose(1, 2).contiguous().view(batch_size, -1, n_heads * d_v))

final_context = context.transpose(1, 2).contiguous().view(batch_size, -1, n_heads * d_v)

torch.Size([1, 5, 8, 64])
torch.Size([1, 5, 512])
tensor([[[ 0.2403, -0.1162, -0.5623,  ...,  0.2304, -0.0953,  0.2887],
         [ 0.2393, -0.1613, -0.5267,  ...,  0.3559,  0.0550,  0.3904],
         [ 0.1502, -0.1162, -0.4103,  ...,  0.3567,  0.0514,  0.3648],
         [ 0.0307, -0.1683, -0.4966,  ...,  0.3932,  0.0814,  0.2750],
         [-0.0041, -0.3412, -0.5383,  ...,  0.3088, -0.0053,  0.2674]]],
       grad_fn=<ViewBackward>)


In [48]:
linear = nn.Linear(n_heads * d_v, d_model) # 8 * 64 , 512
print(linear(final_context))
output = linear(final_context)

tensor([[[-0.0592,  0.3010,  0.1240,  ..., -0.2185, -0.0648, -0.0167],
         [-0.0122,  0.1712,  0.0819,  ..., -0.1930, -0.0732, -0.0295],
         [-0.1194,  0.0916,  0.0926,  ..., -0.1933, -0.0085, -0.0780],
         [-0.0061,  0.2158,  0.1566,  ..., -0.1817, -0.0698, -0.0209],
         [-0.1089,  0.2615,  0.1085,  ..., -0.2383, -0.1395, -0.0796]]],
       grad_fn=<AddBackward0>)


## (구현부) Layer Normalization

In [58]:
layer_norm = nn.LayerNorm(d_model)
print(layer_norm(output + residual))  # 층이 깊어질수록 소실되므로 residual값을 매번 더해줌
final_output = layer_norm(output + residual)
print(final_output.shape)

tensor([[[-0.4599,  1.1915,  0.4021,  ...,  0.1777, -1.0030,  0.7643],
         [-0.3568,  0.1438, -0.7795,  ..., -0.3013, -0.0252, -0.6272],
         [ 1.6117,  0.2404, -0.6821,  ..., -1.9615,  0.9758,  0.5678],
         [-0.1346,  0.2992,  0.2553,  ..., -0.4579, -1.5068,  1.2774],
         [-0.0033, -0.8893, -0.7915,  ..., -0.7058, -0.3482, -1.2012]]],
       grad_fn=<NativeLayerNormBackward>)
torch.Size([1, 5, 512])


## (구현부) Position-wise Feed-Forward Network(FFN)
 - Down Sampling목적? X 
 - 추상화 목적임. 더 미세한 변화를 확인하기 위함

In [51]:
d_model = 512
d_ff = 2048
conv1 = nn.Conv1d(in_channels=d_model, out_channels=d_ff, kernel_size=1)
conv2 = nn.Conv1d(in_channels=d_ff, out_channels=d_model, kernel_size=1)
layer_norm = nn.LayerNorm(d_model)

In [62]:
residual = final_output
conv1(final_output.transpose(1,2))
#conv1(final_output.transpose(1,2)).shape
nn.ReLU()(conv1(final_output.transpose(1,2)))

tensor([[[0.0000, 0.4633, 0.7812, 0.0000, 0.0000],
         [0.0000, 0.0000, 0.0000, 0.0000, 0.0000],
         [0.1064, 0.0000, 0.1421, 0.0000, 0.0000],
         ...,
         [0.0754, 0.3704, 0.2103, 0.0000, 0.0000],
         [0.6813, 0.0000, 0.0000, 0.2092, 0.0000],
         [0.3857, 1.2783, 0.8413, 0.0000, 0.6361]]], grad_fn=<ReluBackward0>)

## (구현부) 디코더

In [11]:
src_vocab = {'P': 0, 'ich': 1, 'mochte': 2, 'ein': 3, 'bier': 4}
src_vocab_size = len(src_vocab)

d_model = 512
tgt_vocab = {'P': 0, 'i': 1, 'want': 2, 'a': 3, 'beer': 4, 'S': 5, 'E': 6}
number_dict = {i: w for i, w in enumerate(tgt_vocab)}
tgt_vocab_size = len(tgt_vocab)
print(tgt_vocab_size)
#src_len = 5 # length of source
#tgt_len = 5 # length of target


7


In [12]:
def make_batch(sentences):
    input_batch = [[src_vocab[n] for n in sentences[0].split()]] # input 문장을 단어로 분리 후 워드 임베딩
    output_batch = [[tgt_vocab[n] for n in sentences[1].split()]] # output 문장을 단어로 분리 후 워드 임베딩
    target_batch = [[tgt_vocab[n] for n in sentences[2].split()]] 
    return torch.LongTensor(input_batch), torch.LongTensor(output_batch), torch.LongTensor(target_batch)

In [13]:
 enc_inputs, dec_inputs, target_batch = make_batch(sentences)

### 워드 임베딩

In [18]:
# dec_inputs(main에서 전달), enc_inputs(main에서 전달), enc_outputs(인코더 결과)
sentences = ['ich mochte ein bier P', 'S i want a beer', 'i want a beer E']
enc_inputs, dec_inputs, target_batch = make_batch(sentences)

# Embedding Layer
tgt_emb = nn.Embedding(tgt_vocab_size, d_model)
# Word Embedding
dec_outputs = tgt_emb(dec_inputs)
print(dec_outputs)

tensor([[[ 1.4927,  1.6065,  0.2568,  ..., -0.8925, -0.5202,  0.6003],
         [ 1.5593,  0.8828, -1.4681,  ..., -0.0040, -1.1307,  0.0302],
         [-1.3885,  0.0118,  1.1959,  ...,  1.2113,  0.3704, -0.1339],
         [ 0.7743, -1.6328, -1.5545,  ...,  1.4239, -1.1042, -0.3252],
         [-0.6339, -1.1806,  0.2463,  ...,  0.0412, -0.9065,  0.1756]]],
       grad_fn=<EmbeddingBackward>)


In [35]:
# look-ahead mask
def get_attn_subsequent_mask(seq):
    attn_shape = [seq.size(0), seq.size(1), seq.size(1)]
    subsequent_mask = np.triu(np.ones(attn_shape), k=1)
    subsequent_mask = torch.from_numpy(subsequent_mask).byte()
    return subsequent_mask

In [36]:
# padding mask
def get_attn_pad_mask(seq_q, seq_k):
    batch_size, len_q = seq_q.size()
    batch_size, len_k = seq_k.size()
    # eq(zero) is PAD token
    pad_attn_mask = seq_k.data.eq(0).unsqueeze(1)  # batch_size x 1 x len_k(=len_q), one is masking
    return pad_attn_mask.expand(batch_size, len_q, len_k)  # batch_size x len_q x len_k

### 마스크 적용(패딩, 룩-어헤드)

In [37]:
# 디코더부 마스크(패딩 + 룩-어헤드)
dec_self_attn_pad_mask = get_attn_pad_mask(dec_inputs, dec_inputs) # 패딩마스크 
dec_self_attn_subsequent_mask = get_attn_subsequent_mask(dec_inputs) # 룩어헤드 마스크
dec_self_attn_mask = torch.gt((dec_self_attn_pad_mask + dec_self_attn_subsequent_mask), 0) # 더한값이 0보다 클 경우 true표기. # https://pytorch.org/docs/stable/generated/torch.gt.html

# 인코더부 패딩마스크
dec_enc_attn_mask = get_attn_pad_mask(dec_inputs, enc_inputs)

### 디코더 레이어

In [38]:
dec_self_attn = MultiHeadAttention() # 첫번째 서브층 (셀프 어텐션. 인코더와 동일)
dec_enc_attn = MultiHeadAttention() # 두번째 서브층 (인코더-디코더 어텐션)
pos_ffn = PoswiseFeedForwardNet() # 세번째 서브층

dec_outputs, dec_self_attn = dec_self_attn(dec_inputs, dec_inputs, dec_inputs, dec_self_attn_mask) # 인코더부와 형태 동일
#dec_outputs, dec_enc_attn = dec_enc_attn(dec_outputs, enc_outputs, enc_outputs, dec_enc_attn_mask) #인코더와 디코더 데이터 사용
#dec_outputs = pos_ffn(dec_outputs)

NameError: name 'MultiHeadAttention' is not defined