# 10. Attention Mechanisms

Ta không đi sâu vào thuyết tập trung trong ngành thần kinh học mà sẽ tìm hiểu cách đưa ý tưởng của cơ chế tập trung vào học sâu. Ở đây, cơ chế tập trung có thể được xem là phép gộp tổng quát theo trọng số trên mỗi giá trị đầu vào. Trong chương này, chúng tôi sẽ giúp bạn hình dung cách biến ý tưởng của cơ chế tập trung thành các mô hình toán học cụ thể có thể hoạt động được.

## 10.1. Cơ chế Tập trung
Trong Section 9.7, chúng ta dùng mạng hồi tiếp để mã hóa thông tin của chuỗi nguồn đầu vào thành trạng thái ẩn và truyền nó tới bộ giải mã để sinh chuỗi đích. Một token trong chuỗi đích có thể chỉ liên quan mật thiết tới một vài token chứ không nhất thiết là toàn bộ token trong chuỗi nguồn. Ví dụ, khi dịch “Hello world.” thành “Bonjour le monde.”, từ “Bonjour” ánh xạ tới từ “Hello” và từ “monde” ánh xạ tới từ “world”. Trong mô hình **seq2seq**, bộ giải mã có thể ngầm chọn thông tin tương ứng từ trạng thái ẩn được truyền đến từ bộ mã hóa. Tuy nhiên, cơ chế tập trung (**attention mechanism**) thực hiện phép chọn này một cách tường minh.

Cơ chế *tập trung* có thể được coi là phép gộp tổng quát. Nó gộp đầu vào dựa trên các trọng số khác nhau. Thành phần cốt lõi của cơ chế tập trung là tầng tập trung. Đầu vào của tầng tập trung được gọi ngắn gọn là *câu truy vấn* (**query**). Với mỗi câu truy vấn, tầng tập trung trả về đầu ra dựa trên bộ nhớ là tập các cặp khóa-giá trị được mã hóa trong tầng tập trung này. Cụ thể, giả sử bộ nhớ chứa  n  cặp vector khóa-giá trị,  $(\mathbf{k}_1, \mathbf{v}_1), \ldots, (\mathbf{k}_n, \mathbf{v}_n)$ , với $\mathbf{k}_i \in \mathbb R^{d_k}$,  $\mathbf{v}_i \in \mathbb R^{d_v}$ . Với mỗi vector truy vấn  $\mathbf{q} \in \mathbb R^{d_q}$ , tầng tập trung trả về đầu ra $\mathbf{q} \in \mathbb R^{d_q}$  có cùng kích thước với vector giá trị.

![](images/attention.svg)

<center>Fig. 10.1.1 Tầng tập trung trả về giá trị dựa trên câu truy vấn đầu vào và bộ nhớ của nó.</center>

Chi tiết về cơ chế tập trung được minh họa trong Fig. 10.1.2. Để tính toán đầu ra của tầng tập trung, chúng ta sử dụng hàm tính điểm  α  để đo độ tương đồng giữa câu truy vấn và các khóa. Sau đó, với mỗi khóa  $(\mathbf{k}_1, \mathbf{v}_1), \ldots, (\mathbf{k}_n, \mathbf{v}_n)$ , ta tính điểm  $a_1, \ldots, a_n$ như sau:

<center>$a_i = \alpha(\mathbf q, \mathbf k_i)$</center>
 
Tiếp theo, chúng ta sử dụng hàm softmax để thu được các trọng số tập trung (attention weights), cụ thể:

<center>$\mathbf{b} = \mathrm{softmax}(\mathbf{a})\quad$ trong đó $\quad
{b}_i = \frac{\exp(a_i)}{\sum_j \exp(a_j)}, \mathbf{b} = [b_1, \ldots, b_n]^T$</center>
 
Cuối cùng, đầu ra của tầng là tổng trọng số của các giá trị:

<center>$\mathbf o = \sum_{i=1}^n b_i \mathbf v_i$</center>

![](images/attention_output.svg)
<center>Fig. 10.1.2 Đầu ra của tầng tập trung là tổng trọng số của các giá trị.</center>

Cách lựa chọn hàm tính điểm khác nhau sẽ tạo ra các tầng tập trung khác nhau. Ở dưới đây chúng tôi sẽ trình bày hai tầng tập trung thường hay được sử dụng. Đầu tiên chúng tôi giới thiệu hai toán tử cần thiết để lập trình hai tầng này: toán tử softmax có mặt nạ `masked_softmax` và toán tử tích vô hướng chuyên biệt theo batch `batched_dot`.

In [1]:
from d2l import torch as d2l
import math
import torch
from torch import nn

Toán tử softmax có mặt nạ nhận đầu vào là một tensor 3 chiều và cho phép ta lọc ra một số phần tử bằng cách xác định độ dài hợp lệ cho chiều cuối cùng. (Tham khảo Section 9.5 về định nghĩa của độ dài hợp lệ). Do đó, những giá trị nằm ngoài độ dài hợp lệ sẽ được gán bằng  `0` . Chúng ta lập trình hàm `masked_softmax` như sau.

In [2]:
#@save
def masked_softmax(X, valid_len):
    """Perform softmax by filtering out some elements."""
    # X: 3-D tensor, valid_len: 1-D or 2-D tensor
    if valid_len is None:
        return nn.functional.softmax(X, dim=-1)
    else:
        shape = X.shape
        if valid_len.dim() == 1:
            valid_len = torch.repeat_interleave(valid_len, repeats=shape[1],
                                                dim=0)
        else:
            valid_len = valid_len.reshape(-1)
        # Fill masked elements with a large negative, whose exp is 0
        X = d2l.sequence_mask(X.reshape(-1, shape[-1]), valid_len, value=-1e6)
        return nn.functional.softmax(X.reshape(shape), dim=-1)

Để minh họa cách hàm trên hoạt động, chúng ta hãy khởi tạo hai ma trận đầu vào kích thước là  2×4 . Bên cạnh đó, chúng ta sẽ gán độ dài hợp lệ cho mẫu thứ nhất là 2 và mẫu thứ hai là 3. Từ đó, những giá trị đầu ra nằm ngoài độ dài hợp lệ sẽ được gán bằng  0  như dưới đây.

In [3]:
masked_softmax(torch.rand(2, 2, 4), torch.tensor([2, 3]))

tensor([[[0.4529, 0.5471, 0.0000, 0.0000],
         [0.4792, 0.5208, 0.0000, 0.0000]],

        [[0.3002, 0.3480, 0.3518, 0.0000],
         [0.3451, 0.3366, 0.3183, 0.0000]]])

Ngoài ra, toán tử thứ hai `batched_dot` nhận hai đầu vào là  $X$  và  $Y$  có kích thước lần lượt là  $(b,n,m)$  và  $(b,m,k)$ , và trả về đầu ra có kích thước là  $(b,n,k)$ . Cụ thể, toán tử này tính  $b$  tích vô hướng với  $i={1,…,b}$  như sau:

<center>$Z[i,:,:]=X[i,:,:]Y[i,:,:]$</center>

In [4]:
torch.bmm(torch.ones(2,1,3), torch.ones(2,3,2))

tensor([[[3., 3.]],

        [[3., 3.]]])

### 10.1.1. Tầng Tập trung Tích Vô hướng
Với hai toán tử `masked_softmax` và `batched_dot` ở trên, chúng ta sẽ đi vào chi tiết hai loại tầng tập trung được sử dụng phổ biến. Loại đầu tiên là *tập trung tích vô hướng* (**dot product attention**): nó giả định rằng câu truy vấn có cùng kích thước chiều với khóa, cụ thể là $\mathbf q, \mathbf k_i \in\mathbb R^d$  với mọi  $i$ . Tầng tập trung tích vô hướng sẽ tính điểm bằng cách lấy tích vô hướng giữa câu truy vấn và khóa, sau đó chia cho  $\sqrt{d}$  để giảm thiểu ảnh hưởng không liên quan của số chiều  $d$  lên điểm số. Nói cách khác,

<center>$\alpha(\mathbf q, \mathbf k) = \langle \mathbf q, \mathbf k \rangle /\sqrt{d}$</center>
 
Mở rộng ra từ các câu truy vấn và khóa một chiều, chúng ta luôn có thể tổng quát hóa chúng lên thành các giá trị truy vấn và khóa đa chiều. Giả định rằng  $\mathbf Q\in\mathbb R^{m\times d}$  chứa  $m$  câu truy vấn và  $\mathbf K\in\mathbb R^{n\times d}$  chứa toàn bộ  n  khóa. Chúng ta có thể tính toàn bộ  $mn$  điểm số như sau

<center>$\alpha(\mathbf Q, \mathbf K) = \mathbf Q \mathbf K^\top /\sqrt{d}$</center>
 
Với (10.1.6), chúng ta có thể lập trình tầng tập trung tích vô hướng `DotProductAttention` hỗ trợ một batch các câu truy vấn và các cặp khóa-giá trị. Ngoài ra, chúng ta cũng dùng thêm một tầng dropout để điều chuẩn.

In [5]:
#@save
class DotProductAttention(nn.Module):
    def __init__(self, dropout, **kwargs):
        super(DotProductAttention, self).__init__(**kwargs)
        self.dropout = nn.Dropout(dropout)

    # `query`: (`batch_size`, #queries, `d`)
    # `key`: (`batch_size`, #kv_pairs, `d`)
    # `value`: (`batch_size`, #kv_pairs, `dim_v`)
    # `valid_len`: either (`batch_size`, ) or (`batch_size`, xx)
    def forward(self, query, key, value, valid_len=None):
        d = query.shape[-1]
        # Set transpose_b=True to swap the last two dimensions of key
        scores = torch.bmm(query, key.transpose(1,2)) / math.sqrt(d)
        attention_weights = self.dropout(masked_softmax(scores, valid_len))
        return torch.bmm(attention_weights, value)

Hãy kiểm tra lớp `DotProductAttention` với một ví dụ nhỏ sau. Đầu tiên ta tạo 2 batch, mỗi batch có 1 câu truy vấn và 10 cặp khóa-giá trị. Thông qua đối số `valid_len`, ta chỉ định rằng ta sẽ kiểm tra  2  cặp khóa-giá trị đầu tiên cho batch đầu tiên và  6  cặp cho batch thứ hai. Do đó, mặc dù cả hai batch đều có cùng câu truy vấn và các cặp khóa-giá trị, chúng ta sẽ thu được các đầu ra khác nhau

In [6]:
atten = DotProductAttention(dropout=0.5)
atten.eval()
keys = torch.ones(2,10,2)
values = torch.arange(40, dtype=torch.float32).reshape(1,10,4).repeat(2,1,1)
atten(torch.ones(2,1,2), keys, values, torch.tensor([2, 6]))

tensor([[[ 2.0000,  3.0000,  4.0000,  5.0000]],

        [[10.0000, 11.0000, 12.0000, 13.0000]]])

Như đã thấy ở trên, tập trung tích vô hướng chỉ đơn thuần nhân câu truy vấn và khóa lại với nhau, hi vọng rằng từ đó thu được những điểm tương đồng giữa chúng. Tuy nhiên, câu truy vấn và khóa có thể không có cùng kích thước chiều. Để giải quyết vấn đề này, chúng ta cần nhờ đến cơ chế tập trung perceptron đa tầng.

### 10.1.2. Tập trung Perceptron Đa tầng
Trong cơ chế *tập trung perceptron đa tầng* (**multilayer perceptron attention**), chúng ta chiếu cả câu truy vấn và các khóa lên  $\mathbb R^{h}$  bằng các tham số trọng số được học. Giả định rằng các trọng số được học là  $\mathbf W_k\in\mathbb R^{h\times d_k}$ , $\mathbf W_q\in\mathbb R^{h\times d_q}$ và $\mathbf v\in\mathbb R^{h}$ . Hàm tính điểm sẽ được định nghĩa như sau

<center>$\alpha(\mathbf k, \mathbf q) = \mathbf v^\top \text{tanh}(\mathbf W_k \mathbf k + \mathbf W_q\mathbf q).$</center>
 
Một cách trực quan, ta có thể tưởng tượng  $\mathbf W_k \mathbf k + \mathbf W_q\mathbf q$ chính là việc nối khóa và giá trị lại với nhau theo chiều đặc trưng và đưa chúng qua perceptron có một tầng ẩn với kích thước là  $h$  và tầng đầu ra với kích thước là  $1$ . Trong tầng ẩn này, hàm kích hoạt là  `tanh`  và không có hệ số điều chỉnh. Giờ hãy lập trình một tầng tập trung perceptron đa tầng.

In [7]:
#@save
class MLPAttention(nn.Module):
    def __init__(self, key_size, query_size, units, dropout, **kwargs):
        super(MLPAttention, self).__init__(**kwargs)
        self.W_k = nn.Linear(key_size, units, bias=False)
        self.W_q = nn.Linear(query_size, units, bias=False)
        self.v = nn.Linear(units, 1, bias=False)
        self.dropout = nn.Dropout(dropout)

    def forward(self, query, key, value, valid_len):
        query, key = self.W_q(query), self.W_k(key)
        # Expand query to (`batch_size`, #queries, 1, units), and key to
        # (`batch_size`, 1, #kv_pairs, units). Then plus them with broadcast
        features = query.unsqueeze(2) + key.unsqueeze(1)
        features = torch.tanh(features)
        scores = self.v(features).squeeze(-1)
        attention_weights = self.dropout(masked_softmax(scores, valid_len))
        return torch.bmm(attention_weights, value)

Để kiểm tra lớp `MLPAttention` phía trên, chúng ta sẽ sử dụng lại đầu vào ở ví dụ đơn giản trước. Như ta thấy ở dưới, mặc dù `MLPAttention` chứa thêm một mô hình MLP, chúng ta vẫn thu được đầu ra tương tự `DotProductAttention`.

In [8]:
atten = MLPAttention(key_size=2, query_size=2, units=8, dropout=0.1)
atten.eval()
atten(torch.ones(2, 1, 2), keys, values, torch.tensor([2, 6]))

tensor([[[ 2.0000,  3.0000,  4.0000,  5.0000]],

        [[10.0000, 11.0000, 12.0000, 13.0000]]], grad_fn=<BmmBackward0>)

### 10.1.3. Tóm tắt
* Tầng tập trung lựa chọn một cách tường minh các thông tin liên quan.
* Ô nhớ của tầng tập trung chứa các cặp khóa-giá trị, do đó đầu ra của nó gần các giá trị có khóa giống với câu truy vấn.
* Hai mô hình tập trung được sử dụng phổ biến là tập trung tích vô hướng và tập trung perceptron đa tầng.

### 10.1.4. Bài tập
Ưu và khuyết điểm của tầng tập trung tích vô hướng và tập trung perceptron đa tầng là gì?

## 10.2. Chuỗi sang Chuỗi áp dụng Cơ chế Tập trung
Trong phần này, chúng ta thêm cơ chế tập trung vào mô hình *chuỗi sang chuỗi* (**seq2seq**) giới thiệu trong Section 9.7 để gộp các trạng thái theo trọng số tương ứng một cách tường minh. Fig. 10.2.1 mô tả kiến trúc mô hình thực hiện mã hóa và giải mã tại bước thời gian  $t$ . Bộ nhớ của tầng tập trung ở đây bao gồm tất cả thông tin mà bộ mã hóa đã được học—đầu ra của bộ mã hóa tại từng bước thời gian. Trong quá trình giải mã, đầu ra của bộ giải mã tại bước thời gian trước đó  $t−1$  được sử dụng làm câu truy vấn. Đầu ra của mô hình tập trung có thể được hiểu là thông tin ngữ cảnh của chuỗi, phần ngữ cảnh này được ghép nối với đầu vào của bộ giải mã  $D_t$  và kết quả được đưa vào bộ giải mã.

![](images/seq2seq_attention.svg)
<center>Fig. 10.2.1 Quá trình giải mã tại bước thời gian thứ 2 trong mô hình chuỗi sang chuỗi áp dụng cơ chế tập trung.</center>

Để minh họa kiến trúc tổng thể của mô hình seq2seq áp dụng cơ chế tập trung, cấu trúc tầng của bộ mã hóa và bộ giải mã được mô tả trong Fig. 10.2.2.

![](images/seq2seq-attention-details.svg)

In [9]:
from d2l import torch as d2l
import torch
from torch import nn

### 10.2.1. Bộ Giải mã
Do bộ mã hóa của mô hình seq2seq áp dụng cơ chế tập trung giống với bộ mã hóa của `Seq2SeqEncoder` trong Section 9.7 nên ở phần này, chúng ta sẽ chỉ tập trung vào bộ giải mã. Ta thêm tầng *tập trung MLP* (`MLPAttention`) có cùng kích thước ẩn với tầng *LSTM* trong bộ giải mã. Sau đó ta khởi tạo trạng thái của bộ giải mã bằng cách truyền vào ba đầu ra thu được từ bộ mã hóa:

* **Đầu ra của bộ mã hóa tại tất cả các bước thời gian**: được sử dụng như bộ nhớ của tầng tập trung có cùng các khóa và giá trị;
* **Trạng thái ẩn của bộ mã hóa tại bước thời gian cuối cùng**: được sử dụng làm trạng thái ẩn ban đầu của bộ giải mã;
* **Độ dài hợp lệ của bộ mã hóa**: để tầng tập trung có thể bỏ qua những token đệm có trong đầu ra của bộ mã hóa.
Ở mỗi bước thời gian trong quá trình giải mã, ta sử dụng trạng thái ẩn của tầng RNN cuối cùng làm câu truy vấn cho tầng tập trung. Đầu ra của mô hình tập trung sau đó được ghép nối với vector embedding đầu vào để đưa vào tầng RNN. Mặc dù trạng thái ẩn của tầng RNN cũng chứa thông tin từ bộ giải mã ở các bước thời gian trước đó nhưng đầu ra của tầng tập trung sẽ lựa chọn các đầu ra của bộ mã hóa một cách tường minh dựa vào `enc_valid_len` nhằm loại bỏ những thông tin không liên quan.

Hãy cùng lập trình bộ giải mã `Seq2SeqAttentionDecoder` và xem xét sự khác biệt của nó so với bộ giải mã trong mô hình seq2seq ở Section 9.7.2.

In [12]:
class Seq2SeqAttentionDecoder(d2l.Decoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqAttentionDecoder, self).__init__(**kwargs)
        self.attention_cell = d2l.MLPAttention(
            num_hiddens, num_hiddens, num_hiddens, dropout)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU(
            embed_size + num_hiddens, num_hiddens, num_layers,
            dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)

    def init_state(self, enc_outputs, enc_valid_len, *args):
        outputs, hidden_state = enc_outputs
        # Transpose outputs to (batch_size, seq_len, num_hiddens)
        return (outputs.permute(1, 0, 2), hidden_state, enc_valid_len)

    def forward(self, X, state):
        enc_outputs, hidden_state, enc_valid_len = state
        X = self.embedding(X).permute(1, 0, 2)
        outputs = []
        for x in X:
            # query shape: (batch_size, 1, num_hiddens)
            query = torch.unsqueeze(hidden_state[-1], dim=1)
            # context has same shape as query
            context = self.attention_cell(
                query, enc_outputs, enc_outputs, enc_valid_len)
            # Concatenate on the feature dimension
            x = torch.cat((context, torch.unsqueeze(x, dim=1)), dim=-1)
            # Reshape x to (1, batch_size, embed_size + num_hiddens)
            out, hidden_state = self.rnn(x.permute(1, 0, 2), hidden_state)
            outputs.append(out)
        outputs = self.dense(torch.cat(outputs, dim=0))
        return outputs.permute(1, 0, 2), [enc_outputs, hidden_state,
                                          enc_valid_len]

Giờ ta có thể chạy thử mô hình seq2seq áp dụng cơ chế tập trung. Để nhất quán khi so sánh với mô hình không áp dụng cơ chế tập trung trong Section 9.7, những siêu tham số `vocab_size`, `embed_size`, `num_hiddens`, và `num_layers` sẽ được giữ nguyên. Kết quả, ta thu được đầu ra của bộ giải mã có cùng kích thước nhưng khác về cấu trúc trạng thái.

In [13]:
encoder = d2l.Seq2SeqEncoder(vocab_size=10, embed_size=8,
                             num_hiddens=16, num_layers=2)
encoder.eval()
decoder = Seq2SeqAttentionDecoder(vocab_size=10, embed_size=8,
                                  num_hiddens=16, num_layers=2)
decoder.eval()
X = torch.zeros((4, 7), dtype=torch.long)
state = decoder.init_state(encoder(X), None)
out, state = decoder(X, state)
out.shape, len(state), state[0].shape, len(state[1]), state[1][0].shape

RuntimeError: The size of tensor a (4) must match the size of tensor b (7) at non-singleton dimension 3

### 10.2.2. Huấn luyện
Chúng ta hãy xây dựng một mô hình đơn giản sử dụng cùng một bộ siêu tham số và hàm mất mát để huấn luyện như Section 9.7.4. Từ kết quả, ta thấy tầng tập trung được thêm vào mô hình không tạo ra cải thiện đáng kể nào do các chuỗi trong tập huấn luyện khá ngắn. Bởi chi phí tính toán tốn thêm từ các tầng tập trung trong bộ mã hóa và bộ giải mã, mô hình này họat động chậm hơn nhiều so với mô hình seq2seq không áp dụng tập trung.

In [14]:
embed_size, num_hiddens, num_layers, dropout = 32, 32, 2, 0.1
batch_size, num_steps = 64, 10
lr, num_epochs, device = 0.005, 250, d2l.try_gpu()

train_iter, src_vocab, tgt_vocab = d2l.load_data_nmt(batch_size, num_steps)
encoder = d2l.Seq2SeqEncoder(
    len(src_vocab), embed_size, num_hiddens, num_layers, dropout)
decoder = Seq2SeqAttentionDecoder(
    len(tgt_vocab), embed_size, num_hiddens, num_layers, dropout)
model = d2l.EncoderDecoder(encoder, decoder)
d2l.train_s2s_ch9(model, train_iter, lr, num_epochs, tgt_vocab, device)

TypeError: train_s2s_ch9() takes 5 positional arguments but 6 were given

Cuối cùng, ta hãy thử dự đoán một vài mẫu dưới đây.

In [None]:
engs = ['go .', "i lost .", 'i\'m home .', 'he\'s calm .']
fras = ['va !', 'j\'ai perdu .', 'je suis chez moi .', 'il est calme .']
d2l.translate(engs, fras, model, src_vocab, tgt_vocab, num_steps, device)

### 10.2.3. Tóm tắt
* Mô hình seq2seq áp dụng cơ chế tập trung thêm một tầng tập trung vào mô hình seq2seq ban đầu.
* Bộ giải mã của mô hình seq2seq áp dụng cơ chế tập trung được truyền vào ba đầu ra từ bộ mã hóa: đầu ra của bộ mã hóa tại tất cả các bước thời gian, trạng thái ẩn của bộ mã hóa tại bước thời gian cuối cùng, độ dài hợp lệ của bộ mã hóa.

### 10.2.4. Bài tập
1. So sánh `Seq2SeqAttentionDecoder` và `Seq2seqDecoder` bằng cách sử dụng cùng bộ tham số và kiểm tra giá trị hàm mất mát.
2. Bạn hãy thử suy nghĩ liệu có trường hợp nào mà `Seq2SeqAttentionDecoder` vượt trội hơn `Seq2seqDecoder`?

# 10.3. Kiến trúc Transformer
Trong các chương trước, ta đã đề cập đến các kiến trúc mạng nơ-ron quan trọng như mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi tiếp (RNN). Ưu nhược điểm của hai kiến trúc mạng này có thể được tóm tắt như sau:

* Các mạng **CNN** có thể dễ dàng được thực hiện song song ở một tầng nhưng không có khả năng nắm bắt các phụ thuộc chuỗi có độ dài biến thiên.
* Các mạng **RNN** có khả năng nắm bắt các thông tin cách xa nhau trong chuỗi có độ dài biến thiên, nhưng không thể thực hiện song song trong một chuỗi.

Để kết hợp các ưu điểm của CNN và RNN, [Vaswani et al., 2017] đã thiết kế một kiến trúc mới bằng cách sử dụng cơ chế tập trung. Kiến trúc này gọi là **Transformer**, song song hóa bằng cách học chuỗi hồi tiếp với cơ chế tập trung, đồng thời mã hóa vị trí của từng phần tử trong chuỗi. Kết quả là ta có một mô hình tương thích với thời gian huấn luyện ngắn hơn đáng kể.

Tương tự như mô hình **seq2seq** trong Section 9.7, **Transformer** cũng dựa trên kiến trúc **mã hóa-giải mã**. Tuy nhiên, nó thay thế các *tầng hồi tiếp* trong seq2seq bằng các *tầng tập trung đa đầu* (**multi-head attention**), kết hợp thông tin vị trí thông qua *biểu diễn vị trí* (**positional encoding**) và áp dụng *chuẩn hóa tầng* (**layer normalization**). Fig. 10.3.1 sẽ so sánh cấu trúc của **Transformer** và **seq2seq**.

Nhìn chung, hai mô hình này khá giống nhau: các embedding của chuỗi nguồn được đưa vào  $n$  khối lặp lại. Đầu ra của khối mã hóa cuối cùng sau đó được sử dụng làm bộ nhớ tập trung cho bộ giải mã. Tương tự, các embedding của chuỗi đích được đưa vào  $n$  khối lặp lại trong bộ giải mã. Ta thu được đầu ra cuối cùng bằng cách áp dụng một tầng dày đặc có kích thước bằng kích thước bộ từ vựng lên các đầu ra của khối giải mã cuối cùng.

![](images/transformer.svg)
Fig. 10.3.1 Kiến trúc Transformer.

Mặt khác, Transformer khác với mô hình seq2seq sử dụng cơ chế tập trung như sau:

1. **Khối Transformer**: một tầng hồi tiếp trong seq2seq được thay bằng một Khối *Transformer*. Với bộ mã hóa, khối này chứa một tầng tập trung đa đầu và một *mạng truyền xuôi theo vị trí* (**position-wise feed-forward network**) gồm hai tầng dày đặc. Đối với bộ giải mã, khối này có thêm một tầng tập trung đa đầu khác để nhận vào trạng thái bộ mã hóa.
2. **Cộng và chuẩn hóa**: đầu vào và đầu ra của cả tầng tập trung đa đầu hoặc mạng truyền xuôi theo vị trí được xử lý bởi hai tầng “cộng và chuẩn hóa” bao gồm cấu trúc phần dư và tầng chuẩn hóa theo tầng (**layer normalization**).
3. **Biễu diễn vị trí**: do tầng tự tập trung không phân biệt thứ tự phần tử trong một chuỗi, nên tầng biễu diễn vị trí được sử dụng để thêm thông tin vị trí vào từng phần tử trong chuỗi.

Tiếp theo, chúng ta sẽ tìm hiểu từng thành phần trong Transformer để có thể xây dựng một mô hình dịch máy.

In [1]:
from d2l import torch as d2l
import math
import pandas as pd
import torch
from torch import nn

### 10.3.1. Tập trung Đa đầu
Trước khi thảo luận về tầng *tập trung đa đầu*, hãy cùng tìm hiểu qua về kiến trúc *tự tập trung*. Giống như các mô hình tập trung bình thường, mô hình tự tập trung cũng có câu truy vấn, khóa và giá trị nhưng chúng được sao chép từ các phần tử trong chuỗi đầu vào. Như minh họa trong Fig. 10.3.2, tầng tự tập trung trả về một đầu ra tuần tự có cùng độ dài với đầu vào. So với tầng hồi tiếp, các phần tử đầu ra của tầng tự tập trung có thể được tính toán song song, do đó việc xây dựng các đoạn mã tốc độ cao khá dễ dàng.

![](images/self-attention.svg)
<center>Fig. 10.3.2 Kiến trúc tự tập trung.</center>

Tầng tập trung đa đầu bao gồm  $h$  đầu là các tầng tự tập trung song song. Trước khi đưa vào mỗi đầu, ta chiếu các câu truy vấn, khóa và giá trị qua ba tầng dày đặc với kích thước ẩn lần lượt là  $p_q$ ,  $p_k$  và  $p_v$ . Đầu ra của  $h$  đầu này được nối lại và sau đó được xử lý bởi một tầng dày đặc cuối cùng.

![](images/multi-head-attention.svg)
<center>Fig. 10.3.3 Tập trung đa đầu</center>

Giả sử chiều của câu truy vấn, khóa và giá trị lần lượt là  $d_q$ ,  $d_k$  và  $d_v$ . Khi đó, tại mỗi đầu  $i=1,…,h$ , ta có thể học các tham số  $\mathbf W_q^{(i)}\in\mathbb R^{p_q\times d_q}$ ,  $\mathbf W_k^{(i)}\in\mathbb R^{p_k\times d_k}$ , và  $\mathbf W_v^{(i)}\in\mathbb R^{p_v\times d_v}$ . Do đó, đầu ra tại mỗi đầu là

<center>$\mathbf o^{(i)} = \textrm{attention}(\mathbf W_q^{(i)}\mathbf q, \mathbf W_k^{(i)}\mathbf k,\mathbf W_v^{(i)}\mathbf v)$</center>
 
trong đó  **attention**  có thể là bất kỳ tầng tập trung nào, chẳng hạn như `DotProductAttention` và `MLPAttention` trong Section 10.1.

Sau đó,  $h$  đầu ra với độ dài  $p_v$  tại mỗi đầu được nối với nhau thành đầu ra có độ dài  $hp_v$ , rồi được đưa vào tầng dày đặc cuối cùng với  $d_o$  nút ẩn. Các trọng số của tầng dày đặc này được ký hiệu là  $\mathbf W_o\in\mathbb R^{d_o\times h p_v}$ . Do đó, đầu ra cuối cùng của tầng tập trung đa đầu sẽ là

<center>$\begin{split}\mathbf o = \mathbf W_o \begin{bmatrix}\mathbf o^{(1)}\\\vdots\\\mathbf o^{(h)}\end{bmatrix}.\end{split}$</center>
 
Bây giờ chúng ta có thể lập trình tầng tập trung đa đầu. Giả sử tầng tập trung đa đầu có số đầu là $num_heads = h$  và các tầng dày đặc cho câu truy vấn, khóa và giá trị có kích thước ẩn giống nhau num_hiddens $= p_q=p_k=p_v$ . Ngoài ra, do tầng tập trung đa đầu giữ nguyên kích thước chiều đầu vào, kích thước đặc trưng đầu ra cũng là  $d_o = $num_hiddens.

### 10.3.2. Mạng truyền Xuôi theo Vị trí
Một thành phần quan trọng khác trong Khối Transformer là *mạng truyền xuôi theo vị trí* (**position-wise feed-forward network**). Nó chấp nhận đầu vào  $3$  chiều với kích thước là (kích thước batch, độ dài chuỗi, kích thước đặc trưng). Mạng truyền xuôi theo vị trí bao gồm hai tầng dày đặc áp dụng trên chiều cuối cùng của đầu vào. Vì hai tầng dày đặc này cùng được sử dụng cho từng vị trí trong chuỗi, nên ta gọi là mạng *truyền xuôi theo vị trí*. Cách làm này tương đương với việc áp dụng hai tầng tích chập  $1×1$ .

Lớp `PositionWiseFFN` dưới đây lập trình mạng truyền xuôi theo vị trí với hai tầng dày đặc có kích thước ẩn lần lượt là `ffn_num_hiddens` và `pw_num_outputs`.

In [2]:
#@save
class PositionWiseFFN(nn.Module):
    def __init__(self, ffn_num_input, ffn_num_hiddens, ffn_num_outputs,
                 **kwargs):
        super(PositionWiseFFN, self).__init__(**kwargs)
        self.dense1 = nn.Linear(ffn_num_input, ffn_num_hiddens)
        self.relu = nn.ReLU()
        self.dense2 = nn.Linear(ffn_num_hiddens, ffn_num_outputs)

    def forward(self, X):
        return self.dense2(self.relu(self.dense1(X)))

Tương tự như tầng tập trung đa đầu, mạng truyền xuôi theo vị trí sẽ chỉ thay đổi kích thước chiều cuối cùng của đầu vào — tức kích thước của đặc trưng. Ngoài ra, nếu hai phần tử trong chuỗi đầu vào giống hệt nhau, thì hai đầu ra tương ứng cũng sẽ giống hệt nhau.

In [3]:
ffn = PositionWiseFFN(4, 4, 8)
ffn.eval()
ffn(torch.ones((2, 3, 4)))[0]

tensor([[ 0.0674,  0.5998, -0.5046,  0.1991, -0.1465, -0.5101, -0.3884, -0.0951],
        [ 0.0674,  0.5998, -0.5046,  0.1991, -0.1465, -0.5101, -0.3884, -0.0951],
        [ 0.0674,  0.5998, -0.5046,  0.1991, -0.1465, -0.5101, -0.3884, -0.0951]],
       grad_fn=<SelectBackward>)

### 10.3.3. Cộng và Chuẩn hóa
Trong kiến trúc Transformer, tầng “**cộng và chuẩn hóa**” cũng đóng vai trò thiết yếu trong việc kết nối đầu vào và đầu ra của các tầng khác một cách trơn tru. Cụ thể, ta thêm một cấu trúc phần dư và tầng chuẩn hóa theo tầng sau tầng tập trung đa đầu và mạng truyền xuôi theo vị trí. Chuẩn hóa theo tầng khá giống với chuẩn hóa theo batch trong Section 7.5. Một điểm khác biệt là giá trị trung bình và phương sai của tầng chuẩn hóa này được tính theo chiều cuối cùng, tức `X.mean(axis=-1)`, thay vì theo chiều đầu tiên (theo batch) `X.mean(axis=0)` . Chuẩn hóa tầng ngăn không cho phạm vi giá trị trong các tầng thay đổi quá nhiều, giúp huấn luyện nhanh hơn và khái quát hóa tốt hơn.

In [4]:
ln = nn.LayerNorm(2)
bn = nn.BatchNorm1d(2)
X = torch.tensor([[1, 2], [2, 3]], dtype=torch.float32)
# Compute mean and variance from `X` in the training mode
print('layer norm:', ln(X), '\nbatch norm:', bn(X))

layer norm: tensor([[-1.0000,  1.0000],
        [-1.0000,  1.0000]], grad_fn=<NativeLayerNormBackward>) 
batch norm: tensor([[-1.0000, -1.0000],
        [ 1.0000,  1.0000]], grad_fn=<NativeBatchNormBackward>)


Bây giờ hãy cùng lập trình khối `AddNorm`. `AddNorm` nhận hai đầu vào  $X$  và  $Y$ . Ta có thể coi  $X$  là đầu vào ban đầu trong mạng phần dư và  $Y$  là đầu ra từ tầng tập trung đa đầu hoặc mạng truyền xuôi theo vị trí. Ngoài ra, ta cũng sẽ áp dụng `dropout` lên $Y$  để điều chuẩn.

In [5]:
#@save
class AddNorm(nn.Module):
    def __init__(self, normalized_shape, dropout, **kwargs):
        super(AddNorm, self).__init__(**kwargs)
        self.dropout = nn.Dropout(dropout)
        self.ln = nn.LayerNorm(normalized_shape)

    def forward(self, X, Y):
        return self.ln(self.dropout(Y) + X)

Do có kết nối phần dư,  $X$  và  $Y$  sẽ có kích thước giống nhau.

In [6]:
add_norm = AddNorm([3, 4], 0.5) # Normalized_shape is input.size()[1:]
add_norm.eval()
add_norm(torch.ones((2, 3, 4)), torch.ones((2, 3, 4))).shape

torch.Size([2, 3, 4])

### 10.3.4. Bộ Mã hóa
Với các thành phần thiết yếu trên, hãy xây dựng *bộ mã hóa* cho Transformer. Bộ mã hóa này chứa một tầng tập trung đa đầu, một mạng truyền xuôi theo vị trí và hai khối kết nối “cộng và chuẩn hóa”. Trong mã nguồn, có thể thấy cả tầng tập trung và mạng truyền xuôi theo vị trí trong `EncoderBlock` đều có đầu ra với kích thước là `num_hiddens`. Điều này là do kết nối phần dư trong quá trình “cộng và chuẩn hóa”, khi ta cần cộng đầu ra của hai khối này với giá trị đầu vào của chúng.

In [7]:
#@save
class EncoderBlock(nn.Module):
    def __init__(self, key_size, query_size, value_size, num_hiddens,
                 norm_shape, ffn_num_input, ffn_num_hiddens, num_heads,
                 dropout, use_bias=False, **kwargs):
        super(EncoderBlock, self).__init__(**kwargs)
        self.attention = d2l.MultiHeadAttention(
            key_size, query_size, value_size, num_hiddens, num_heads, dropout,
            use_bias)
        self.addnorm1 = AddNorm(norm_shape, dropout)
        self.ffn = PositionWiseFFN(
            ffn_num_input, ffn_num_hiddens, num_hiddens)
        self.addnorm2 = AddNorm(norm_shape, dropout)

    def forward(self, X, valid_lens):
        Y = self.addnorm1(X, self.attention(X, X, X, valid_lens))
        return self.addnorm2(Y, self.ffn(Y))

Như chúng ta có thể thấy, bất kỳ lớp nào trong bộ mã hóa Transformer không thay đổi hình dạng của đầu vào của nó.

In [8]:
X = torch.ones((2, 100, 24))
valid_lens = torch.tensor([3, 2])
encoder_blk = EncoderBlock(24, 24, 24, 24, [100, 24], 24, 48, 8, 0.5)
encoder_blk.eval()
encoder_blk(X, valid_lens).shape

torch.Size([2, 100, 24])

Bây giờ hãy lập trình bộ mã hóa của Transformer hoàn chỉnh. Trong bộ mã hóa,  $n$  khối `EncoderBlock` được xếp chồng lên nhau. Nhờ có kết nối phần dư, tầng embedding và đầu ra khối Transformer đều có kích thước là  $d$ . Cũng lưu ý rằng ta nhân các embedding với  $\sqrt{d}$  để tránh trường hợp giá trị này quá nhỏ.

In [9]:
#@save
class TransformerEncoder(d2l.Encoder):
    def __init__(self, vocab_size, key_size, query_size, value_size,
                 num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens,
                 num_heads, num_layers, dropout, use_bias=False, **kwargs):
        super(TransformerEncoder, self).__init__(**kwargs)
        self.num_hiddens = num_hiddens
        self.embedding = nn.Embedding(vocab_size, num_hiddens)
        self.pos_encoding = d2l.PositionalEncoding(num_hiddens, dropout)
        self.blks = nn.Sequential()
        for i in range(num_layers):
            self.blks.add_module("block"+str(i),
                EncoderBlock(key_size, query_size, value_size, num_hiddens,
                             norm_shape, ffn_num_input, ffn_num_hiddens,
                             num_heads, dropout, use_bias))

    def forward(self, X, valid_lens, *args):
        # Since positional encoding values are between -1 and 1, the embedding
        # values are multiplied by the square root of the embedding dimension
        # to rescale before they are summed up
        X = self.pos_encoding(self.embedding(X) * math.sqrt(self.num_hiddens))
        self.attention_weights = [None] * len(self.blks)
        for i, blk in enumerate(self.blks):
            X = blk(X, valid_lens)
            self.attention_weights[
                i] = blk.attention.attention.attention_weights
        return X

Hãy tạo một bộ mã hóa với hai khối mã hóa Transformer với siêu tham số như ví dụ trên. Ngoài ra, ta đặt hai tham số `vocab_size = 200`  và `num_layers = 2`.

In [10]:
encoder = TransformerEncoder(
    200, 24, 24, 24, 24, [100, 24], 24, 48, 8, 2, 0.5)
encoder.eval()
encoder(torch.ones((2, 100), dtype=torch.long), valid_lens).shape

AttributeError: module 'd2l.torch' has no attribute 'PositionalEncoding'

### 10.3.5. Bộ Giải mã
Khối giải mã của Transformer gần tương tự như khối mã hóa. Tuy nhiên, bên cạnh hai tầng con (tập trung đa đầu và biểu diễn vị trí), khối giải mã còn chứa tầng tập trung đa đầu áp dụng lên đầu ra của bộ mã hóa. Các tầng con này cũng được kết nối bằng các tầng “cộng và chuẩn hóa”, gồm kết nối phần dư và chuẩn hóa theo tầng.

Cụ thể, tại bước thời gian  $t$ , giả sử đầu vào hiện tại là câu truy vấn  $x_t$ . Như minh họa trong Fig. 10.3.5, các khóa và giá trị của tầng tập trung gồm có câu truy vấn ở bước thời gian hiện tại và tất cả các câu truy vấn ở các bước thời gian trước  $x_1,…,x_{t−1}$.

![](images/self-attention-predict.svg)
<center>Fig. 10.3.5 Dự đoán ở bước thời gian  t  của một tầng tự tập trung.</center>

Trong quá trình huấn luyện, đầu ra của câu truy vấn  $t$  có thể quan sát được tất cả các cặp khóa - giá trị trước đó. Điều này dẫn đến hai cách hoạt động khác nhau của mạng khi huấn luyện và dự đoán. Vì thế, trong lúc dự đoán chúng ta có thể loại bỏ những thông tin không cần thiết bằng cách chỉ định độ dài hợp lệ là  $t$  cho câu truy vấn thứ  $t$ .

In [11]:
class DecoderBlock(nn.Module):
    # The `i`-th block in the decoder
    def __init__(self, key_size, query_size, value_size, num_hiddens,
                 norm_shape, ffn_num_input, ffn_num_hiddens, num_heads,
                 dropout, i, **kwargs):
        super(DecoderBlock, self).__init__(**kwargs)
        self.i = i
        self.attention1 = d2l.MultiHeadAttention(
            key_size, query_size, value_size, num_hiddens, num_heads, dropout)
        self.addnorm1 = AddNorm(norm_shape, dropout)
        self.attention2 = d2l.MultiHeadAttention(
            key_size, query_size, value_size, num_hiddens, num_heads, dropout)
        self.addnorm2 = AddNorm(norm_shape, dropout)
        self.ffn = PositionWiseFFN(ffn_num_input, ffn_num_hiddens,
                                   num_hiddens)
        self.addnorm3 = AddNorm(norm_shape, dropout)

    def forward(self, X, state):
        enc_outputs, enc_valid_lens = state[0], state[1]
        # During training, all the tokens of any output sequence are processed
        # at the same time, so `state[2][self.i]` is `None` as initialized.
        # When decoding any output sequence token by token during prediction,
        # `state[2][self.i]` contains representations of the decoded output at
        # the `i`-th block up to the current time step
        if state[2][self.i] is None:
            key_values = X
        else:
            key_values = torch.cat((state[2][self.i], X), axis=1)
        state[2][self.i] = key_values
        if self.training:
            batch_size, num_steps, _ = X.shape
            # Shape of `dec_valid_lens`: (`batch_size`, `num_steps`), where
            # every row is [1, 2, ..., `num_steps`]
            dec_valid_lens = torch.arange(
                1, num_steps + 1, device=X.device).repeat(batch_size, 1)
        else:
            dec_valid_lens = None

        # Self-attention
        X2 = self.attention1(X, key_values, key_values, dec_valid_lens)
        Y = self.addnorm1(X, X2)
        # Encoder-decoder attention. Shape of `enc_outputs`:
        # (`batch_size`, `num_steps`, `num_hiddens`)
        Y2 = self.attention2(Y, enc_outputs, enc_outputs, enc_valid_lens)
        Z = self.addnorm2(Y, Y2)
        return self.addnorm3(Z, self.ffn(Z)), state

Tương tự như khối mã hóa của Transformer, `num_hiddens` của khối giải mã phải bằng với kích thước chiều cuối cùng của  $X$.

In [12]:
decoder_blk = DecoderBlock(24, 24, 24, 24, [100, 24], 24, 48, 8, 0.5, 0)
decoder_blk.eval()
X = torch.ones((2, 100, 24))
state = [encoder_blk(X, valid_lens), valid_lens, [None]]
decoder_blk(X, state)[0].shape

torch.Size([2, 100, 24])

Bây giờ chúng ta xây dựng toàn bộ bộ giải mã Transformer bao gồm các phiên bản `num_layers` của `DecoderBlock`. Cuối cùng, một lớp được kết nối đầy đủ sẽ tính toán dự đoán cho tất cả các mã thông báo đầu ra có thể có của `vocab_size`. Cả trọng số chú ý của bộ giải mã và trọng số chú ý của bộ mã hóa-giải mã đều được lưu trữ để dễ hình dung sau này.

In [13]:
class TransformerDecoder(d2l.AttentionDecoder):
    def __init__(self, vocab_size, key_size, query_size, value_size,
                 num_hiddens, norm_shape, ffn_num_input, ffn_num_hiddens,
                 num_heads, num_layers, dropout, **kwargs):
        super(TransformerDecoder, self).__init__(**kwargs)
        self.num_hiddens = num_hiddens
        self.num_layers = num_layers
        self.embedding = nn.Embedding(vocab_size, num_hiddens)
        self.pos_encoding = d2l.PositionalEncoding(num_hiddens, dropout)
        self.blks = nn.Sequential()
        for i in range(num_layers):
            self.blks.add_module("block"+str(i),
                DecoderBlock(key_size, query_size, value_size, num_hiddens,
                             norm_shape, ffn_num_input, ffn_num_hiddens,
                             num_heads, dropout, i))
        self.dense = nn.Linear(num_hiddens, vocab_size)

    def init_state(self, enc_outputs, enc_valid_lens, *args):
        return [enc_outputs, enc_valid_lens, [None] * self.num_layers]

    def forward(self, X, state):
        X = self.pos_encoding(self.embedding(X) * math.sqrt(self.num_hiddens))
        self._attention_weights = [[None] * len(self.blks) for _ in range (2)]
        for i, blk in enumerate(self.blks):
            X, state = blk(X, state)
            # Decoder self-attention weights
            self._attention_weights[0][
                i] = blk.attention1.attention.attention_weights
            # Encoder-decoder attention weights
            self._attention_weights[1][
                i] = blk.attention2.attention.attention_weights
        return self.dense(X), state

    @property
    def attention_weights(self):
        return self._attention_weights

AttributeError: module 'd2l.torch' has no attribute 'AttentionDecoder'

### 10.3.6. Huấn luyện
Cuối cùng, chúng ta có thể xây dựng một mô hình mã hóa - giải mã với kiến trúc Transformer. Tương tự như mô hình seq2seq áp dụng cơ chế tập trung trong Section 10.2, chúng ta sử dụng các siêu tham số sau: hai khối Transformer có kích thước embedding và kích thước đầu ra đều là  32 . Bên cạnh đó, chúng ta sử dụng  4  đầu trong tầng tập trung và đặt kích thước ẩn bằng hai lần kích thước đầu ra.

In [None]:
num_hiddens, num_layers, dropout, batch_size, num_steps = 32, 2, 0.1, 64, 10
lr, num_epochs, device = 0.005, 200, d2l.try_gpu()
ffn_num_input, ffn_num_hiddens, num_heads = 32, 64, 4
key_size, query_size, value_size = 32, 32, 32
norm_shape = [32]

train_iter, src_vocab, tgt_vocab = d2l.load_data_nmt(batch_size, num_steps)

encoder = TransformerEncoder(
    len(src_vocab), key_size, query_size, value_size, num_hiddens,
    norm_shape, ffn_num_input, ffn_num_hiddens, num_heads,
    num_layers, dropout)
decoder = TransformerDecoder(
    len(tgt_vocab), key_size, query_size, value_size, num_hiddens,
    norm_shape, ffn_num_input, ffn_num_hiddens, num_heads,
    num_layers, dropout)
net = d2l.EncoderDecoder(encoder, decoder)
d2l.train_seq2seq(net, train_iter, lr, num_epochs, tgt_vocab, device)

Dựa trên thời gian huấn luyện và độ chính xác, ta thấy Transformer chạy nhanh hơn trên mỗi epoch và hội tụ nhanh hơn ở giai đoạn đầu so với seq2seq áp dụng cơ chế tập trung.

Chúng ta có thể sử dụng Transformer đã được huấn luyện để dịch một số câu đơn giản dưới đây.

In [None]:
engs = ['go .', "i lost .", 'he\'s calm .', 'i\'m home .']
fras = ['va !', 'j\'ai perdu .', 'il est calme .', 'je suis chez moi .']
for eng, fra in zip(engs, fras):
    translation, dec_attention_weight_seq = d2l.predict_seq2seq(
        net, eng, src_vocab, tgt_vocab, num_steps, device, True)
    print(f'{eng} => {translation}, ',
          f'bleu {d2l.bleu(translation, fra, k=2):.3f}')

### 10.3.7. Tóm tắt
* Mô hình Transformer dựa trên kiến trúc mã hóa - giải mã.
* Tầng tập trung đa đầu gồm có  h  tầng tập trung song song.
* Mạng truyền xuôi theo vị trí gồm hai tầng kết nối đầy đủ được áp dụng trên chiều cuối cùng.
* Chuẩn hóa theo tầng được áp dụng trên chiều cuối cùng (chiều đặc trưng), thay vì chiều đầu tiên (kích thước batch) như ở chuẩn hóa theo batch.
* Biểu diễn vị trí là nơi duy nhất đưa thông tin vị trí trong chuỗi vào mô hình Transformer.

### 10.3.9. Bài tập
1. Hãy thử huấn luyện với nhiều epoch hơn và so sánh mất mát giữa seq2seq và Transformer.
2. Biểu diễn vị trí còn có lợi ích gì khác không?
3. So sánh chuẩn hóa theo tầng với chuẩn hóa theo batch. Khi nào nên sử dụng một trong hai tầng chuẩn hóa thay vì tầng còn lại?