### 9.7 Chuỗi sang chuỗi
- Mô hình chuỗi sang chuỗi (Sequence to Sequence - seq2seq) dựa trên kiến trúc mã hóa - giải mã để sinh ra chuỗi đầu ra từ chuối đầu vào như minh họa. Cả bộ mã hóa và bộ giải mã sử dụng mạng nơ ron hồi tiếp RNN để xử lý các chuỗi đầu vào với độ dài khác nhau. Trạng thái ẩn của bộ giải mã được khởi tạo trực tiếp từ trạng thái ẩn của bộ mã hóa, giúp truyền thôn tin từ bộ mã hóa đến bộ giải mã.

    ![image.png](attachment:image.png)

- Các tầng trong bộ mã hóa và bộ giải mã được minh họa như sau:

    ![image-2.png](attachment:image-2.png)

In [1]:
import collections
import math
import torch
from d2l import torch as d2l
from torch import nn
from torch.nn import functional as F

#### 9.7.1 Bộ Mã hóa
- Nhắc lại rằng bộ mã hóa của mô hình seq2seq mã hóa thông tin của các chuỗi đầu vào với độ dài khác nhau thành một vector ngữ cảnh c. Ta thường sử dụng các tầng RNN trong bộ mã hóa. Giả sử có một chuỗi đầu vào ![image.png](attachment:image.png) trong đó ![image-2.png](attachment:image-2.png) là từ thứ t. Tại bước thời gian t, mô hình RNN sẽ có hai vecto đầu vào: vector đặc trưng ![image-3.png](attachment:image-3.png) và trạng thái ẩn của bước thời gian trước đó h_(t - 1). Ta ký hiệu phép chuyển đổi của các trạng thái ẩn trong RNN  bằng hàm f:

    ![image-4.png](attachment:image-4.png)

- Tiếp theo, bộ mã hóa nắm bắt thông tin của tất cả các trạng thái ẩn và mã hóa chúng thành vector ngữ cảnh c bằng hàm q():

    ![image-5.png](attachment:image-5.png)

- Ví dụ, nếu chúng ta chọn q là ![image-6.png](attachment:image-6.png), thì vector ngữ cảnh sẽ là trạng thái ẩn của bước thời gian cuối cùng h_T.

- Cho đến nay ta mới mô tả bộ mã hóa sử dụng mạng RNN một chiều, ở đó trạng thái ẩn của mỗi bước thời gian chỉ phụ thuộc vào các bước thời gian trước. Ta cũng có thể sử dụng các dạng RNN khác nhau như GRU, LSTM hay RNN hai chiều để mã hóa chuỗi đầu vào.

1. Ta sử dụng __một tầng embedding từ ngữ__ để lấy vector đặc trưng tương ứng với chỉ số từ trong ngôn ngữ nguồn. Những vector đặc trưng này sẽ được truyền vào một mạng LSTM đa tầng. 
2. Batch đầu vào của bộ mã hóa là tensor hai chiều có bộ kích thước là (kích thước batch, độ dài chuỗi) với số lượng chuỗi bằng kích thước batch.
3. Bộ mã hóa trả về cả đàu ra của LSTM, gồm các trạng thái ẩn của tất cả các bước thời gian, cùng với trạng thái ẩn và ô nhớ ở bước thời gian cuối cùng.

In [17]:
from torch import Tensor


def init_seq2seq(module):
    """Initialize weights for sequence-to-sequence learning"""
    if type(module) == nn.Linear:
        nn.init.xavier_uniform_(module.weight)
    if type(module) == nn.LSTM:
        for param in module._flat_weights_names:
            if "weight" in param:
                nn.init.xavier_uniform_(module._parameters[param])

class Seq2SeqEncoder(d2l.Encoder):
    """The RNN encoder for sequence-to-sequence learning."""
    def __init__(self, vocab_size, embedded_size, num_hiddens, num_layers, 
                 drop_out = 0):
        super().__init__()
        self.embeddings = nn.Embedding(vocab_size, embedded_size)
        self.rnn = nn.LSTM(embedded_size, num_hiddens, num_layers, dropout= drop_out)
        self.apply(init_seq2seq)

    def forward(self, X, *args):
        # X shape: (batch_size, num_steps)
        embs = self.embeddings(X.t().type(torch.int64))

        # embs shape: (num_steps, batch_size, embed_size)
        outputs, state = self.rnn(embs)

        # outputs shape: (num_steps, batch_size, num_hiddens)
        # state shape: (num_layers, batch_size, num_hiddens)
        return outputs, state



In [20]:
vocab_size, embed_size, num_hiddens, num_layers = 10, 8, 16, 2
batch_size, num_steps = 4, 9
encoder = Seq2SeqEncoder(vocab_size, embed_size, num_hiddens, num_layers)
X = torch.zeros((batch_size, num_steps))
enc_outputs, enc_state = encoder(X)
d2l.check_shape(enc_outputs, (num_steps, batch_size, num_hiddens))
d2l.check_shape(enc_state[0], (num_layers, batch_size, num_hiddens)) # Hidden states
d2l.check_shape(enc_state[1], (num_layers, batch_size, num_hiddens)) # Memory

#### 9.7.2 Bộ giải mã
- Như đã giới thiệu, vector ngữ cảnh c mã hóa thông tin của toàn bộ chuỗi đầu vào ![image.png](attachment:image.png). Giả sử như đầu ra của tập huấn luyện là ![image-2.png](attachment:image-2.png). Tại mỗi bước thời gian t', xác suất có điều kiện của đầu ra ![image-3.png](attachment:image-3.png) sẽ phụ thuộc vào đầu ra trước đó ![image-4.png](attachment:image-4.png) và vector ngữ cảnh c, tức là:

    ![image-5.png](attachment:image-5.png)

- Do đó, chúng ta có thể sử dụng một mạng RNN khác trong bộ giải mã. Tại mỗi bước thời gian t', bộ giải mã cập nhật trạng thái ẩn của nó thông qua ba đầu vào: vector đặc trưng ![image-6.png](attachment:image-6.png) của ![image-7.png](attachment:image-7.png), vector ngữ cảnh __c__ và trạng thái ẩn tại bước trước đó ![image-8.png](attachment:image-8.png). Hàm g() dưới đây biểu diễn quá trình biến đổi trạng thái ẩn của mạng RNN trong bộ giải mã.

    ![image-9.png](attachment:image-9.png)

- Khi lập trình, ta sử dụng trực tiếp __trạng thái ẩn của bộ mã hóa ở bước thời gian cuối cùng__ để khởi tạo trạng thái ẩn của bộ giải mã. Điều này đỏi hỏi bộ mã hóa và bộ giải mã phải có cùng số tầng và số nút ẩn. 
- Các bước tính toán lượt truyền xuôi trong bộ giải mã gần giống trong bộ mã hóa. Điểm khác biệt duy nhất là có thêm môt tầng kết nối dày đặc với kích thước bằng kích thước bộ từ vựng được đặt ở sau các tầng LSTM. 

In [None]:
class Seq2SeqDecoder(d2l.Decoder):
    """The RNN decoder for sequence-to-sequence learning"""
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers, dropout = 0):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.LSTM(embed_size, num_hiddens, num_layers, dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)
        self.apply(init_seq2seq)

    def init_state(self, enc_all_outputs, *args):
        return enc_all_outputs[1] # Sử dụng hidden_state cuối cùng và ô nhớ cuối cùng làm 
                                  # state của lstm tại decoder
    
    def forward(self, X, state):
        # X shape: (batch_size, num_steps)
        # embs shape: (num_steps, batch_size, embed_size)
        embs = self.embedding(X.t().type(torch.int32))
        # H shape ((num_layers, batch_size, num_hiddens))
        out, state = self.rnn(embs, state)
        # Output shape: (batch_size, num_steps, num_hiddens)
        out = self.dense(out).swapaxes(0, 1)
        return out, state
        

In [30]:
decoder = Seq2SeqDecoder(vocab_size, embed_size, num_hiddens, num_layers)
state = decoder.init_state(encoder(X))
out, state = decoder(X, state)
out.shape, len(state), state[0].shape, state[1].shape

(torch.Size([4, 9, 10]), 2, torch.Size([2, 4, 16]), torch.Size([2, 4, 16]))