# Import thư viện cần thiết

In [1]:
import torch
import torch.nn as nn
import torch.optim as optim

import torchtext
from torchtext.legacy.data import Field, BucketIterator, Iterator
from torchtext.legacy import data

import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

import spacy
import numpy as np
import pandas as pd

import random
import math
import time

  from .autonotebook import tqdm as notebook_tqdm


## Đọc dữ liệu

In [2]:
f = open("data.txt", "r", encoding='utf-8')
file_lines = f.readlines()

Ta sẽ sử dụng bộ dữ liệu được thu thập bởi TSAI để huấn luyện mô hình. Bộ dữ liệu bao gồm gần 5000 dữ liệu bao gồm câu hỏi tiếng Anh và đoạn code Python tương ứng.

Cấu trúc file dữ liệu như sau:

```
# Câu hỏi 1

<Python Code 1>

# Câu hỏi 2

<Python Code 2>

# Câu hỏi 3

<Python Code 3>

...
```

Đoạn code dưới đây được sử dụng để đọc dữ liệu theo format trên:

In [3]:
from deep_translator import GoogleTranslator

helper = GoogleTranslator(source="english", target="vietnamese")

dps = []
dp = None
for line in file_lines:
    if line[0] == "#":
        if dp:
            dp['solution'] = ''.join(dp['solution'])
            dps.append(dp)
        dp = {"question": None, "solution": []}
        idx = 1
        # Vì trong dữ liệu có một số câu hỏi có số thứ tự ở đầu
        # Vòng for sau để loại bỏ những số thứ tự đó
        for i in range(1, len(line)):
            if line[i].isalpha():
                idx = i
                break
        dp['question'] = line[i:].strip()
        # dp['question'] = helper.translate(line[i:].strip()) # Dịch câu hỏi sang TV
    else:
        dp["solution"].append(line)

Ví dụ bộ dữ liệu:

In [4]:
print("Câu hỏi: ", dps[0]["question"])
print("Câu trả lời: ")
print(dps[0]["solution"])

Câu hỏi:  viết chương trình python để cộng hai số
Câu trả lời: 
num1 = 1.5
num2 = 6.3
sum = num1 + num2
print(f'Sum: {sum}')





In [4]:
print("Kích cỡ của dữ liệu:", len(dps))

Kích cỡ của dữ liệu: 4050


Lưu bộ dữ liệu dưới dạng .csv

In [5]:
python_problems_df = pd.DataFrame(dps)
# python_problems_df.to_csv("vi_to_code.csv", index=False)

In [12]:
# python_problems_df = pd.read_csv("vi_to_code.csv")

## Tạo một tokenizer để sử dụng với code Python

Python là một ngôn ngữ lập trình với cấu trúc riêng của nó. Một số tokenizer có sẵn sẽ không tối ưu. Ta sẽ xây dựng một tokenizer tùy biến phù hợp sử dụng thư viện tokenizer.


Để tăng kích thước dữ liệu, khi tạo token cho mã python ta sẽ ẩn ngẫu nhiên một tên một số biến để mô hình khi được huấn luyện không quá tập trung vào cách đặt tên biến mà thực sự cố gắng để hiểu cú pháp và logic của đoạn code

Trong quá trình chọn đấy, cần bỏ qua các từ khóa của Python như: range, enumerate, ord, int, ...

In [6]:
from tokenize import tokenize, untokenize
import io
import keyword

def augment_tokenize_python_code(python_code_str, mask_factor=0.3):


    var_dict = {} # Dictionary that stores masked variables

    # certain reserved words that should not be treated as normal variables and
    # hence need to be skipped from our variable mask augmentations
    skip_list = ['range', 'enumerate', 'print', 'ord', 'int', 'float', 'zip'
                 'char', 'list', 'dict', 'tuple', 'set', 'len', 'sum', 'min', 'max']
    skip_list.extend(keyword.kwlist)

    var_counter = 1
    python_tokens = list(tokenize(io.BytesIO(python_code_str.encode('utf-8')).readline))
    tokenized_output = []

    for i in range(0, len(python_tokens)):
      if python_tokens[i].type == 1 and python_tokens[i].string not in skip_list:
        
        if i>0 and python_tokens[i-1].string in ['def', '.', 'import', 'raise', 'except', 'class']: # avoid masking modules, functions and error literals
          skip_list.append(python_tokens[i].string)
          tokenized_output.append((python_tokens[i].type, python_tokens[i].string))
        elif python_tokens[i].string in var_dict:  # if variable is already masked
          tokenized_output.append((python_tokens[i].type, var_dict[python_tokens[i].string]))
        elif random.uniform(0, 1) > 1-mask_factor: # randomly mask variables
          var_dict[python_tokens[i].string] = 'var_' + str(var_counter)
          var_counter+=1
          tokenized_output.append((python_tokens[i].type, var_dict[python_tokens[i].string]))
        else:
          skip_list.append(python_tokens[i].string)
          tokenized_output.append((python_tokens[i].type, python_tokens[i].string))
      
      else:
        tokenized_output.append((python_tokens[i].type, python_tokens[i].string))
    
    return tokenized_output

## Chia tập dữ liệu thành training set và validation set

In [7]:
import numpy as np

np.random.seed(0)
msk = np.random.rand(len(python_problems_df)) < 0.85 # 85% training còn lại là validation

train_df = python_problems_df[msk]
val_df = python_problems_df[~msk]

In [8]:
train_df.shape

(3424, 2)

In [9]:
val_df.shape

(626, 2)

## Tạo vocabulary sử dụng thư viện torchtext

In [10]:
SEED = 1234

random.seed(SEED)
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)
torch.backends.cudnn.deterministic = True

In [12]:
Input = data.Field(tokenize = 'spacy',
            init_token='<sos>', 
            eos_token='<eos>', 
            lower=True)

Output = data.Field(tokenize = augment_tokenize_python_code,
                    init_token='<sos>', 
                    eos_token='<eos>', 
                    lower=False)

In [13]:
fields = [('Input', Input),('Output', Output)]

Việc tăng kích thước dữ liệu có thể tăng vốn từ vựng vượt xa mức ban đầu. Do đó cần kiểm soát càng nhiều biến thể càng tốt. Đoạn code dưới đây áp dụng tăng cường dữ liệu 100 lần

In [14]:
train_example = []
val_example = []

train_expansion_factor = 100
for j in range(train_expansion_factor):
  for i in range(train_df.shape[0]):
      try:
          ex = data.Example.fromlist([train_df.question[i], train_df.solution[i]], fields)
          train_example.append(ex)
      except:
          pass

for i in range(val_df.shape[0]):
    try:
        ex = data.Example.fromlist([val_df.question[i], val_df.solution[i]], fields)
        val_example.append(ex)
    except:
        pass       

In [15]:
train_data = data.Dataset(train_example, fields)
valid_data =  data.Dataset(val_example, fields)

In [16]:
Input.build_vocab(train_data, min_freq = 0)
Output.build_vocab(train_data, min_freq = 0)

In [17]:
# Lưu lại để sử dụng sau này
torch.save(Input, "src.pt")
torch.save(Output, "trg.pt")

# Transformer Architecture

Mô hình Transformer có ba thành phần chính:

1. Encoder chuyển đổi một chuỗi đầu vào thành các vector biểu diễn trạng thái.
2. Cơ chế Attention cho phép mô hình Transformer ập trung vào các khía cạnh phù hợp của dòng đầu vào tuần tự. Điều này được sử dụng lặp lại trong cả encoder và deocder để giúp chúng lập ngữ cảnh dữ liệu đầu vào.
3. Decoder chuyển đổi vector biểu diễn trạng thái để tạo ra chuỗi đầu ra mục tiêu.

## Encoder

![](https://raw.githubusercontent.com/bentrevett/pytorch-seq2seq/9479fcb532214ad26fd4bda9fcf081a05e1aaf4e/assets/transformer-encoder.png)

Encoder nhận một batch các chuỗi nguồn và mặt nạ chuỗi làm đầu vào. Mặt nạ nguồn chứa giá trị 1 tại các vị trí mà chuỗi đầu vào có các giá trị hợp lệ và 0 tại các vị trí mà chuỗi đầu vào có các giá trị <pad>. Điều này đảm bảo rằng cơ chế chú ý trong bộ mã hóa không chú ý đến các giá trị <pad>.

Ta chuyển đổi các mã thông báo chuỗi nguồn của chúng tôi thành các embedding ('tok_embedding') có độ dài 'hid_dim'. Vì ta không sử dụng bất kỳ mạng tuần tự nào, ta cần gán một thẻ cho mỗi mã thông báo với các chỉ số vị trí của nó để bảo toàn thông tin tuần tự. Ta tạo ra một tensor chỉ số (tức là 'pos') và chuyển đổi nó thành một embedding ('pos_embedding') có độ dài 'hid_dim'. Điều này được kết hợp với các chuỗi nguồn embedding để tạo ra tensor đầu vào ban đầu, được gọi là src. Tensor src này được truyền qua một loạt các Encoder.

In [17]:
class Encoder(nn.Module):
    def __init__(self, 
                 input_dim, 
                 hid_dim, 
                 n_layers, 
                 n_heads, 
                 pf_dim,
                 dropout, 
                 device,
                 max_length = 1000):
        super().__init__()

        self.device = device
        
        self.tok_embedding = nn.Embedding(input_dim, hid_dim)
        self.pos_embedding = nn.Embedding(max_length, hid_dim)
        
        self.layers = nn.ModuleList([EncoderLayer(hid_dim, 
                                                  n_heads, 
                                                  pf_dim,
                                                  dropout, 
                                                  device) 
                                     for _ in range(n_layers)])
        
        self.dropout = nn.Dropout(dropout)
        
        self.scale = torch.sqrt(torch.FloatTensor([hid_dim])).to(device)
        
    def forward(self, src, src_mask):
        
        #src = [batch size, src len]
        #src_mask = [batch size, 1, 1, src len]
        
        batch_size = src.shape[0]
        src_len = src.shape[1]

        pos = torch.arange(0, src_len).unsqueeze(0).repeat(batch_size, 1).to(self.device)
        
        #pos = [batch size, src len]
        src = self.dropout((self.tok_embedding(src) * self.scale) + self.pos_embedding(pos))
        
        #src = [batch size, src len, hid dim]
        
        for layer in self.layers:
            src = layer(src, src_mask)
            
        #src = [batch size, src len, hid dim]
            
        return src

EncoderLayer là khối xây dựng cơ bản của thành phần Mã hóa trong Transformer. Tensor src cùng với 'src_mask' của nó được đưa vào một hoạt động Multihead-self-attention để giúp mô hình của ta tập trung vào các khía cạnh cần thiết của tensor src. Đầu ra từ quá trình này được kết hợp với tensor src và được chuẩn hóa để tránh vanishing/exploding gradients (trong quá trình huấn luyện). Đầu ra kết hợp này được đưa vào Một lớp PosiionwiseFeedForward.

In [18]:
class EncoderLayer(nn.Module):
    def __init__(self, 
                 hid_dim, 
                 n_heads, 
                 pf_dim,  
                 dropout, 
                 device):
        super().__init__()
        
        self.self_attn_layer_norm = nn.LayerNorm(hid_dim)
        self.ff_layer_norm = nn.LayerNorm(hid_dim)
        self.self_attention = MultiHeadAttentionLayer(hid_dim, n_heads, dropout, device)
        self.positionwise_feedforward = PositionwiseFeedforwardLayer(hid_dim, 
                                                                     pf_dim, 
                                                                     dropout)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, src, src_mask):
        
        #src = [batch size, src len, hid dim]
        #src_mask = [batch size, 1, 1, src len] 
                
        #self attention
        _src, _ = self.self_attention(src, src, src, src_mask)
        
        #dropout, residual connection and layer norm
        src = self.self_attn_layer_norm(src + self.dropout(_src))
        
        #src = [batch size, src len, hid dim]
        
        #positionwise feedforward
        _src = self.positionwise_feedforward(src)
        
        #dropout, residual and layer norm
        src = self.ff_layer_norm(src + self.dropout(_src))
        
        #src = [batch size, src len, hid dim]
        
        return src

![](https://raw.githubusercontent.com/bentrevett/pytorch-seq2seq/9479fcb532214ad26fd4bda9fcf081a05e1aaf4e/assets/transformer-attention.png)

PositionwiseFeedForwardLayer tiếp tục xử lý đầu vào kết hợp bằng cách sử dụng hai lớp kết nối đầy đủ và một hàm kích hoạt Relu giữa chúng. Kết hợp này với nhúng src là đầu ra cuối cùng của một encoder. Quá trình này lặp lại cho mỗi khối encoder.

In [19]:
class PositionwiseFeedforwardLayer(nn.Module):
    def __init__(self, hid_dim, pf_dim, dropout):
        super().__init__()
        
        self.fc_1 = nn.Linear(hid_dim, pf_dim)
        self.fc_2 = nn.Linear(pf_dim, hid_dim)
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x):
        
        #x = [batch size, seq len, hid dim]
        
        x = self.dropout(torch.relu(self.fc_1(x)))
        
        #x = [batch size, seq len, pf dim]
        
        x = self.fc_2(x)
        
        #x = [batch size, seq len, hid dim]
        
        return x

## Attention

Attention là một cơ chế cho phép một mô hình tập trung vào các phần cần thiết của chuỗi đầu vào theo yêu cầu của nhiệm vụ đang xử lý.

In [20]:
class MultiHeadAttentionLayer(nn.Module):
    def __init__(self, hid_dim, n_heads, dropout, device):
        super().__init__()
        
        assert hid_dim % n_heads == 0
        
        self.hid_dim = hid_dim
        self.n_heads = n_heads
        self.head_dim = hid_dim // n_heads
        
        self.fc_q = nn.Linear(hid_dim, hid_dim)
        self.fc_k = nn.Linear(hid_dim, hid_dim)
        self.fc_v = nn.Linear(hid_dim, hid_dim)
        
        self.fc_o = nn.Linear(hid_dim, hid_dim)
        
        self.dropout = nn.Dropout(dropout)
        
        self.scale = torch.sqrt(torch.FloatTensor([self.head_dim])).to(device)
        
    def forward(self, query, key, value, mask = None):
        
        batch_size = query.shape[0]
        
        #query = [batch size, query len, hid dim]
        #key = [batch size, key len, hid dim]
        #value = [batch size, value len, hid dim]
                
        Q = self.fc_q(query)
        K = self.fc_k(key)
        V = self.fc_v(value)
        
        #Q = [batch size, query len, hid dim]
        #K = [batch size, key len, hid dim]
        #V = [batch size, value len, hid dim]
                
        Q = Q.view(batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        K = K.view(batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        V = V.view(batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        
        #Q = [batch size, n heads, query len, head dim]
        #K = [batch size, n heads, key len, head dim]
        #V = [batch size, n heads, value len, head dim]
                
        energy = torch.matmul(Q, K.permute(0, 1, 3, 2)) / self.scale
        
        #energy = [batch size, n heads, query len, key len]
        
        if mask is not None:
            energy = energy.masked_fill(mask == 0, -1e10)
        
        attention = torch.softmax(energy, dim = -1)
                
        #attention = [batch size, n heads, query len, key len]
                
        x = torch.matmul(self.dropout(attention), V)
        
        #x = [batch size, n heads, query len, head dim]
        
        x = x.permute(0, 2, 1, 3).contiguous()
        
        #x = [batch size, query len, n heads, head dim]
        
        x = x.view(batch_size, -1, self.hid_dim)
        
        #x = [batch size, query len, hid dim]
        
        x = self.fc_o(x)
        
        #x = [batch size, query len, hid dim]
        
        return x, attention

## Decoder

![](https://raw.githubusercontent.com/bentrevett/pytorch-seq2seq/9479fcb532214ad26fd4bda9fcf081a05e1aaf4e/assets/transformer-decoder.png)

Kiến trúc của một decoder rất giống với của encoder với những khác biệt đáng kể xuất phát từ sự hiện diện của đầu vào từ hai nguồn, chuỗi mục tiêu và vector biểu diễn trạng thái từ bộ mã hóa. Giống như cách chúng ta có một khối EncoderLayer cho Encoder, chúng ta sẽ có một DecoderLayer nhận đầu vào là sự kết hợp của nhúng từ chuỗi mã thông báo mục tiêu (tok_embedding) và nhúng của các chỉ số vị trí cho những mã thông báo này. Và như đã đề cập trước đó, đầu ra của bộ mã hóa cũng hoạt động như một trong các đầu vào của DecoderLayer.

In [21]:
class Decoder(nn.Module):
    def __init__(self, 
                 output_dim, 
                 hid_dim, 
                 n_layers, 
                 n_heads, 
                 pf_dim, 
                 dropout, 
                 device,
                 max_length = 10000):
        super().__init__()
        
        self.device = device
        
        self.tok_embedding = nn.Embedding(output_dim, hid_dim)
        self.pos_embedding = nn.Embedding(max_length, hid_dim)
        
        self.layers = nn.ModuleList([DecoderLayer(hid_dim, 
                                                  n_heads, 
                                                  pf_dim, 
                                                  dropout, 
                                                  device)
                                     for _ in range(n_layers)])
        
        self.fc_out = nn.Linear(hid_dim, output_dim)
        
        self.dropout = nn.Dropout(dropout)
        
        self.scale = torch.sqrt(torch.FloatTensor([hid_dim])).to(device)
        
    def forward(self, trg, enc_src, trg_mask, src_mask):
        
        #trg = [batch size, trg len]
        #enc_src = [batch size, src len, hid dim]
        #trg_mask = [batch size, 1, trg len, trg len]
        #src_mask = [batch size, 1, 1, src len]
                
        batch_size = trg.shape[0]
        trg_len = trg.shape[1]
        
        pos = torch.arange(0, trg_len).unsqueeze(0).repeat(batch_size, 1).to(self.device)
                            
        #pos = [batch size, trg len]

        trg = self.dropout((self.tok_embedding(trg) * self.scale) + self.pos_embedding(pos))
                
        #trg = [batch size, trg len, hid dim]
        
        for layer in self.layers:
            trg, attention = layer(trg, enc_src, trg_mask, src_mask)
        
        #trg = [batch size, trg len, hid dim]
        #attention = [batch size, n heads, trg len, src len]
        
        output = self.fc_out(trg)
        
        #output = [batch size, trg len, output dim]
            
        return output, attention

Mỗi DecoderLayer bao gồm hai hoạt động chú ý:

1. Tự chú ý đến embedding trg.
2. Quá trình Multi-head attention sử dụng trg như là vector truy vấn và đầu ra của bộ mã hóa hoạt động như là các vector key và value.

Sự hiện diện của một  Multi-head attention bổ sung phân biệt DecoderLayer mã so với EncoderLayer.

Các đầu ra chú ý từ self-attention được chuẩn hóa và kết hợp với embedding trg bằng một kết nối dư. Sau đó, điều này được gửi vào hoạt động chú ý đa đầu cùng với đầu ra của bộ mã hóa. Các đầu ra của lớp chú ý sau đó được kết hợp với đầu vào trg một lần nữa và chuẩn hóa trước khi được gửi vào lớp feedforward theo vị trí để tạo ra các đầu ra cuối cùng của Lớp Mã giải mã.

Mục đích của tất cả các hoạt động chuẩn hóa là để ngăn vanishing/exploding gradients trong quá trình huấn luyện.

In [22]:
class DecoderLayer(nn.Module):
    def __init__(self, 
                 hid_dim, 
                 n_heads, 
                 pf_dim, 
                 dropout, 
                 device):
        super().__init__()
        
        self.self_attn_layer_norm = nn.LayerNorm(hid_dim)
        self.enc_attn_layer_norm = nn.LayerNorm(hid_dim)
        self.ff_layer_norm = nn.LayerNorm(hid_dim)
        self.self_attention = MultiHeadAttentionLayer(hid_dim, n_heads, dropout, device)
        self.encoder_attention = MultiHeadAttentionLayer(hid_dim, n_heads, dropout, device)
        self.positionwise_feedforward = PositionwiseFeedforwardLayer(hid_dim, 
                                                                     pf_dim, 
                                                                     dropout)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, trg, enc_src, trg_mask, src_mask):
        
        #trg = [batch size, trg len, hid dim]
        #enc_src = [batch size, src len, hid dim]
        #trg_mask = [batch size, 1, trg len, trg len]
        #src_mask = [batch size, 1, 1, src len]
        
        #self attention
        _trg, _ = self.self_attention(trg, trg, trg, trg_mask)
        
        #dropout, residual connection and layer norm
        trg = self.self_attn_layer_norm(trg + self.dropout(_trg))
            
        #trg = [batch size, trg len, hid dim]
            
        #encoder attention
        _trg, attention = self.encoder_attention(trg, enc_src, enc_src, src_mask)
        # query, key, value
        
        #dropout, residual connection and layer norm
        trg = self.enc_attn_layer_norm(trg + self.dropout(_trg))
                    
        #trg = [batch size, trg len, hid dim]
        
        #positionwise feedforward
        _trg = self.positionwise_feedforward(trg)
        
        #dropout, residual and layer norm
        trg = self.ff_layer_norm(trg + self.dropout(_trg))
        
        #trg = [batch size, trg len, hid dim]
        #attention = [batch size, n heads, trg len, src len]
        
        return trg, attention

Dưới đây mô hình transformer cho các vấn đề seq2seq.

In [23]:
class Seq2Seq(nn.Module):
    def __init__(self, 
                 encoder, 
                 decoder, 
                 src_pad_idx, 
                 trg_pad_idx, 
                 device):
        super().__init__()
        
        self.encoder = encoder
        self.decoder = decoder
        self.src_pad_idx = src_pad_idx
        self.trg_pad_idx = trg_pad_idx
        self.device = device
        
    def make_src_mask(self, src):
        
        #src = [batch size, src len]
        
        src_mask = (src != self.src_pad_idx).unsqueeze(1).unsqueeze(2)

        #src_mask = [batch size, 1, 1, src len]

        return src_mask
    
    def make_trg_mask(self, trg):
        
        #trg = [batch size, trg len]
        
        trg_pad_mask = (trg != self.trg_pad_idx).unsqueeze(1).unsqueeze(2)
        
        #trg_pad_mask = [batch size, 1, 1, trg len]
        
        trg_len = trg.shape[1]
        
        trg_sub_mask = torch.tril(torch.ones((trg_len, trg_len), device = self.device)).bool()
        
        #trg_sub_mask = [trg len, trg len]
            
        trg_mask = trg_pad_mask & trg_sub_mask
        
        #trg_mask = [batch size, 1, trg len, trg len]
        
        return trg_mask

    def forward(self, src, trg):
        
        #src = [batch size, src len]
        #trg = [batch size, trg len]
                
        src_mask = self.make_src_mask(src)
        trg_mask = self.make_trg_mask(trg)
        
        #src_mask = [batch size, 1, 1, src len]
        #trg_mask = [batch size, 1, trg len, trg len]
        
        enc_src = self.encoder(src, src_mask)
        
        #enc_src = [batch size, src len, hid dim]
                
        output, attention = self.decoder(trg, enc_src, trg_mask, src_mask)
        
        #output = [batch size, trg len, output dim]
        #attention = [batch size, n heads, trg len, src len]
        
        return output, attention

# Training

In [24]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') # Kiểm tra xem GPU có khả dụng không

In [None]:
Input = torch.load("src.pt")
Output = torch.load("trg.pt")

In [25]:
INPUT_DIM = len(Input.vocab)
OUTPUT_DIM = len(Output.vocab)
HID_DIM = 256
ENC_LAYERS = 3
DEC_LAYERS = 3
ENC_HEADS = 16
DEC_HEADS = 16
ENC_PF_DIM = 512
DEC_PF_DIM = 512
ENC_DROPOUT = 0.1
DEC_DROPOUT = 0.1

enc = Encoder(INPUT_DIM, 
              HID_DIM, 
              ENC_LAYERS, 
              ENC_HEADS, 
              ENC_PF_DIM, 
              ENC_DROPOUT, 
              device)

dec = Decoder(OUTPUT_DIM, 
              HID_DIM, 
              DEC_LAYERS, 
              DEC_HEADS, 
              DEC_PF_DIM, 
              DEC_DROPOUT, 
              device)

In [26]:
len(Output.vocab.__dict__['freqs'])

5464

In [27]:
SRC_PAD_IDX = Input.vocab.stoi[Input.pad_token]
TRG_PAD_IDX = Output.vocab.stoi[Output.pad_token]

model = Seq2Seq(enc, dec, SRC_PAD_IDX, TRG_PAD_IDX, device).to(device)

In [28]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

print(f'The model has {count_parameters(model):,} trainable parameters')

The model has 10,046,812 trainable parameters


In [29]:
def initialize_weights(m):
    if hasattr(m, 'weight') and m.weight.dim() > 1:
        nn.init.xavier_uniform_(m.weight.data)

In [30]:
model.apply(initialize_weights);

In [31]:
LEARNING_RATE = 0.0005

optimizer = torch.optim.Adam(model.parameters(), lr = LEARNING_RATE)

## Loss function

Ta đã sử dụng các biến đổi trong tập dữ liệu để che giấu các biến. Điều này có nghĩa là mô hình của ta có thể dự đoán một loạt các giá trị cho một biến cụ thể và tất cả chúng đều đúng miễn là các dự đoán đó nhất quán thông qua mã. Điều này có nghĩa là nhãn huấn luyện của chúng tôi không chắc chắn lắm và do đó sẽ hợp lý hơn nếu xem xét chúng là chính xác với xác suất 1- smooth_eps và không chính xác trong trường hợp khác. Đây là điều mà việc label smoothening cho phép ta thực hiện được. Dưới đây là code triển khai của CrossEntropyLoss với việc label smoothening.

In [32]:
import torch
import math
import torch.nn as nn
import torch.nn.functional as F

class CrossEntropyLoss(nn.CrossEntropyLoss):
    """CrossEntropyLoss - with ability to recieve distrbution as targets, and optional label smoothing"""

    def __init__(self, weight=None, ignore_index=-100, reduction='mean', smooth_eps=None, smooth_dist=None, from_logits=True):
        super(CrossEntropyLoss, self).__init__(weight=weight,
                                               ignore_index=ignore_index, reduction=reduction)
        self.smooth_eps = smooth_eps
        self.smooth_dist = smooth_dist
        self.from_logits = from_logits

    def forward(self, input, target, smooth_dist=None):
        if smooth_dist is None:
            smooth_dist = self.smooth_dist
        return cross_entropy(input, target, weight=self.weight, ignore_index=self.ignore_index,
                             reduction=self.reduction, smooth_eps=self.smooth_eps,
                             smooth_dist=smooth_dist, from_logits=self.from_logits)


def cross_entropy(inputs, target, weight=None, ignore_index=-100, reduction='mean',
                  smooth_eps=None, smooth_dist=None, from_logits=True):
    """cross entropy loss, with support for target distributions and label smoothing https://arxiv.org/abs/1512.00567"""
    smooth_eps = smooth_eps or 0

    # ordinary log-liklihood - use cross_entropy from nn
    if _is_long(target) and smooth_eps == 0:
        if from_logits:
            return F.cross_entropy(inputs, target, weight, ignore_index=ignore_index, reduction=reduction)
        else:
            return F.nll_loss(inputs, target, weight, ignore_index=ignore_index, reduction=reduction)

    if from_logits:
        # log-softmax of inputs
        lsm = F.log_softmax(inputs, dim=-1)
    else:
        lsm = inputs

    masked_indices = None
    num_classes = inputs.size(-1)

    if _is_long(target) and ignore_index >= 0:
        masked_indices = target.eq(ignore_index)

    if smooth_eps > 0 and smooth_dist is not None:
        if _is_long(target):
            target = onehot(target, num_classes).type_as(inputs)
        if smooth_dist.dim() < target.dim():
            smooth_dist = smooth_dist.unsqueeze(0)
        target.lerp_(smooth_dist, smooth_eps)

    if weight is not None:
        lsm = lsm * weight.unsqueeze(0)

    if _is_long(target):
        eps_sum = smooth_eps / num_classes
        eps_nll = 1. - eps_sum - smooth_eps
        likelihood = lsm.gather(dim=-1, index=target.unsqueeze(-1)).squeeze(-1)
        loss = -(eps_nll * likelihood + eps_sum * lsm.sum(-1))
    else:
        loss = -(target * lsm).sum(-1)

    if masked_indices is not None:
        loss.masked_fill_(masked_indices, 0)

    if reduction == 'sum':
        loss = loss.sum()
    elif reduction == 'mean':
        if masked_indices is None:
            loss = loss.mean()
        else:
            loss = loss.sum() / float(loss.size(0) - masked_indices.sum())

    return loss


def onehot(indexes, N=None, ignore_index=None):
    """
    Creates a one-representation of indexes with N possible entries
    if N is not specified, it will suit the maximum index appearing.
    indexes is a long-tensor of indexes
    ignore_index will be zero in onehot representation
    """
    if N is None:
        N = indexes.max() + 1
    sz = list(indexes.size())
    output = indexes.new().byte().resize_(*sz, N).zero_()
    output.scatter_(-1, indexes.unsqueeze(-1), 1)
    if ignore_index is not None and ignore_index >= 0:
        output.masked_fill_(indexes.eq(ignore_index).unsqueeze(-1), 0)
    return output

def _is_long(x):
    if hasattr(x, 'data'):
        x = x.data
    return isinstance(x, torch.LongTensor) or isinstance(x, torch.cuda.LongTensor)


In [33]:
def maskNLLLoss(inp, target, mask):
    # print(inp.shape, target.shape, mask.sum())
    nTotal = mask.sum()
    crossEntropy = CrossEntropyLoss(ignore_index = TRG_PAD_IDX, smooth_eps=0.20)
    loss = crossEntropy(inp, target)
    loss = loss.to(device)
    return loss, nTotal.item()

In [34]:
criterion = maskNLLLoss

## Training

Để áp dụng lại các biến đổi dữ liệu theo cách khác nhau trong mỗi epoch, chúng tôi tái tạo tập dữ liệu và trình tải dữ liệu ở đầu mỗi epoch. Điều này làm cho quá trình huấn luyện được điều chỉnh đều đặn và giúp ta tạo ra các mô hình tốt hơn.

In [35]:
from tqdm import tqdm

def make_trg_mask(trg):
        
        #trg = [batch size, trg len]
        
        trg_pad_mask = (trg != TRG_PAD_IDX).unsqueeze(1).unsqueeze(2)
        
        #trg_pad_mask = [batch size, 1, 1, trg len]
        
        trg_len = trg.shape[1]
        
        trg_sub_mask = torch.tril(torch.ones((trg_len, trg_len), device = device)).bool()
        
        #trg_sub_mask = [trg len, trg len]
            
        trg_mask = trg_pad_mask & trg_sub_mask
        
        #trg_mask = [batch size, 1, trg len, trg len]
        
        return trg_mask

def train(model, iterator, optimizer, criterion, clip):
    
    model.train()
    
    n_totals = 0
    print_losses = []
    for i, batch in tqdm(enumerate(iterator), total=len(iterator)):
        # print(batch)
        loss = 0
        src = batch.Input.permute(1, 0)
        trg = batch.Output.permute(1, 0)
        trg_mask = make_trg_mask(trg)
        optimizer.zero_grad()
        
        output, _ = model(src, trg[:,:-1])
                
        #output = [batch size, trg len - 1, output dim]
        #trg = [batch size, trg len]
            
        output_dim = output.shape[-1]
            
        output = output.contiguous().view(-1, output_dim)
        trg = trg[:,1:].contiguous().view(-1)
                
        #output = [batch size * trg len - 1, output dim]
        #trg = [batch size * trg len - 1]
            
        mask_loss, nTotal = criterion(output, trg, trg_mask)
        
        mask_loss.backward()
        
        torch.nn.utils.clip_grad_norm_(model.parameters(), clip)
        
        optimizer.step()
        
        print_losses.append(mask_loss.item() * nTotal)
        n_totals += nTotal


        
    return sum(print_losses) / n_totals

In [36]:
def evaluate(model, iterator, criterion):
    
    model.eval()
    
    n_totals = 0
    print_losses = []
    
    with torch.no_grad():
    
        for i, batch in tqdm(enumerate(iterator), total=len(iterator)):

            src = batch.Input.permute(1, 0)
            trg = batch.Output.permute(1, 0)
            trg_mask = make_trg_mask(trg)

            output, _ = model(src, trg[:,:-1])
            
            #output = [batch size, trg len - 1, output dim]
            #trg = [batch size, trg len]
            
            output_dim = output.shape[-1]
            
            output = output.contiguous().view(-1, output_dim)
            trg = trg[:,1:].contiguous().view(-1)
            
            #output = [batch size * trg len - 1, output dim]
            #trg = [batch size * trg len - 1]
            
            mask_loss, nTotal = criterion(output, trg, trg_mask)

            print_losses.append(mask_loss.item() * nTotal)
            n_totals += nTotal

        
    return sum(print_losses) / n_totals

In [37]:
def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs

In [38]:
N_EPOCHS = 20
CLIP = 1

train_losssss = []
val_losssss = []

best_valid_loss = float('inf')

for epoch in range(N_EPOCHS):
    
    start_time = time.time()
    
    train_example = []
    val_example = []

    for i in range(train_df.shape[0]):
        try:
            ex = data.Example.fromlist([train_df.question[i], train_df.solution[i]], fields)
            train_example.append(ex)
        except:
            pass

    for i in range(val_df.shape[0]):
        try:
            ex = data.Example.fromlist([val_df.question[i], val_df.solution[i]], fields)
            val_example.append(ex)
        except:
            pass       

    train_data = data.Dataset(train_example, fields)
    valid_data =  data.Dataset(val_example, fields)

    BATCH_SIZE = 16
    train_iterator, valid_iterator = BucketIterator.splits((train_data, valid_data), batch_size = BATCH_SIZE, 
                                                                sort_key = lambda x: len(x.Input),
                                                                sort_within_batch=True, device = device)

    train_loss = train(model, train_iterator, optimizer, criterion, CLIP)
    valid_loss = evaluate(model, valid_iterator, criterion)
    
    train_losssss.append(train_loss)
    val_losssss.append(valid_loss)
    
    end_time = time.time()
    
    epoch_mins, epoch_secs = epoch_time(start_time, end_time)
    
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), 'model1.pt')
    
    print(f'Epoch: {epoch+1:02} | Time: {epoch_mins}m {epoch_secs}s')
    print(f'\tTrain Loss: {train_loss:.3f} | Train PPL: {math.exp(train_loss):7.3f}')
    print(f'\t Val. Loss: {valid_loss:.3f} |  Val. PPL: {math.exp(valid_loss):7.3f}')

100%|██████████| 180/180 [00:46<00:00,  3.90it/s]
100%|██████████| 7/7 [00:00<00:00, 46.28it/s]


Epoch: 01 | Time: 0m 47s
	Train Loss: 5.124 | Train PPL: 168.025
	 Val. Loss: 4.324 |  Val. PPL:  75.464


100%|██████████| 180/180 [01:00<00:00,  2.95it/s]
100%|██████████| 7/7 [00:00<00:00, 43.19it/s]


Epoch: 02 | Time: 1m 1s
	Train Loss: 4.191 | Train PPL:  66.090
	 Val. Loss: 4.041 |  Val. PPL:  56.870


100%|██████████| 180/180 [00:56<00:00,  3.18it/s]
100%|██████████| 7/7 [00:00<00:00, 41.15it/s]


Epoch: 03 | Time: 0m 57s
	Train Loss: 3.980 | Train PPL:  53.515
	 Val. Loss: 3.870 |  Val. PPL:  47.954


100%|██████████| 180/180 [00:59<00:00,  3.03it/s]
100%|██████████| 7/7 [00:00<00:00, 41.20it/s]


Epoch: 04 | Time: 1m 0s
	Train Loss: 3.833 | Train PPL:  46.217
	 Val. Loss: 3.756 |  Val. PPL:  42.756


100%|██████████| 180/180 [00:57<00:00,  3.14it/s]
100%|██████████| 7/7 [00:00<00:00, 44.80it/s]


Epoch: 05 | Time: 0m 58s
	Train Loss: 3.705 | Train PPL:  40.666
	 Val. Loss: 3.669 |  Val. PPL:  39.208


100%|██████████| 180/180 [00:52<00:00,  3.41it/s]
100%|██████████| 7/7 [00:00<00:00, 21.65it/s]


Epoch: 06 | Time: 0m 53s
	Train Loss: 3.619 | Train PPL:  37.312
	 Val. Loss: 3.567 |  Val. PPL:  35.426


100%|██████████| 180/180 [00:54<00:00,  3.29it/s]
100%|██████████| 7/7 [00:00<00:00, 20.70it/s]


Epoch: 07 | Time: 0m 55s
	Train Loss: 3.532 | Train PPL:  34.202
	 Val. Loss: 3.542 |  Val. PPL:  34.525


100%|██████████| 180/180 [00:57<00:00,  3.12it/s]
100%|██████████| 7/7 [00:00<00:00, 20.77it/s]


Epoch: 08 | Time: 0m 59s
	Train Loss: 3.449 | Train PPL:  31.455
	 Val. Loss: 3.493 |  Val. PPL:  32.897


100%|██████████| 180/180 [00:53<00:00,  3.34it/s]
100%|██████████| 7/7 [00:00<00:00, 20.55it/s]


Epoch: 09 | Time: 0m 55s
	Train Loss: 3.385 | Train PPL:  29.528
	 Val. Loss: 3.423 |  Val. PPL:  30.667


100%|██████████| 180/180 [00:55<00:00,  3.23it/s]
100%|██████████| 7/7 [00:00<00:00, 20.78it/s]


Epoch: 10 | Time: 0m 56s
	Train Loss: 3.317 | Train PPL:  27.570
	 Val. Loss: 3.399 |  Val. PPL:  29.924


100%|██████████| 180/180 [00:56<00:00,  3.21it/s]
100%|██████████| 7/7 [00:00<00:00, 19.85it/s]


Epoch: 11 | Time: 0m 57s
	Train Loss: 3.257 | Train PPL:  25.976
	 Val. Loss: 3.348 |  Val. PPL:  28.443


100%|██████████| 180/180 [00:59<00:00,  3.01it/s]
100%|██████████| 7/7 [00:00<00:00, 21.39it/s]


Epoch: 12 | Time: 1m 0s
	Train Loss: 3.205 | Train PPL:  24.643
	 Val. Loss: 3.316 |  Val. PPL:  27.563


100%|██████████| 180/180 [00:57<00:00,  3.13it/s]
100%|██████████| 7/7 [00:00<00:00, 20.60it/s]


Epoch: 13 | Time: 0m 58s
	Train Loss: 3.164 | Train PPL:  23.657
	 Val. Loss: 3.288 |  Val. PPL:  26.795


100%|██████████| 180/180 [00:54<00:00,  3.29it/s]
100%|██████████| 7/7 [00:00<00:00, 21.27it/s]


Epoch: 14 | Time: 0m 55s
	Train Loss: 3.112 | Train PPL:  22.466
	 Val. Loss: 3.266 |  Val. PPL:  26.211


100%|██████████| 180/180 [00:55<00:00,  3.26it/s]
100%|██████████| 7/7 [00:00<00:00, 21.26it/s]


Epoch: 15 | Time: 0m 56s
	Train Loss: 3.079 | Train PPL:  21.747
	 Val. Loss: 3.232 |  Val. PPL:  25.320


100%|██████████| 180/180 [00:56<00:00,  3.20it/s]
100%|██████████| 7/7 [00:00<00:00, 20.80it/s]


Epoch: 16 | Time: 0m 57s
	Train Loss: 3.047 | Train PPL:  21.042
	 Val. Loss: 3.209 |  Val. PPL:  24.743


100%|██████████| 180/180 [00:58<00:00,  3.06it/s]
100%|██████████| 7/7 [00:00<00:00, 20.64it/s]


Epoch: 17 | Time: 0m 59s
	Train Loss: 3.011 | Train PPL:  20.304
	 Val. Loss: 3.190 |  Val. PPL:  24.295


100%|██████████| 180/180 [00:58<00:00,  3.07it/s]
100%|██████████| 7/7 [00:00<00:00, 21.13it/s]


Epoch: 18 | Time: 0m 59s
	Train Loss: 2.978 | Train PPL:  19.644
	 Val. Loss: 3.184 |  Val. PPL:  24.133


100%|██████████| 180/180 [00:56<00:00,  3.17it/s]
100%|██████████| 7/7 [00:00<00:00, 21.17it/s]


Epoch: 19 | Time: 0m 58s
	Train Loss: 2.953 | Train PPL:  19.163
	 Val. Loss: 3.156 |  Val. PPL:  23.485


100%|██████████| 180/180 [00:57<00:00,  3.15it/s]
100%|██████████| 7/7 [00:00<00:00, 21.36it/s]

Epoch: 20 | Time: 0m 58s
	Train Loss: 2.924 | Train PPL:  18.624
	 Val. Loss: 3.152 |  Val. PPL:  23.390





In [37]:
model.load_state_dict(torch.load('model.pt'))

<All keys matched successfully>