In [17]:
import torch

from transformers import T5ForConditionalGeneration, T5Tokenizer
import torch
if torch.cuda.is_available():       
    device = torch.device("cuda")

    print('There are %d GPU(s) available.' % torch.cuda.device_count())
    print('We will use the GPU:', torch.cuda.get_device_name(0))
else:
    print('No GPU available, using the CPU instead.')
    device = torch.device("cpu")


device = "cuda"


model = T5ForConditionalGeneration.from_pretrained("NlpHUST/t5-en-vi-base")
tokenizer = T5Tokenizer.from_pretrained("NlpHUST/t5-en-vi-base")
model.to(device)

src = "I bring umbrella if by chance it rains"
tokenized_text = tokenizer.encode(src, return_tensors="pt").to(device)
print(tokenized_text)
model.eval()
summary_ids = model.generate(
                    tokenized_text,
                    max_length=128, 
                    num_beams=5,
                    repetition_penalty=2.5, 
                    length_penalty=1.0, 
                    early_stopping=True
                )
output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(output)

There are 1 GPU(s) available.
We will use the GPU: NVIDIA GeForce RTX 3050 Laptop GPU


You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


tensor([[   336,   8448,    259,    273, 134434,    955,    455,  12862,    609,
            259, 190361,      1]], device='cuda:0')
Tôi mang dù nếu có cơ hội trời mưa


In [None]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

print(count_parameters(model))

## Reading data file, saving result

In [2]:
with open('tst2013.en','r') as f:
    eng_txt = f.read().splitlines()
print(eng_txt)



In [3]:
with open('tst2013.vi','r',encoding = 'utf8') as fv:
    vie_txt = fv.read().splitlines()
print(vie_txt)

['Khi tôi còn nhỏ , Tôi nghĩ rằng BắcTriều Tiên là đất nước tốt nhất trên thế giới và tôi thường hát bài &quot; Chúng ta chẳng có gì phải ghen tị . &quot;', 'Tôi đã rất tự hào về đất nước tôi .', 'Ở trường , chúng tôi dành rất nhiều thời gian để học về cuộc đời của chủ tịch Kim II- Sung , nhưng lại không học nhiều về thế giới bên ngoài , ngoại trừ việc Hoa Kỳ , Hàn Quốc và Nhật Bản là kẻ thù của chúng tôi .', 'Mặc dù tôi đã từng tự hỏi không biết thế giới bên ngoài kia như thế nào , nhưng tôi vẫn nghĩ rằng mình sẽ sống cả cuộc đời ở BắcTriều Tiên , cho tới khi tất cả mọi thứ đột nhiên thay đổi .', 'Khi tôi lên 7 , tôi chứng kiến cảnh người ta xử bắn công khai lần đầu tiên trong đời , nhưng tôi vẫn nghĩ cuộc sống của mình ở đây là hoàn toàn bình thường .', 'Gia đình của tôi không nghèo , và bản thân tôi thì chưa từng phải chịu đói .', 'Nhưng vào một ngày của năm 1995 , mẹ tôi mang về nhà một lá thư từ một người chị em cùng chỗ làm với mẹ .', 'Trong đó có viết : Khi chị đọc được những dò

In [4]:
src = eng_txt[3]
tokenized_text = tokenizer.encode(src, return_tensors="pt").to(device)
model.eval()
summary_ids = model.generate(
                    tokenized_text,
                    max_length=128, 
                    num_beams=5,
                    repetition_penalty=2.5, 
                    length_penalty=1.0, 
                    early_stopping=True
                )
output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(output)

Mặc dù tôi thường tự hỏi về thế giới bên ngoài, tôi nghĩ rằng tôi sẽ dành cả cuộc đời mình ở Bắc Triều Tiên, cho đến khi mọi thứ đột nhiên thay đổi.


In [4]:
from tqdm import tqdm
results = []
for t in tqdm(eng_txt[:]):
    src = t
    tokenized_text = tokenizer.encode(src, return_tensors="pt").to(device)
    model.eval()
    summary_ids = model.generate(
                        tokenized_text,
                        max_length=128, 
                        num_beams=5,
                        repetition_penalty=2.5, 
                        length_penalty=1.0, 
                        early_stopping=True
                    )
    output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
    results.append(output)


100%|██████████| 1269/1269 [15:27<00:00,  1.37it/s]


In [5]:
with open('tst2013.pred','w',encoding = 'utf8') as fp:
    for result in results:
        fp.write(result + '\n')

In [6]:
with open("tst2013.pred",'r',encoding = 'utf8') as fp:
    pred_txt = fp.read().splitlines()

In [7]:
def split_string(string):
    return string.split()
predictions = list(map(split_string, pred_txt))
references = list(map(split_string,vie_txt[:]))
print(predictions)
print(references)

[['Khi', 'còn', 'nhỏ,', 'tôi', 'nghĩ', 'đất', 'nước', 'tôi', 'là', 'quốc', 'gia', 'tốt', 'nhất', 'trên', 'hành', 'tinh,', 'và', 'tôi', 'lớn', 'lên', 'hát', 'một', 'bài', 'hát', 'có', 'tên', '&quot;', 'Nothing', 'To', 'Envy', '&quot;.'], ['Và', 'tôi', 'đã', 'rất', 'tự', 'hào.'], ['Trong', 'trường', 'học,', 'chúng', 'tôi', 'dành', 'nhiều', 'thời', 'gian', 'nghiên', 'cứu', 'lịch', 'sử', 'Kim', 'Il-Sung,', 'nhưng', 'chúng', 'tôi', 'chưa', 'bao', 'giờ', 'biết', 'nhiều', 'về', 'thế', 'giới', 'bên', 'ngoài,', 'ngoại', 'trừ', 'Mỹ,', 'Hàn', 'Quốc,', 'Nhật', 'Bản', 'là', 'kẻ', 'thù.'], ['Mặc', 'dù', 'tôi', 'thường', 'tự', 'hỏi', 'về', 'thế', 'giới', 'bên', 'ngoài,', 'tôi', 'nghĩ', 'rằng', 'tôi', 'sẽ', 'dành', 'cả', 'cuộc', 'đời', 'mình', 'ở', 'Bắc', 'Triều', 'Tiên,', 'cho', 'đến', 'khi', 'mọi', 'thứ', 'đột', 'nhiên', 'thay', 'đổi.'], ['Khi', 'tôi', '7', 'tuổi,', 'tôi', 'đã', 'chứng', 'kiến', 'vụ', 'hành', 'quyết', 'công', 'khai', 'đầu', 'tiên', 'của', 'mình,', 'nhưng', 'tôi', 'nghĩ', 'cuộc', 'số

In [8]:
import nltk
from tqdm import tqdm
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

ref_txt = vie_txt[:]
ref_len=len(ref_txt)
pred_len=len(pred_txt)
chencherry = SmoothingFunction()
# assert ref_len==pred_len

bleu=0
for i in tqdm(range(ref_len)): 
    # Only consider Unigram BLEU score here (n = 1)
    sent_bleu = sentence_bleu([ref_txt[i].strip().split()],pred_txt[i].strip().split(),smoothing_function = chencherry.method3)
    bleu+=sent_bleu
    
print('\nAverage Unigram BLEU Score:',bleu/float(ref_len))

100%|██████████| 1269/1269 [00:00<00:00, 10738.55it/s]


Average Unigram BLEU Score: 0.22678881066211787





## Saving model

In [None]:
save_file_path = ('models/model.pth')  #save with fp32
torch.save(model.state_dict(), save_file_path)

In [1]:
import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer,AutoConfig

# Load the tokenizer
tokenizer = T5Tokenizer.from_pretrained("NlpHUST/t5-en-vi-base")

# Initialize the model with the architecture

config = AutoConfig.from_pretrained("NlpHUST/t5-en-vi-base")
new_model = T5ForConditionalGeneration(config=config)

# Load the weights from the .pth file
weights_path = "models/model.pth"
state_dict = torch.load(weights_path, map_location=torch.device('cpu'))  # Load the weights onto CPU

# Load the state_dict onto the model
new_model.load_state_dict(state_dict)

# Move the model to the desired device
device = "cpu"  # Change this to "cuda" if you want to use GPU
new_model.to(device)

# Iterate through the parameters and print their datatype
param_dtype_list = []
for name, param in new_model.named_parameters():
    # print(f"Parameter '{name}' has datatype: {param.dtype}")
    if param.dtype not in param_dtype_list:
        param_dtype_list.append(param.dtype)
print(param_dtype_list)



You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


[torch.float32]


In [7]:
import torch.quantization
	
quantized_model = torch.quantization.quantize_dynamic(new_model, {torch.nn.Linear}, dtype=torch.qint8)

In [None]:
save_file_path = ('quantized_models/model.pth')  #save with fp32
torch.save(quantized_model.state_dict(), save_file_path)

In [8]:
#Test quantized model
quantized_model.to(device)
device = "cpu"
src = "I'm feeling under the weather today"
tokenized_text = tokenizer.encode(src, return_tensors="pt").to(device)
print(tokenized_text)
quantized_model.eval()
summary_ids = quantized_model.generate(
                    tokenized_text,
                    max_length=128, 
                    num_beams=5,
                    repetition_penalty=2.5, 
                    length_penalty=1.0, 
                    early_stopping=True
                )
output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(output)

tensor([[  336,   277,   282, 28478,  1711,   287, 40864,  7883,     1]])
Tôi đang cảm nhận dưới thời tiết hôm nay


In [9]:

# Inference from quantized model
device = "cpu"
quantized_model.to(device)
from tqdm import tqdm
results = []
for t in tqdm(eng_txt[:]):
    src = t
    tokenized_text = tokenizer.encode(src, return_tensors="pt").to(device)
    quantized_model.eval()
    summary_ids = quantized_model.generate(
                        tokenized_text,
                        max_length=128, 
                        num_beams=5,
                        repetition_penalty=2.5, 
                        length_penalty=1.0, 
                        early_stopping=True
                    )
    output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
    results.append(output)

100%|██████████| 1269/1269 [41:28<00:00,  1.96s/it] 


In [11]:
with open('tst2013_quantized.pred','w',encoding = 'utf8') as fp:
    for result in results:
        fp.write(result + '\n')

In [12]:
with open("tst2013_quantized.pred",'r',encoding = 'utf8') as fp:
    pred_txt = fp.read().splitlines()

## BLEU Score


In [13]:
def split_string(string):
    return string.split()
predictions = list(map(split_string, pred_txt))
references = list(map(split_string,vie_txt[:]))
print(predictions)
print(references)

[['Khi', 'tôi', 'còn', 'nhỏ,', 'tôi', 'nghĩ', 'đất', 'nước', 'tôi', 'là', 'quốc', 'gia', 'tốt', 'nhất', 'trên', 'hành', 'tinh', 'này,', 'và', 'tôi', 'lớn', 'lên', 'hát', 'một', 'bài', 'hát', 'có', 'tên', '&quot;', 'Nothing', 'To', 'Envy.', '&quot;'], ['Và', 'tôi', 'rất', 'tự', 'hào.'], ['Trong', 'trường', 'học,', 'chúng', 'tôi', 'đã', 'dành', 'nhiều', 'thời', 'gian', 'nghiên', 'cứu', 'lịch', 'sử', 'Kim', 'Il-Sung,', 'nhưng', 'chúng', 'tôi', 'không', 'bao', 'giờ', 'biết', 'nhiều', 'về', 'thế', 'giới', 'bên', 'ngoài,', 'ngoại', 'trừ', 'Mỹ,', 'Hàn', 'Quốc,', 'Nhật', 'Bản', 'là', 'kẻ', 'thù.'], ['Mặc', 'dù', 'tôi', 'thường', 'tự', 'hỏi', 'về', 'thế', 'giới', 'bên', 'ngoài,', 'tôi', 'nghĩ', 'rằng', 'tôi', 'sẽ', 'dành', 'cả', 'cuộc', 'đời', 'ở', 'Bắc', 'Triều', 'Tiên', 'cho', 'đến', 'khi', 'mọi', 'thứ', 'đột', 'nhiên', 'thay', 'đổi.'], ['Khi', 'tôi', 'bảy', 'tuổi,', 'tôi', 'đã', 'thấy', 'cuộc', 'hành', 'hình', 'công', 'cộng', 'đầu', 'tiên', 'của', 'mình,', 'nhưng', 'tôi', 'nghĩ', 'cuộc', 'số

In [15]:
import nltk
from tqdm import tqdm
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction

ref_txt = vie_txt[:]
ref_len=len(ref_txt)
pred_len=len(pred_txt)
chencherry = SmoothingFunction()
# assert ref_len==pred_len

bleu=0
for i in tqdm(range(ref_len)): 
    # Only consider Unigram BLEU score here (n = 1)
    sent_bleu = sentence_bleu([ref_txt[i].strip().split()],pred_txt[i].strip().split(),smoothing_function = chencherry.method3)
    bleu+=sent_bleu
    
print('\nAverage Unigram BLEU Score:',bleu/float(ref_len))

100%|██████████| 1269/1269 [00:00<00:00, 9331.74it/s]


Average Unigram BLEU Score: 0.20902767621295423





In [1]:
from data.idiom_data.idiom_translation import TranslationDataset

with open('data/idiom_data/total_idioms.txt') as f:
    idioms = f.read()
    idiomatic_sentences = idioms.split("\n")
    
with open('data/idiom_data/total_translated_idioms.txt') as f:
    translated = f.read()
    plain_sentences = translated.split("\n")


print(len(idiomatic_sentences))
print(len(plain_sentences))
idiomatic_sentences = idiomatic_sentences[0:-1]
plain_sentences = plain_sentences[0:-1]
print(len(idiomatic_sentences))
print(len(plain_sentences))

101
101
100
100


In [2]:
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator

# Helper function to tokenize and build vocabulary
def yield_tokens(data_iter, tokenizer):
    for text in data_iter:
        yield tokenizer(text)


tokenizer = get_tokenizer('spacy', language='en_core_web_sm')
vocab = build_vocab_from_iterator(yield_tokens(idiomatic_sentences + plain_sentences, tokenizer), specials=["<unk>", "<pad>", "<sos>", "<eos>"])
vocab.set_default_index(vocab["<unk>"])




In [3]:
import torch
BATCH_SIZE = 10

dataset = TranslationDataset(idiomatic_sentences, plain_sentences, vocab, tokenizer)
dataloader = torch.utils.data.DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=True, collate_fn=lambda x: tuple(zip(*x)))

In [6]:
from models.idiom_model import Seq2Seq, Encoder, Decoder, Attention

import torch.optim as optim
import torch.nn as nn

from tqdm import tqdm




# Parameters
INPUT_DIM = len(vocab)
OUTPUT_DIM = len(vocab)
print(INPUT_DIM)
print(OUTPUT_DIM)
ENC_EMB_DIM = 256
DEC_EMB_DIM = 256
HID_DIM = 512
N_LAYERS = 2
ENC_DROPOUT = 0.5
DEC_DROPOUT = 0.5
CLIP = 1

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

attn = Attention(HID_DIM)
enc = Encoder(INPUT_DIM, ENC_EMB_DIM, HID_DIM, N_LAYERS, ENC_DROPOUT)
dec = Decoder(OUTPUT_DIM, DEC_EMB_DIM, HID_DIM, N_LAYERS, DEC_DROPOUT, attn)

idiom_model = Seq2Seq(enc, dec, device, vocab, tokenizer).to(device)

optimizer = optim.Adam(idiom_model.parameters())
criterion = nn.CrossEntropyLoss(ignore_index=vocab["<pad>"])

398
398


In [7]:
for epoch in tqdm(range(1001)):
    # print("start of epoch", epoch, "========================================")
    train_loss = idiom_model.train_model(dataloader=dataloader,optimizer=optimizer,criterion=criterion,clip=CLIP,vocab=vocab)
    if epoch %30 == 0:
        print(f'Epoch: {epoch+1:02}, Train Loss: {train_loss:.3f}')
        pass


  0%|          | 2/1001 [00:00<06:07,  2.72it/s]

Epoch: 01, Train Loss: 5.494


  3%|▎         | 32/1001 [00:06<02:58,  5.43it/s]

Epoch: 31, Train Loss: 0.012


  6%|▌         | 62/1001 [00:11<02:36,  5.99it/s]

Epoch: 61, Train Loss: 0.001


  7%|▋         | 75/1001 [00:14<02:54,  5.30it/s]


KeyboardInterrupt: 

In [9]:
for i in range(0,100):
    sentence = idiomatic_sentences[i]
    generated_sentence = idiom_model.sample(sentence)
    print(i, "Generated Sentence:", generated_sentence)

0 Generated Sentence: <unk> as a precaution
1 Generated Sentence: <unk> something pitiful something pitiful or disappointing to see
2 Generated Sentence: <unk> general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guideline general guid

In [10]:
save_file_path = ('models_checkpoint/idiom_model.pth')  #save with fp32
torch.save(idiom_model.state_dict(), save_file_path)

In [11]:
new_model = Seq2Seq(enc,dec,device,vocab,tokenizer)
new_model.load_state_dict(torch.load(save_file_path))

<All keys matched successfully>

In [12]:
sentence = "in a really bad shape"
generated_sentence = new_model.sample(sentence)
print("Generated Sentence:", generated_sentence)

Generated Sentence: <unk> poor condition
