In [1]:
import os
import sys
import pickle
import pandas as pd
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torchtext.vocab import GloVe
from torch.utils.data import DataLoader

In [2]:
PROJECT_ROOT = os.path.expanduser('~/vietnamese-poem-generation')
sys.path.append(PROJECT_ROOT)
sys.path.insert(0, PROJECT_ROOT)
from constants import *
sys.path.append(UTILS_DIR)
sys.path.append(MODEL_DIR)
from tokenization import *
from dataset import *
from transformer import *
from train import *
from inference import *

2025-02-27 14:04:40.485741: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1740639880.500291   69822 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1740639880.504586   69822 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2025-02-27 14:04:40.518998: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


# Poem Data

In [3]:
df = pd.read_csv(os.path.join(DATA_DIR, 'poem_dataset.csv'))
df.head()

Unnamed: 0,content,title,url,genre
0,ngày đông se sắt lạnh trong lòng\ncó việc đi n...,SAY NẮNG,https://www.facebook.com/groups/48640773509859...,7 chu
1,ôm đàn thao thức đến nữa đêm\nréo rắt cung âm ...,,https://www.facebook.com/groups/17645444269765...,7 chu
2,tết có người vui có kẻ buồn\nngười cười toe to...,TẾT HAI THÁI CỰC,https://www.facebook.com/groups/17645444269765...,7 chu
3,đã quá ba mươi mộng lỡ làng\nđi tìm day dứt mả...,TRÁI NGANG ĐỨC HẠNH,https://www.facebook.com/groups/48640773509859...,7 chu
4,mai đào nở rộ đón nàng xuân\nsợi nắng hanh vàn...,DÁNG XUÂN,https://www.facebook.com/groups/17645444269765...,7 chu


In [None]:
print(df['content'][0])

ngày đông se sắt lạnh trong lòng
có việc đi ngang qua chỗ đó
bắt gặp ánh mắt ai say đắm
nụ cười ai khiến tôi hoảng loạn
ngày hôm nay tôi lướt qua ai
thấy tim mình xốn xang loạn nhịp
sao thế có phải mình say nắng
chiều đông đâu có nắng mà say
say ngất say ngây say không tỉnh
lâng lâng như uống phải men tình
thả hồn theo gió lộng mênh mông
mộng mơ bồng bềnh khi sương xuống
mây chiều đã nhuộm đỏ hoàng hôn
chim khôn đã cùng nhau về tổ
ngất ngây đắm chìm say gì thế
mà đứng chôn chân chả muốn về
sương nhẹ rơi vương đầy trên cỏ
sao lòng buồn bỗng thấy bâng khuâng
giật mình chợt tỉnh cơn mộng mị
tỉnh lại đi tôi ơi tỉnh lại
còn các con đang ngóng chờ cửa
còn bạn đời đang đợi tôi về


# Create Dataset for Poem Data

- Build vocabulary from the text data:

In [None]:
vocab = build_vocabulary(df)

In [None]:
with open(os.path.join(STORAGE_DIR, 'poem_vocab.pkl'), 'wb') as f:
    pickle.dump(vocab, f)
print('Vocabulary saved as pkl file')

Vocabulary saved as pkl file


In [4]:
with open(os.path.join(STORAGE_DIR, 'poem_vocab.pkl'), 'rb') as f:
    vocab = pickle.load(f)
print('Vocabulary loaded from pkl file')

Vocabulary loaded from pkl file


In [24]:
vocab.get_stoi()

{'😧': 165136,
 '￼ vị': 165134,
 '￼ thế': 165132,
 '\ufeff': 165129,
 '️ ôi': 165127,
 '️ sức': 165126,
 '️ chúc': 165123,
 '️ chí': 165122,
 '₫ ời': 165121,
 '₫ ây': 165120,
 'ỹ': 165117,
 'ỷ thân': 165115,
 'ỷ nén': 165113,
 'ựa': 165110,
 'ửng vầng': 165109,
 'ửng lòng': 165104,
 'ửng chiếu': 165103,
 'ừ mai': 165098,
 'ứa nghẹn': 165087,
 'ứ trào': 165084,
 'ứ mộng': 165083,
 'ủ thương': 165074,
 'ủ nghĩa': 165073,
 'ở vẹn': 165065,
 'ớt thương': 165062,
 'ớt hiểm': 165060,
 'ớt chao': 165059,
 'ớc': 165057,
 'ổn tâm': 165054,
 'ổi hái': 165048,
 'ổ bầy': 165043,
 'ồn oang': 165041,
 'ồn lộn xộn': 165039,
 'ồ đẹp': 165037,
 'ồ kiều': 165033,
 'ồ hư': 165032,
 'ống nghiệm': 165030,
 'ốm ân cần': 165027,
 'ốm sốt': 165024,
 'ốm mai': 165021,
 'ốc xào': 165017,
 'ốc vặn': 165016,
 'ốc thương': 165015,
 'ốc lòng': 165012,
 'ốc loãng': 165011,
 'ốc bươu vàng': 165009,
 'ố danh': 165008,
 'ỏng ẹo': 165007,
 'ọi': 165005,
 'ọa': 165003,
 'ịt': 165001,
 'ềnh oang': 165000,
 'ếch khuẩy': 164

- Create poem dataset: In this notebook, I just get about **5000 poems** for training example.

In [None]:
train_dataset = PoemDataset(df=df[:5000], tokenizer=custom_tokenize, vocab=vocab, max_seq_len=60)

In [None]:
with open(os.path.join(STORAGE_DIR, 'poem_dataset.pkl'), 'wb') as f:
    pickle.dump(train_dataset, f)
print('Dataset saved as pkl file')

Dataset saved as pkl file


In [None]:
with open(os.path.join(STORAGE_DIR, 'poem_dataset.pkl'), 'rb') as f:
    train_dataset = pickle.load(f)
print('Dataset loaded from pkl file')

Dataset loaded from pkl file


- Create data loader:

In [None]:
train_loader = DataLoader(train_dataset, batch_size=4, shuffle=True)

# Training


In [None]:
VOCAB_SIZE = len(vocab)
EMBEDDING_DIMS = 100
HIDDEN_DIMS = 100
N_LAYERS = 2
N_HEADS = 4
DROPOUT = 0.2
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
LEARNING_RATE = 0.001
N_EPOCHS = 3

For pre-trained embeddings, I used GloVe with 100-dimensional embeddings:

In [None]:
glove = GloVe(name="6B", dim=100)
pretrained_embedding = glove.vectors

In [None]:
model = TransformerModel(
    vocab_size=VOCAB_SIZE,
    emb_size=EMBEDDING_DIMS,
    num_encoder_layers=N_LAYERS,
    nhead=N_HEADS,
    dim_feedforward=HIDDEN_DIMS,
    dropout=DROPOUT,
    device=DEVICE,
    pretrained_embedding=pretrained_embedding,
    freeze_embedding=False
)

CRITERION = nn.CrossEntropyLoss()
OPTIMIZER = optim.AdamW(model.parameters(), lr=LEARNING_RATE)
SCHEDULER = torch.optim.lr_scheduler.StepLR(OPTIMIZER, 1, gamma=0.95)

In [None]:
train_model(
    model=model,
    train_loader=train_loader,
    criterion=CRITERION,
    optimizer=OPTIMIZER,
    scheduler=SCHEDULER,
    num_epochs=N_EPOCHS,
    device=DEVICE,
    model_name='poem_transformer'
)

In [None]:
torch.save(model.state_dict(), os.path.join(STORAGE_DIR, 'poem_transformer.pt'))
print('Model saved as pt file')

# Inference

In [None]:
model.load_state_dict(torch.load(os.path.join(STORAGE_DIR, 'poem_transformer.pt')))

<All keys matched successfully>

In [None]:
input_text = 'Em ơi'
output_text = inference(
    model=model,
    input_text=input_text,
    vocab=vocab,
    device=DEVICE,
    temperature=50,
)
print(output_text)