In [60]:
from collections import Counter
from tqdm.notebook import tqdm
import string

def get_top_words(file_path, top_n, n_rows=50000):
    # Read the file
    words = []
    cnt = 0
    with open(file_path, 'r') as file:
        for line in file:
            cnt += 1
            word = [w.translate(str.maketrans('', '', string.punctuation)).replace('\n','') for w in line.split(' ')]
            word = [w for w in word if w != '' and len(w) > 1]
            word = [item for item in word if not any(char.isdigit() for char in item)]
            words.extend(word)
            if cnt == n_rows:
                break
        # Count the occurrences of each word
        word_counts = Counter(words)
    
        # Get the top N words
        top_words = word_counts.most_common(top_n)

    # Return the top words
    return top_words

# Specify the file path and the number of top words
file_path = 'corpus-full.txt'
top_n = 10000
n_rows = 500000

# Get the top words from the file
top_words = get_top_words(file_path, top_n, n_rows)

# Print the top words
for word, count in top_words:
    print(word, count)


và 173573
của 172520
có 144576
các 129714
là 125082
cho 110618
được 109163
trong 103551
với 101473
đã 98567
không 97763
người 94553
một 80357
công 73705
để 66760
những 66401
năm 60777
về 59977
này 59957
tại 56811
đến 56650
khi 56219
đồng 53635
đó 51683
ra 51096
từ 50836
việc 49610
đầu 49481
nhiều 49122
cũng 48970
Nam 48340
hiện 48214
định 48099
thể 47750
động 47441
trên 47393
vào 46475
Việt 46158
số 45386
làm 45260
bị 45171
nhà 44416
sẽ 43044
nước 42525
như 42178
quan 41628
phải 41108
sự 40818
lại 40452
ông 40284
thành 40207
hàng 39868
ngày 39163
chính 39021
chỉ 37097
nhân 36664
gia 35937
cơ 34438
giá 34063
hơn 33312
thực 33046
trường 31909
dân 31784
thời 31485
tư 31281
hành 31269
vụ 31133
sản 31111
hợp 31098
lý 31058
nghiệp 30872
thông 30840
còn 30776
theo 30701
doanh 30128
thì 29785
điều 29526
nhận 29137
phát 28963
nhất 28829
nhưng 28634
biết 28474
tăng 28059
đang 27984
án 27598
chức 27455
mới 27421
con 27324
tôi 27264
qua 27210
dụng 26978
viên 26794
kinh 26774
đi 26624
sau 26540
cao

In [61]:
top_words

[('và', 173573),
 ('của', 172520),
 ('có', 144576),
 ('các', 129714),
 ('là', 125082),
 ('cho', 110618),
 ('được', 109163),
 ('trong', 103551),
 ('với', 101473),
 ('đã', 98567),
 ('không', 97763),
 ('người', 94553),
 ('một', 80357),
 ('công', 73705),
 ('để', 66760),
 ('những', 66401),
 ('năm', 60777),
 ('về', 59977),
 ('này', 59957),
 ('tại', 56811),
 ('đến', 56650),
 ('khi', 56219),
 ('đồng', 53635),
 ('đó', 51683),
 ('ra', 51096),
 ('từ', 50836),
 ('việc', 49610),
 ('đầu', 49481),
 ('nhiều', 49122),
 ('cũng', 48970),
 ('Nam', 48340),
 ('hiện', 48214),
 ('định', 48099),
 ('thể', 47750),
 ('động', 47441),
 ('trên', 47393),
 ('vào', 46475),
 ('Việt', 46158),
 ('số', 45386),
 ('làm', 45260),
 ('bị', 45171),
 ('nhà', 44416),
 ('sẽ', 43044),
 ('nước', 42525),
 ('như', 42178),
 ('quan', 41628),
 ('phải', 41108),
 ('sự', 40818),
 ('lại', 40452),
 ('ông', 40284),
 ('thành', 40207),
 ('hàng', 39868),
 ('ngày', 39163),
 ('chính', 39021),
 ('chỉ', 37097),
 ('nhân', 36664),
 ('gia', 35937),
 ('cơ

In [62]:
with open('common-vietnamese-syllables.txt','r') as f:
    common_w = f.read().split('\n')

In [63]:
common_w

['và',
 'của',
 'có',
 'các',
 'là',
 'được',
 'trong',
 'cho',
 'không',
 'người',
 'với',
 'một',
 'đã',
 'công',
 'để',
 'những',
 'khi',
 'đến',
 'về',
 'này',
 'tại',
 'ở',
 'cũng',
 'tôi',
 'ra',
 'năm',
 'nhiều',
 'từ',
 'việc',
 'đồng',
 'nhà',
 'làm',
 'đó',
 'hiện',
 'ông',
 'vào',
 'học',
 'bị',
 'trên',
 'thể',
 'theo',
 'trường',
 'như',
 'ngày',
 'anh',
 'đầu',
 'nước',
 'phải',
 'thành',
 'định',
 'bộ',
 'nhân',
 'sẽ',
 'gia',
 'quan',
 'sự',
 'nam',
 'lại',
 'chỉ',
 'số',
 'hàng',
 'con',
 'sinh',
 'động',
 'sau',
 'điều',
 'chính',
 'dân',
 'cơ',
 'nhưng',
 'việt',
 'đi',
 'quốc',
 'thì',
 'còn',
 'biết',
 'hội',
 'hơn',
 'thời',
 'thông',
 'an',
 'trung',
 'vụ',
 'giá',
 'viên',
 'thực',
 'lý',
 'phát',
 'nên',
 'nhận',
 'hành',
 'nhất',
 'chủ',
 'hợp',
 'rất',
 'mình',
 'đang',
 'qua',
 'xe',
 'văn',
 'trước',
 'do',
 'cao',
 'mới',
 'trình',
 'cùng',
 'mà',
 'đại',
 'vì',
 'bạn',
 'thế',
 'thị',
 'sản',
 'em',
 'đây',
 'tế',
 'đường',
 'cả',
 'đối',
 'bệnh',
 'hai',

In [64]:
print(len([x for x in top_words if x[0] not in common_w]))
print(len([x for x in top_words if x[0] in common_w]))

5909
4091


In [65]:
merge_vocab = []
for i in common_w:
    if i not in merge_vocab:
        merge_vocab.append(i)
for i in top_words:
    if i[0] not in merge_vocab:
        merge_vocab.append(i[0])
    

In [66]:
len(merge_vocab)

13094

In [67]:
with open("merge_word_vocab_13290.txt", "w") as file:
    file.write('\n'.join(merge_vocab))

# Character vocab

In [26]:
char = """AÀÁẢÃẠ
ĂẰẮẲẴẶ
ÂẦẤẨẪẬ
BC
DĐ
EÈÉẺẼẸ
ÊỀẾỂỄỆ
GH
IÌÍỈĨỊ
KLMN
OÒÓỎÕỌ
ÔỒỐỔỖỘ
ƠỜỚỞỠỢ
PQRST
UÙÚỦŨỤ
ƯỪỨỬỮỰ
VX
YỲÝỶỸỴ

aàáảãạ
ăằắẳẵặ
âầấẩẫậ
bc
dđ
eèéẻẽẹ
êềếểễệ
gh
iìíỉĩị
lkmn
oòóỏõọ
ôồốổỗộ
ơờớởỡợ
pqrst
uùúủũụ
ưừứửữự
vx
yỳýỷỹỵ"""

In [27]:
char = char.replace('\n','')

In [30]:
char

('AÀÁẢÃẠĂẰẮẲẴẶÂẦẤẨẪẬBCDĐEÈÉẺẼẸÊỀẾỂỄỆGHIÌÍỈĨỊKLMNOÒÓỎÕỌÔỒỐỔỖỘƠỜỚỞỠỢPQRSTUÙÚỦŨỤƯỪỨỬỮỰVXYỲÝỶỸỴaàáảãạăằắẳẵặâầấẩẫậbcdđeèéẻẽẹêềếểễệghiìíỉĩịlkmnoòóỏõọôồốổỗộơờớởỡợpqrstuùúủũụưừứửữựvxyỳýỷỹỵ',
 178)

In [35]:
with open("char_vocab.txt", "w") as file:
    file.write('\n'.join(x+" "+str(idx+5) for idx, x in enumerate(char)))

In [None]:
[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]

In [48]:
import torch
import torch.nn as nn
from vocab import Subword_vocab

def pad_sents(sents, pad_token):
    """ Pad list of sentences according to the longest sentence in the batch.
    @param sents (list[list[str]]): list of sentences, where each sentence
                                    is represented as a list of words
    @param pad_token (str): padding token
    @returns sents_padded (list[list[str]]): list of sentences where sentences shorter
        than the max length sentence are padded out with the pad_token, such that
        each sentences in the batch now has equal length.
    """

    l = list(map(len, sents))
    max_length = max(l)
    sents_padded = list(map(lambda x: x + [pad_token]*(max_length - len(x)), sents))

    return sents_padded

def max_length_char(length_char):
    # [[2, 2, 6, 5], [4, 2, 2, 4]] -> 6
    m = 0
    for lengths in length_char:
        max_lengths = max(lengths)
        m = max_lengths if max_lengths > m else m
    return m

class Subword(nn.Module):
    def __init__(self,
                 num_layers=3,
                 d_model=256,
                 nhead=8,
                 dim_feedforward=512,
                 dropout=0.3,
                 max_length=512,
                 sub_path="sub_vocab.txt" ):
        super(Subword, self).__init__()
        self.num_layers = num_layers
        self.d_model = d_model
        self.nhead = nhead
        self.sub_path = sub_path
        self.subword_vocab = Subword_vocab.from_corpus(self.sub_path)
        self.dim_feedforward = dim_feedforward
        self.max_length = max_length
        self.dropout = dropout
        self.model_embedding = nn.Embedding(len(self.subword_vocab), self.d_model, padding_idx=0)
        self.norm = nn.LayerNorm(d_model)
        self.TransformerLayer = nn.TransformerEncoderLayer(self.d_model, self.nhead, self.dim_feedforward, self.dropout)
        self.Transformer = nn.TransformerEncoder(self.TransformerLayer, self.num_layers, self.norm)
        self.pos_embed = nn.Embedding(self.max_length, self.d_model)

    def forward(self, source, mask, pos):
        # mask used for transformer
        pos_embed = self.pos_embed(pos) # b, length, d_model
        source_padded = pad_sents(source, "<pad>") # (batch, length_sen)
        # length_char = [[len(word) for word in sent] for sent in source_padded]
        length_char = [list(map(len, sent)) for sent in source_padded]
        m = max_length_char(length_char)
        # indices = torch.tensor([[[self.subword_vocab[c] for c in word] + (m - len(word)) * [0] for word in sent] for sent in source_padded]).cuda()
        indices = torch.tensor([[[self.subword_vocab[c] for c in word] + (m - len(word)) * [0] for word in sent] for sent in source_padded]).to(self.device)
        inp = self.model_embedding(indices)
        sum_char = torch.sum(inp, dim=-2)
        # length_char = torch.tensor(length_char).unsqueeze(-1).cuda()
        length_char = torch.tensor(length_char).unsqueeze(-1).to(self.device)
        inp = sum_char/length_char + pos_embed
        # inp = sum_char / length_char
        inp = inp.permute(1,0,2) # (src_len, b, dim)
        context_rep = self.Transformer(inp, src_key_padding_mask=mask) # Tensor: (src_len, b, embedded_dim)
        return context_rep

    @property
    def device(self) -> torch.device:
        """ Determine which device to place the Tensors upon, CPU or GPU.
        """
        return self.model_embedding.weight.device



ModuleNotFoundError: No module named 'utils'

In [57]:
def get_all_char(file_path, n_rows=50000):
    # Read the file
    words = []
    cnt = 0
    with open(file_path, 'r') as file:
        for line in file:
            cnt += 1
            word = [g for g in line if (g != ' ') and (g != '\n')]
            words.extend(word)
            if cnt == n_rows:
                break
    return list(set(words))

for i in [100,1000,10000,100000]:
    print(str(i) + " " + str(len(get_all_char("corpus-full.txt",i))))

100 130
1000 163
10000 200
100000 234


In [59]:
get_all_char("corpus-full.txt",1000)

['A',
 'ặ',
 'ấ',
 '4',
 'o',
 'ọ',
 '/',
 'ử',
 'ố',
 '>',
 'b',
 'ữ',
 'Ễ',
 'x',
 'ễ',
 '9',
 'ĩ',
 '2',
 '6',
 'ắ',
 'Q',
 'í',
 "'",
 'ỗ',
 'f',
 'ệ',
 'ầ',
 'ỷ',
 'ẹ',
 '@',
 'p',
 'ụ',
 'ừ',
 'è',
 'ạ',
 'O',
 'ẫ',
 'ớ',
 'a',
 'ỏ',
 'ú',
 'ý',
 'ẻ',
 'ỡ',
 'ể',
 'ỹ',
 'Ắ',
 '½',
 'Y',
 'đ',
 '!',
 'v',
 't',
 'ẩ',
 'Ủ',
 'ộ',
 'u',
 'C',
 'l',
 'Ề',
 '8',
 'ủ',
 '-',
 'à',
 'ứ',
 'V',
 'ẵ',
 'H',
 'ò',
 'm',
 'ề',
 'Ừ',
 'q',
 'õ',
 's',
 'R',
 'K',
 'c',
 'ì',
 'ờ',
 'E',
 'I',
 'd',
 '1',
 'Ư',
 'ậ',
 'ỉ',
 '%',
 'Ờ',
 'r',
 'w',
 'B',
 'g',
 'ở',
 'ổ',
 '(',
 'U',
 'Ơ',
 ';',
 'Â',
 'ẽ',
 'N',
 'P',
 'ù',
 'X',
 ')',
 'ó',
 'â',
 'e',
 'ế',
 'h',
 '?',
 'é',
 '5',
 'ê',
 '+',
 'ồ',
 'n',
 'k',
 'S',
 'Ô',
 'T',
 ':',
 'Ồ',
 '0',
 ',',
 '.',
 'ị',
 'ũ',
 'Ầ',
 'D',
 'ả',
 '_',
 'ằ',
 '"',
 'i',
 'Ũ',
 'ă',
 'Ộ',
 'Z',
 '7',
 'L',
 'ợ',
 'y',
 '3',
 'ỳ',
 'G',
 'Ở',
 'á',
 'M',
 'Ê',
 'Đ',
 'ã',
 'Ấ',
 'ự',
 'ẳ',
 '&',
 'F',
 'ô',
 'ơ',
 'Ù',
 'Ả',
 'ư']