In [1]:
import re
import string
from nltk.tokenize import WhitespaceTokenizer 

In [2]:
white_space_tokenizer = WhitespaceTokenizer()

In [3]:
file_name_5_sentences = "data_5_cau_tieng_Viet.txt"
file_name_40_sentences = "data_40_cau_tieng_Viet.txt"

file_name_dictionary = "Viet74K.txt"

**Load data**

In [4]:
sentences = list()

with open(file_name_40_sentences, "r", encoding='utf-8') as f:
    content = f.readlines()
    f.close()

    for i in range(len(content)):
        sentence = content[i]
        sentences.append(sentence)
        
print("Number of senteces in data:", len(sentences))

Number of senteces in data: 40


**Load dictionary: Vietnamese**

In [5]:
dictionary_corpus = list()

with open(file_name_dictionary, "r", encoding='utf-8') as f:
    content = f.readlines()
    f.close()

    for i in range(len(content)):
        term = content[i].strip().lower()
        dictionary_corpus.append(term)
        
dictionary_corpus

print("Number of terms in dictionary:", len(dictionary_corpus))

Number of terms in dictionary: 73901


**Maximum Matching**

In [6]:
def PreprocessString(string_data):
    # Lower the text
    preprocess_data = string_data.lower()
    
    # Remove punctuations, each punctuation = space, ex: ""information @#$retrieval" -> "information    retrieval"
    preprocess_data = re.sub('[%s]' % re.escape(string.punctuation), ' ', preprocess_data)   
        
    # Tokenize word by white space
    preprocess_data = white_space_tokenizer.tokenize(preprocess_data)
      
    return preprocess_data

In [7]:
def GetTerm(sentence_tokenized, start_index, end_index):
    term = ""
    for i in range(start_index, end_index):
        term += sentence_tokenized[i] + " "
    
    return term.strip()

In [8]:
LEN_MAX_TERM_VIETNAMESE = 4

sentences_tokenized = dict()

for ith_sentence, sentence in enumerate(sentences):
    """ Hiện tại thì chỗ này xét cả câu luôn, về sau sẽ nâng cấp lên thành xét các vế trong câu """
    sentence_part_tokenzied = PreprocessString(sentence)
    
    ith_start_term = 0
    if len(sentence_part_tokenzied) > LEN_MAX_TERM_VIETNAMESE:
        ith_end_term = ith_start_term + LEN_MAX_TERM_VIETNAMESE
    else:
        ith_end_term = len(sentence_part_tokenzied)
        
    term = GetTerm(sentence_part_tokenzied, ith_start_term, ith_end_term)
    
    # Xét hết cả vế
    while True:
        
        # Xét hết cả term
        while ith_start_term != ith_end_term:
            if term in dictionary_corpus:
                
                if ith_sentence not in sentences_tokenized.keys():
                    sentences_tokenized[ith_sentence] = [term]
                else:
                    sentences_tokenized[ith_sentence].append(term)
#                 print("Trùng được term:", term)
                    
                break
            else:
#                 print("không trùng term nào cả, term:", term)
                ith_end_term -= 1
                term = GetTerm(sentence_part_tokenzied, ith_start_term, ith_end_term)

        # Đã xét xong term cuối cùng thì chuyển sang câu (vế) khác
        if ith_end_term == len(sentence_part_tokenzied):
            break
        # Nếu vẫn còn term để xét thì chuyển sang term kế tiếp
        else:
            # Đề phòng trường hợp term không có trong dictionary thì end sẽ tiến về và bằng start, và sẽ gây ra vòng lặp vô tận
            # nếu cứ gắn start bằng lại end (giá trị start ban đầu) và cộng end = start + LEN_MAX_TERM_VIETNAMESE
            # vd: term = "2 mũi vaccine cơ", start = 16, end = 20, chữ "2" không có trong dictionary nên sẽ khiến end bị trừ
            # thành 16 (bằng với start), và nếu không có điều kiện kiểm tra "ith_start_term == ith_end_term" thì sẽ khiến
            # start và end trở lại như cũ (16 và 20), vì ở đây gán start = end và đoạn bên dưới gán end = start + LEN_MAX_TERM_VIETNAMESE
            if ith_start_term == ith_end_term:
                ith_start_term = ith_end_term + 1
            else:
                ith_start_term = ith_end_term
                
            # Nếu vẫn còn nhiều hơn 4 term để xét thì chuyển sang 4 term kế tiếp
            if len(sentence_part_tokenzied) - ith_end_term > LEN_MAX_TERM_VIETNAMESE:
                ith_end_term = ith_start_term + LEN_MAX_TERM_VIETNAMESE
            # Nếu chỉ còn nhiều nhất là 4 term thì lấy ra những term cuối cùng của vế để xét
            else:
                ith_end_term = len(sentence_part_tokenzied)
                
            term = GetTerm(sentence_part_tokenzied, ith_start_term, ith_end_term)

In [9]:
for key in  sentences_tokenized.keys():
    print(sentences_tokenized[key])

['tính từ', 'giữa', 'tháng', 'đến nay', 'đây', 'là', 'ngày', 'thứ hai', 'liên tiếp', 'số', 'ca', 'mắc', 'mới', 'trong', 'ngày', 'của', 'nước', 'ta', 'vượt', 'ngưỡng']
['một', 'cán bộ', 'công an', 'huyện', 'lâm', 'hà', 'lâm', 'đồng', 'dùng', 'súng', 'bắn', 'đạn', 'cao su', 'đe dọa', 'nữ nhân', 'viên', 'y tế', 'khi', 'bị', 'nhắc nhở', 'mang', 'khẩu trang']
['khán giả', 'trung', 'quốc thể', 'hiện', 'sự', 'bất bình', 'khi', 'nhà', 'sản xuất', 'sử dụng', 'quá đà', 'các', 'bộ', 'lọc', 'hiệu ứng', 'chỉnh', 'sửa', 'khiến', 'hình ảnh', 'trong', 'phim', 'kém', 'chân thật']
['mâu thuẫn', 'khi', 'trao đổi', 'qua', 'mạng', 'xã hội', 'nữ sinh', 'ở', 'phú', 'quốc', 'hẹn', 'vào', 'khu', 'dân cư', 'để', 'đánh nhau']
['sau', 'khi', 'đánh', 'bất tỉnh', 'nạn nhân', 'phán', 'bỏ trốn', 'và', 'bị', 'bắt', 'tại', 'quận', 'đống', 'đa', 'hà nội']
['tại', 'trụ sở', 'điều tra', 'nghi', 'phạm', 'khai', 'thời điểm', 'gây án', 'anh', 'ta', 'đang', 'say']
['nàng thơ', 'của', 'nhà', 'thiết kế', 'chính', 'là', 'nguồn',