# Load data

In [1]:
import os
import io
data_path = "./Data"
file_name = os.listdir(data_path)
file_path = [os.path.join(data_path, name) for name in file_name]

In [2]:
print(file_path)

['./Data\\easy_sentence.txt', './Data\\gold.txt', './Data\\gold_sentence.txt', './Data\\hard_sentence.txt']


In [3]:
easy_sentence = io.open("./Data/easy_sentence.txt", encoding="utf-8").readlines()
hard_sentence = io.open("./Data/hard_sentence.txt", encoding="utf-8").readlines()

In [4]:
data_sentence = easy_sentence
data_sentence.extend(hard_sentence)

In [5]:
data_sentence[:10]

['thành phố washington có một kiến trúc rất đa dạng\n',
 'tuy nhiên vì gặp nhiều khó khăn trong cuộc sống ông dần trở nên khó tính\n',
 'khí hậu hồng kông thuộc kiểu cận nhiệt đới và chịu ảnh hưởng của gió mùa\n',
 'khoảng hơn 70 bề mặt trái đất được bao phủ bởi các đại dương nước mặn phần còn lại là các lục địa và các đảo\n',
 'đà lạt là thành phố trực thuộc tỉnh lâm đồng nằm trên cao nguyên lâm viên thuộc vùng tây nguyên việt nam\n',
 'đổi đất đai lấy hạ tầng là một trong những việc phải làm trong bối cảnh hiện nay\n',
 'cuối tuần trước tôi về quê vì gia đình có đám\n',
 'những cơn gió căng tràng vi vu khắp núi rừng đà lạt khiến những quả hồng uống no nê những giọt sương mờ\n',
 'nhưng đó là chuyện đã qua\n',
 'biến đổi khí hậu đe doạ đến con người khi nó gây bất an lương thực khan hiếm nước lũ lụt nắng nóng cực đoan thiệt hại kinh tế và di cư\n']

# Tách từ

## Longest Matching

In [6]:
import re
import unicodedata as ud

In [7]:
def syllablize(sentence):
    word = '\w+'
    non_word = '[^\w\s]'
    digits = '\d+([\.,_]\d+)+'
    
    patterns = []
    patterns.extend([word, non_word, digits])
    patterns = f"({'|'.join(patterns)})"
    
    sentence = ud.normalize('NFC', sentence)
    tokens = re.findall(patterns, sentence, re.UNICODE)
    return [token[0] for token in tokens]

In [8]:
def load_n_grams(path):
    with open(path, encoding='utf8') as f:
        words = f.read().splitlines() 
    return words

In [9]:
def longest_matching(sentence, bi_grams, tri_grams):
    syllables = syllablize(sentence)
    syl_len = len(syllables)
    
    curr_id = 0
    word_list = []
    done = False
    
    while (curr_id < syl_len) and (not done):
        curr_word = syllables[curr_id]
        if curr_id >= syl_len - 1:
            word_list.append(curr_word)
            done = True
        else:
            next_word = syllables[curr_id + 1]
            pair_word = ' '.join([curr_word.lower(), next_word.lower()])
            if curr_id >= (syl_len - 2):
                if pair_word in bi_grams:
                    word_list.append('_'.join([curr_word, next_word]))
                    curr_id += 2
                else:
                    word_list.append(curr_word)
                    curr_id += 1
            else:
                next_next_word = syllables[curr_id + 2]
                triple_word = ' '.join([pair_word, next_next_word.lower()])
                if triple_word in tri_grams:
                    word_list.append('_'.join([curr_word, next_word, next_next_word]))
                    curr_id += 3
                elif pair_word in bi_grams:
                    word_list.append('_'.join([curr_word, next_word]))
                    curr_id += 2
                else:
                    word_list.append(curr_word)
                    curr_id += 1
    return word_list

In [10]:
bi_grams = load_n_grams('./Vocab/vocab_bi_gram.txt')
tri_grams = load_n_grams('./Vocab/vocab_tri_gram.txt')

In [11]:
with open('Token/longest_matching_tokens.txt', 'w', encoding='utf-8') as f:
    longest_matching_sentences = []
    for sentence in data_sentence:
        word_list = longest_matching(sentence, bi_grams, tri_grams)
        longest_matching_sentences.append(' '.join(word_list))
        f.write(' '.join(word_list) + '\n')
longest_matching_sentences[0:3]

['thành_phố washington có một kiến_trúc rất đa_dạng',
 'tuy_nhiên vì gặp nhiều khó_khăn trong cuộc_sống ông dần trở_nên khó_tính',
 'khí_hậu hồng_kông thuộc kiểu cận nhiệt_đới và chịu ảnh_hưởng của gió mùa']

In [12]:
count_longest_matching_compounds = 0
for sentence in longest_matching_sentences:
    for word in sentence.split():
        if '_' in word: count_longest_matching_compounds += 1
print('Số lượng từ ghép khi tách từ bằng thuật toán Longest Matching:', count_longest_matching_compounds)

Số lượng từ ghép khi tách từ bằng thuật toán Longest Matching: 224


## VnCoreNLP

In [13]:
import py_vncorenlp
model = py_vncorenlp.VnCoreNLP(annotators=["wseg", "pos"], save_dir='./')

In [14]:
with open('Token/vncore_tokens.txt', 'w', encoding='utf-8') as f:
    vncore_sentences = []
    for sentence in data_sentence:
        words = model.word_segment(sentence)[0]
        vncore_sentences.append(words)
        f.write(words + '\n')
vncore_sentences[0:3]

['thành_phố washington có một kiến_trúc rất đa_dạng',
 'tuy_nhiên vì gặp nhiều khó_khăn trong cuộc_sống ông dần trở_nên khó_tính',
 'khí_hậu hồng_kông thuộc kiểu cận_nhiệt_đới và chịu ảnh_hưởng của gió_mùa']

In [15]:
count_vncore_compounds = 0
for sentence in vncore_sentences:
    for word in sentence.split():
        if '_' in word: count_vncore_compounds += 1
print('Số lượng từ ghép khi tách từ bằng thư viện VnCoreNLP:', count_vncore_compounds)

Số lượng từ ghép khi tách từ bằng thư viện VnCoreNLP: 231


## Gold Data

In [16]:
gold_sentence = io.open("./Data/gold_sentence.txt", encoding="utf-8").readlines()

In [17]:
manual_tokenize_sentences = []
for sentence in gold_sentence:
    if sentence != '\n': 
        manual_tokenize_sentences.append(sentence.strip())
manual_tokenize_sentences[0:3]

['thành_phố washington có một kiến_trúc rất đa_dạng',
 'tuy_nhiên vì gặp nhiều khó_khăn trong cuộc_sống ông dần trở_nên khó_tính',
 'khí_hậu hồng_kông thuộc kiểu cận_nhiệt_đới và chịu ảnh_hưởng của gió_mùa']

In [18]:
count_manual_tokenize_compounds = 0
for sentence in manual_tokenize_sentences:
    for word in sentence.split():
        if '_' in word: count_manual_tokenize_compounds += 1
print('Số lượng từ ghép khi tách từ thủ công:', count_manual_tokenize_compounds)

Số lượng từ ghép khi tách từ thủ công: 256


## Đánh giá

In [19]:
import pandas as pd

In [20]:
def count_correct_words(pred, source, n_grams=3):
    pred_words = pred.split()
    source_words = source.split()
    
    total_true, tp = 0, 0
    total_errors, fp = 0, 0
    
    idx = 0
    while idx < len(pred_words):
        if pred_words[idx] not in source_words[idx:(idx + n_grams)]: 
            if '_' in pred_words[idx]: fp += 1
            del pred_words[idx]
            total_errors += 1
        else: idx += 1
    
    idx = 0
    while idx < len(source_words):
        if source_words[idx] not in pred_words[idx:(idx + n_grams)]: 
            del source_words[idx]
        else: idx += 1
    
    if len(pred_words) < len(source_words): words = pred_words
    else: words = source_words
    
    for idx in range (len(words)):
        if pred_words[idx] == source_words[idx]:
            if '_' in pred_words[idx]: tp += 1 
            total_true += 1
                    
    return total_true, total_errors, tp, fp

In [21]:
def tokenize_evaluation(pred, source, n_grams=3):
    total_true = 0
    total_errors = 0
    total_words = 0
    
    pred_tp = 0
    pred_fp = 0
    
    for pred_sentence, source_sentence in zip(pred, source):
        total_words += len(source_sentence.split())
        if pred_sentence != source_sentence:
            true, error, tp, fp = count_correct_words(pred_sentence, source_sentence, n_grams)
            total_true += true 
            total_errors += error
            pred_tp += tp
            pred_fp += fp
        else:
            for word in source_sentence.split():
                if '_' in word:
                    pred_tp += 1
                total_true += 1
                    
    accuracy = total_true / total_words
    precision = pred_tp / (pred_tp + pred_fp)
    recall = pred_tp / count_manual_tokenize_compounds
    f1 = 2 * precision * recall / (precision + recall)
    return {
        'Accuracy': accuracy, 
        'Precision': precision,
        'Recall': recall,
        'F1': f1,
        'True Positive': pred_tp, 
        'False Positive': pred_fp,
        'Total True': total_true, 
        'Total Errors': total_errors
    }

In [22]:
longest_matching_evaluation = tokenize_evaluation(longest_matching_sentences, manual_tokenize_sentences)
vncore_evaluation = tokenize_evaluation(vncore_sentences, manual_tokenize_sentences)
pd.DataFrame(
    [longest_matching_evaluation, vncore_evaluation], 
    index = ['Longest Matching', 'VnCoreNLP']
).astype(object).T

Unnamed: 0,Longest Matching,VnCoreNLP
Accuracy,0.904762,0.914286
Precision,0.950893,0.943723
Recall,0.832031,0.851562
F1,0.8875,0.895277
True Positive,213.0,218.0
False Positive,11.0,13.0
Total True,665.0,672.0
Total Errors,99.0,81.0


# Train model

In [23]:
from sklearn.model_selection import train_test_split

In [24]:
gold_corpus = io.open("./Data/gold.txt", encoding="utf-8").readlines()
gold_corpus[:10]

['thành_phố/N washington/N có/V một/M kiến_trúc/N rất/R đa_dạng/A\n',
 'tuy_nhiên/C vì/C gặp/V nhiều/A khó_khăn/N trong/E cuộc_sống/N ông/N dần/R trở_nên/V khó_tính/A\n',
 'khí_hậu/N hồng_kông/N thuộc/V kiểu/N cận_nhiệt_đới/N và/C chịu/V ảnh_hưởng/V của/E gió_mùa/N\n',
 'khoảng/A hơn/A 70/M bề_mặt/N trái_đất/N được/V bao_phủ/V bởi/E các/D đại_dương/N nước_mặn/N phần/N còn_lại/V là/V các/D lục_địa/N và/C các/D đảo/N\n',
 'đà_lạt/N là/V thành_phố/N trực_thuộc/V tỉnh/N lâm_đồng/N nằm/V trên/E cao_nguyên/N lâm_viên/N thuộc/V vùng/N tây_nguyên/N việt_nam/N\n',
 'đổi/V đất_đai/N lấy/V hạ_tầng/N là/V một/M trong/E những/D việc/N phải/V làm/V trong/E bối_cảnh/N hiện_nay/N\n',
 'cuối/N tuần/N trước/N tôi/P về/V quê/N vì/E gia_đình/N có/V đám/N\n',
 'những/D cơn_gió/N căng_tràng/A vi_vu/V khắp/A núi_rừng/N đà_lạt/N khiến/V những/D quả/N hồng/N uống/V no_nê/A những/D giọt_sương/N mờ/A\n',
 'nhưng/C đó/P là/V chuyện/N đã/R qua/V\n',
 'biến_đổi/N khí_hậu/N đe_doạ/V đến/E con_người/N khi/C nó/P gây/

## Train test split

In [25]:
train, test = train_test_split(gold_corpus, train_size=0.8, random_state=23, shuffle=True)

In [26]:
train[:10]

['những/D website/N được/V thiết_kế/V đẹp_mắt/A với/C bố_cục/N hài_hoà/A và/C tỉ_lệ/N cân_đối/A sẽ/R chiếm/V được/R thiện_cảm/N của/E người_dùng/N\n',
 'việc/N tối_ưu/V tốc_độ/N tải/V trang/N luôn/R là/V nhiệm_vụ/N được/V đặt/V lên/V hàng_đầu/N\n',
 'tiếng_anh/N của/E tôi/P rất/R kém/A vì_vậy/C tôi/P cần/V cải_thiện/V nhiều/A hơn/A\n',
 'cà_phê/N ở/E đây/P làm/V tôi/P phê/V tận/V nóc/N\n',
 'con_người/N chỉ/R đơn_giản/A là/V những/D cỗ_máy/N vô_cùng/R phức_tạp/A\n',
 'công_việc/N của/E tôi/P không/R hẳn/R là/V dễ/A nhưng/C dường_như/I tôi/P đang/R suy_nghĩ/V nhiều/A về/E nó/P\n',
 'người_dùng/N có_thể/R xem/V và/C chỉ/V rõ/A thông_tin/N nào/P được/V thu_thập/V để/E thực_thi/V một_số/D chế_định/N về/E quyền/N riêng_tư/A\n',
 'tôi/P đang/R làm/V bài_tập/N gán/V nhãn/N từ_loại/N trong/E từ_điển/N\n',
 'khoảng/A hơn/A 70/M bề_mặt/N trái_đất/N được/V bao_phủ/V bởi/E các/D đại_dương/N nước_mặn/N phần/N còn_lại/V là/V các/D lục_địa/N và/C các/D đảo/N\n',
 'một/M nghề/N cho/E chín/A còn/R hơn/

## Vocab

In [27]:
vocab = load_n_grams('./Vocab/vocab.txt')

In [35]:
vocab_dict = {}
index = 0
for word in sorted(vocab): 
    if word not in vocab_dict: 
        vocab_dict[word] = index  
        index += 1

In [37]:
print('Số lượng từ vựng:', len(vocab_dict.values()))

Số lượng từ vựng: 23800


In [29]:
train[:10]

['những/D website/N được/V thiết_kế/V đẹp_mắt/A với/C bố_cục/N hài_hoà/A và/C tỉ_lệ/N cân_đối/A sẽ/R chiếm/V được/R thiện_cảm/N của/E người_dùng/N\n',
 'việc/N tối_ưu/V tốc_độ/N tải/V trang/N luôn/R là/V nhiệm_vụ/N được/V đặt/V lên/V hàng_đầu/N\n',
 'tiếng_anh/N của/E tôi/P rất/R kém/A vì_vậy/C tôi/P cần/V cải_thiện/V nhiều/A hơn/A\n',
 'cà_phê/N ở/E đây/P làm/V tôi/P phê/V tận/V nóc/N\n',
 'con_người/N chỉ/R đơn_giản/A là/V những/D cỗ_máy/N vô_cùng/R phức_tạp/A\n',
 'công_việc/N của/E tôi/P không/R hẳn/R là/V dễ/A nhưng/C dường_như/I tôi/P đang/R suy_nghĩ/V nhiều/A về/E nó/P\n',
 'người_dùng/N có_thể/R xem/V và/C chỉ/V rõ/A thông_tin/N nào/P được/V thu_thập/V để/E thực_thi/V một_số/D chế_định/N về/E quyền/N riêng_tư/A\n',
 'tôi/P đang/R làm/V bài_tập/N gán/V nhãn/N từ_loại/N trong/E từ_điển/N\n',
 'khoảng/A hơn/A 70/M bề_mặt/N trái_đất/N được/V bao_phủ/V bởi/E các/D đại_dương/N nước_mặn/N phần/N còn_lại/V là/V các/D lục_địa/N và/C các/D đảo/N\n',
 'một/M nghề/N cho/E chín/A còn/R hơn/

In [46]:
def preprocess(vocab, data):
    num_regex = re.compile(r'\d+([.]\d+)?')
    result = []
    for line in data:
        line_split = line.split()
        result.append("<n>","<s>")
        for index, word in enumerate(line_split):
            w, pos = word.split('/')
            if num_regex.fullmatch(w):
                w = "<digit>"
            if w not in vocab:
                w = '<unk>'
            result.append(w, pos)
    return result

In [43]:
train_gold = preprocess(vocab_dict, train)
test_gold = preprocess(vocab_dict, test)

In [45]:
print('Số lượng từ trong tập train_gold:', len(train_gold_words))
print('Số lượng từ trong tập test_gold:', len(test_gold_words))

Số lượng từ trong tập train_gold: 611
Số lượng từ trong tập test_gold: 186


In [None]:
print('Các từ không nằm trong vocabs', end=': ')
for word in zip(test_gold):
    if word == '<unk>': 
        print(word_tag.split()[0], end=', ')
plot_tag_counts(test_gold)