# 3. Vận dụng
Ứng dụng của mô hình Markov ẩn được lựa chọn: _**`POS tagging`**_ (gán nhãn ngữ pháp)

## 3.1 Mô tả bài toán
- Đầu vào: Mảng các từ trong một câu theo thứ tự

    Ví dụ: `input = ["the", "Dutch", "publishing", "group"]`
- Đầu ra kỳ vọng: mảng các từ cùng với nhãn đã được gán (sau khi tính toán). Một số từ tiếng anh có nhiều dạng (ví dụ theo từ điển, một từ vừa là *danh từ*, vừa là *động từ* ...) cần phải xác định vai trò của từ trong câu để có thể xác định chính xác nghĩa của từ đó.

    Ví dụ: 
    ```python
    output = [
        ("the", "DT"),
        ("Dutch", "NNP"),
        ("publishing", "VBG"),
        ("group", "NN"),
    ]
    ```


## 3.2 Tập dữ liệu & Các bước tiền xử lý

### 3.2.1 Tập dữ liệu
Tập dữ liệu: Trích xuất từ [Penn TreeBank](https://www.kaggle.com/datasets/nltkdata/penn-tree-bank) (~5%)

Các nhãn gán được sử dụng (Penn TreeBank):

Nguồn: [Speech and Language Processing. Daniel Jurafsky & James H. Martin.](https://web.stanford.edu/~jurafsky/slp3/8.pdf)

|Nhãn|Ý nghĩa|Ví dụ|
|---|---|---|
|CC| Liên từ kết hợp | and, but, or |
|CD| Số đếm | one, two |
|DT| Định từ | a, the |
|EX| Tồn tại _there_ | there |
|FW| Từ mượn | mea culpa |
|IN| Giới từ | of, in, by |
|JJ| Tính từ | yellow |
|JJR| Tính từ so sánh hơn | bigger |
|JJS| Tính từ so sánh nhất | wildest |
|LS| Đánh dấu danh sách | 1, 2, One |
|MD| Động từ khiếm khuyết | can, should |
|NN| Danh từ số ít | llama |
|NNS| Danh từ số nhiều | llamas|
|NNP| Danh từ riêng số ít | IBM |
|NNPS| Danh từ riêng số nhiều | Carolinas |
|PDT| Từ chỉ định | all, both |
|POS| Kết thúc sở hữu cách | 's |
|PRP| Đại từ nhân xưng | I, you, he |
|PRP$| Đại từ sở hữu | your, one's |
|RB| Trạng từ | quickly |
|RBR| Trạng từ so sánh hơn | faster |
|RBS| Trạng từ so sánh nhất | fastest |
|RP| Tiểu từ | up, off |
|SYM| Ký hiệu | +, %, & |
|TO| Từ _to_ | to |
|UH| Thán từ | ah, oops |
|VB| Động từ nguyên mẫu | eat |
|VBD| Động từ quá khứ | ate |
|VBG| Danh động từ | eating |
|VBN| Động từ quá khứ phân từ | eaten |
|VBP| Động từ ngôi thứ 3 số ít | eat |
|VBZ| Động từ ngôi thứ 3 số nhiều | eats |
|WDT| Wh- xác định | which, that |
|WP| Wh- đại từ | what, who |
|WP$| Wh- sỡ hữu | whose |
|WRB| Wh- trạng từ | how, where|

### 3.2.2 Tiền xử lí

Sử dụng thư viện nltk để đọc dataset,

Sau khi tải về từ Kaggle,

Dataset ban đầu lưu ở `archive/treebank/treebank/combined`, 

Chia thành 2 phần test và train:
- Train: `wsj_0001.mrg` tới `wsj_0190.mrg`
- Test: `wsj_0191.mrg` tới `wsj_0199.mrg`

In [4]:
!find ./dataset | sed -e "s/[^-][^\/]*\// |/g" -e "s/|\([^ ]\)/|-\1/"

 |-dataset
 | |-README
 | |-test
 | | |-wsj_0191.mrg
 | | |-wsj_0192.mrg
 | | |-wsj_0193.mrg
 | | |-wsj_0194.mrg
 | | |-wsj_0195.mrg
 | | |-wsj_0196.mrg
 | | |-wsj_0197.mrg
 | | |-wsj_0198.mrg
 | | |-wsj_0199.mrg
 | |-train
 | | |-wsj_0001.mrg
 | | |-wsj_0002.mrg
 | | |-wsj_0003.mrg
 | | |-wsj_0004.mrg
 | | |-wsj_0005.mrg
 | | |-wsj_0006.mrg
 | | |-wsj_0007.mrg
 | | |-wsj_0008.mrg
 | | |-wsj_0009.mrg
 | | |-wsj_0010.mrg
 | | |-wsj_0011.mrg
 | | |-wsj_0012.mrg
 | | |-wsj_0013.mrg
 | | |-wsj_0014.mrg
 | | |-wsj_0015.mrg
 | | |-wsj_0016.mrg
 | | |-wsj_0017.mrg
 | | |-wsj_0018.mrg
 | | |-wsj_0019.mrg
 | | |-wsj_0020.mrg
 | | |-wsj_0021.mrg
 | | |-wsj_0022.mrg
 | | |-wsj_0023.mrg
 | | |-wsj_0024.mrg
 | | |-wsj_0025.mrg
 | | |-wsj_0026.mrg
 | | |-wsj_0027.mrg
 | | |-wsj_0028.mrg
 | | |-wsj_0029.mrg
 | | |-wsj_0030.mrg
 | | |-wsj_0031.mrg
 | | |-wsj_0032.mrg
 | | |-wsj_0033.mrg
 | | |-wsj_0034.mrg
 | | |-wsj_0035.mrg
 | | |-wsj_0036.mrg
 | | |-wsj_0037.mrg
 | | |-wsj_0038.mrg
 | | |-wsj_0039.

In [5]:
from collections import defaultdict
from nltk.corpus.reader import BracketParseCorpusReader
import glob
import string

NEAR_ZERO = 0.00000001
dataset_path = './dataset'

list_of_file_train = glob.glob(dataset_path + '/train/' + '/*.mrg') # Lấy đường dẫn toàn bộ file trong thư mục
reader_corpus = BracketParseCorpusReader('.', list_of_file_train)
list_of_tagged_sents_train = reader_corpus.tagged_sents() 

list_of_file_test = glob.glob(dataset_path + '/test/' + '/*.mrg') # Lấy đường dẫn toàn bộ file trong thư mục
reader_corpus = BracketParseCorpusReader('.', list_of_file_test)
list_of_tagged_sents_test = reader_corpus.tagged_sents()

Theo `treebank/treebank/combined/README`, dữ liệu ban đầu đã được chạy qua PARTS (Ken Church's stochastic part-of-speech tagger), sau đó được sửa lại thông qua người gán nhãn, ghép với câu dữ liệu gốc tạo thành file Bracket. Một số điểm cần phải sửa đổi sau khi load dataset (Các file `.mrg`):
- Các kí hiệu có nhãn dán riêng biệt, để đơn giản cho việc xử lí và thống nhất với các nhãn dán đã liệt kê ở trên, thay đổi nhãn của ký hiệu thành `SYM`
- Một số từ không có nhãn, trong dataset được gán là `-NONE-`, cần lọc ra những từ này trước khi xử lí.

In [6]:
def convert(list_of_tagged_sents):
    # Lọc bỏ những từ không có tag (-NONE-)
    list_of_tagged_sents = list(map(
        lambda sent: list(filter(
            lambda word: word[1] != '-NONE-',
            sent
        )),
        list_of_tagged_sents
    ))

    # Chuyển đổi tag dấu câu thành SYM
    list_of_tagged_sents = list(map(
        lambda sent: list(map(
            lambda word: (word[0], "SYM") if word[1][0] in string.punctuation else word,
            sent
        )),
        list_of_tagged_sents
    ))

    return list_of_tagged_sents
    

In [7]:
print("Du lieu ban dau:")
print(list_of_tagged_sents_test[0])

list_of_tagged_sents_test = convert(list_of_tagged_sents_test)
list_of_tagged_sents_train = convert(list_of_tagged_sents_train)

print("Du lieu sau khi xu ly:")
print(list_of_tagged_sents_test[0])

Du lieu ban dau:
[('First', 'NNP'), ('Chicago', 'NNP'), ('Corp.', 'NNP'), ('said', 'VBD'), ('0', '-NONE-'), ('it', 'PRP'), ('completed', 'VBD'), ('its', 'PRP$'), ('$', '$'), ('55.1', 'CD'), ('million', 'CD'), ('*U*', '-NONE-'), ('cash-and-stock', 'JJ'), ('acquisition', 'NN'), ('of', 'IN'), ('closely', 'RB'), ('held', 'VBN'), ('Ravenswood', 'NNP'), ('Financial', 'NNP'), ('Corp.', 'NNP'), (',', ','), ('another', 'DT'), ('Chicago', 'NNP'), ('bank', 'NN'), ('holding', 'VBG'), ('company', 'NN'), ('.', '.')]
Du lieu sau khi xu ly:
[('First', 'NNP'), ('Chicago', 'NNP'), ('Corp.', 'NNP'), ('said', 'VBD'), ('it', 'PRP'), ('completed', 'VBD'), ('its', 'PRP$'), ('$', 'SYM'), ('55.1', 'CD'), ('million', 'CD'), ('cash-and-stock', 'JJ'), ('acquisition', 'NN'), ('of', 'IN'), ('closely', 'RB'), ('held', 'VBN'), ('Ravenswood', 'NNP'), ('Financial', 'NNP'), ('Corp.', 'NNP'), (',', 'SYM'), ('another', 'DT'), ('Chicago', 'NNP'), ('bank', 'NN'), ('holding', 'VBG'), ('company', 'NN'), ('.', 'SYM')]


# 3.3 Mô tả các thành phần của mô hình
- Tập các trạng thái ẩn: là tập các tag có thể của mỗi từ (dựa trên quy tắc gán nhãn của Penn TreeBank dataset).

> S = {'JJS', 'PRP$', 'WDT', 'NNP', 'TO', 'PDT', 'WRB', 'WP', 'NNS', 'VB', 'MD', 'RP',  'PRP', 'JJR', 'JJ', 'VBZ', 'RBS', 'VBG', 'POS', 'VBD', 'NN', 'UH', 'FW', 'NNPS', 'WP$', 'EX', 'SYM', 'RBR', 'VBN', 'LS', 'IN', 'DT', 'VBP', 'CD', 'RB', 'CC'}

In [8]:
# Tagset (36 loại)
tag_set = [
    'JJS', 'PRP$', 'WDT', 'NNP', 'TO', 'PDT', 'WRB', 'WP', 'NNS', 'VB', 'MD', 'RP', 
    'PRP', 'JJR', 'JJ', 'VBZ', 'RBS', 'VBG', 'POS', 'VBD', 'NN', 'UH', 'FW', 'NNPS', 
    'WP$', 'EX', 'SYM', 'RBR', 'VBN', 'LS', 'IN', 'DT', 'VBP', 'CD', 'RB', 'CC'
]

- Các quan sát có thể: Những từ trong câu theo thứ tự đã được gán nhãn, ví dụ `"I_PRP", "am_VBZ", "good_JJ",...`
- Các giả thiết của mô hình Markov ẩn phù hợp với tình huống này, do nhãn dán của một từ thường phụ thuộc vào từ phía trước nó (Vd sau động từ khiếm khuyết thường sẽ đi với một động từ nguyên mẫu)

### Các giả thiết được sử dụng
#### 1. Giả thiết của Markov ẩn:
- Xác suất của một trạng thái cụ thể chỉ phụ thuộc vào trạng thái ngay trước đó (Markov Assumptions)
$$P\left({\left. {{q_i}} \right|{q_1} \ldots {q_{i - 1}}} \right) = P\left( {\left. {{q_i}} \right|{q_{i - 1}}} \right)$$
- Xác suất của quan sát đầu ra $o_i$ chỉ phụ thuộc vào trạng thái tạo ra quan sát $q_i$, không bị ảnh hưởng bởi các quan sát và trạng thái khác (Independence Assumption).
$$P\left({\left. {{o_i}} \right|{q_1} \ldots {q_{T}}, {o_1} \ldots {o_{T}}} \right) = P\left( {\left. {{o_i}} \right|{q_{i}}} \right)$$
#### 2. Giả thiết cho POS tagging
- Giả thiết bigram: xác suất của một nhãn chỉ phụ thuộc vào từ phía trước nó, thay vì phụ thuộc vào dãy các nhãn.
$$P\left({{t_1} \ldots {t_{n}}} \right) = \prod_{i=1}^{n}P\left( {\left. {{t_i}} \right|t_0,\ldots ,{t_{i - 1}}} \right)  \approx \prod_{i=1}^{n}P\left( {\left. {{t_i}} \right|{t_{i - 1}}} \right)$$
- Xác xuất một từ xuất hiện dựa trên nhãn độc lập với những từ  và nhãn xung quanh 
$$P\left({{w_1} \ldots {w_{n}}} | {{t_1} \ldots {t_{n}}} \right) \approx \prod_{i=1}^{n}P\left( {\left. {{w_i}} \right|{t_{i}}} \right)$$

### Mục tiêu của bài toán
- Với danh sách từ cho trước $w_1, \ldots, w_n$, ta cần tìm một danh sách nhãn dán $t_1, \ldots, t_n$ phù hợp.
- Nói cách khác, ta cần tìm:
$$\hat{t}_{1:n}=\argmax_{t_1\ldots t_n}{P\left({{t_1} \ldots {t_{n}}} | {{w_1} \ldots {w_{n}}} \right)}$$
Sử dụng định lý Bayes:
$$\hat{t}_{1:n}=\argmax_{t_1\ldots t_n}{\frac{P\left({{w_1} \ldots {w_{n}}} | {{t_1} \ldots {t_{n}}} \right)P\left(t_1\ldots t_n\right)}{P\left(w_1\ldots w_n\right)}}$$
Bỏ qua mẫu số, và áp dụng các giả thuyết đã có, ta được:
$$\hat{t}_{1:n}=\argmax_{t_1\ldots t_n}{\prod_{i=1}^{n}P\left( {\left. {{w_i}} \right|{t_{i}}} \right)P\left( {\left. {{t_i}} \right|{t_{i - 1}}} \right)}$$
Gọi A là ma trận xác suất chuyển từ nhãn này sang nhãn khác, ta tính toán ước lượng hợp lý cực đại (MLE) của xác suất này bằng cách đếm số lượng nhãn thứ 2 theo sau nhãn thứ nhất trên số lượng nhãn thứ nhất:
$$A[t_{i-1}, t_i] = P\left(t_i|t_{i-1}\right) = \frac{C\left(t_{i-1}, t_i\right)}{C\left(t_{i-1}\right)}$$
Gọi B là ma trận xác suất phụ thuộc trạng thái, MLE của xác suất này sẽ là số lần nhãn $t$ được gán cho từ $w$ trên số lượng nhãn $t$:
$$B[t_{i}, w_i] = P\left(w_i|t_{i}\right) = \frac{C\left(t_{i}, w_i\right)}{C\left(t_{i}\right)}$$
Gọi $\pi$ là vector mở đầu phân phối xác suất, được tính bằng số lượng nhãn $t$ mở đầu câu trên tổng số câu:
$$\pi_{t_i} = \frac{C'(t_i)}{C(sentence)}$$
Việc tạo ra được dãy $t_1,\ldots,t_n$ phù hợp với dãy quan sát $o_1,\ldots,o_n$ thông qua việc giải mã, ở đây ta sẽ sử dụng [thuật toán Viterbi](https://en.wikipedia.org/wiki/Viterbi_algorithm)

In [9]:
# Vd bigram: [1,2,3,4] -> [(1,2), (2,3), (3,4)]
# C(t_{i-1}, t_i)
def bigramCount(tag_sent_list):
    # Tạo bigram trên tag
    # Bigram được tạo riêng trên mỗi câu!

    bigram = [
        (sent[i][1], sent[i + 1][1]) for sent in tag_sent_list for i in range(len(sent) - 1)
    ]

    map_count = defaultdict(lambda: NEAR_ZERO)
    for x in bigram:
        if x in map_count:
            map_count[x] += 1
        else:
            map_count[x] = 1
    return map_count

# Tương tự với unigram
# C(t_i)
def unigramCount(tag_sent_list):
    unigram = [
        word[1] for sent in tag_sent_list for word in sent
    ]
    map_count = defaultdict(lambda: NEAR_ZERO)
    for x in unigram:
        if x in map_count:
            map_count[x] += 1
        else:
            map_count[x] = 1
    return map_count

# C(t_i, w_i)
def wordtagCount(tag_sent_list):
    map_count = defaultdict(lambda: NEAR_ZERO)
    for sent in tag_sent_list:
        for word in sent:
            if word in map_count:
                map_count[word] += 1
            else:
                map_count[word] = 1
    return map_count

In [10]:
# Tính P(t_{i} | t_{i - 1})
def Ptt(bi_cnt, uni_cnt, tag1, tag2):
    return bi_cnt[(tag1, tag2)] / uni_cnt[tag1]

# Tính P(w_i | t_i)
def Pwt(wt_cnt, uni_cnt, tag, word):
    count1 = wt_cnt[(word, tag)]
    count2 = uni_cnt[tag]
    return count1 / count2

In [19]:
def transition_matrix(tag_set, bi_cnt, uni_cnt):
    A = {}
    for tag1 in tag_set:
        for tag2 in tag_set:
            A[(tag1, tag2)] = Ptt(bi_cnt, uni_cnt, tag1, tag2)
    return A

def emission_matrix(tag_sent_list, tag_set, uni_cnt, wt_cnt):
    word_set = []
    for sent in tag_sent_list:
        for word in sent:
            word_set.append(word[0])
    word_set = list(set(word_set)) # Loại bỏ từ trùng

    B = defaultdict(lambda: NEAR_ZERO)
    for tag in tag_set:
        for word in word_set:
            B[(word, tag)] = Pwt(wt_cnt, uni_cnt, tag, word)
    return B

def pi_vector(tag_sent_list, tag_set):
    first_tag_cnt = defaultdict(lambda: NEAR_ZERO)
    for sent in tag_sent_list:
        first_tag = sent[0][1]
        if first_tag in first_tag_cnt:
            first_tag_cnt[first_tag] += 1
        else:
            first_tag_cnt[first_tag] = 1
    sent_cnt = len(tag_sent_list)

    vec = defaultdict(lambda: NEAR_ZERO)
    for tag in tag_set:
        vec[tag] = first_tag_cnt[tag] / sent_cnt
    return vec

In [12]:
# Thuật toán Viterbi trên quan sát, trả về tập quan sát cùng với nhãn dán.
def viterbi(obs, tag_set, A, B, pi):
    vit_matrix = defaultdict(lambda: NEAR_ZERO)
    bck_ptr = defaultdict(lambda: NEAR_ZERO)

    # Initial state:
    for tag in tag_set:
        vit_matrix[(tag, 0)] = pi[tag] * B[(obs[0], tag)]
        bck_ptr[(tag, 0)] = (tag, 0)
    
    for t in range(1, len(obs)):
        for tag in tag_set:
            x = 0
            for tag_before in tag_set:
                tmp = vit_matrix[(tag_before, t - 1)] * A[(tag_before, tag)] * B[(obs[t], tag)]
                if tmp > x:
                    x = tmp
                    bck_ptr[(tag, t)] = (tag_before, t - 1)
            vit_matrix[(tag, t)] = x
    
    m = 0
    b = None
    for tag in tag_set:
        if vit_matrix[(tag, len(obs) - 1)] > m:
            m = vit_matrix[(tag, len(obs) - 1)]
            b = (tag, len(obs) - 1)
    
    result = []

    while b[1] != 0:
        result.append((obs[b[1]], b[0]))
        b = bck_ptr[b]
    result.append((obs[b[1]], b[0]))
    return result[::-1]

In [20]:
# Example:
bi_cnt = bigramCount(list_of_tagged_sents_train)
uni_cnt = unigramCount(list_of_tagged_sents_train)
wt_cnt = wordtagCount(list_of_tagged_sents_train)

A = transition_matrix(tag_set, bi_cnt, uni_cnt)
B = emission_matrix(list_of_tagged_sents_train, tag_set, uni_cnt, wt_cnt)
pi = pi_vector(list_of_tagged_sents_train, tag_set)

obs = ["every", "day", "there", "is", "much", "work", "to", "be" ,"done", "."]
print("Doan van ban ban dau:")
print(obs)
print("Sau khi dan nhan:")
print(viterbi(obs, tag_set, A, B, pi))

Doan van ban ban dau:
['every', 'day', 'there', 'is', 'much', 'work', 'to', 'be', 'done', '.']
Sau khi dan nhan:
[('every', 'DT'), ('day', 'NN'), ('there', 'RB'), ('is', 'VBZ'), ('much', 'RB'), ('work', 'VB'), ('to', 'TO'), ('be', 'VB'), ('done', 'VBN'), ('.', 'SYM')]


## 3.4 Đánh giá mô hình
Sau khi mô hình đã được xây dựng xong, sẽ thực hiện gán nhãn dựa trên tập `test`, mỗi câu sẽ có tiêu chí đánh giá như sau:
$$accuracy =\frac{correct\_tag}{total\_word\_in\_sentence}$$
Sau đó, sẽ tính toán  độ chính xác trung bình và phương sai, mô hình được gọi là tốt khi có độ chính xác trên `70%`.

In [21]:
def calc_accuracy_sentence(sent, tag_set, A, B, pi):
    obs = [word[0] for word in sent] # Tách phần chữ
    result = viterbi(obs, tag_set, A, B, pi)

    correct = 0
    assert(len(result) == len(sent))
    for i in range(len(result)):
        if (sent[i] == result[i]):
            correct += 1
    return correct / len(sent)

acc_list = [calc_accuracy_sentence(sent, tag_set, A, B, pi) * 100 for sent in list_of_tagged_sents_test]

In [22]:
import statistics
print(f"So luong cau/tu trong tap train: {len(list_of_tagged_sents_train)}/{len(sum(list_of_tagged_sents_train, []))}")
print(f"So luong cau/tu trong tap test: {len(list_of_tagged_sents_test)}/{len(sum(list_of_tagged_sents_test, []))}")
print(f"Do chinh xac cao nhat: {max(acc_list):.4f}%")
print(f"Do chinh xac thap nhat: {min(acc_list):.4f}%")
print(f"Trung binh: {statistics.mean(acc_list):.4f}%")
print(f"Phuong sai: {statistics.variance(acc_list):.4f}")

So luong cau/tu trong tap train: 3801/91266
So luong cau/tu trong tap test: 113/2818
Do chinh xac cao nhat: 100.0000%
Do chinh xac thap nhat: 66.6667%
Trung binh: 92.0235%
Phuong sai: 38.7941


## 3.5 Nhận xét

Nhận xét về kết quả: 
- Với tập dataset khá nhỏ (~5% so với bản gốc), mô hình có thể đã có thể gán nhãn trên tập test với độ chính xác khá cao (trung bình ~92%)
- Tuy nhiên, mô hình vẫn còn chưa ổn định (Phương sai cao: 38.79)
- Mô hình sẽ không biết được từ mới (chưa được học) sẽ được gán nhãn gì.
Cải tiến:
- Tăng tập dataset lên (Dùng 100% dataset), đổi lại thời gian cho việc train sẽ lâu hơn
- Sử dụng [Laplace smoothing](https://digitalscholarship.unlv.edu/cgi/viewcontent.cgi?article=2008&context=thesesdissertations) để thêm một số tỉ lệ cho những sự kiện chưa được học ($|V|$ là kích thước tập từ vựng)
$$P\left(w_i|t_{i}\right) = \frac{C\left(t_{i}, w_i\right) + 1}{C\left(t_{i}\right) + |V|}$$
- Sử dụng Absolute Discounting để smooth xác suất emission. Gọi $v$ là số lượng từ có xác xuất lớn hơn 0 tại trạng thái $s$, $N$ là kích thước tập từ vựng, $T_s$ là số lượng từ ở trạng thái $s$. Ta có:
$$P\left(w_i|t_{i}\right)' = \begin{cases}P\left(w_i|t_{i}\right) - p \quad \text{Nếu }P\left(w_i|t_{i}\right) 0 \\ vp/ N-v \quad \text{Ngược lại}\end{cases}$$
$$p = \frac{1}{T_s + v}$$