<a href="https://colab.research.google.com/github/HoangHungLN/MachineLearning_Assignment/blob/main/Extended_Assignment/notebooks/Extended_Assignment.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Phần mở rộng – Học tham số HMM (Hidden Markov Model)**

Trong phần mở rộng của lớp **Kỹ sư Tài năng**, nhóm em chọn chủ đề **Hidden Markov Model (HMM)**  và áp dụng vào bài toán **Gán nhãn Từ loại (POS Tagging)**.

---

### **1. Dữ liệu và tiền xử lý**

Nhóm sử dụng **tập dữ liệu POS Tagging** (đã gán nhãn sẵn) từ Kaggle.  
Dữ liệu được chia thành hai phần: **train.json** và **dev.json**.

Các bước xử lý chính:

- Đọc dữ liệu từ file JSON và tách thành các cặp **(X, Y)** tương ứng với  
  câu (chuỗi từ) và chuỗi nhãn POS.  
- Xây dựng **vocabulary** và **tag set**:  
  - Loại bỏ các từ xuất hiện ít (min_freq = 1).  
  - Thêm token đặc biệt `<UNK>` để xử lý từ chưa từng gặp (OOV).  
- Tạo ánh xạ giữa từ/nhãn và chỉ số: `word2id`, `tag2id`, `id2tag`.  
- Thay thế các từ ngoài từ điển bằng `<UNK>` trong tập train và dev.

---

### **2. Huấn luyện mô hình HMM**

Nhóm hiện thực hàm `estimate_hmm_supervised()` để học 3 tham số chính của HMM:

λ = (π, A, B)

- **π (pi):** Xác suất nhãn xuất hiện ở vị trí đầu tiên của câu.  
- **A:** Ma trận xác suất chuyển tiếp giữa các nhãn,  
  A<sub>ij</sub> = P(tag<sub>j</sub> | tag<sub>i</sub>)  
- **B:** Ma trận xác suất phát xạ,  
  B<sub>jk</sub> = P(word<sub>k</sub> | tag<sub>j</sub>)

---

### **3. Cách tính tham số**

- **Làm mịn Laplace (Laplace Smoothing):**  
  Khởi tạo các ma trận đếm `pi_cnt`, `A_cnt`, `B_cnt` với giá trị nhỏ (alpha) để tránh xác suất 0.  
- **Đếm tần suất:**  
  - `pi_cnt`: Đếm nhãn đầu tiên của mỗi câu.  
  - `A_cnt`: Đếm số lần chuyển tiếp giữa hai nhãn liên tiếp.  
  - `B_cnt`: Đếm số lần một nhãn phát ra một từ.  
- **Chuẩn hóa:**  
  Chia mỗi hàng của ma trận đếm cho tổng hàng để thu được xác suất:

  π = pi_cnt / sum(pi_cnt)  
  A<sub>ij</sub> = A_cnt[i, j] / sum(A_cnt[i, :])  
  B<sub>ij</sub> = B_cnt[i, j] / sum(B_cnt[i, :])

---

### **4. Kết quả**

Sau khi huấn luyện, nhóm thu được ba ma trận **π**, **A**, **B**, đại diện cho mô hình HMM hoàn chỉnh.  
Các tham số này sẽ được sử dụng cho phần **Viterbi** (tìm chuỗi nhãn tốt nhất)  
và **Forward** (tính xác suất quan sát) trong các bước kế tiếp của bài mở rộng.


In [3]:
import pandas as pd
import numpy as np
import json
import os
import getpass, os, subprocess, textwrap

# Tạo thư mục và tải dữ liệu train/dev, cùng các module HMM
os.makedirs("data", exist_ok=True)
os.makedirs("modules", exist_ok=True)
!wget https://raw.githubusercontent.com/HoangHungLN/MachineLearning_Assignment/refs/heads/main/Extended_Assignment/data/train.json -O data/train.json
!wget https://raw.githubusercontent.com/HoangHungLN/MachineLearning_Assignment/refs/heads/main/Extended_Assignment/data/dev.json -O data/dev.json
!wget https://raw.githubusercontent.com/HoangHungLN/MachineLearning_Assignment/refs/heads/main/Extended_Assignment/modules/forward_algorithm.py -O modules/forward_algorithm.py
!wget https://raw.githubusercontent.com/HoangHungLN/MachineLearning_Assignment/refs/heads/main/Extended_Assignment/modules/viterbi_algorithm.py -O modules/viterbi_algorithm.py

DATA_FILE = "data/train.json"
DEV_FILE = "data/dev.json"

--2025-11-30 01:00:18--  https://raw.githubusercontent.com/HoangHungLN/MachineLearning_Assignment/refs/heads/main/Extended_Assignment/data/train.json
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 27164412 (26M) [text/plain]
Saving to: ‘data/train.json’


2025-11-30 01:00:19 (335 MB/s) - ‘data/train.json’ saved [27164412/27164412]

--2025-11-30 01:00:19--  https://raw.githubusercontent.com/HoangHungLN/MachineLearning_Assignment/refs/heads/main/Extended_Assignment/data/dev.json
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.111.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 39150

In [4]:
# Đọc dữ liệu JSON thô từ file
with open(DATA_FILE, "r", encoding="utf-8") as f:
    raw_train = json.load(f)
with open(DEV_FILE, "r", encoding="utf-8") as f:
    raw_dev = json.load(f)

# Tách dữ liệu thành các cặp câu (X) và nhãn (Y)
X_train = [ex["sentence"] for ex in raw_train]
Y_train = [ex["labels"] for ex in raw_train]
X_dev = [ex["sentence"] for ex in raw_dev]
Y_dev = [ex["labels"] for ex in raw_dev]

In [5]:
from collections import Counter

UNK = "<UNK>"
min_freq = 1

# Đếm tần suất từ, xây dựng từ điển `vocab` (chỉ giữ từ > min_freq)
word_freq = Counter(w for sent in X_train for w in sent)
vocab = [w for w, c in word_freq.items() if c > min_freq]
vocab.append(UNK)
vocab = sorted(vocab)

# Tạo tập nhãn `tag_set` duy nhất
tag_set = sorted(list(set(t for tags in Y_train for t in tags)))

# Tạo ánh xạ từ/nhãn sang ID và ngược lại
word2id = {w: i for i, w in enumerate(vocab)}
tag2id = {t: i for i, t in enumerate(tag_set)}
id2tag = {i: t for t, i in tag2id.items()}

# Hàm thay thế các từ hiếm/không biết (Out-of-Vocabulary) bằng token `UNK`
def map_unk(sent):
    return [w if w in word2id else UNK for w in sent]

# Ánh xạ `UNK` cho tập train/dev
X_train = [map_unk(s) for s in X_train]
X_dev = [map_unk(s) for s in X_dev]

In [6]:
# Hàm ước lượng tham số HMM (pi, A, B) từ dữ liệu có giám sát
def estimate_hmm_supervised(X, Y, tag2id, word2id, alpha_pi=1.0, alpha_A=1.0, alpha_B=1e-3):
    K, V = len(tag2id), len(word2id)

    # Khởi tạo ma trận đếm (count) với làm mịn Laplace (alpha)
    pi_cnt = np.full(K, alpha_pi, dtype=np.float64)  # Đếm P(tag bắt đầu)
    A_cnt = np.full((K, K), alpha_A, dtype=np.float64) # Đếm P(tag_j | tag_i)
    B_cnt = np.full((K, V), alpha_B, dtype=np.float64) # Đếm P(word | tag)

    # Duyệt qua từng câu và nhãn trong tập huấn luyện để đếm
    for words, tags in zip(X, Y):
        if not words:
            continue

        # 1. Đếm xác suất ban đầu (pi)
        pi_cnt[tag2id[tags[0]]] += 1

        for t in range(len(words)):
            j = tag2id[tags[t]]
            w = word2id[words[t]]
            # 2. Đếm xác suất phát xạ (B)
            B_cnt[j, w] += 1

            if t < len(words) - 1:
                i = tag2id[tags[t]]
                k = tag2id[tags[t+1]]
                # 3. Đếm xác suất chuyển tiếp (A)
                A_cnt[i, k] += 1

    # Chuẩn hóa các ma trận đếm để ra ma trận xác suất
    pi = pi_cnt / pi_cnt.sum()
    A = A_cnt / A_cnt.sum(axis=1, keepdims=True)
    B = B_cnt / B_cnt.sum(axis=1, keepdims=True)

    return pi, A, B

# Gọi hàm để huấn luyện và lấy các tham số HMM
pi, A, B = estimate_hmm_supervised(X_train, Y_train, tag2id, word2id)

#Giải thuật Forward


In [9]:
from modules.forward_algorithm import *
idx_unk = word2id[UNK]
results = []
for sentence_words in X_dev:
    # Bỏ qua câu rỗng (nếu có)
    if not sentence_words:
        continue

    # Chuyển câu sang chuỗi quan sát O (indices)
    O_indices = []
    for word in sentence_words:
        idx = word2id.get(word, idx_unk)
        O_indices.append(idx)
    O_indices = np.array(O_indices)

    prob = forward_algorithm(O_indices, pi, A, B)

    results.append( (' '.join(sentence_words), prob) )

results.sort(key=lambda x: x[1])

print(f"\n--- KẾT QUẢ THÍ NGHIỆM FORWARD (trên {len(results)} câu của dev.json) ---")

print(f"\n--- 10 CÂU CÓ XÁC SUẤT THẤP NHẤT ---")
# Lấy 10 câu đầu tiên (thấp nhất)
for sentence, p in results[:10]:
  print(f"Prob: {p: .2e} | Câu: {sentence}")

print(f"\n--- 10 CÂU CÓ XÁC SUẤT CAO NHẤT ---")
# Lấy 10 câu cuối (cao nhất) và lật ngược lại
for sentence, p in reversed(results[-10:]):
  print(f"Prob: {p: .2e} | Câu: {sentence}")


--- KẾT QUẢ THÍ NGHIỆM FORWARD (trên 5527 câu của dev.json) ---

--- 10 CÂU CÓ XÁC SUẤT THẤP NHẤT ---
Prob:  1.41e-246 | Câu: <UNK> <UNK> <UNK> , San Francisco , telecommunications holding company , annual sales of $ 9.5 billion , no damage to headquarters , but no power , the power failure has caused a delay in the release of the company 's earnings report , major concern is subsidiaries , Pacific Bell and Pacific Telesis Cellular , both of which sustained damage to buildings , structural damage to several cellular sites in Santa Cruz , volume of calls on cellular phones 10 times the usual , causing a big slowdown .
Prob:  3.93e-243 | Câu: Daniel von <UNK> is <UNK> but totally assured as Major Battle , <UNK> just the right brand of <UNK> and <UNK> ; Jeff Weiss is fire , <UNK> and <UNK> <UNK> as the <UNK> senator who serves as a friendly <UNK> of Major Battle ; <UNK> <UNK> is <UNK> <UNK> playing a succession of lawyers ; Joseph Daly has the perfect `` <UNK> , <UNK> '' <UNK> of George 

# Phân tích và Đánh giá Kết quả Giải thuật Forward

## 1. Các câu có xác suất cao nhất

10 câu có xác suất cao nhất đều là các câu cực kỳ ngắn (1-2 từ).Đáng chú ý nhất, các câu có xác suất cao tuyệt đối là "UNK ." và "UNK UNK".

Từ kết quả ta có thể thấy được hiện tượng thiên vị về độ dài. Cụ thể, các câu càng ngắn thì càng có xác suất lớn. Hiện tượng trên là do giải thuật Forward tính xác suất cuối cùng P(O) bằng cách nhân liên tiếp các xác suất tại mỗi bước thời gian.Vì tất cả các xác suất đều nhỏ hơn 1.0, về mặt toán học, câu càng ngắn thì càng ít phép nhân dẫn xác suất cuối cùng càng cao.

Bên cạnh đó, sự xuất hiện của UNK, UNK trở thành từ phổ biến nhất trong từ điển do quá trình thay thế từ hiếm với sự xuất hiện ít hơn 2 lần thành UNK, quá trình đó cộng dồn trong quá trình train tham số cho mô hình, dẫn đến UNK vô tình trở thành từ xuất hiện nhiều nhất, dẫn đến xác suất sinh ra UNK tại các trạng thái trở nên lớn hơn.

# 2. Các câu có xác suất thấp nhất
10 câu có xác suất thấp nhất đều là các câu rất dài (50–70+ từ), và chứa nhiều UNK cùng cấu trúc phức tạp.

Đây cũng là kết quả của hiện tượng thiên vị về độ dài, khi các từ có độ dài càng cao thì số lượng phép nhân cho số bé hơn 1 càng nhiều, dẫn đến giá trị xác suất trở nên rất bé.

Bên cạnh đó các câu này còn có cấu trúc ngữ pháp phức tạp hơn, khiến cho ma trận chuyển tiếp A chứa các giá trị chuyển trạng thái rất nhỏ khi gặp cấu trúc này.

# 3. Giá trị xác suất quá nhỏ
Đối với tập dữ liệu hiện tại, các câu có độ dài không quá lớn khiến cho giá trị xác suất không bị bé vượt ngưỡng e-324 của kiểu float64 mà numpy đang sử dụng. Nhưng với giải thuật hiện tại, nếu gặp câu có độ dài lớn hơn nhiều sẽ rất dễ gặp hiện tượng tràn số dưới dẫn đến giá trị xác suất trả về là 0.0. Để giải quyết cho hiện tượng trên, ta hoàn toàn có thể chuyển bài toán sang không gian logagite Bằng cách này, phép nhân xác suất (ví dụ: $P_1 \times P_2$) được chuyển đổi thành phép cộng log-probability (ví dụ: $\log(P_1) + \log(P_2)$), giúp tránh các giá trị bị làm tròn về 0. Khi cần thực hiện phép cộng trong không gian log, kỹ thuật "Log-Sum-Exp" sẽ được sử dụng để đảm bảo tính toán luôn ổn định.



In [10]:
import numpy as np

# Hàm chuyển câu văn bản thành chuỗi chỉ số (Indices)
def sentence_to_indices(sentence_str, word2id, unk_token="<UNK>"):
    words = sentence_str.strip().split()
    idx_unk = word2id[unk_token]

    indices = []
    for w in words:
        indices.append(word2id.get(w, idx_unk))

    return np.array(indices), words

def compare_two_sentences(sent1, sent2, pi, A, B, word2id, forward_func):
    idx1, words1 = sentence_to_indices(sent1, word2id)
    idx2, words2 = sentence_to_indices(sent2, word2id)

    prob1 = forward_func(idx1, pi, A, B)
    prob2 = forward_func(idx2, pi, A, B)

    print("-" * 60)
    print(f"1. \"{sent1}\" -> {prob1:.5e}")
    print(f"2. \"{sent2}\" -> {prob2:.5e}")
    print("-" * 60)

    if prob1 == 0 or prob2 == 0:
        print("Một trong hai câu có xác suất bằng 0 (hoặc quá nhỏ bị làm tròn).")
    else:
        if prob1 > prob2:
            ratio = prob1 / prob2
            print(f"Câu \"{sent1}\" có xác suất cao hơn câu \"{sent2}\" gấp {ratio:,.2f} lần.")
            print(f"=> Câu \"{sent1}\" được mô hình đánh giá là hợp lý hơn.")
        else:
            ratio = prob2 / prob1
            print(f"Câu \"{sent2}\" có xác suất cao hơn câu \"{sent1}\" gấp {ratio:,.2f} lần.")
            print(f"=> Câu \"{sent2}\" được mô hình đánh giá là hợp lý hơn.")
    print("-" * 60)

sentence_a = "I love you"
sentence_b = "Love you I"

print("\nKIỂM TRA ĐỘ LỆCH XÁC SUẤT (Cặp 1):")
compare_two_sentences(sentence_a, sentence_b, pi, A, B, word2id, forward_algorithm)

sentence_c = "He is a good student"
sentence_d = "He is a good the"

print("\nKIỂM TRA ĐỘ LỆCH XÁC SUẤT (Cặp 2):")
compare_two_sentences(sentence_c, sentence_d, pi, A, B, word2id, forward_algorithm)


KIỂM TRA ĐỘ LỆCH XÁC SUẤT (Cặp 1):
------------------------------------------------------------
1. "I love you" -> 3.88748e-10
2. "Love you I" -> 3.00968e-14
------------------------------------------------------------
Câu "I love you" có xác suất cao hơn câu "Love you I" gấp 12,916.58 lần.
=> Câu "I love you" được mô hình đánh giá là hợp lý hơn.
------------------------------------------------------------

KIỂM TRA ĐỘ LỆCH XÁC SUẤT (Cặp 2):
------------------------------------------------------------
1. "He is a good student" -> 1.23059e-12
2. "He is a good the" -> 1.90686e-11
------------------------------------------------------------
Câu "He is a good the" có xác suất cao hơn câu "He is a good student" gấp 15.50 lần.
=> Câu "He is a good the" được mô hình đánh giá là hợp lý hơn.
------------------------------------------------------------


Có sự mâu thuẫn ở cặp câu thứ 2 khi cặp đúng ngữ pháp trong thực tế hơn lại có xác suất nhỏ hơn trong mô hình. Điều này được giải thích do xác suất phát xạ.

In [13]:
def check_emission_bias(word2id, tag2id, B, word_check):
    if word_check not in word2id:
        print(f"Từ '{word_check}' không có trong từ điển (sẽ bị tính là UNK)")
        return

    w_idx = word2id[word_check]

    best_tag_idx = np.argmax(B[:, w_idx])
    best_prob = B[best_tag_idx, w_idx]

    id2tag = {i: t for t, i in tag2id.items()}
    best_tag = id2tag[best_tag_idx]

    print(f"Từ '{word_check}':")
    print(f" - Nhãn phổ biến nhất: {best_tag}")
    print(f" - Xác suất phát xạ - P('{word_check}'|{best_tag}): {best_prob:.5f}")

print("--- SO SÁNH XÁC SUẤT TỪ VỰNG ---")
check_emission_bias(word2id, tag2id, B, "the")
check_emission_bias(word2id, tag2id, B, "student")

--- SO SÁNH XÁC SUẤT TỪ VỰNG ---
Từ 'the':
 - Nhãn phổ biến nhất: DT
 - Xác suất phát xạ - P('the'|DT): 0.50150
Từ 'student':
 - Nhãn phổ biến nhất: NN
 - Xác suất phát xạ - P('student'|NN): 0.00028


# Kết quả
Mô hình HMM giải thích khá tốt về cấu trúc ngữ pháp cho câu, khi với độ dài nhất định, một câu có xác suất xảy ra cao hơn thì sẽ có cấu trúc ngữ pháp phù hợp hơn trong mô hình đang xét. Tuy nhiên, mô hình vẫn còn rất nhiều hạn chế như cách xử lý các từ hiểm quá thô sơ hay hiện tượng thiên vị độ dài.

Ta có thể hạn chế được điểm yếu trên bằng cách sử dụng chuẩn hóa xác suất của một chuỗi quan sát bằng cách chia cho độ dài câu. Hay cải tiến cách xử lý từ hiếm bằng phương pháp Subword Tokenization.

Với mô hình HMM hiện tại còn gặp hiện tượng thiên vị tần suất từ. Do sự chênh lệch quá lớn trong Xác suất Phát xạ giữa từ phổ biến và từ hiếm, mô hình có xu hướng ưu tiên các câu chứa từ thông dụng hơn là các câu đúng cấu trúc ngữ pháp nhưng chứa từ ít gặp.

Sử dụng các phương pháp làm mịn nâng cao (như Good-Turing hoặc Witten-Bell) thay vì Laplace đơn giản để ước lượng tốt hơn xác suất cho các từ hiếm (Rare words) và từ chưa biết (OOV).

Hoặc đơn giản hơn, ta sử dụng các mô hình hiện đại hơn và thông minh hơn trong việc xử lý chuỗi chẳng hạn như mạng Neuron.

# Giải thuật Viterbi
## Giới thiệu các nhãn POS (Penn Treebank)

Trong bài này, em dataset nhóm sử dụng bộ nhãn POS theo chuẩn **Penn Treebank**. Dưới đây là một số nhãn thường gặp:

### 1. Danh từ (Nouns)

| Tag   | Ý nghĩa                               | Ví dụ                        |
|-------|---------------------------------------|------------------------------|
| **NN**   | Danh từ thường, số ít                  | dog, house, book             |
| **NNS**  | Danh từ thường, số nhiều               | dogs, houses, books          |
| **NNP**  | Danh từ riêng, số ít                   | John, London, Tuesday        |
| **NNPS** | Danh từ riêng, số nhiều                | Americans, Europeans         |

### 2. Động từ (Verbs)

| Tag   | Ý nghĩa                                             | Ví dụ                              |
|-------|-----------------------------------------------------|------------------------------------|
| **VB**   | Động từ nguyên mẫu                                | eat, go, run                       |
| **VBD**  | Động từ quá khứ                                  | ate, went, ran                     |
| **VBG**  | Hiện tại phân từ / V-ing                         | eating, going, running            |
| **VBN**  | Quá khứ phân từ                                  | eaten, gone, broken               |
| **VBP**  | Hiện tại, không ngôi thứ 3 số ít                 | I eat, you go                      |
| **VBZ**  | Hiện tại, ngôi thứ 3 số ít                       | he eats, she goes                 |

### 3. Tính từ & Trạng từ

| Tag   | Ý nghĩa                         | Ví dụ                         |
|-------|---------------------------------|-------------------------------|
| **JJ**   | Tính từ                         | big, small, happy             |
| **JJR**  | Tính từ so sánh hơn             | bigger, smaller, happier      |
| **JJS**  | Tính từ so sánh nhất            | biggest, smallest, happiest   |
| **RB**   | Trạng từ                        | quickly, very, well           |
| **RBR**  | Trạng từ so sánh hơn            | faster, better                |
| **RBS**  | Trạng từ so sánh nhất           | fastest, best                 |

### 4. Đại từ, mạo từ, giới từ, liên từ

| Tag    | Ý nghĩa                           | Ví dụ                         |
|--------|-----------------------------------|--------------------------------|
| **PRP**   | Đại từ nhân xưng                  | I, you, he, she, they          |
| **PRP$**  | Đại từ sở hữu                     | my, your, his, her             |
| **DT**    | Mạo từ / từ hạn định              | a, an, the, this, those        |
| **IN**    | Giới từ / liên từ phụ thuộc       | in, on, at, of, because, if    |
| **CC**    | Liên từ đẳng lập                  | and, or, but                   |
| **TO**    | Từ *to* (trước động từ nguyên mẫu) | to go, to eat                  |

### 5. Một số nhãn khác

| Tag   | Ý nghĩa                     | Ví dụ                       |
|-------|-----------------------------|-----------------------------|
| **MD**   | Trợ động từ khuyết thiếu    | can, will, must, should     |
| **CD**   | Số từ                      |  10, 20       |
| **UH**   | Thán từ                    | oh,              |
| **. , : ; ? !** | Dấu câu            | . , : ; ? !                 |

Trong mô hình HMM, các nhãn POS ở trên chính là **trạng thái ẩn**, còn các từ trong câu là **chuỗi quan sát**. Nhiệm vụ của mô hình là, với mỗi câu đầu vào, tìm ra chuỗi nhãn POS phù hợp nhất cho từng từ.


In [None]:
states = tag_set

# Chuyển pi, A, B từ array sang dict mà hàm viterbi cần
start_p = {
    tag: float(pi[i])
    for i, tag in enumerate(tag_set)
}

trans_p = {
    tag_i: {
        tag_j: float(A[i, j])
        for j, tag_j in enumerate(tag_set)
    }
    for i, tag_i in enumerate(tag_set)
}

emit_p = {
    tag_i: {
        word: float(B[i, w])
        for w, word in enumerate(vocab)
    }
    for i, tag_i in enumerate(tag_set)
}

In [None]:
from modules.viterbi_algorithm import *
test_words = X_dev[1]
gold_tags  = Y_dev[1]

pred_tags, prob = viterbi_algorithm(test_words, states, start_p, trans_p, emit_p)

print("Câu test:")
print(test_words)
print("\nNhãn dự đoán:")
print(pred_tags)
print("\nNhãn gold:")
print(gold_tags)
print("\nXác suất:", prob)

In [None]:
raw_sent1 = ["he", "loves" "this", "subject", "the", "most"]
test_words1 = map_unk(raw_sent1)

pred_tags1, prob1 = viterbi_algorithm(test_words1, states, start_p, trans_p, emit_p)

print("Câu gốc:", raw_sent1)
print("Câu sau khi map UNK:", test_words1)
print("Nhãn dự đoán:", pred_tags1)
print("Xác suất:", prob1)

raw_sent2 = ["he", "is", "doing", "machine", "learning", "assignment"]
test_words2 = map_unk(raw_sent2)

pred_tags2, prob2 = viterbi_algorithm(test_words2, states, start_p, trans_p, emit_p)

print("Câu gốc:", raw_sent2)
print("Câu sau khi map UNK:", test_words2)
print("Nhãn dự đoán:", pred_tags2)
print("Xác suất:", prob2)

Khi thử một số câu tự tạo như:

- "he love this subject the most"
- "he is doing machine learning assignment"

mô hình gán nhãn khá hợp lý: phân biệt đúng các đại từ (PRP), động từ chia theo chủ ngữ (VBZ), dạng V-ing (VBG), mạo từ (DT), trạng từ so sánh nhất (RBS).

Các lỗi chủ yếu xuất hiện ở những cụm mơ hồ như "machine learning", nơi từ *learning* vừa có thể được gán là danh từ (NN) vừa có thể là động từ dạng V-ing (VBG). Đây là kiểu mơ hồ thường gặp của mô hình HMM sử dụng ngữ cảnh ngắn.


In [None]:
total_correct = 0
total_tokens  = 0

for words, gold in zip(X_dev, Y_dev):
    pred, _ = viterbi_algorithm(words, states, start_p, trans_p, emit_p)
    # đếm đúng / sai cho câu này
    for p, g in zip(pred, gold):
        if p == g:
            total_correct += 1
        total_tokens += 1

overall_acc = total_correct / total_tokens
print("Accuracy toàn dev set:", overall_acc)

### **Nhận xét kết quả**

Đoạn code trên tính **độ chính xác (accuracy)** trên tập dev theo công thức:

$$
\text{accuracy} = \frac{\text{số token gán đúng nhãn}}{\text{tổng số token}}
$$

Kết quả thu được:

- **Accuracy trên dev ≈ 0.9482 (≈ 94.8%)**

Như vậy, với một mô hình HMM rất cơ bản (ước lượng tham số bằng đếm tần suất có smoothing, dùng token `<UNK>` cho từ hiếm) và thuật toán Viterbi, hệ thống đã gán đúng POS cho gần **95% số từ** trong tập kiểm tra. Đây là một kết quả khá tốt đối với HMM thuần túy, cho thấy mô hình đã học được phân bố:

- xác suất bắt đầu câu với từng nhãn,
- xác suất chuyển tiếp giữa các nhãn (A),
- xác suất phát xạ từ ứng với từng nhãn (B).

Phần **~5% còn lại** chủ yếu rơi vào các trường hợp mơ hồ về từ loại, ví dụ những từ vừa có thể là danh từ vừa có thể là động từ/tính từ, hoặc các từ ít xuất hiện trong tập huấn luyện. Đây là giới hạn tự nhiên của HMM bậc 1 chỉ dùng thông tin ngữ cảnh rất ngắn (tag ngay trước), chưa tận dụng được ngữ cảnh xa hay thông tin hình thái (suffix, viết hoa, v.v.).

Trong các hướng phát triển tiếp theo, có thể cải thiện bằng cách:
- thêm đặc trưng cho từ mới (đuôi `-ing`, `-ed`, số nhiều `-s`, chữ hoa…),
- dùng mô hình mạnh hơn như BiLSTM-CRF hoặc Transformer-based tagger,