# 知识工程-作业1 

2024214500 叶璨铭


## 实验准备

首先进行 环境配置和`结巴`库安装
```bash
conda activate yuequ
pip install uv
uv pip install jieba sklearn tqdm # uv的pip速度比 pip 快，不过配置清华源的方式不同。
```

![image.png](attachment:image.png)

为了记录我们自己修改了哪些地方，使用git进行版本控制。

```bash
git init
git add .
git commit -m "init"
```

为了让老师给的代码更加规范，提高可读性，使用ruff进行格式化。

```bash
uv pip install ruff
ruff format
```

结合 DRY 软件工程原则，我们参考fastai的文档规范来对函数做注释，防止重复声明很多次类型（助教使用的doc string 风格，会重复声明很多次，不好维护）


## 4:1 划分数据集为训练集和验证集

注意到助教给出的main代码中已经有对应的实现，比如`main_cut.py`中
```python
# 训练集验证集划分
random.seed(19260817)
random.shuffle(corpus)
train_size = round(len(corpus) * 4 / 5)
train_set, valid_set = corpus[:train_size], corpus[train_size:]
print("Train:", len(train_set), ", Valid:", len(valid_set))
```
先对corpus这个list进行了打乱，然后取前4/5作为训练集，后1/5作为验证集。
我们也可以用sklearn去做这个事情，不过这里就不再赘述了。

## 分词算法的核心代码实现

首先我们阅读 `main_cut.py` 熟悉一下整体流程。

从import来看，我们需要实现这些函数才能跑通这个main。
```python
from util.cut_util import maximum_match_cut, get_final_result, jieba_cut, evaluate
```

具体而言，代码的流程为
- 预处理
    - 把文本文件当做是行的列表，每一行独立开来。
    - 使用 map 函数对每一行进行处理，仍然是行的列表，不过现在行是单词的列表。
        - 每一行用空格split为多个单词
        - 使用 `re.sub(r"^\[|/[a-zA-Z]+", "", item)` 
            - 正则表达式中 | 分开了左右两个表达式，表示或者的意思。
            - 右边是至少英语字母的字符串，左边是以[开头的字符串。
            - 使用 sub去除
        - 每一行当做了句子。
    - 训练集验证集划分，一个句子是一个样本。
    - 用训练集来构建词表
        - 记录单词的集合
        - 单词是字符串，对每一个字符串做 `lambda x: x[::-1]`, 获得字符串的逆序字符串的集合。
    - 让验证集符合评测的格式
        - 使用 `"".join` 把验证集的句子没有空格地拼起来
        - valid_label 记录验证集每一个样本每一个单词的开始和结束位置
- 我们写的分词算法
    - **调用 `maximum_match_cut` 进行正向和反向分词**
        - 这里使用到训练集学习到的词表
        - 反向匹配和正向匹配不需要修改内部函数的实现
        - 只需要把item（句子的单词的列表）`[::-1]` 同时使用反向词表。
        - 不过结果的index需要转换一下。
    - 调用 `get_final_result` 
- 结巴分词算法
- 评测效果



### 评价指标的实现

开尔文曾说，“如果你不能度量它，你就不能改进它。” 我认为实现 `evaluate` 函数是最重要的一步。

我们的输入是 "each tuple is an index pair indicating one parsed word"
表示这个word需要tuple，那就是开始和结束的index。
我们约定右边是开区间，左边是闭区间。

首先我们需要复习一下课件。

课件首先提到，计算准确性指标的基本单位分为词和句。
如果是按照句来算，那么完全正确分词的句子会被认为是正确的，不完全正确的句子会被认为是错误的。
如果是按照词来算，需要计量正确分隔的词的数量和总共的词的数量。

Precision是以predict出来的结果的单词数为基准，计算其中有多少是正确的。
recall则是以真实的单词数为基准，计算其中有多少被预测出来了。

这里其实有个问题课件没有说清楚，因为每一个句子（样本）的单词数量不一样多，所以按照词来算也有两种方式。
- 不管句子了，完全按照单词计算指标
- 每个句子内，按照单词计算指标，然后每个句子的指标求平均。

这里我们顺便复习一个概念，叫做`macro`和`micro`。
> 多分类中，macro auc是每个类别按照二分类（one vs rest）求auc，然后求平均。
> micro auc 是累计所有类别的 TP, FP , FN 的数量，计算整体的TPR和FPR。


我们扩展助教给的函数签名，在兼容以前API的情况下增加 `beta` 和 `macro_or_micro` 参数。

In [1]:
#| export
from typing import List, Tuple

def evaluate(
    prediction: List[List[Tuple[int, int]]],  # [sentence, word] -> [start, end]
    target: List[List[Tuple[int, int]]],  # [sentence, word] -> [start, end]
    macro_or_micro: bool = True,  # True for macro, False for micro
    beta:float = 1.0, # beta for f beta
) -> Tuple[float, float, float]: # precision, recall, f beta
    # Span-level metric calculation, return precision, recall, and f beta
    true_positives: List[int] = []  # 每一个句子计算 有多少个 正确
    positives: List[int] = []  # 预测了多少个东西
    real_positives: List[int] = []  # 实际有多少个东西
    for i in range(len(prediction)):
        pred = set(prediction[i])
        tar = set(target[i])
        true_positives.append(len(pred & tar))
        positives.append(len(pred))
        real_positives.append(len(tar))
    if macro_or_micro:
        # macro average
        # 每个句子单独求 P, R 然后求平均
        precision = sum(map(lambda i:true_positives[i]/positives[i] if positives[i] >0 else 0,
                             range(len(prediction)))) / len(prediction)
        recall = sum(map(lambda i:true_positives[i]/real_positives[i] if real_positives[i] >0 else 0
                         , range(len(prediction))) ) / len(prediction)
    else:
        # micro average
        # 求出单词级别的总体的 P, R
        precision = sum(true_positives) / sum(positives) if sum(positives) > 0 else 0
        recall = sum(true_positives) / sum(real_positives) if sum(real_positives) > 0 else 0
    f_beta = (1 + beta**2) * precision * recall / (beta**2 * precision + recall)
    return precision, recall, f_beta


我们进行单元测试，在jupyter notebook中看看行不行。

In [2]:
predictions = [
    [(0, 1), (1, 2), (3,5)], # 第一个句子
    [(0, 2), (2, 3), (3,5)] # 第二个句子
]
targets = [[(0, 1), (1, 4), (4,5)], # 第二个第三个词分词歧义
           [(0, 3), (3,5)]] # 认为前面不需要分词
macro = evaluate(predictions, targets, True)
micro = evaluate(predictions, targets, False)
macro, micro

((0.3333333333333333, 0.41666666666666663, 0.3703703703703703),
 (0.3333333333333333, 0.4, 0.3636363636363636))

### 结巴分词的实现

参考官方文档 https://github.com/fxsjy/jieba

In [3]:
import jieba
jieba.tokenize?

[0;31mSignature:[0m [0mjieba[0m[0;34m.[0m[0mtokenize[0m[0;34m([0m[0municode_sentence[0m[0;34m,[0m [0mmode[0m[0;34m=[0m[0;34m'default'[0m[0;34m,[0m [0mHMM[0m[0;34m=[0m[0;32mTrue[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Tokenize a sentence and yields tuples of (word, start, end)

Parameter:
    - sentence: the str(unicode) to be segmented.
    - mode: "default" or "search", "search" is for finer segmentation.
    - HMM: whether to use the Hidden Markov Model.
[0;31mFile:[0m      ~/program_files/managers/conda/envs/yuequ/lib/python3.10/site-packages/jieba/__init__.py
[0;31mType:[0m      method


助教给的`def jieba_cut(valid_text: List[str]):` 没有传入词表，为此，我们增加一个新的参数 `train_set`, 传入训练集，然后我们告诉结巴分词，这些词是我们的词表。

In [4]:
jieba.add_word?

[0;31mSignature:[0m [0mjieba[0m[0;34m.[0m[0madd_word[0m[0;34m([0m[0mword[0m[0;34m,[0m [0mfreq[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mtag[0m[0;34m=[0m[0;32mNone[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Add a word to dictionary.

freq and tag can be omitted, freq defaults to be a calculated value
that ensures the word can be cut out.
[0;31mFile:[0m      ~/program_files/managers/conda/envs/yuequ/lib/python3.10/site-packages/jieba/__init__.py
[0;31mType:[0m      method

(word, start, end) 是三元组，不过助教的代码约定的是二元组 (start, end), 所以我们需要转换一下。

In [5]:
# | export
import jieba

from collections import Counter
def jieba_cut(
    valid_text: List[str], 
    train_set = None # 我们新增加的参数，让jieba可以优先使用训练集的词汇
) -> List[List[Tuple]]:  # jieba_result
    """use jieba to cut"""
    # 增加词库
    if train_set is not None:
        counter = Counter([word for sent in train_set for word in sent])
        for word, freq in counter.items():
            jieba.add_word(word, freq)
    # 分词
    return [
        [res[1:] for res in jieba.tokenize(text, "default", True)]
        for text in valid_text
    ]

In [6]:
# 单元测试一下
strs=["我来到北京清华大学","乒乓球拍卖完了","中国科学技术大学"]
jieba_cut(strs)

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.520 seconds.
Prefix dict has been built successfully.


[[(0, 1), (1, 3), (3, 5), (5, 9)],
 [(0, 3), (3, 5), (5, 6), (6, 7)],
 [(0, 2), (2, 6), (6, 8)]]

现在注释掉双向匹配法部分的代码，可以运行 `main_cut.py` 了。

In [29]:
!python ./main_cut.py --jieba_method

Corpus Size: 19484
Corpus Samples: [['迈向', '充满', '希望', '的', '新', '世纪', '——', '一九九八年', '新年', '讲话', '（', '附', '图片', '１', '张', '）'], ['中共中央', '总书记', '、', '国家', '主席', '江', '泽民'], ['（', '一九九七年', '十二月', '三十一日', '）']]
Train: 15587 , Valid: 3897
Vocab Size: 49917
Valid Sample:
 钱其琛说，中国人民钦佩圣马力诺人民在经济建设方面取得的成就，赞赏圣马力诺奉行中立的外交政策，以及为促进和平、友谊和国际合作作出的积极贡献。 
 [(0, 1), (1, 3), (3, 4), (4, 5), (5, 7), (7, 9), (9, 11), (11, 15), (15, 17), (17, 18), (18, 20), (20, 22), (22, 24), (24, 26), (26, 27), (27, 29), (29, 30), (30, 32), (32, 36), (36, 38), (38, 40), (40, 41), (41, 43), (43, 45), (45, 46), (46, 48), (48, 49), (49, 51), (51, 53), (53, 54), (54, 56), (56, 57), (57, 59), (59, 61), (61, 63), (63, 64), (64, 66), (66, 68), (68, 69)]
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.550 seconds.
Prefix dict has been built successfully.
jieba分词(默认模式), precision=0.790231240479323, recall=0.7468986521286566, f1=0.7679541608322485, macro_or_micro=

可以看出，增加了训练集词库的效果反而不如默认分词效果，这可能是因为我们用户的词库太小了，结巴的词库经验更加丰富，词频信息比我们准确很多。

### 自己实现最大匹配法

#### 实现 前向匹配法 和 后向匹配法

复习老师的课件
![image.png](attachment:image.png)

简单来说，就是贪心，然后认为越长的词越好。
我个人认为 “max_size”其实没有意义，
首先这会让词库中比max_size长的词无法被匹配到，
相当于裁剪了词库，实际上本质就是找词库中能匹配得到的最长的词。
其实最快的实现就是用字典树，一直往下走，直到走不动为止。

In [9]:
#| export
def maximum_match_cut(
    text: str, # input text to be parsed
    vocab: set, # word set
    max_size: int = 4 # considered maximum length of words
) -> List[Tuple[int, int]]: # result, list of index pair indicating parsed words, e.g. [(0, 3), (3, 5), ...]
    """
    maximum matching algo
    """
    result = []
    left, right = 0, max_size
    while left < len(text): # 左边指针的左边是已经分词好的，右边是未分词的
        while right > left: # 从最大长度开始找，直到找到一个词
            current_str = text[left:right]
            if current_str in vocab:
                result.append((left, right))
                break # break 内循环
            right -= 1
        if right == left: # 如果找不到词，就把一个字当做一个词
            right = left + 1 
            result.append((left, right))
        # 现在已经有一个词了，更新左右指针，开始下一个词
        left = right
        right = left + max_size
        
    return result

In [26]:
with jieba.get_dict_file() as f:
    jieba_vocab = set()
    jieba_vocab_inverted = set()
    for line in f:
        word = line.split()[0]
        # print(type(word))
        # break
        word = word.decode("utf-8")
        jieba_vocab.add(word)
        jieba_vocab_inverted.add(word[::-1])
# jieba_vocab

In [27]:
text = strs[0]
text, maximum_match_cut(text, jieba_vocab), maximum_match_cut(text[::-1], jieba_vocab_inverted)

('我来到北京清华大学',
 [(0, 1), (1, 3), (3, 5), (5, 9)],
 [(0, 4), (4, 6), (6, 8), (8, 12)])

#### 实现 双向匹配法

根据课件，双向匹配法（Bi-direction Matching method）可以“比较MM法与RMM法的分词结果，从而决定正确的分词”

这对应于我们代码中的 `def get_final_result(backward_result: List[Tuple], forward_result: List[Tuple]):`

但是老师课件没有详细描述具体怎么操作，我们来查阅一下资料和文献。

根据 https://www.cnblogs.com/Denise-hzf/p/6123940.html ，需要比较两种切分结果，若一致则直接输出；若不一致，则通过预设规则选择最优解。具体的预设规则是什么呢？

根据教材《自然语言处理导论》（https://chengzhaoxi.xyz/download/pdf/book/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%85%A5%E9%97%A8.pdf），首先原理上，孙茂松教授认为逆向匹配的正确率更高，不过也有两种方法都无法消除歧义的情况；先不考虑两种都错了，可以假设其中有一个对了。

具体的规则集可以是
1. 两种结果一致，直接输出
2. 如果单词数量不同，选择单词数量少的
3. 如果单词数量相同，选择单字成词最少得那个
4. 如果还相同，选择逆向匹配的结果。

其中规则三石因为汉语中但自此的数量比非单字词要少很多（很神奇哦）。



In [None]:
#| export
def count_single_words(result: List[Tuple[int, int]]) -> int:
    """
    count single words in the result
    """
    return sum(1 for start, end in result if end - start == 1)

from collections import Counter
running_stats = Counter()

def get_final_result(
    backward_result: List[Tuple], forward_result: List[Tuple]
) -> List[Tuple]:  # result
    """
    return final result given backward matching result and forward matching result
    """
    # 如果两个结果一样，就返回
    if backward_result == forward_result: # python的list == 是正确的。
        return backward_result
    else:
        results = [backward_result, forward_result]
        idx = min(
            (0, 1),  
            key=lambda idx: (
                len(results[idx]),  # 先看分词数量，越少越好
                count_single_words(results[idx]),  # 再看单字词数量，越少越好
                idx # 最后看元组中的顺序，
            ),
        )
        running_stats.update([idx])
        return results[idx]


现在我们可以运行 `main_cut.py` 了。

In [18]:
!python ./main_cut.py --my_method

8749.21s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


Corpus Size: 19484
Corpus Samples: [['迈向', '充满', '希望', '的', '新', '世纪', '——', '一九九八年', '新年', '讲话', '（', '附', '图片', '１', '张', '）'], ['中共中央', '总书记', '、', '国家', '主席', '江', '泽民'], ['（', '一九九七年', '十二月', '三十一日', '）']]
Train: 15587 , Valid: 3897
Vocab Size: 49917
Valid Sample:
 钱其琛说，中国人民钦佩圣马力诺人民在经济建设方面取得的成就，赞赏圣马力诺奉行中立的外交政策，以及为促进和平、友谊和国际合作作出的积极贡献。 
 [(0, 1), (1, 3), (3, 4), (4, 5), (5, 7), (7, 9), (9, 11), (11, 15), (15, 17), (17, 18), (18, 20), (20, 22), (22, 24), (24, 26), (26, 27), (27, 29), (29, 30), (30, 32), (32, 36), (36, 38), (38, 40), (40, 41), (41, 43), (43, 45), (45, 46), (46, 48), (48, 49), (49, 51), (51, 53), (53, 54), (54, 56), (56, 57), (57, 59), (59, 61), (61, 63), (63, 64), (64, 66), (66, 68), (68, 69)]
100%|████████████████████████████████████| 3897/3897 [00:00<00:00, 12874.81it/s]
Result Sample: [(-3, 1), (1, 3), (3, 4), (4, 5), (5, 7), (7, 9), (9, 11), (11, 15), (15, 17), (17, 18), (18, 20), (20, 22), (22, 24), (24, 26), (26, 27), (27, 29), (29, 30), (30, 32), (32, 36), (36,

对比上面 `jieba_cut` 的结果，我们发现，我们实现的双向匹配法的效果比jieba好。
特别是对于micro指标，差距非常显著，体现了我们方法的有效性。
![image.png](attachment:image.png)

另外一个值得注意的是双向匹配法确实发挥了作用，使用了2169次反向匹配，1726次正向匹配，这个是比较均衡的，说明确实有一些句子是正向匹配好的，有一些句子是逆向匹配好的。

## 加分项 Bonus: 使用 Trie 树实现最大匹配法分词


首先我们仔细琢磨了一下助教给出的 `./util/trie.py`

可以看出助教其实已经实现好了 Trie 的数据结构，我们需要替换我们之前的代码中的耗时操作。
- Trie 代替  set[str] 类型
- `Trie.insert` 代替 `set.add`
- `Trie.search` 代替 `maximum_match_cut`
- 初始化的时候，可以用 reverse = True 获得 Trie 的逆序树

助教没有实现 `Trie.__len__`, 我们自己实现一下, 我们引入 self.size
每次 insert 的时候，如果有产生新的节点，self.size += 1


为了对比方便，我们不会直接暴力修改原来的代码，而是重新创建一个新的接口。

我们首先复制
```bash
cp main_cut.py main_cut_fast.py
```

修改 
```python
# 词表构建
- vocab = set([word for sent in train_set for word in sent])
- inverted_vocab = set(map(lambda x: x[::-1], vocab))
+ from util.trie import Trie
+ vocab = Trie()
+ inverted_vocab = Trie(reverse=True)
+ for sent in train_set:
+     for word in sent:
+        if len(word) <=4:
+           vocab_trie.insert(word)
+           inverted_vocab_trie.insert(word[::-1])
+ 
+ print("Vocab Size:", len(vocab_trie))
```

我们增加一个新的函数 `maximum_match_cut_fast` 来替代 `maximum_match_cut`，保持相同的接口（除了vocab的类型不同），
因为返回值的类型是一样的，所以我们不需要修改 `get_final_result` 函数。


我觉得助教写的 `Trie.search` 不利于我理解，我决定重新把逻辑写到 `maximum_match_cut_fast` 里面 加深我的印象。


In [None]:
from util.trie import Trie

def maximum_match_cut_fast(
    text: str, # input text to be parsed
    vocab: Trie, # word set trie
    max_size: int = 4 # considered maximum length of words
) -> List[Tuple[int, int]]: # result, list of index pair indicating parsed words, e.g. [(0, 3), (3, 5), ...]
    """
    maximum matching algo
    """
    result = []
    cur = vocab.root
    cur_size = 0
    for i in range(len(text)):
        new_char = text[i]
        if new_char not in cur.next or cur_size >= max_size or cur.is_leaf:
            result.append((i - cur_size, i))
            cur = vocab.root
            cur_size = 0
        else:
            cur = cur.next[new_char]
            cur_size += 1
    result.append((len(text) - cur_size, len(text)))
    return result

In [17]:
!python ./main_cut_fast.py --my_method


8709.08s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


Corpus Size: 19484
Corpus Samples: [['迈向', '充满', '希望', '的', '新', '世纪', '——', '一九九八年', '新年', '讲话', '（', '附', '图片', '１', '张', '）'], ['中共中央', '总书记', '、', '国家', '主席', '江', '泽民'], ['（', '一九九七年', '十二月', '三十一日', '）']]
Train: 15587 , Valid: 3897
Vocab Size: 44003
Valid Sample:
 钱其琛说，中国人民钦佩圣马力诺人民在经济建设方面取得的成就，赞赏圣马力诺奉行中立的外交政策，以及为促进和平、友谊和国际合作作出的积极贡献。 
 [(0, 1), (1, 3), (3, 4), (4, 5), (5, 7), (7, 9), (9, 11), (11, 15), (15, 17), (17, 18), (18, 20), (20, 22), (22, 24), (24, 26), (26, 27), (27, 29), (29, 30), (30, 32), (32, 36), (36, 38), (38, 40), (40, 41), (41, 43), (43, 45), (45, 46), (46, 48), (48, 49), (49, 51), (51, 53), (53, 54), (54, 56), (56, 57), (57, 59), (59, 61), (61, 63), (63, 64), (64, 66), (66, 68), (68, 69)]
100%|█████████████████████████████████████| 3897/3897 [00:00<00:00, 9531.90it/s]
Result Sample: [(0, 1), (1, 3), (3, 4), (4, 5), (5, 7), (7, 9), (9, 11), (11, 15), (15, 17), (17, 18), (18, 20), (20, 22), (22, 24), (24, 26), (26, 27), (27, 29), (29, 30), (30, 32), (32, 36), (36, 

可以看出速度确实变快了一些，但是并不是很明显，这是因为python对于set优化得很好，我们构建词库的速度其实比较慢。

精度是差不多，但是不完全一样，说明代码还有一些细节逻辑不太一样。

## 词性标注算法的核心代码实现

我们上面已经成功实现了分词算法，现在来看词性标注算法。
首先阅读 `main_pos.py` 熟悉一下整体流程。
- 预处理
    - 把文本文件当做是行的列表，每一行独立开来。
    - 助教写好了 `preprocess` 函数，得到了all_text, all_labels
        - 其中每一个元素对应一个句子（样本）
        - 一个句子的有多个text（单词）
        - 每个text对应一个label（词性）
    - 训练集验证集划分，一个句子是一个样本。
    - 用训练集来构建词表和词性表
        - <UNK> 特殊标记
        - 使用 dict的setdefault，如果出现新的词和词性，赋予一个新的index
    - 让训练集和验证集变成index的格式
        - 如果有词没有见过（未登录词），使用<UNK>的index 0
        
- **调用 `compute_count_matrix` 得到HMM模型的参数**
    - 词性的初始概率
    - 词性的转移矩阵
    - 词性和词的发射矩阵
- 拉普拉斯平滑
- **调用 `HMM.viterbi` 函数得到最优的词性标注结果**
- 计算实验结果指标
    - 由于词性标注就是分类问题，分词默认已经成功分词了，所以这个比上一个任务的评测简单一些，指标的定义很清晰。
    - 直接调用sklearn的 `precision_recall_fscore_support`

### compute_count_matrix 的实现

我们需要实现 HMM 的学习算法。

首先复习一下课件

![image.png](attachment:image.png)



wait, 我记得我们学习过的HMM似乎学习参数很复杂啊，要用到什么EM算法，为什么这里只需要计数就可以了呢？

往后翻阅课件，
![image-2.png](attachment:image-2.png)

其实很简单，因为我们的训练集中已经有ground truth的隐藏序列S，EM算法面向的场景是没有隐藏状态，只有观测序列的情况去学习参数。
所以我们可以直接进行最大似然估计，不需要EM算法，我们直接就知道了隐藏状态的序列，所以得到的概率就是准确的，不需要迭代。


需要注意的是老师的课件遗漏了初始概率$\pi$ 的估计方法

我们参考论文 https://etj.uotechnology.edu.iq/article_102069_fe4e1614a867a13e3155a394a28adf94.pdf 中的公式，也就是等价于

![image.png](attachment:image.png)

还需要注意助教的代码中,
```python
# smoothing
smooth = 0.5
initial += 0.5
transmission += 0.5
emission += 0.5
```
首先，应该使用`smooth` 作为下面的变量，不是硬编码0.5

其次，这里的加法是np.array的广播， 

如果是0-1之间的概率，0.5是个很巨大的值，这个平滑很不合理！
一般来说，拉普拉斯平滑是频数+1，助教的+0.5和+1差不多，所以，我们推断助教想要我们写的`compute_count_matrix`函数应该返回的是count，而不是frequency。

In [None]:
#| export
import numpy as np


def compute_count_matrix(
    train_text: List[List[int]],  # training data
    train_labels: List[List[int]],  # training tag labels
    text_vocab: dict,  # word to index
    tag_vocab: dict,  # tag to index
) -> Tuple[
    np.ndarray,  # initial with size (tag_size, ), initial[i] means number of times that tag_i appears at the beginning of a sentence
    np.ndarray,  # transmission with size (tag_size, tag_size), transmission[i,j] means the number of times tag_j follows tag_i
    np.ndarray,  # emission with size (tag_size, vocab_size), where emission[i,j] means the number of times word_j is labeled as tag_i
]:
    """
    compute frequency matrix for training data
    """
    initial = np.zeros(len(tag_vocab))
    transmission = np.zeros((len(tag_vocab), len(tag_vocab)))
    emission = np.zeros((len(tag_vocab), len(text_vocab)))

    for sentence, labels in zip(train_text, train_labels):
        # 句子首词的词性
        initial[labels[0]] += 1 
        # 词性转移 
        for i in range(1, len(labels)):
            transmission[labels[i - 1], labels[i]] += 1
        # 词性转移到某个词语的次数
        for word, label in zip(sentence, labels):
            emission[label, word] += 1
            
    return initial, transmission, emission

助教使用了高级操作`einsum`来做归一化，我们可以学习一下
```python
normalize = lambda matrix: np.log(
    np.einsum(
        "ij,i->ij" if len(matrix.shape) == 2 else "i,->i",
        matrix, # 也就是 "ij" 或者 "i"
        1 / (matrix.sum(axis=-1) + 1e-8), # 也就是 "i"
    )
)
```


### `HMM.viterbi` 的实现


助教的面向对象设计其实略显不合理，既然`compute_count_matrix` 的参数就是 HMM 这个类的参数，其实应该作为 HMM 类的方法。不过这里是小项目，我们就不改了。

这里我们使用 `fastcore` 让HMM好看一些
- 原本代码的init方法里面的参数和类的属性名字因为笔误导致了不一样，不太好维护！
- 原本代码会repeat yourself，需要三次注解类型，不太好维护

In [2]:
from fastcore.all import store_attr, patch
import numpy as np


class HMM:
    """Hidden Markov Model"""

    def __init__(
        self,
        total_states: int,  # number of states, N
        pi: np.ndarray,  # shape (N,) initial state probability, N
        A: np.ndarray,
        # shape (N, N) log transition probability.
        #   A[Xi, j] means log transition prob from state i to state j.
        #   A.T[i, j] means log transition prob from state j to state i.
        B: np.ndarray,
        # shape (N, T) log emitting probability.
        #   B[i, k] means log emitting prob from state i to observation k.
    ):
        store_attr()

现在我们来复习一下课件

![image.png](attachment:image.png)



In [8]:
@patch
def viterbi(
    self: HMM,  # 把方法绑定到类上
    ob: np.ndarray,  # shape (T, ) (o0, o1, ..., oT-1), observations
) -> np.ndarray:  # best_path: shape T, the best state sequence
    """Viterbi Decoding Algorithm.
    Variables:
    delta (array, with shape(T, N)): delta[t, s] means max probability torwards state s at
        timestep t given the observation ob[0:t+1]
        给定观察ob[0:t+1]情况下t时刻到达状态s的概率最大的路径的概率
    phi (array, with shape(T, N)): phi[t, s] means prior state s' for delta[t, s]
        给定观察ob[0:t+1]情况下t时刻到达状态s的概率最大的路径的t-1时刻的状态s'
    """
    T = len(ob)
    delta = np.zeros((T, self.total_states))
    phi = np.zeros((T, self.total_states), int)
    best_path = np.zeros((T,), dtype=int)

    # TODO, note that we are using log probability matrix here
    # 初始化
    # 当我看到 o0 的时候，实际状态 s0 是各个状态的概率
    delta[0] = self.pi + self.B[:, ob[0]]
    # 注意 phi[0] 是没有用的
    # 递推
    for t in range(1, T):
        for s in range(self.total_states):
            any_state_to_s_prob = delta[t - 1] + self.A[:, s]
            best_prior_state = np.argmax(any_state_to_s_prob)
            max_prob_to_s = any_state_to_s_prob[best_prior_state]
            local_observe_prob = self.B[s, ob[t]]
            # 当我看到 ot 的时候，实际状态 st 是 s 的时候，最大可能从哪个状态转移过来的
            delta[t, s] = max_prob_to_s + local_observe_prob
            phi[t, s] = best_prior_state
    # 回溯
    # 首先确定最后一个状态是什么
    best_path[-1] = np.argmax(delta[-1])
    # 然后根据phi回溯
    for t in range(-2, -(T+1), -1): # -2 一直到 -T
        best_path[t] = phi[t + 1, best_path[t + 1]]
    return best_path

现在我们可以运行 `main_tag.py` 了。
我用argparse增加了 smooth 参数，可以看看这个参数对结果的影响。

In [11]:
!python ./main_tag.py --smooth 0.5

6136.26s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


['迈向', '充满', '希望', '的', '新', '世纪', '——', '一九九八年', '新年', '讲话', '（', '附', '图片', '１', '张', '）'] 
 ['v', 'v', 'n', 'u', 'a', 'n', 'w', 't', 't', 'n', 'w', 'v', 'n', 'm', 'q', 'w']
19484 15587 3897
{'<UNK>': 0, 'p': 1, 'nt': 2, 'ns': 3, 't': 4, 'n': 5, 'w': 6, 'nr': 7, 'v': 8, 'Ng': 9, 'a': 10, 'm': 11, 'q': 12, 'f': 13, 'c': 14, 'd': 15, 'ad': 16, 'vd': 17, 'vn': 18, 'u': 19, 'j': 20, 'b': 21, 'nz': 22, 'r': 23, 'Vg': 24, 'l': 25, 'i': 26, 'an': 27, 'Bg': 28, 'Tg': 29, 'y': 30, 's': 31, 'z': 32, 'nx': 33, 'k': 34, 'Ag': 35, 'h': 36, 'Dg': 37, 'o': 38, 'e': 39, 'Rg': 40, 'Yg': 41, 'Mg': 42, 'na': 43, 'vvn': 44}
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 29, 34, 35, 36, 24, 37, 38, 39, 29, 40, 41, 42, 32, 43, 39, 44, 29, 45, 46, 47, 29, 48, 49, 50, 51, 52, 35, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 36, 63, 64, 52, 65, 57, 35, 61, 39, 37, 29, 66, 67, 68, 69, 70, 61, 71, 72, 29, 73, 55, 61, 50, 74, 75, 57, 76, 77

In [12]:
!python ./main_tag.py --smooth 0

6192.97s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


['迈向', '充满', '希望', '的', '新', '世纪', '——', '一九九八年', '新年', '讲话', '（', '附', '图片', '１', '张', '）'] 
 ['v', 'v', 'n', 'u', 'a', 'n', 'w', 't', 't', 'n', 'w', 'v', 'n', 'm', 'q', 'w']
19484 15587 3897
{'<UNK>': 0, 'p': 1, 'nt': 2, 'ns': 3, 't': 4, 'n': 5, 'w': 6, 'nr': 7, 'v': 8, 'Ng': 9, 'a': 10, 'm': 11, 'q': 12, 'f': 13, 'c': 14, 'd': 15, 'ad': 16, 'vd': 17, 'vn': 18, 'u': 19, 'j': 20, 'b': 21, 'nz': 22, 'r': 23, 'Vg': 24, 'l': 25, 'i': 26, 'an': 27, 'Bg': 28, 'Tg': 29, 'y': 30, 's': 31, 'z': 32, 'nx': 33, 'k': 34, 'Ag': 35, 'h': 36, 'Dg': 37, 'o': 38, 'e': 39, 'Rg': 40, 'Yg': 41, 'Mg': 42, 'na': 43, 'vvn': 44}
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 29, 34, 35, 36, 24, 37, 38, 39, 29, 40, 41, 42, 32, 43, 39, 44, 29, 45, 46, 47, 29, 48, 49, 50, 51, 52, 35, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 36, 63, 64, 52, 65, 57, 35, 61, 39, 37, 29, 66, 67, 68, 69, 70, 61, 71, 72, 29, 73, 55, 61, 50, 74, 75, 57, 76, 77

In [13]:
!python ./main_tag.py --smooth 0.1

6238.52s - pydevd: Sending message related to process being replaced timed-out after 5 seconds


['迈向', '充满', '希望', '的', '新', '世纪', '——', '一九九八年', '新年', '讲话', '（', '附', '图片', '１', '张', '）'] 
 ['v', 'v', 'n', 'u', 'a', 'n', 'w', 't', 't', 'n', 'w', 'v', 'n', 'm', 'q', 'w']
19484 15587 3897
{'<UNK>': 0, 'p': 1, 'nt': 2, 'ns': 3, 't': 4, 'n': 5, 'w': 6, 'nr': 7, 'v': 8, 'Ng': 9, 'a': 10, 'm': 11, 'q': 12, 'f': 13, 'c': 14, 'd': 15, 'ad': 16, 'vd': 17, 'vn': 18, 'u': 19, 'j': 20, 'b': 21, 'nz': 22, 'r': 23, 'Vg': 24, 'l': 25, 'i': 26, 'an': 27, 'Bg': 28, 'Tg': 29, 'y': 30, 's': 31, 'z': 32, 'nx': 33, 'k': 34, 'Ag': 35, 'h': 36, 'Dg': 37, 'o': 38, 'e': 39, 'Rg': 40, 'Yg': 41, 'Mg': 42, 'na': 43, 'vvn': 44}
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 29, 34, 35, 36, 24, 37, 38, 39, 29, 40, 41, 42, 32, 43, 39, 44, 29, 45, 46, 47, 29, 48, 49, 50, 51, 52, 35, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 36, 63, 64, 52, 65, 57, 35, 61, 39, 37, 29, 66, 67, 68, 69, 70, 61, 71, 72, 29, 73, 55, 61, 50, 74, 75, 57, 76, 77

从上面的简单三个实验看出，smooth不能设置为0，否则效果很差，不过0.5也是比较大的，0.2达到了较高的性能。

## 其他

我们上面使用的数据集是 “1998年1月人民日报语料”
![image.png](attachment:image.png)