## 任务一：HMM模型用于中文分词

任务一评分标准：
1. 共有8处TODO需要填写，每个TODO计1-2分，共9分，预计代码量30行；
2. 允许自行修改、编写代码完成，对于该情况，请补充注释以便于评分，否则结果不正确将导致较多的扣分；
3. 实验报告(python)/用于说明实验的文字块(jupyter notebook)不额外计分，但不写会导致扣分。

注：本任务仅在短句子上进行效果测试，因此对概率的计算可直接进行连乘。在实践中，常先对概率取对数，将连乘变为加法来计算，以避免出现数值溢出的情况。

导入HMM参数，初始化所需的起始概率矩阵，转移概率矩阵，发射概率矩阵

In [1]:
import pickle
import numpy as np

In [2]:
with open("hmm_parameters.pkl", "rb") as f:
    hmm_parameters = pickle.load(f)

# 非断字（B）为第0行，断字（I）为第1行
# 发射概率矩阵中，词典大小为65536，以汉字的ord作为行key
start_probability = hmm_parameters["start_prob"]  # shape(2,)
trans_matrix = hmm_parameters["trans_mat"]  # shape(2, 2)
emission_matrix = hmm_parameters["emission_mat"]  # shape(2, 65536)

定义待处理的句子

In [3]:
# TODO: 将input_sentence中的xxx替换为你的姓名（1分）
input_sentence = "魏来是一名优秀的学生"


实现viterbi算法，并以此进行中文分词

对于viterbi算法：首先将汉字转为数字表示；'dp'用来储存不同位置每种隐状态（B/I）下，到该位置为止的句子的概率；计算初始位置的概率：$P(h_i)*P(v_1|h_i)$；计算其余位置的概率:对词序列遍历的时候，每个词进行两次对tag的遍历，计算每个位置的概率，即对vt中的$h_i$: 求$max(left*P(h_i|left_{tag})P(v_t|h_i))$；'labels'用来存储每个位置最有可能的状态：先找到最优路径的最后一个词的tag，回溯，找到每个词最可能对应的tag，根据之前记录的path回溯找出最优路径上的每个状态（tag）。

In [4]:
def viterbi(sent_orig, start_prob, trans_mat, emission_mat):
    """
    viterbi算法进行中文分词

    Args:
        sent_orig: str - 输入的句子
        start_prob: numpy.ndarray - 起始概率矩阵
        trans_mat: numpy.ndarray - 转移概率矩阵
        emission_mat: numpy.ndarray - 发射概率矩阵

    Return:
        str - 中文分词的结果
    """
    
    #  将汉字转为数字表示
    sent_ord = [ord(x) for x in sent_orig]
    
    # `dp`用来储存不同位置每种标注（B/I）的最大概率值
    dp = np.zeros((2, len(sent_ord)), dtype=float)
    
    # `path`用来储存最大概率对应的上步B/I选择
    #  例如 path[1][7] == 1 意味着第8个（从1开始计数）字符标注I对应的最大概率，其前一步的隐状态为1（I）
    #  例如 path[0][5] == 1 意味着第6个字符标注B对应的最大概率，其前一步的隐状态为1（I）
    #  例如 path[1][1] == 0 意味着第2个字符标注I对应的最大概率，其前一步的隐状态为0（B）
    path = np.zeros((2, len(sent_ord)), dtype=int)
    
    #  TODO: 第一个位置的最大概率值计算（1分）
    # 第一个位置即为P(hi)*P(v1|hi)
    for i in range(2):
        dp[i][0] = start_probability[i] * emission_mat[i][sent_ord[0]]
    
    #  TODO: 其余位置的最大概率值计算（填充dp和path矩阵）（2分）
    # 对vt中的hi: 求max(left*P(hi|left_tag)P(vt|hi))
    # 即进行两次对tag的遍历，计算每个位置的概率同时记录每个状态来自于前面哪个状态(N*S^2)
    for i, ch in enumerate(sent_ord[1:]): # 对词序列遍历（N）
        for s in range(2):
            (prob, last_state) = max([(dp[ls, i] * trans_mat[ls][s] * emission_mat[s][ch] ,ls)  for ls in range(2)]) # 动态规划
            dp[s][i+1] = prob # 记录概率
            path[s][i+1] = last_state # 记录路径
    
    #  `labels`用来储存每个位置最有可能的隐状态
    labels = [0 for _ in range(len(sent_ord))]
    
    #  TODO：计算labels每个位置上的值（填充labels矩阵）（1分）
    (end_prob, state) = max([(dp[s][len(sent_ord)-1], s) for s in range(2)]) # 找到最优路径的最后一个词的tag
    labels[len(sent_ord)-1] = state
    for i in range(len(sent_ord) - 1, 0, -1): # 回溯，找到每个词最可能对应的tag
        state = path[state][i] #根据之前记录的path回溯找出最优路径上的每个状态（tag）
        labels[i-1] = state
    
    #  根据lalels生成切分好的字符串
    sent_split = []
    for idx, label in enumerate(labels):
        if label == 1:
            sent_split += [sent_ord[idx], ord("/")]
        else:
            sent_split += [sent_ord[idx]]
    sent_split_str = "".join([chr(x) for x in sent_split])

    return sent_split_str
            

In [5]:
print("viterbi算法分词结果：", viterbi(input_sentence, start_probability, trans_matrix, emission_matrix))

viterbi算法分词结果： 魏来/是/一名/优秀/的/学生/


**viterbi算法分词结果： 魏来/是/一名/优秀/的/学生/**

实现前向算法，计算该句子的概率值

对于前向算法：首先将汉字转为数字表示；'dp'用来储存不同位置每种隐状态（B/I）下，到该位置为止的句子的概率；与viterbi算法一样计算初始位置的概率；计算其余位置的概率时，思路与viterbi算法一样（对词序列遍历的时候，每个词进行两次对tag的遍历，计算每个位置的概率），只是将max改为sum，并且不用记录每一步的状态。

In [6]:
def compute_prob_by_forward(sent_orig, start_prob, trans_mat, emission_mat):
    """
    前向算法，计算输入中文句子的概率值

    Args:
        sent_orig: str - 输入的句子
        start_prob: numpy.ndarray - 起始概率矩阵
        trans_mat: numpy.ndarray - 转移概率矩阵
        emission_mat: numpy.ndarray - 发射概率矩阵

    Return:
        float - 概率值
    """
    
    #  将汉字转为数字表示
    sent_ord = [ord(x) for x in sent_orig]

    # `dp`用来储存不同位置每种隐状态（B/I）下，到该位置为止的句子的概率
    dp = np.zeros((2, len(sent_ord)), dtype=float)

    # TODO: 初始位置概率的计算（1分）
    # 与viterbi一样
    for i in range(2):
        dp[i][0] = start_probability[i] * emission_mat[i][sent_ord[0]]
    
    # TODO: 先计算其余位置的概率（填充dp矩阵），然后return概率值（1分）
    # 思路与viterbi一样，只是max改成sum，并且不用记录每一步的状态
    for i, ch in enumerate(sent_ord[1:]): # 对词序列遍历（N）
        for s in range(2):
            dp[s][i+1] = sum(dp[ls, i] * trans_mat[ls][s] * emission_mat[s][ch] for ls in range(2)) #进行两次对tag的遍历，计算每个位置的概率（S^2）

    return sum([dp[i][len(sent_ord)-1] for i in range(2)])

实现后向算法，计算该句子的概率值

对于后向算法：首先将汉字转为数字表示；'dp'用来储存不同位置每种隐状态（B/I）下，到该位置为止的句子的概率；与viterbi算法一样计算初始位置的概率；计算其余位置的概率时，思路与前向算法相似（对词序列遍历的时候，每个词进行两次对tag的遍历，计算每个位置的概率），不同的地方是：对$v_t$中的$h_i$: 求$sum(right*P(right_{tag}|h_i))P(v_{t+1}|right_{tag}))$。

In [7]:
def compute_prob_by_backward(sent_orig, start_prob, trans_mat, emission_mat):
    """
    后向算法，计算输入中文句子的概率值

    Args:
        sent_orig: str - 输入的句子
        start_prob: numpy.ndarray - 起始概率矩阵
        trans_mat: numpy.ndarray - 转移概率矩阵
        emission_mat: numpy.ndarray - 发射概率矩阵

    Return:
        float - 概率值
    """
    
    #  将汉字转为数字表示
    sent_ord = [ord(x) for x in sent_orig]

    # `dp`用来储存不同位置每种隐状态（B/I）下，从结尾到该位置为止的句子的概率
    dp = np.zeros((2, len(sent_ord)), dtype=float)

    # TODO: 终末位置概率的初始化（1分）
    # 最后一个词的beta记为1
    n = len(sent_ord) - 1
    for i in range(2):
        dp[i][n] = 1
    
    # TODO: 先计算其余位置的概率（填充dp矩阵），然后return概率值（1分）
    # 对vt中的hi: 求sum(right*P(right_tag|hi))P(vt+1|right_tag))
    sent_ord.reverse()
    for i, ch in enumerate(sent_ord[0:-1]): #对词序列逆序遍历（N）
        for s in range(2):
            dp[s][n-i-1] = sum(dp[ls, n-i] * trans_mat[s][ls] * emission_mat[ls][ch] for ls in range(2)) #进行两次对tag的遍历，计算每个位置的概率（S^2）
    sent_ord.reverse()
    return sum([dp[i][0] * start_prob[i] * emission_mat[i][sent_ord[0]] for i in range(2)])

In [8]:
print("前向算法概率：", compute_prob_by_forward(input_sentence, start_probability, trans_matrix, emission_matrix))
print("后向算法概率：", compute_prob_by_backward(input_sentence, start_probability, trans_matrix, emission_matrix))

前向算法概率： 2.555201114823419e-29
后向算法概率： 2.5552011148234187e-29



前向算法概率： 2.555201114823419e-29

后向算法概率： 2.5552011148234187e-29


## 任务二：BPE算法用于英文分词

任务二评分标准：

1. 共有7处TODO需要填写，每个TODO计1-2分，共9分，预计代码量50行；
2. 允许自行修改、编写代码完成，对于该情况，请补充注释以便于评分，否则结果不正确将导致较多的扣分；
3. 实验报告(python)/用于说明实验的文字块(jupyter notebook)不额外计分，但不写会导致扣分。

构建空格分词器，将语料中的句子以空格切分成单词，然后将单词拆分成字母加`</w>`的形式。例如`apple`将变为`a p p l e </w>`。

In [9]:
import re
import functools

In [10]:
_splitor_pattern = re.compile(r"[^a-zA-Z']+|(?=')")
_digit_pattern = re.compile(r"\d+")

def white_space_tokenize(corpus):
    """
    先正则化（字母转小写、数字转为N、除去标点符号），然后以空格分词语料中的句子，例如：
    输入 corpus=["I am happy.", "I have 10 apples!"]，
    得到 [["i", "am", "happy"], ["i", "have", "N", "apples"]]

    Args:
        corpus: List[str] - 待处理的语料

    Return:
        List[List[str]] - 二维List，内部的List由每个句子的单词str构成
    """

    tokeneds = [list(
        filter(lambda tkn: len(tkn)>0, _splitor_pattern.split(_digit_pattern.sub("N", stc.lower())))) for stc in corpus
    ]
    
    return tokeneds

编写相应函数构建BPE算法需要用到的初始状态词典

对每个句子中每个单词单独处理：将单词的每个字母以空格隔开，结尾加上<\/w>，以此构建带频数的字典（表中有该单词则词频增加，没有则创立新的键值对）

In [11]:
def build_bpe_vocab(corpus):
    """
    将语料进行white_space_tokenize处理后，将单词每个字母以空格隔开、结尾加上</w>后，构建带频数的字典，例如：
    输入 corpus=["I am happy.", "I have 10 apples!"]，
    得到
    {
        'i </w>': 2,
        'a m </w>': 1,
        'h a p p y </w>': 1,
        'h a v e </w>': 1,
        'N </w>': 1,
        'a p p l e s </w>': 1
     }

    Args:
        corpus: List[str] - 待处理的语料

    Return:
        Dict[str, int] - "单词分词状态->频数"的词典
    """

    tokenized_corpus = white_space_tokenize(corpus)

    bpe_vocab = dict()
    
    # TODO: 完成函数体（1分）
    # 对每个句子中的每个词单独处理🙂
    for se in tokenized_corpus:
        for word in se:
            ch = " ".join(word) # 将单词每个字母以空格隔开
            ch += ' </w>' # 结尾加上</w>
            if ch in bpe_vocab:
                bpe_vocab[ch] += 1 # 构建带频数的字典（表中有该单词则词频增加，没有则创立新的键值对）
            else:
                bpe_vocab[ch] = 1

    return bpe_vocab

编写所需的其他函数

遍历词表的每个词、词频时：先将每个以空格隔开的字符存入列表，对每个词进行字母两两组合，填入新的bigram词表（表中有bigram则词频增加，没有则创立新的键值对）

In [12]:
def get_bigram_freq(bpe_vocab):
    """
    统计"单词分词状态->频数"的词典中，各bigram的频次（假设该词典中，各个unigram以空格间隔），例如：
    输入 bpe_vocab=
    {
        'i </w>': 2,
        'a m </w>': 1,
        'h a p p y </w>': 1,
        'h a v e </w>': 1,
        'N </w>': 1,
        'a p p l e s </w>': 1
    }
    得到
    {
        ('i', '</w>'): 2,
        ('a', 'm'): 1,
        ('m', '</w>'): 1,
        ('h', 'a'): 2,
        ('a', 'p'): 2,
        ('p', 'p'): 2,
        ('p', 'y'): 1,
        ('y', '</w>'): 1,
        ('a', 'v'): 1,
        ('v', 'e'): 1,
        ('e', '</w>'): 1,
        ('N', '</w>'): 1,
        ('p', 'l'): 1,
        ('l', 'e'): 1,
        ('e', 's'): 1,
        ('s', '</w>'): 1
    }

    Args:
        bpe_vocab: Dict[str, int] - "单词分词状态->频数"的词典

    Return:
        Dict[Tuple(str, str), int] - "bigram->频数"的词典
    """

    bigram_freq = dict()
    
    # TODO: 完成函数体（1分）
    for ch, fr in bpe_vocab.items(): #遍历词表的每个词、词频
        word = ch.split() #先将每个以空格隔开的字符存入列表
        for i in range(1, len(word)):
            if tuple(word[i-1:i+1]) in bigram_freq: #对每个词进行字母两两组合
                bigram_freq[tuple(word[i - 1:i + 1])] += fr #填入新的bigram词表（表中有bigram则词频增加，没有则创立新的键值对）
            else:
                bigram_freq[tuple(word[i - 1:i + 1])] = fr

    return bigram_freq

将bigram元组改为以空格为间的字符串；遍历旧词表的每个词、词频时：若bigram匹配上了某个词，找到bigram在词中的起始位和结束位，合并bigram（即去掉对应的相邻unigram之间的空格）；若未匹配，则直接录入

In [13]:
def refresh_bpe_vocab_by_merging_bigram(bigram, old_bpe_vocab):
    """
    在"单词分词状态->频数"的词典中，合并指定的bigram（即去掉对应的相邻unigram之间的空格），最后返回新的词典，例如：
    输入 bigram=('i', '</w>')，old_bpe_vocab=
    {
        'i </w>': 2,
        'a m </w>': 1,
        'h a p p y </w>': 1,
        'h a v e </w>': 1,
        'N </w>': 1,
        'a p p l e s </w>': 1
    }
    得到
    {
        'i</w>': 2,
        'a m </w>': 1,
        'h a p p y </w>': 1,
        'h a v e </w>': 1,
        'N </w>': 1,
        'a p p l e s </w>': 1
    }

    Args:
        old_bpe_vocab: Dict[str, int] - 初始"单词分词状态->频数"的词典

    Return:
        Dict[str, int] - 合并后的"单词分词状态->频数"的词典
    """
    
    new_bpe_vocab = dict()

    # TODO: 完成函数体（1分）
    word = " ".join(bigram) #将bigram元组改为以空格为间的字符串
    for ch, fr in old_bpe_vocab.items(): # 遍历旧词表的每个词、词频
        if word in ch: # bigram匹配上了某个词
            lft = ch.index(word) #找到bigram在词中的起始位
            rht = lft + len(word) #找到bigram在词中的结束位
            new_bpe_vocab[ch[0:lft] + "".join(bigram) + ch[rht:]] = fr #合并bigram（即去掉对应的相邻unigram之间的空格）
        else:
            new_bpe_vocab[ch] = fr #bigram未匹配，则直接录入
    
    return new_bpe_vocab

先创建一个字典作为临时存储：将每个以空格隔开的字符存入列表再进行遍历，往字典里存入字符、字频（表中有该字符则字频增加，没有则创立新的键值对）。将统计好的字典输入列表，将该列表按照分词长度排序返回（'\</w>'计为一个长度），最后再改为降序

In [14]:
def get_bpe_tokens(bpe_vocab):
    """
    根据"单词分词状态->频数"的词典，返回所得到的BPE分词列表，并将该列表按照分词长度降序排序返回，例如：
    输入 bpe_vocab=
    {
        'i</w>': 2,
        'a m </w>': 1,
        'ha pp y </w>': 1,
        'ha v e </w>': 1,
        'N </w>': 1,
        'a pp l e s </w>': 1
    }
    得到
    [
        ('i</w>', 2),
        ('ha', 2),
        ('pp', 2),
        ('a', 2),
        ('m', 1),
        ('</w>', 5),
        ('y', 1),
        ('v', 1),
        ('e', 2),
        ('N', 1),
        ('l', 1),
        ('s', 1)
     ]

    Args:
        bpe_vocab: Dict[str, int] - "单词分词状态->频数"的词典

    Return:
        List[Tuple(str, int)] - BPE分词和对应频数组成的List
    """
    
    # TODO: 完成函数体（2分）
    bpe_token = dict() #创建字典临时存储
    for ch, fr in bpe_vocab.items():
        word = ch.split() #先将每个以空格隔开的字符存入列表
        for gram in word: #遍历字符
            if gram in bpe_token:
                bpe_token[gram] += fr # 存入字符、字频（表中有该字符则字频增加，没有则创立新的键值对）
            else:
                bpe_token[gram] = fr
    bpe_tokens = []
    for ch, fr in bpe_token.items(): #将统计好的字典输入列表
        bpe_tokens.append((ch, fr))
    # 将该列表按照分词长度排序返回（'</w>'计为一个长度）
    bpe_tokens = sorted(bpe_tokens, key=lambda pair: len(pair[0]) if '</w>' not in pair[0] else len(pair[0]) - 3)
    bpe_tokens.reverse() #改为降序

    return bpe_tokens

在递归函数中：先确定递归结束条件，即为剩余部分长度为0和剩余部分无法匹配(用"\<unknown>"代替)；在函数主体部分，先遍历bpe分词列表，若成功匹配，则找出bpe分词在单词中的起始位与结束位，再对该子串左右剩余部分递归地进行下一轮匹配。

In [15]:
def print_bpe_tokenize(word, bpe_tokens):
    """
    根据按长度降序的BPE分词列表，将所给单词进行BPE分词，最后打印结果。
    
    思想是，对于一个待BPE分词的单词，按照长度顺序从列表中寻找BPE分词进行子串匹配，
    若成功匹配，则对该子串左右的剩余部分递归地进行下一轮匹配，直到剩余部分长度为0，
    或者剩余部分无法匹配（该部分整体由"<unknown>"代替）
    
    例1：
    输入 word="supermarket", bpe_tokens=[
        ("su", 20),
        ("are", 10),
        ("per", 30),
    ]
    最终打印 "su per <unknown>"

    例2：
    输入 word="shanghai", bpe_tokens=[
        ("hai", 1),
        ("sh", 1),
        ("an", 1),
        ("</w>", 1),
        ("g", 1)
    ]
    最终打印 "sh an g hai </w>"

    Args:
        word: str - 待分词的单词str
        bpe_tokens: List[Tuple(str, int)] - BPE分词和对应频数组成的List
    """
    
    # TODO: 请尝试使用递归函数定义该分词过程（2分）
    def bpe_tokenize(sub_word):
        if len(sub_word) == 0: #递归结束条件：剩余部分长度为0
            return ""
        for i, pair in enumerate(bpe_tokens): #遍历bpe分词列表
            if pair[0] in sub_word: #成功匹配
                lft = sub_word.index(pair[0]) #找出bpe分词在单词中的起始位
                rht = lft + len(pair[0]) #找出bpe分词在单词中的结束位
                return bpe_tokenize(sub_word[0:lft]) + pair[0] + " " + bpe_tokenize(sub_word[rht:]) #对该子串左右的剩余部分递归地进行下一轮匹配
            else:
                if i == len(bpe_tokens) - 1: #递归结束条件：剩余部分无法匹配（该部分整体由"<unknown>"代替）
                    return "<unknown>" + " "
        return ""

    res = bpe_tokenize(word+"</w>")
    print(res)

开始读取数据集并训练BPE分词器

In [16]:
with open("data/news.2007.en.shuffled.deduped.train", encoding="utf-8") as f:
    training_corpus = list(map(lambda l: l.strip(), f.readlines()[:1000]))

print("Loaded training corpus.")

Loaded training corpus.


训练过程中，先创建bigram词表，再从中找出最常见的一个bigram，将该bigram捏合成新的token，构成新词表，循环300次

In [17]:
training_iter_num = 300

training_bpe_vocab = build_bpe_vocab(training_corpus)
for i in range(training_iter_num):
    # TODO: 完成训练循环内的代码逻辑（2分）
    bigram_freq = get_bigram_freq(training_bpe_vocab) #创建bigram词表
    max_key = max(bigram_freq, key=bigram_freq.get) #找到bigram词表中最常见的一个bigram
    training_bpe_vocab = refresh_bpe_vocab_by_merging_bigram(max_key, training_bpe_vocab) #将最常见的bigram捏合成新的token，构成新词表

training_bpe_tokens = get_bpe_tokens(training_bpe_vocab)

测试BPE分词器的分词效果

In [18]:
test_word = "naturallanguageprocessing"

print("naturallanguageprocessing 的分词结果为：")
print_bpe_tokenize(test_word, training_bpe_tokens)

naturallanguageprocessing 的分词结果为：
n atur al lan gu age pro ce s sing</w> 


测试结果： n atur al lan gu age pro ce s sing<\/w> 