In [1]:
with open("lexicon.txt", "w") as f:
    words = f"""我\n喜欢\n读书\n研究\n研究生\n生命\n的\n起源"""
    f.write(words)
f.close()

In [2]:
# 定义正向最大匹配算法FMM
def fmm_word_seg(sentence,lexicon,max_len):
    """
    sentence: 待分词的句子
    lexicon: 词典
    max_len: 词典中最长词的长度
    """
    begin = 0 # 设置句子的起始位置
    end = min(begin+max_len,len(sentence)) # 设置句子的结束位置
    word_list = [] # 用于存储分词结果
    while begin < end:
        word = sentence[begin:end] # 对句子进行截取
        if word in lexicon or end - begin == 1: # 如果截取的词在词典中或者截取的词只有一个字
            word_list.append(word) # 将该词添加到分词结果中
            begin = end # 将句子的起始位置设置为结束位置
            end = min(begin+max_len,len(sentence)) # 将句子的结束位置设置为最大词长和句子长度的最小值
        else:
            end -= 1 # 如果截取的词不在词典中，则将结束位置向前移动一个位置
    return word_list

In [3]:
# 定义词典加载函数
def load_dict(fileNameString):
    f = open(fileNameString,encoding="utf-8")
    lexicon = set() # 用于存储词典中的词的集合
    max_len = 0 # 用于存储词典中最长词的长度
    for line in f:
        word = line.strip()
        lexicon.add(word)
        if len(word) > max_len: # 如果当前词的长度大于max_len，则更新max_len
            max_len = len(word)
    f.close()
    return lexicon,max_len

In [4]:
lexicon,max_len = load_dict("lexicon.txt")
sentence = "我喜欢读书"
word_list = fmm_word_seg(sentence,lexicon,max_len)
print(word_list)

['我', '喜欢', '读书']


In [5]:
sentence = "研究生命的起源"
word_list = fmm_word_seg(sentence,lexicon,max_len)
print(word_list)

['研究生', '命', '的', '起源']


000正向最大匹配分词算法存在的明显缺点是清扬御切分出较长的词，这种特性非常致命。  
例如上例中的“研究生命的起源”被分割成了['研究生', '命', '的', '起源']，这显然是不符合预期的结果。  
而这种问题被统称为`切分歧义`。