In [6]:
# 词典示例
dictionary = {
    '研究生', '研究', '生活', '研究生活', '中国', '自然语言处理', '语言', '处理',
    '我', '来到', '北京', '清华大学', '清华', '大学', '结巴', '分词', '非常',
    '好用', '的', 'Python', '中文', '组件'
}


def fmm_segment(text, dictionary, max_len=5):
    """
    最大前向匹配（Forward Maximum Matching）分词
    :param text: 待分词的文本
    :param dictionary: 词典集合
    :param max_len: 词典中最长词的长度
    :return: 分词结果列表
    """
    result = []
    index = 0
    text_length = len(text)

    while index < text_length:
        matched = False
        # 从最大长度开始匹配
        for size in range(max_len, 0, -1):
            if index + size > text_length:
                continue
            word = text[index:index+size]
            if word in dictionary:
                result.append(word)
                index += size
                matched = True
                break
        if not matched:
            # 如果未匹配到，单个字符作为一个词
            result.append(text[index])
            index += 1
    return result


# 待分词文本
text1 = "研究生活"
text2 = "我来到北京清华大学。"
text3 = "结巴分词是一个非常好用的Python中文分词组件。"

# 最大词长度
max_len = max(len(word) for word in dictionary)

# 分词结果
print("最大前向匹配（FMM）:")
print(fmm_segment(text1, dictionary, max_len))
print(fmm_segment(text2, dictionary, max_len))
print(fmm_segment(text3, dictionary, max_len))

最大前向匹配（FMM）:
['研究生活']
['我', '来到', '北京', '清华大学', '。']
['结巴', '分词', '是', '一', '个', '非常', '好用', '的', 'Python', '中文', '分词', '组件', '。']
