```
# -------------------------------------------------------------------- #
#                   文件作用:使用正向最大匹配实现汉字分词                 #
#                              作者:柳清扬                              #
#                          时间:2023-09-27-09:25                       #
# -------------------------------------------------------------------- #
```

In [50]:
with open('data/dictionary.txt', 'r', encoding='utf-8') as dictionary_file:
    dictionary_data = dictionary_file.read().split()
print('dictionary_data[:10]:', list(dictionary_data)[:5])

dictionary_data[:10]: ['阿·朗', '阿·佩索尔', '阿巴斯', '阿巴斯·基阿鲁斯达米', '阿坝']


In [42]:
# 定义正向最大匹配分词函数
def forward_max_match(text):
    tokens = []
    text_len = len(text)
    max_word_len = max(len(word) for word in dictionary_data)

    i = 0
    while i < text_len:
        matched = False
        for j in range(max_word_len, 0, -1):
            if i + j <= text_len:
                word = text[i:i + j]
                if word in dictionary_data:
                    tokens.append(word)
                    i += j
                    matched = True
                    break
        if not matched:
            tokens.append(text[i])
            i += 1

    return tokens

In [43]:
# 读取测试数据和测试结果
with open('data/test_data.txt', 'r', encoding='utf-8') as test_data_file:
    test_data = test_data_file.read().split()
print('test_data[:10]:', list(test_data)[0])

test_data[:10]: 共同创造美好的新世纪——二○○一年新年贺词


In [53]:
# 打开文件并读取内容
with open('data/test_result.txt', 'r', encoding='utf-8') as file:
    lines = file.readlines()

# 创建一个二维数组来存储数据
test_result = []

# 循环处理每行文本
for line in lines:
    # 使用空格分割每行的单词，并去除首尾空白字符
    words = line.strip().split()
    # 将单词数组添加到二维数组中
    test_result.append(words)

# 打印二维数组
print(test_result[0])

['共同', '创造', '美好', '的', '新', '世纪', '——', '二○○一年', '新年', '贺词']


In [54]:
test_text = test_data[0]
result_text = test_result[0]
segmented_text =forward_max_match(test_text)
print(f"测试数据：\n{test_text}\n")
print(f"分词结果：\n{segmented_text}\n")
print(f"正确结果：\n{result_text}\n")

测试数据：
共同创造美好的新世纪——二○○一年新年贺词

分词结果：
['共同', '创造', '美好', '的', '新', '世纪', '—', '—', '二', '○', '○', '一', '年', '新年', '贺词']

正确结果：
['共同', '创造', '美好', '的', '新', '世纪', '——', '二○○一年', '新年', '贺词']



In [55]:
# 计算匹配的分词数量
correct_tokens = sum(1 for seg, cor in zip(segmented_text, result_text) if seg == cor)

# 计算总分词数量
total_tokens = len(result_text)

# 计算准确率
accuracy = correct_tokens / total_tokens

print(f"正确分词数量：{correct_tokens}")
print(f"总分词数量：{total_tokens}")
print(f"准确率：{accuracy:.2%}")

正确分词数量：6
总分词数量：10
准确率：60.00%


In [56]:
# 获取此词语前面所有词语的长度之和
def get_word_location(text, index):
    locations = 0
    if index == 0:
        locations = 0
    else:
        for i in range(index):
            locations += len(text[i])
    return locations

# 获取匹配此词语的所有位置
def find_same_word_locations(text, word):
    locations = []
    # print(len(text))
    for i in range(len(text)):
        if text[i] == word:
            locations.append(i)
    return locations

``` python
# 测试两个函数
segmented_text = ['共同', '创造', '美好', '的', '新', '世纪', '—', '—', '二', '○', '○', '一', '年', '新年', '贺词']
result_data_line = ['共同', '创造', '美好', '的', '新', '世纪', '——', '二○○一', '年', '新', '年', '贺词']

locations = find_same_word_locations(result_data_line, '新')
for location in locations:
    print(location)
    print(get_word_location(result_data_line, location))
    print(get_word_location(segmented_text, 4))
    if get_word_location(result_data_line, location) == get_word_location(segmented_text, 4):
        print("yes")
```

In [57]:
# 准确率,召回率, F1值
自己分的词语总数 = 0
正确结果的词语总数 = 0
正确的词语总数 = 0

data = test_data[:100]
# print('data[:10]:', list(data)[:5])

# 循环处理每行文本
for i in range(len(data)):

    # 获取测试数据和测试结果
    test_data_line = data[i]
    result_data_line = test_result[i]

    # 使用正向最大匹配算法分词
    segmented_text = forward_max_match(test_data_line)

    # 计算匹配的分词数量
    自己分的词语总数 += len(segmented_text)
    正确结果的词语总数 += len(result_data_line)

    j = -1
    # 计算正确的分词数量
    for seg_word in segmented_text:
        j += 1
        if seg_word in result_data_line:
            # 如果分词结果在正确结果中,则，查找所有匹配的位置并append到locations中
            locations = find_same_word_locations(result_data_line, seg_word)
            # 遍历locations中的每个位置，如果分词结果在正确结果中，则正确的词语总数加1
            for loc in locations:
                # 计算对比两个在字符串中的位置是否相同
                if get_word_location(segmented_text, j) == get_word_location(result_data_line, loc):
                    # 如果相同，直接加1
                    正确的词语总数 += 1
    
    # 查看分词计算进度
    print(f"分词计算进度：{i + 1}/{len(data)}\t准确率：{正确的词语总数 / 自己分的词语总数}\t", end='\r')


# 计算准确率
准确率 = 正确的词语总数 / 自己分的词语总数
召回率 = 正确的词语总数 / 正确结果的词语总数
F1值 = 2 * 准确率 * 召回率 / (准确率 + 召回率)

print(f"\n正确分词数量：{正确的词语总数}")
print(f"总分词数量：{自己分的词语总数}")
print(f"正确结果的词语总数：{正确结果的词语总数}")

print(f"准确率：{准确率:.2%}")
print(f"召回率：{召回率:.2%}")
print(f"F1值：{F1值:.2%}")


分词计算进度：100/100	准确率：0.8811671087533156	
正确分词数量：4983
总分词数量：5655
正确结果的词语总数：5414
准确率：88.12%
召回率：92.04%
F1值：90.04%
