In [None]:
import string
import re
import nltk

**1. 使用正向最大匹配算法，利用给定的数据：字典文件corpus.dict.txt，对语料corpus.sentence.txt进行分词，将分词的结果输出到文件corpus.out.txt中**

FMM算法思想

1. 假定词典中最长的单词长度为m，从左至右取待分词的前m个字符串作为匹配字段。
2. 查找字典，如果字典中存在和匹配字段相同的词语，则匹配成功，否则去掉匹配字段的最后一个字符重新匹配
3. 重复以上过程直到匹配全部完成

**2. 选做：比较正向、逆向、双向匹配的分词效果**

双向最大匹配法是将FMM和BMM的到的结果进行比较，从而决定正确的分词方法。

1. 如果正反向匹配算法得到的结果相同，我们则认为分词正确，返回任意一个 结果即可。
2. 如果正反向匹配算法得到的结果不同，选择分词数量较少的结果

In [101]:
# 加载字典
def load_word_list():
    max_length = 0
    word_dict = set()
    for line in open('./data/corpus.dict.txt',encoding='utf-8',errors='ignore').readlines():
        tmp = len(line)
        if(max_length < tmp):
            max_length = tmp
        word_dict.add(line.strip())
    return max_length, word_dict

# 中文标点
pattern = re.compile('[%s]' % re.escape('\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b'))

# 最大正向匹配
def max_left_match(line):
    result = []
    # 去标点
    sentences = pattern.split(line)
    for s in sentences:
        start = 0
        end = max_length
        if len(s):
            while start < len(s):
                if s[start : end] in word_dict or end == start + 1:
                    result.append(s[start : end])
                    start = end
                    end = start + max_length
                else:
                    end -= 1
    return result

# 最大反向匹配
def max_right_match(line):
    result = []
    # 去标点
    sentences = pattern.split(line)
    for s in reversed(sentences):
        start = max(len(s) - max_length, 0)
        end = len(s)
        while end > 0:
            if s[start : end] in word_dict or end == start + 1:
                result.insert(0, s[start : end])
                end = start
                start = max(end - max_length, 0)
            else:
                start += 1
    return result

# 双向最大匹配法
def bi_direction_match(line):
    l = max_left_match(line)
    r = max_right_match(line)
    if l == r:
        return l
    elif len(l) < len(r):
        return l
    else:
        return r

# 测试
def test(filename, function):
    with open(filename, 'w') as f:
        for line in open('./data/corpus.sentence.txt',encoding='utf-8',errors='ignore').read().splitlines():
            seg = function(line)
            if len(seg) > 0:
                f.write(seg[0])
                for i in range(1, len(seg)):
                    f.write('/' + seg[i])
                f.write('\n')
        f.close()

if __name__ == '__main__':
    test('./data/corpus.out.txt', max_left_match)
    test('./data/corpus.out.right.txt', max_right_match)
    test('./data/corpus.out.bi.txt', bi_direction_match)

3. 使用jieba/ntlk等工具，查看词性标注结果