# 中文分词技术
中文自动分词技术主要可以归纳为三种：规则分词，统计分词，混合分词。
## 规则分词

基于规则的分词是一种机械分词方法，主要是通过维护词典，在切分语句时，将语句中的每个词和词表中的词逐一进行匹配，找到则切分，否者不予切分。这种方式需要通过人工建立词库，并不断更新词库，否则对于新时代出现的词将无法识别。
按照切分的方式，主要有正向最大匹配法、逆向最大匹配法、双向最大匹配法。
## 正向最大匹配法
正向最大匹配法（Maximum Match Method，简称MM法）的基本思想是：假定分词词典里的最长词的长度为k，那么就用待处理文档的当前长度为k的字符串和词典进行匹配，如果找到则将分词，否则去掉最后一个字符在进行匹配。

In [49]:
class MM:
    def __init__(self, corpus):
        self.dict = corpus
        self.max_len = self.get_max_len()

    def add_word(self, word):
        # 词表扩充
        self.dict.add(word)
        if len(word) > self.max_len:
            self.max_len = len(word)
        
    
    def get_max_len(self):
        max_len = 0
        for word in self.dict:
            if len(word) > max_len:
                max_len = len(word)
        return max_len

    def tokenize(self, doc):
        doc_len = len(doc)
        # 下标0开始
        start_index = 0
        tokens = []
        while start_index < doc_len:
            # 当前最长的字符串候选
            end_index = start_index +  min(doc_len - start_index, self.max_len)
            while end_index > start_index:
                span = doc[start_index: end_index]
                if span in self.dict:
                    tokens.append(span)
                    start_index = end_index
                    break
                
                end_index -= 1
            
        return tokens

In [53]:
corpus = {"研究","研究生","生命","命","的","起源"}

mm = MM(corpus)

text = "研究生命的起源"
mm.tokenize(text)

['研究生', '命', '的', '起源']

## 逆向最大匹配法
逆向最大匹配法（Reverse Maximum Match Method，简称RMM法）的基本思想是和正向最大匹配基本一致，只是顺序是从文档的末端开始向前扫描。\
统计结果表明，单纯使用正向最大匹配的错误率为1/169，而逆向最大匹配是1/245，这是由于汉语中偏正结构较多，从后向前匹配可以适当提高精确度。

In [83]:
class RMM:
    def __init__(self, corpus):
        self.dict = corpus
        self.max_len = self.get_max_len()

    def add_word(self, word):
        # 词表扩充
        self.dict.add(word)
        if len(word) > self.max_len:
            self.max_len = len(word)
        
    
    def get_max_len(self):
        max_len = 0
        for word in self.dict:
            if len(word) > max_len:
                max_len = len(word)
        return max_len

    def tokenize(self, doc):
        doc_len = len(doc)
        # 下标0开始
        end_index = doc_len
        tokens = []
        while end_index > 0:
            # 当前最长的字符串候选
            start_index = end_index - min(end_index, self.max_len)
            
            while start_index < end_index:
                span = doc[start_index: end_index]
                # print(span)
                if span in self.dict:
                    tokens.append(span)
                    end_index = start_index
                    break
                
                start_index += 1
            
        return tokens[::-1]

In [84]:
corpus = {"研究","研究生","生命","命","的","起源"}

rmm = RMM(corpus)

text = "研究生命的起源"
rmm.tokenize(text)

['研究', '生命', '的', '起源']

## 双向最大匹配法
双向最大匹配法(Bi-direction Matching method)是将正向最大匹配和逆向最大匹配的结果进行融合比较得到的。\
经过SunM.S和Benjamin K.T研究表明: 
- 90%的中文句子，使用正向和逆向最大匹配完全重合且正确。
- 大概9%的中文句子这两种切分的结果不一样，但必定有一个是正确的。
- 只有1%的中文句子两种切分都失败。

双向最大匹配的原则是：
- (1)如果正反向分词结果词数不同，则取分词数量较少的那个(上例:“南京市/长江/大桥”的分词数量为3而“南京市/长江大桥”的分词数量为2，所以返回分词数量为2的)。
- (2)如果分词结果词数相同:
    - 1)分词结果相同，就说明没有歧义，可返回任意一个。
    - 2)分词结果不同，返回其中单字较少的那个。比如:上述示例代码中，正向最大匹配返回的结果为“['研究生----'，' 命 ----','的 ----','起源 ----']”，其中单字个数为2个;而逆向最大匹配返回的结果为“['研究 ----'，'生命 ----','的 ----','起源----']”，其中单字个数为1个。所以返回的是逆向最大匹配的结果。



In [87]:
class BIMM:
    def __init__(self, corpus):
        self.dict = corpus
        self.mm = MM(corpus)
        self.rmm = RMM(corpus)
        

    def add_word(self, word):
        # 词表扩充
        self.mm.add_word(word)
        self.rmm.add_word(word)

    def tokenize(self, doc):
        # 正向
        mm_tokens = self.mm.tokenize(doc)
        rmm_tokens = self.rmm.tokenize(doc)

        if len(mm_tokens) < len(rmm_tokens):
            return mm_tokens
        elif len(mm_tokens) > len(rmm_tokens):
            return rmm_tokens
        else:
            mm_count_dict = self.get_count_dict(mm_tokens)
            rmm_count_dict = self.get_count_dict(rmm_tokens)

            count = 1
            while count in mm_count_dict:
                mm_count = mm_count_dict[count]
                rmm_count = rmm_count_dict[count]
                
                if mm_count == rmm_count:
                    count += 1
                elif mm_count > rmm_count:
                    return rmm_tokens
                else:
                    return mm_tokens
            
        return -1

    def get_count_dict(self, tokens):
        from collections import defaultdict
        count_dict = defaultdict(int)
        for token in tokens:
            count_dict[len(token)] += 1
        return count_dict

In [88]:
corpus = {"研究","研究生","生命","命","的","起源"}

bimm = BIMM(corpus)

text = "研究生命的起源"
bimm.tokenize(text)

['研究', '生命', '的', '起源']

In [None]:
基于规则的分词，一般都较为简单高效，但是词典的维护是一个很庞大的工程。在网络发达的今天，网络新词层出不穷，很难通过词典覆盖到所有词。