主要包括：正向最大匹配法、逆向最大匹配法和双向最大匹配法三种算法

词典保存在imm_dic.txt文件中，需要时可以修改

### 正向最大匹配法

假设最长词有n个字符，在词典中匹配，若匹配成功则开始匹配接下来的n个字符；若匹配失败，则n=n-1，重新搜索字典。

In [92]:
class MM():
    def __init__(self,dic_path):
        self.dictionary=set()
        self.maximum=0
        
        #读取字典
        with open(dic_path,'r') as f:
            for line in f.readlines():
                line=line.strip()
                
                if not line:
                    continue
                
                self.dictionary.add(line)
                self.maximum=max(self.maximum,len(line))
                
    def cut(self,text):
        #从文中开头开始比较，直到文中所有字都被划分过
        result=[]
        index=0  #index记录下一个匹配的字的开头
        while index<len(text):
            #查找最长词组是否匹配，若匹配，则index改变，若不匹配；则最长词组长度减一，继续匹配；
            #若没有匹配项，则打印该字，并从下一个字开始匹配。
            maximum=self.maximum
            while maximum>0:
                words=text[index:index+maximum]
                if words in self.dictionary:
                    result.append(words)
                    index+=maximum
                    break
                else:
                    maximum-=1
            if maximum==0:
                print('字典中没有"{}"这个词，请更新词典'.format(text[index]))
                result.append(text[index])
                index+=1
        return result

                
            
                

In [93]:
def main():
    text='南京市长江大桥'
    tokenizer=MM('imm_dic.txt')
    print('原文：{}'.format(text))
    print('分词效果：{}'.format('/'.join(tokenizer.cut(text))))

In [94]:
main()

原文：南京市长江大桥
字典中没有"江"这个词，请更新词典
分词效果：南京市长/江/大桥


### 逆向最大匹配法

In [54]:
class RMM():
    def __init__(self,dic_path):
        self.dictionary = set()
        self.maximum=0
        #读取字典
        with open(dic_path,'r') as f:
            for line in f:
                line = line.strip()
                if not line:
                    continue
                self.dictionary.add(line)
                #maximum 记录字典中最大词语长度
                if len(line)>self.maximum:
                    self.maximum=len(line)
                
    def cut(self,text):
        result=[]
        index=len(text)
        while index>0:
            word=None
            for size in range(self.maximum,0,-1):
                if index-size<0:
                    continue
                piece=text[(index-size):index]
                if piece in self.dictionary:
                    word=piece
                    result.append(word)
                    index-=size
                    break
            if word is None:
                    index-=1
        return result[::-1]


In [55]:
def main():
    text='南京市长江大桥'
    tokenizer=RMM('imm_dic.txt')
    print('原文：{}'.format(text))
    print('分词效果：{}'.format('/'.join(tokenizer.cut(text))))

In [56]:
main()

原文：南京市长江大桥
分词效果：南京市/长江大桥


### 双向最大匹配法

In [99]:
class BMM:
    def __init__(self,dic_path):
        self.dictionary = set()
        self.maximum=0
        with open(dic_path,'r') as f:
            for line in f:
                line = line.strip()
                if not line:
                    continue
                self.dictionary.add(line)
                if len(line)>self.maximum:
                    self.maximum=len(line)
                    
    def mmcut(self,text):
        result=[]
        index=0  
        while index<len(text):
            maximum=self.maximum
            while maximum>0:
                words=text[index:index+maximum]
                if words in self.dictionary:
                    result.append(words)
                    index+=maximum
                    break
                else:
                    maximum-=1
            if maximum==0:
                result.append(text[index])
                index+=1
        return result
    
    def rmmcut(self,text):
        result=[]
        index=len(text)
        while index>0:
            word=None
            for size in range(self.maximum,0,-1):
                if index-size<0:
                    continue
                piece=text[(index-size):index]
                if piece in self.dictionary:
                    word=piece
                    result.append(word)
                    index-=size
                    break
            if word is None:
                    index-=1
        return result[::-1]
    
    def cut(self,text):
        result=self.rmmcut(text) if len(self.rmmcut(text))<len(self.mmcut(text)) else self.mmcut(text)
        return result
    
    

In [100]:
def main():
    text='南京市长江大桥'
    tokenizer=BMM('imm_dic.txt')
    print('原文：{}'.format(text))
    print('分词效果：{}'.format('/'.join(tokenizer.cut(text))))

In [101]:
main()

原文：南京市长江大桥
分词效果：南京市/长江大桥
