# 中英文分词及实现
在语言理解中，词是最小的能独立活动且有意义的‘颗粒’。由词到句，由句成文。
根据词性，标点符号对进行词语切分，将词确定下来是进行自然语言处理的第一步。

> **示例：**
>
>  英文原文： i have a website,it is blog.oceaneyes.cn!
>
>  英文分词结果：i , have , a , website , it , is , blog.oceaneyes.cn, !
>
>  中文原文：  我有一个微信公众号，名字叫乔克叔叔杂货店！
>
>  中文分词结果：我/有/一个/微信公众号/，/名字/叫/乔克叔叔杂货店/！

**本文简要目录**
- 英文分词
- 中文分词
- 代码实现

### 英文分词

对于普通的英文文本不需要算法支撑，直接暴力拆分即可，可通过空格、标点符号将文本分开完成完成分词，可以使用.split()方法

In [2]:
# 使用.split()方法，按照空格切分无限次
a = 'i have a website,it is blog.oceaneyes.cn!'
a1 =  a.split(' ')
a1

['i', 'have', 'a', 'website,it', 'is', 'blog.oceaneyes.cn!']

In [3]:
# 使用.split()方法，按照空格切分1次
a2 = a.split(' ',1)
a2

['i', 'have a website,it is blog.oceaneyes.cn!']

In [4]:
# 使用.split()方法，按照have切分1次
a3 = a.split('have',1)
a3

['i ', ' a website,it is blog.oceaneyes.cn!']

In [8]:
def tokenize_english_text(text):
    tokenize_text = []
    for data in text:
        tokenized_data = []       
        for text0 in data.split('.'):  
            print('text0是：',text0)
            for text1 in text0.split('?'):  
                print('text1是：',text1)
                for text2 in text1.split('!'):
                    print('text2是：',text2)
                    for text3 in text2.split(','):
                        print('text3是：',text3)
                        for text4 in text3.split(' '):
                            print('text4是：',text4)
                            if text4 != '':
                                tokenized_data.extend(text4)
        
        tokenize_text.append(tokenized_data)                         
    return tokenize_text

In [11]:
b = ['i am a boy?i am a boy ! i am a boy,i', 'god is a girl', 'i love you!']
tokenize_english_text(b)

text0是： i am a boy?i am a boy ! i am a boy,i
text1是： i am a boy
text2是： i am a boy
text3是： i am a boy
text4是： i
text4是： am
text4是： a
text4是： boy
text1是： i am a boy ! i am a boy,i
text2是： i am a boy 
text3是： i am a boy 
text4是： i
text4是： am
text4是： a
text4是： boy
text4是： 
text2是：  i am a boy,i
text3是：  i am a boy
text4是： 
text4是： i
text4是： am
text4是： a
text4是： boy
text3是： i
text4是： i
text0是： god is a girl
text1是： god is a girl
text2是： god is a girl
text3是： god is a girl
text4是： god
text4是： is
text4是： a
text4是： girl
text0是： i love you!
text1是： i love you!
text2是： i love you
text3是： i love you
text4是： i
text4是： love
text4是： you
text2是： 
text3是： 
text4是： 


[['i',
  'a',
  'm',
  'a',
  'b',
  'o',
  'y',
  'i',
  'a',
  'm',
  'a',
  'b',
  'o',
  'y',
  'i',
  'a',
  'm',
  'a',
  'b',
  'o',
  'y',
  'i'],
 ['g', 'o', 'd', 'i', 's', 'a', 'g', 'i', 'r', 'l'],
 ['i', 'l', 'o', 'v', 'e', 'y', 'o', 'u']]

### 中文分词

在中文中，文本是连续的字序列组成，词与词之间没有天然的分隔符，且通常情况下，中文的一词多意。不同分词方法的结果都会影响词性、句法。

> **困难一：歧义**
>
> 原文：以前喜欢一个人，现在喜欢一个人
>
> 此处的有两个「一个人」，但单标的意思完全不同
>
> **困难二：分词界限**
>
> 原文：这杯水还没有冷
>
> 分词一： 这 / 杯 / 水 / 还 / 没有 / 冷
>
> 分词二： 这 / 杯 / 水 / 还没 / 有 / 冷
>
>分词三： 这 / 杯 / 水 / 还没有 / 冷
>

#### 中文分词方法
- 机械分词方法（又称为基于规则的分词方法）

> 按照一定的规则将待处理的字符串与一个词表词典中的词进行逐一匹配
>
> 1、若在词典中找到某个字符串，则切分
>2、若找不到，则不切分

- 统计分词方法
- 机械分词+统计分词合用

##### 机械分词方法
- 正向最大匹配法

      正向最大匹配法（Maximum Match Method，MM 法）是指从左向右按最大原则与词典里面的词进行匹配。假设词典中最长词是 m 个字，那么从待切分文本的最左边取 m个字符与词典进行匹配，如果匹配成功，则分词。如果匹配不成功，那么取 m−1 个字符与词典匹配，一直取直到成功匹配为止。
      
   -  **示例**
    
        句子： 中华民族从此站起来了
        
        词典："中华"，"民族"，"从此"，"站起来了"
        
    
   - **使用 MM 法分词**
    
        第一步：词典中最长是 4 个字，所以我们将 “中华民族” 取出来与词典进行匹配，匹配失败。
        
        第二步：于是，去掉 “族”，以 “中华民” 进行匹配，匹配失败
        
        第三步：去掉 “中华民” 中的 “民”，以 “中华” 进行匹配，匹配成功。
        
        第四步：在带切分句子中去掉匹配成功的词，待切分句子变成 “民族从此站起来了”。
        
        第五步：重复上面的第 1 - 4 步骤
        
        第六步：若最后一个词语匹配成功，结束。
        
        最终句子被分成：“中华 / 民族 / 从此 / 站起来了 ”




- 逆向最大匹配法

      逆向最大匹配法（ Reverse Maximum Match Method, RMM 法）的原理与正向法基本相同，唯一不同的就是切分的方向与 M法相反。逆向法从文本末端开始匹配，每次用末端的最长词长度个字符进行匹配。


- 双向匹配法