[jieba介绍](http://www.oschina.net/p/jieba/?fromerr=9NIIpUbk)

[了解jieba](https://datartisan.gitbooks.io/begining-text-mining-with-python/content/%E7%AC%AC4%E7%AB%A0%20%E5%88%86%E8%AF%8D%E4%B8%8E%E8%AF%8D%E6%80%A7%E6%A0%87%E6%B3%A8/4.1%20%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%8F%8A%E8%AF%8D%E6%80%A7%E6%A0%87%E6%B3%A8.html)

In [2]:
import jieba

# 中文分词jieba

## 全模式

把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义

In [5]:
s1 = "我喜欢上海东方明珠"
w1 = jieba.cut(s1,cut_all = True)
for i in w1:
    print (i)

我
喜欢
上海
上海东方
海东
东方
东方明珠
方明
明珠


In [12]:
s2 = "我来到北京清华大学"
w2 = jieba.cut(s2,cut_all = True)
print (','.join(w2))

我,来到,北京,清华,清华大学,华大,大学


## 精准模式

试图将句子最精确地切开，适合文本分析

In [10]:
w3 = jieba.cut(s1)
print (','.join(w3))

我,喜欢,上海,东方明珠


In [13]:
w4 = jieba.cut(s2)
print(','.join(w4))

我,来到,北京,清华大学


## 搜索引擎模式cut_for_search

在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

In [14]:
w5 = jieba.cut_for_search(s1)
print (','.join(w5))

我,喜欢,上海,东方,方明,明珠,东方明珠


In [15]:
s3 = "小明硕士毕业于中国科学院计算所，后在日本京都大学深造"
w6 = jieba.cut_for_search(s3)
print (','.join(w6))

小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,，,后,在,日本,京都,大学,日本京都大学,深造


## 词性标注posseg

```
a:形容词
c：连词
d：副词
e：叹词
f：方位词
i：成语
m：数词
n：名词
nr：人名
ns：地名
nt：机构团体
nz：其他专有名词
p：介词
r：代词
t：时间
u：助词
v：动词
vn：动名词
w：标点符号
un：未知词语
```

In [16]:
import jieba.posseg as pseg
w7 = pseg.cut(s2)
for w in w7:
    print (w.word,w.flag)

我 r
来到 v
北京 ns
清华大学 nt


# 添加自定义词典 jieba.load_userdict

开发者可以指定自己自定义的词典，以便包含jieba词库里没有的词。虽然jieba有新词识别能力，但是自行添加新词可以保证更高的正确率

```
用法： jieba.load_userdict(file_name) file_name为自定义词典的路径

词典格式和dict.txt一样，一个词占一行；每一行分三部分，一部分为词语，另一部分为词频，最后为词性（可省略），用空格隔开

之前： 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /

加载自定义词库后：　李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 /

```

In [25]:
jieba.load_userdict('userdict.txt')
jieba.add_word('石墨烯')
jieba.add_word('凱特琳')
jieba.del_word('自定义词')
test_sent = (
"李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n"
"例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类\n"
"「台中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。"
)

In [23]:
words = jieba.cut(test_sent)
print ('/'.join(words))

李小福/是/创新办/主任/也/是/云计算/方面/的/专家/;/ /什么/是/八一双鹿/
/例如/我/输入/一个/带/“/韩玉赏鉴/”/的/标题/，/在/自定义词/库中/也/增加/了/此/词为/N/类/
/「/台中/」/正確/應該/不會/被/切開/。/mac/上/可/分出/「/石墨烯/」/；/此時/又/可以/分出/來/凱特琳/了/。


In [27]:
result = pseg.cut(test_sent)
for r in result:
    print (r.word,"/",w.flag,",",end = " ")

李小福 / nt , 是 / nt , 创新办 / nt , 主任 / nt , 也 / nt , 是 / nt , 云计算 / nt , 方面 / nt , 的 / nt , 专家 / nt , ; / nt ,   / nt , 什么 / nt , 是 / nt , 八一双鹿 / nt , 
 / nt , 例如 / nt , 我 / nt , 输入 / nt , 一个 / nt , 带 / nt , “ / nt , 韩玉赏鉴 / nt , ” / nt , 的 / nt , 标题 / nt , ， / nt , 在 / nt , 自定义词 / nt , 库中 / nt , 也 / nt , 增加 / nt , 了 / nt , 此 / nt , 词 / nt , 为 / nt , N / nt , 类 / nt , 
 / nt , 「 / nt , 台中 / nt , 」 / nt , 正確 / nt , 應該 / nt , 不 / nt , 會 / nt , 被 / nt , 切開 / nt , 。 / nt , mac / nt , 上 / nt , 可 / nt , 分出 / nt , 「 / nt , 石墨烯 / nt , 」 / nt , ； / nt , 此時 / nt , 又 / nt , 可以 / nt , 分出 / nt , 來 / nt , 凱特琳 / nt , 了 / nt , 。 / nt , 

# 英文分词

In [28]:
terms = jieba.cut("easy_install is great.")
print ("/".join(terms))

easy_install/ /is/ /great/.


In [29]:
terms = jieba.cut('python 的正则表达式是好用的')
print('/'.join(terms))

python/ /的/正则表达式/是/好用/的


## 按标点分句

In [35]:
def sentence_split(sentence):
    text_sen = []
    for s in sentence.split('.'):
        if '?' in s:
            text_sen.extend(s.split('?'))
        elif ',' in s:
            text_sen.extend(s.split(','))
        else:
            text_sen.append(s)
    return text_sen
text="text minming with python,TEXT MINING WITH PYTHON.Text Mining?With Python."
sentence_split(text)

['text minming with python',
 'TEXT MINING WITH PYTHON',
 'Text Mining',
 'With Python',
 '']

## 按空格分词

In [38]:
text_word = []
for i in sentence_split(text):
    if i !="":
        text_word.append(i.split(" "))
text_word

[['text', 'minming', 'with', 'python'],
 ['TEXT', 'MINING', 'WITH', 'PYTHON'],
 ['Text', 'Mining'],
 ['With', 'Python']]

# NLTK

## tokenize

### sent_tokenize分句函数

```
sent_tokenize 为 tokenize 分词包中的分句函数，返回文本的分句结果，调用方式为：sent_tokenize(text, language='english')

参数说明：

text:需要分句处理的文本

language:nltk.tokenize.punkt 中包含了很多预先训练好的分词模型，参数 language 即为模型的名称
```

In [2]:
import nltk
from nltk.tokenize import sent_tokenize
text = "Good muffins cost $3.88\nin New York.  Please buy me two of them.\nThanks."
sent_tokenize(text)

['Good muffins cost $3.88\nin New York.',
 'Please buy me two of them.',
 'Thanks.']

### word_tokenize分词函数

```
word_tokenize 为 tokenize 分词包中的分词函数，返回文本的分词结果，调用方式为：word_tokenize(text, language='english')

参数说明：

text: 需要分词处理的文本

language: nltk.tokenize.punkt 中包含了很多预先训练好的分词模型，参数 language 即为模型的名称
```

In [49]:
from nltk.tokenize import word_tokenize
word_tokenize(text)

['Good',
 'muffins',
 'cost',
 '$',
 '3.88',
 'in',
 'New',
 'York',
 '.',
 'Please',
 'buy',
 'me',
 'two',
 'of',
 'them',
 '.',
 'Thanks',
 '.']

In [50]:
[word_tokenize(t) for t in sent_tokenize(text)]

[['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New', 'York', '.'],
 ['Please', 'buy', 'me', 'two', 'of', 'them', '.'],
 ['Thanks', '.']]

### regexp模块：正则表达式分词

```
对于包含比较复杂词型（如 $10、10%）的字符串，以上的分词算法往往不能实现精确分割，此时需要借助正则表达式来完成分词任务。
NLTK 提供了 regexp 模块支持正则表达式分词，其中包括 regexp_tokenize 、wordpunct_tokenize、blankline_tokenize 等正则分词函数。
```

### RegexpTokenizer 类

```
RegexpTokenizer 是 regexp 模块下一个类，可以自行定义正则表达式进行分词，调用该类下的分词方法需要先实例化，实例化方式为：实例=RegexpTokenizer(pattern, gaps, discard_empty, flags)

参数说明：

pattern：必填参数，构建分词器的模式，即正则表达式字符串

gaps：可选参数，设置为 True 时，正则表达式指定识别标识符之间的间隔，默认缺失值为 False，即正则表达式用来识别标识符本身

discard_empty：可选参数，设置为 True 时，去除任何由分词器产生的空符“"”，只有当参数“gaps”取值为“True”时分词器才会差生空符

flags：可选参数，编译分词器模式的正则标识，默认使用的是 re.UNICODE | re.MULTILINE | re.DOTALL

实例化后即可利用该类下的分词方法进行分词处理，分词方法调用方式为：实例.tokenize（text）
```

In [51]:
from nltk.tokenize import RegexpTokenizer
text = "The four-poster canopy bed made in U.S.A. costs $600. The seller stake out 40% of the profit."
tokenizer = RegexpTokenizer('\w+|\$[\d\.]+|\S+')
"/".join(tokenizer.tokenize(text))

'The/four/-poster/canopy/bed/made/in/U/.S.A./costs/$600./The/seller/stake/out/40/%/of/the/profit/.'

```
也可以直接调用函数 regexp_tokenize 实现同样的分词效果，调用方式为：regexp_tokenize(text, pattern, gaps=False, discard_empty=True, flags=56)

参数说明：

text：必填参数，需要分词的字符串

pattern：必填参数，构建分词器的模式，即正则表达式字符串

gaps：可选参数，设置为 True 时，正则表达式指定识别标识符之间的间隔，默认缺失值为 False，即正则表达式用来识别标识符本身

discard_empty：可选参数，设置为 True 时，去除任何由分词器产生的空符“"”，只有当参数“gaps”取值为“True”时分词器才会差生空符

flags：可选参数，编译分词器模式的正则标识，默认使用的是 re.UNICODE | re.MULTILINE | re.DOTALL
```

In [52]:
from nltk.tokenize import regexp_tokenize
"/".join(word_tokenize(text))

'The/four-poster/canopy/bed/made/in/U.S.A./costs/$/600/./The/seller/stake/out/40/%/of/the/profit/.'

In [53]:
pattern = r"""(?x)                   # 设置以编写较长的正则条件
              (?:[A-Z]\.)+           # 缩略词 
              |\$?\d+(?:\.\d+)?%?    # 货币、百分数
              |\w+(?:[-']\w+)*       # 用连字符链接的词汇
              |\.\.\.                # 省略符号 
              |(?:[.,;"'?():-_`])    # 特殊含义字符 
          """  

In [54]:
"/".join(regexp_tokenize(text,pattern))

'The/four-poster/canopy/bed/made/in/U.S.A./costs/$600/./The/seller/stake/out/40%/of/the/profit/.'

### WhitespaceTokenizer按照空格分词

```
WhitespaceTokenizer 子类，可以直接将字符串按照空格（包括space, tab, newline)分词，效果相当于利用字符串 split 方法。调用方式为：实例.tokenize（text)
```

In [55]:
from nltk.tokenize import WhitespaceTokenizer
text="The four-poster canopy bed made in U.S.A. costs $600.\nThe seller stake out 40% of the profit."
print (text)

The four-poster canopy bed made in U.S.A. costs $600.
The seller stake out 40% of the profit.


In [56]:
tokenizer_space = WhitespaceTokenizer()
"/".join(tokenizer_space.tokenize(text))

'The/four-poster/canopy/bed/made/in/U.S.A./costs/$600./The/seller/stake/out/40%/of/the/profit.'

### WordPunctTokenizer切分字母和非字母

```
WordPunctTokenizer 子类，用正则表达式 “`\w+|\w\s+” 将字符串切分成字母和非字母字符，分词方法调用方式为：实例.tokenize（text）
```

In [58]:
from nltk.tokenize import WordPunctTokenizer
tokenizer_punct = WordPunctTokenizer()
"/".join(tokenizer_punct.tokenize(text))

'The/four/-/poster/canopy/bed/made/in/U/./S/./A/./costs/$/600/./The/seller/stake/out/40/%/of/the/profit/.'

也可以直接调用函数 wordpunct_tokenize 实现同样的分词效果，调用方式为：wordpunct_tokenize（text）

In [59]:
from nltk.tokenize import wordpunct_tokenize
"/".join(wordpunct_tokenize(text))

'The/four/-/poster/canopy/bed/made/in/U/./S/./A/./costs/$/600/./The/seller/stake/out/40/%/of/the/profit/.'

### BlanklineTokenizer将空行作为分隔符

```
BlanklineTokenizer 子类， 将空行作为分隔符进行分词，空行是指不包含任何字符的行，空格 space 和制表符 tab 除外，相应的正则表达式为：'\s\n\s\n\s*'。分词方法调用方式为：实例.tokenize（text)
```

In [60]:
from nltk.tokenize import BlanklineTokenizer
text="The four-poster canopy bed made in U.S.A. costs $600.\n\nThe seller stake out 40% of the profit." 
print (text)

The four-poster canopy bed made in U.S.A. costs $600.

The seller stake out 40% of the profit.


In [61]:
tokenizer_blank = BlanklineTokenizer()
tokenizer_blank.tokenize(text)

['The four-poster canopy bed made in U.S.A. costs $600.',
 'The seller stake out 40% of the profit.']

也可以直接调用函数 blankline_tokenize 实现同样的分词效果，调用方式为：blankline_tokenize（text）v

In [62]:
from nltk.tokenize import blankline_tokenize
blankline_tokenize(text)

['The four-poster canopy bed made in U.S.A. costs $600.',
 'The seller stake out 40% of the profit.']

### stanford 模块

[在nltk中使用stanford](http://www.zmonster.me/2016/06/08/use-stanford-nlp-package-in-nltk.html)

```
tokenize 包中的 stanford 模块是 NLTK 的 Stanford Tokenizer 接口，模块中定义的 StanfordTokenizer 类提供了利用分词工具 PTBTokenizer 进行分词的方法，调用方式为：实例.tokenize(text)
```

In [2]:
from nltk.tokenize import StanfordTokenizer