[jieba介绍](http://www.oschina.net/p/jieba/?fromerr=9NIIpUbk)

In [50]:
#encoding=utf-8

In [103]:
import jieba
from __future__ import print_function #Python提供了__future__模块，把下一个新版本的特性导入到当前版本，于是我们就可以在当前版本中测试一些新版本的特性

# 中文分词

## 全模式

把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义

In [52]:
sen = '我喜欢上海东方明珠'  #待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

In [53]:
w1 = jieba.cut(sen,cut_all=True)  

In [54]:
for i in w1:
    print (i)

我
喜欢
上海
上海东方
海东
东方
东方明珠
方明
明珠


In [82]:
seg_list = jieba.cut("我来到北京清华大学",cut_all=True)
print (','.join(seg_list))

我,来到,北京,清华,清华大学,华大,大学


## 精准模式

试图将句子最精确地切开，适合文本分析

In [83]:
w2 = jieba.cut(sen)
print (','.join(w2))

我,喜欢,上海,东方明珠


In [84]:
seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
print (','.join(seg_list))

我,来到,北京,清华大学


In [85]:
seg_list = jieba.cut("他来到了网易杭研大厦") #默认是精确模式
print (','.join(seg_list))

他,来到,了,网易,杭研,大厦


## 搜索引擎模式

在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

In [86]:
w3 = jieba.cut_for_search(sen)
print (','.join(w3))

我,喜欢,上海,东方,方明,明珠,东方明珠


In [87]:
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")
print (", ".join(seg_list))

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list

## 词性标注

```
a:形容词
c：连词
d：副词
e：叹词
f：方位词
i：成语
m：数词
n：名词
nr：人名
ns：地名
nt：机构团体
nz：其他专有名词
p：介词
r：代词
t：时间
u：助词
v：动词
vn：动名词
w：标点符号
un：未知词语
```

In [88]:
import jieba.posseg as pseg

In [115]:
w5 = pseg.cut(sen)
for w in w5:
    print(w.word, w.flag)

我 r
喜欢 v
上海 ns
东方明珠 nr


# 添加自定义词典

## 开发者可以指定自己自定义的词典，以便包含jieba词库里没有的词。虽然jieba有新词识别能力，但是自行添加新词可以保证更高的正确率

用法： jieba.load_userdict(file_name) # file_name为自定义词典的路径

```
词典格式和dict.txt一样，一个词占一行；每一行分三部分，一部分为词语，另一部分为词频，最后为词性（可省略），用空格隔开

之前： 李小福 / 是 / 创新 / 办 / 主任 / 也 / 是 / 云 / 计算 / 方面 / 的 / 专家 /

加载自定义词库后：　李小福 / 是 / 创新办 / 主任 / 也 / 是 / 云计算 / 方面 / 的 / 专家 /
```

In [95]:
jieba.load_userdict("userdict.txt")

In [96]:
jieba.add_word('石墨烯')
jieba.add_word('凱特琳')
jieba.del_word('自定义词')

In [97]:
test_sent = (
"李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n"
"例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类\n"
"「台中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。"
)

In [98]:
words = jieba.cut(test_sent)
print ('/'.join(words))

李小福/是/创新办/主任/也/是/云计算/方面/的/专家/;/ /什么/是/八一双鹿/
/例如/我/输入/一个/带/“/韩玉赏鉴/”/的/标题/，/在/自定义词/库中/也/增加/了/此/词为/N/类/
/「/台中/」/正確/應該/不會/被/切開/。/mac/上/可/分出/「/石墨烯/」/；/此時/又/可以/分出/來/凱特琳/了/。


In [104]:
result = pseg.cut(test_sent)
for w in result:
    print(w.word, "/", w.flag, ", ", end=' ')

李小福 / nr ,  是 / v ,  创新办 / i ,  主任 / b ,  也 / d ,  是 / v ,  云计算 / x ,  方面 / n ,  的 / uj ,  专家 / n ,  ; / x ,    / x ,  什么 / r ,  是 / v ,  八一双鹿 / nz ,  
 / x ,  例如 / v ,  我 / r ,  输入 / v ,  一个 / m ,  带 / v ,  “ / x ,  韩玉赏鉴 / nz ,  ” / x ,  的 / uj ,  标题 / n ,  ， / x ,  在 / p ,  自定义词 / n ,  库中 / nrt ,  也 / d ,  增加 / v ,  了 / ul ,  此 / r ,  词 / n ,  为 / p ,  N / eng ,  类 / q ,  
 / x ,  「 / x ,  台中 / s ,  」 / x ,  正確 / ad ,  應該 / v ,  不 / d ,  會 / v ,  被 / p ,  切開 / ad ,  。 / x ,  mac / eng ,  上 / f ,  可 / v ,  分出 / v ,  「 / x ,  石墨烯 / x ,  」 / x ,  ； / x ,  此時 / c ,  又 / d ,  可以 / c ,  分出 / v ,  來 / zg ,  凱特琳 / nz ,  了 / ul ,  。 / x ,  

In [106]:
terms = jieba.cut('easy_install is great')
print ('/'.join(terms))

easy_install/ /is/ /great


In [107]:
terms = jieba.cut('python 的正则表达式是好用的')
print('/'.join(terms))

python/ /的/正则表达式/是/好用/的


## test frequecy tune

In [2]:
testlist = [
('今天天气不错', ('今天', '天气')),
('如果放到post中将出错。', ('中', '将')),
('我们中出了一个叛徒', ('中', '出')),
]

In [111]:
#HMM: Whether to use the Hidden Markov Model.

In [113]:
jieba.suggest_freq?

In [114]:
for sent, seg in testlist:
    print ('/'.join(jieba.cut(sent, HMM=False)))
    word = ''.join(seg)
    print ('%s Before: %s, After: %s' % (word, jieba.get_FREQ(word), jieba.suggest_freq(seg, True)))

今天天气/不错
今天天气 Before: None, After: 0
如果/放到/post/中/将/出错/。
中将 Before: None, After: 494
我们/中/出/了/一个/叛徒
中出 Before: None, After: 3


## 通过用户自定义词典来增强歧义纠错能力

[歧义纠错](https://github.com/fxsjy/jieba/issues/14)

# (待定)关键词提取

```
jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse

setence为待提取的文本

topK为返回几个TF/IDF权重最大的关键词，默认值为20
```

In [1]:
import jieba.analyse

[关键词提取](https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py)

In [6]:
with open(r'gcd.txt',encoding = 'utf-8') as f:
    data = f.read()
    print (data[:50])

﻿
《鬼吹灯全》
作者：本物天下霸唱



第一集
第一章白纸人

       我的祖父叫胡国华，


In [7]:
tag = jieba.analyse.extract_tags(data,15)
tag

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Kismet\AppData\Local\Temp\jieba.cache
Loading model cost 0.869 seconds.
Prefix dict has been built succesfully.


['胖子',
 'Shirley',
 '我们',
 '什么',
 '咱们',
 '古墓',
 '东西',
 '没有',
 '鹧鸪',
 '教授',
 '就是',
 '棺材',
 '明叔',
 '不是',
 '里面']

# 并行分词

```
原理：将目标文本按行分隔后，把各行文本分配到多个python进程并行分词，然后归并结果，从而获得分词速度的可观提升

基于python自带的multiprocessing模块，目前暂不支持windows

用法：

jieba.enable_parallel(4) # 开启并行分词模式，参数为并行进程数

jieba.disable_parallel() # 关闭并行分词模式

```

[并行](https://github.com/fxsjy/jieba/blob/master/test/parallel/test_file.py)

# Tokenize：返回词语在原文的起始位置

注意，输入参数只接受unicode

In [119]:
result = jieba.tokenize(u'永和服装饰品有限公司')

In [120]:
for tk in result:
     print ("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

word 永和		 start: 0 		 end:2
word 服装		 start: 2 		 end:4
word 饰品		 start: 4 		 end:6
word 有限公司		 start: 6 		 end:10
