# jieba分词的[github](https://github.com/fxsjy/jieba)

<font color=black size=3>主要功能</font>

## 分词

<font color=green size=3>关于参数：cut_all默认为false，HMM默认为true.
 HMM如果不开启，像”光之翼“这种词库中未出现的词，可能无法分词，另一种解决办法是，将这个词汇添加到词库</font>

In [142]:
# jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
# 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8
# encoding=utf-8
import jieba
str_1 = '上汽集团的光之翼车型，销量如何？'
seg_list = jieba.cut(str_1, cut_all=True) #　全模式
print "full mode: " + "/ ".join(seg_list)
seg_list = jieba.cut(str_1, cut_all=False) # 精确模式，HMM默认开启
print "default:" + "/".join(seg_list)
seg_list = jieba.cut(str_1,cut_all=False, HMM=False) # HMM未开启的情况下
print "default_01:" + "/".join(seg_list)
# 加词语
jieba.add_word('光之翼')
seg_list = jieba.cut(str_1,cut_all=False, HMM=False)
print "add the unknow word:" + "/".join(seg_list)

full mode: 上汽/ 集团/ 的/ 光之翼/ 车型/ / / 销量/ 如何/ / 
default:上汽/集团/的/光之翼/车型/，/销量/如何/？
default_01:上汽/集团/的/光之翼/车型/，/销量/如何/？
add the unknow word:上汽/集团/的/光之翼/车型/，/销量/如何/？


In [143]:
# jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
seg_list = jieba.cut_for_search(str_1) # 搜索引擎模式
print "search:" + "/".join(seg_list)

search:上汽/集团/的/光之翼/车型/，/销量/如何/？


In [144]:
# jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，
# 可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
seg_list = jieba.lcut(str_1, cut_all=False)
print seg_list 

[u'\u4e0a\u6c7d', u'\u96c6\u56e2', u'\u7684', u'\u5149\u4e4b\u7ffc', u'\u8f66\u578b', u'\uff0c', u'\u9500\u91cf', u'\u5982\u4f55', u'\uff1f']


## 加载词典

<font color=green size=3>关于【词频】：1.对于”交叉词汇“而言，分词要看用户字典的两个词的权重大小，比如当语句中出现”下官云飞龙”，根据“下官云“和”云飞龙“的词频不同来进行取舍;2.优先级：”全集字符串“的分词优先级高于词频，如果用户字典中“下官云飞龙”的词频即使很低，“下官云“和”云飞龙“词频高，也会优先分割为“下官云飞龙”。</font>

In [145]:
#　jieba加载词典是一劳永逸类型的，除非重启程序，重新运行一次程序。
test_str = '下官云飞龙是创新办主任也是云计算方面的专家'
seg_str = jieba.cut(test_str)
print 'add dict before:' + '/'.join(seg_str)
jieba.load_userdict('userdict')
seg_str_1 = jieba.cut(test_str)
print 'add dict after:' + '/'.join(seg_str_1)

add dict before:下官云/飞龙是/创新办/主任/也/是/云计算/方面/的/专家
add dict after:下官云/飞龙是/创新办/主任/也/是/云计算/方面/的/专家


## 调整词典

In [146]:
# 使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
jieba.add_word('创新办主任')
seg_list = jieba.cut(test_str)
print '/'.join(seg_list)
jieba.del_word('创新办主任')
seg_list = jieba.cut(test_str)
print '/'.join(seg_list)
# 使用 suggest_freq(segment, tune=True) 可调节单个词语的词频，使其能（或不能）被分出来。
jieba.suggest_freq('飞龙是', True)
seg_list = jieba.cut(test_str)
print '/'.join(seg_list)
# 注意：自动计算的词频在使用 HMM 新词发现功能时可能无效

下官云/飞龙是/创新办主任/也/是/云计算/方面/的/专家
下官云/飞龙是/创新办/主任/也/是/云计算/方面/的/专家
下官云/飞龙是/创新办/主任/也/是/云计算/方面/的/专家


## Tokenize：返回词语在原文的起止位置

In [147]:
# 注意，输入参数只接受 unicode
result = jieba.tokenize(u'永和服装饰品有限公司')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
print type(tk)

word 永和		 start: 0 		 end:2
word 服装		 start: 2 		 end:4
word 饰品		 start: 4 		 end:6
word 有限公司		 start: 6 		 end:10
<type 'tuple'>


In [148]:
#搜索模式
result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

word 永和		 start: 0 		 end:2
word 服装		 start: 2 		 end:4
word 饰品		 start: 4 		 end:6
word 有限		 start: 6 		 end:8
word 公司		 start: 8 		 end:10
word 有限公司		 start: 6 		 end:10


In [149]:
import jieba.analyse
jieba.analyse.set_idf_path("chenbofeng_userdict")
keywords_list = jieba.analyse.extract_tags(sentence=u'今天的运气真的很糟糕，我的心情也跟着很糟糕，你怎么样', topK=5, withWeight=True, allowPOS=()) 
for i in keywords_list:
    print '【{0}】的权重是： {1}'.format(i[0].encode('utf-8'), i[1])
a=1.70782392899

【糟糕】的权重是： 2.98869187572
【运气】的权重是： 1.49434593786
【心情】的权重是： 1.49434593786
【怎么样】的权重是： 1.49434593786
【今天】的权重是： 1.49434593786
