In [9]:
# jieba分词器的介绍和整理
# 1.三种分词模式和一个参数
#     精确模式 - 视图把句子最精确地切开，适合文本分析
#     全模式 - 把句子中所有的可以成词的词语都扫描出来，速度非常快，但不你解决歧义
#     搜索引擎模式 - 在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词
# 2.支持自定义词典
# 3.中文歧义测试和去除停用词
# 4.三种可以让分词更准确的方法
# 5.并行计算

In [None]:
# 算法：
#     基于词缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG）；
#     采用了动态规划查找最大概率路径，找到基于词频的最大切分组合；
#     对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。
# 注：未登录词即没有被收录在分词词表中但必须切分出来的词，
# 包括各类专有名词（人名、地名、企业名等）、缩写词、新增词汇等等。

In [10]:
import jieba

In [11]:
# jieba.cut的默认参数只有三个
# jieba(self, sentence, cut_all= False, HMM = True)
# 参数：sentence 输入文本
#      cut_all 是否为全模式分词
#      HMM 是否开启HMM进行中文分词

In [None]:
# jieba.cut 方法接受三个输入参数: 
#         需要分词的字符串；
#         cut_all 参数用来控制是否采用全模式；
#         HMM 参数用来控制是否使用 HMM 模型

# jieba.cut_for_search 方法接受两个参数：
#         需要分词的字符串；
#         是否使用 HMM 模型。
#         该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

# 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。
# 注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

# jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，
#     可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
# jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

# jieba.Tokenizer(dictionary=DEFAULT_DICT) 
#     新建自定义分词器，可用于同时使用不同词典。
#     jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

In [20]:
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
他, 来到, 了, 网易, 杭研, 大厦
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


In [21]:
help(jieba.cut)

Help on method cut in module jieba:

cut(sentence, cut_all=False, HMM=True) method of jieba.Tokenizer instance
    The main function that segments an entire sentence that contains
    Chinese characters into seperated words.
    
    Parameter:
        - sentence: The str(unicode) to be segmented.
        - cut_all: Model type. True for full pattern, False for accurate pattern.
        - HMM: Whether to use the Hidden Markov Model.



In [22]:
# 2. 添加自定义词典

In [23]:
# 载入词典
# 开发者可以指定自己自定义的词典，以便包含 jieba 词库里没有的词。
# 虽然 jieba 有新词识别能力，但是自行添加新词可以保证更高的正确率。

# 用法： jieba.load_userdict(file_name) 
#          参数：file_name 为文件类对象或自定义词典的路径
# 词典格式和 dict.txt 一样，一个词占一行；每一行分三部分：词语、词频（可省略）、词性（可省略），用空格隔开，顺序不可颠倒。
# file_name 若为路径或二进制方式打开的文件，则文件必须为 UTF-8 编码。
# 词频省略时使用自动计算的能保证分出该词的词频。

# 例如：
#     创新办 3 i
#     云计算 5
#     凱特琳 nz
#     台中

In [24]:
# 更改分词器（默认为 jieba.dt）的 tmp_dir 和 cache_file 属性，
# 可分别指定缓存文件所在的文件夹及其文件名，用于受限的文件系统。

In [25]:
# 自定义词典的userdict.txt示例
# 云计算5
# 李小福2 nr
# 创新办3 i
# easy_install 3 eng
# 好用300
# 韩玉赏鉴3 nz
# 八一双鹿3 nz
# 台中
# 凯特琳nz
# Edu Trust认证2000

In [None]:
# 调整词典
# 使用 add_word(word, freq=None, tag=None) 
#  和 del_word(word) 可在程序中动态修改词典。

# 使用 suggest_freq(segment, tune=True) 
# 可调节单个词语的词频，使其能（或不能）被分出来。
# 注意：自动计算的词频在使用 HMM 新词发现功能时可能无效。

In [50]:
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))

如果/放到/post/中/将/出错/。


In [61]:
jieba.suggest_freq(('中','将'), True)
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))

如果/放到/post/中/将/出错/。


In [62]:
jieba.suggest_freq(('中将'), True)
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))

如果/放到/post/中将/出错/。


In [63]:
jieba.suggest_freq(('中','将'), True)

494

In [64]:
jieba.suggest_freq(('中将'), True)

495

In [65]:
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))

「/台中/」/正确/应该/不会/被/切开


In [66]:
jieba.suggest_freq('台中', True)

72

In [67]:
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))

「/台中/」/正确/应该/不会/被/切开


In [68]:
# 通过用户自定义词典来增强歧义纠错能力。
# https://github.com/fxsjy/jieba/issues/14

In [69]:
# 3.关键词抽取
# 基于TF-IDF算法的关键词抽取
# 基于TextRank算法的关键词抽取

In [70]:
# 基于TF-IDF算法的关键词抽取

In [71]:
import jieba.analyse

In [72]:
# jieba.analyse.extract_tags(sentence, topK = 20, 
#                            withWeight=False,allowPOS=())
# 参数：sentence 为待提取的文本
#      topK 为返回几个TF/IDF权重最大的关键词，默认值为20
#      withWeight 为是否一并返回关键词权重值，默认值为False
#      allowPOS 仅包括指定词性的词，默认值为空，即不筛选

In [None]:
# jieba.analyse.TFIDF(idf_path = None)
# 新建TFIDF实例，idf_path为IDF频率文件

In [None]:
# 基于TextRank算法的关键词抽取
# jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 直接使用，接口相同，注意默认过滤词性。
# jieba.analyse.TextRank() 新建自定义 TextRank 实例

In [None]:
# 基本思想:
# 将待抽取关键词的文本进行分词
# 以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图
# 计算图中节点的PageRank，注意是无向带权图

In [None]:
# 4.词性标注

In [None]:
# jieba.posseg.POSTokenizer(tokenizer=None)
# 新建自定义分词器，tokenizer参数可指定内部使用的jieba.Tokenizer分词器。
# jieba.posseg.dt 为默认词性标注分词器。

In [None]:
# 标注句子分词后每个词的词性，采用和ictclas兼容的标记法。

In [28]:
import jieba.posseg as pseg

In [29]:
words = pseg.cut('我爱北京天安门')
for word,flag in words:
    print('%s %s'%(word, flag))

我 r
爱 v
北京 ns
天安门 ns


In [None]:
# 5.并行分词

In [None]:
# 原理：将目标文本按行分隔后，把各行文本分配到多个Python进程并行分词，
# 然后归并结果，从而获得分词速度的可观提升。

In [None]:
# 基于python自带的multiprocessing模块。

In [None]:
# 用法：
# jieba.enable_parallel(4)  # 开启并行分词模式，参数为并行进程数
# jieba.disable_parallel()  # 关闭并行分词模式
# 注意： 并行分词仅支持默认分词器jieba.dt 和 jieba.posseg.dt。

In [None]:
# 6.Tokenize:返回词语在原文的起止位置

In [30]:
# 默认模式
result = jieba.tokenize('永和服装饰品有限公司')
for tk in result:
    print('word %s\t\t start:%d \t\t end:%d'%(tk[0],tk[1],tk[2]))

word 永和		 start:0 		 end:2
word 服装		 start:2 		 end:4
word 饰品		 start:4 		 end:6
word 有限公司		 start:6 		 end:10


In [31]:
# 搜索模式
result = jieba.tokenize('永和服装饰品有限公司',mode = 'search')
for tk in result:
    print('word %s \t\t start:%d \t\t end:%d'%(tk[0],tk[1],tk[2]))

word 永和 		 start:0 		 end:2
word 服装 		 start:2 		 end:4
word 饰品 		 start:4 		 end:6
word 有限 		 start:6 		 end:8
word 公司 		 start:8 		 end:10
word 有限公司 		 start:6 		 end:10


In [None]:
# 7.ChineseAnalyzer for Whoosh 搜索引擎

In [None]:
from jieba.analyse import ChineseAnalyzer

In [31]:
jieba.load_userdict('userdict.txt')
jieba.add_word('石墨烯')
jieba.add_word('凱特琳')
jieba.del_word('自定义词')

test_sent = ("李小福是创新办主任也是云计算方面的专家; 什么是八一双鹿\n"
             "例如我输入一个带“韩玉赏鉴”的标题，在自定义词库中也增加了此词为N类\n"
             "「台中」正確應該不會被切開。mac上可分出「石墨烯」；此時又可以分出來凱特琳了。")

words = jieba.cut(test_sent)
print('/'.join(words))

李小福/是/创新办/主任/也/是/云计算/方面/的/专家/;/ /什么/是/八一双鹿/
/例如/我/输入/一个/带/“/韩玉赏鉴/”/的/标题/，/在/自定义/词库/中/也/增加/了/此/词为/N/类/
/「/台中/」/正確/應該/不會/被/切開/。/mac/上/可/分出/「/石墨烯/」/；/此時/又/可以/分出/來/凱特琳/了/。


In [32]:
print('='*40)



In [40]:
import jieba.posseg as pseg  #分词+词性标注
result = pseg.cut(test_sent)

In [41]:
for w in result:
    print(w.word,'/',w.flag,',',end='\n')

李小福 / nr ,
是 / v ,
创新办 / i ,
主任 / b ,
也 / d ,
是 / v ,
云计算 / x ,
方面 / n ,
的 / uj ,
专家 / n ,
; / x ,
  / x ,
什么 / r ,
是 / v ,
八一双鹿 / nz ,

 / x ,
例如 / v ,
我 / r ,
输入 / v ,
一个 / m ,
带 / v ,
“ / x ,
韩玉赏鉴 / nz ,
” / x ,
的 / uj ,
标题 / n ,
， / x ,
在 / p ,
自定义 / l ,
词库 / n ,
中 / f ,
也 / d ,
增加 / v ,
了 / ul ,
此 / r ,
词 / n ,
为 / p ,
N / eng ,
类 / q ,

 / x ,
「 / x ,
台中 / s ,
」 / x ,
正確 / ad ,
應該 / v ,
不 / d ,
會 / v ,
被 / p ,
切開 / ad ,
。 / x ,
mac / eng ,
上 / f ,
可 / v ,
分出 / v ,
「 / x ,
石墨烯 / x ,
」 / x ,
； / x ,
此時 / c ,
又 / d ,
可以 / c ,
分出 / v ,
來 / zg ,
凱特琳 / x ,
了 / ul ,
。 / x ,


In [39]:
import jieba.posseg as pseg  #分词+词性标注
result = pseg.cut(test_sent)
list(result)

[pair('李小福', 'nr'),
 pair('是', 'v'),
 pair('创新办', 'i'),
 pair('主任', 'b'),
 pair('也', 'd'),
 pair('是', 'v'),
 pair('云计算', 'x'),
 pair('方面', 'n'),
 pair('的', 'uj'),
 pair('专家', 'n'),
 pair(';', 'x'),
 pair(' ', 'x'),
 pair('什么', 'r'),
 pair('是', 'v'),
 pair('八一双鹿', 'nz'),
 pair('\n', 'x'),
 pair('例如', 'v'),
 pair('我', 'r'),
 pair('输入', 'v'),
 pair('一个', 'm'),
 pair('带', 'v'),
 pair('“', 'x'),
 pair('韩玉赏鉴', 'nz'),
 pair('”', 'x'),
 pair('的', 'uj'),
 pair('标题', 'n'),
 pair('，', 'x'),
 pair('在', 'p'),
 pair('自定义', 'l'),
 pair('词库', 'n'),
 pair('中', 'f'),
 pair('也', 'd'),
 pair('增加', 'v'),
 pair('了', 'ul'),
 pair('此', 'r'),
 pair('词', 'n'),
 pair('为', 'p'),
 pair('N', 'eng'),
 pair('类', 'q'),
 pair('\n', 'x'),
 pair('「', 'x'),
 pair('台中', 's'),
 pair('」', 'x'),
 pair('正確', 'ad'),
 pair('應該', 'v'),
 pair('不', 'd'),
 pair('會', 'v'),
 pair('被', 'p'),
 pair('切開', 'ad'),
 pair('。', 'x'),
 pair('mac', 'eng'),
 pair('上', 'f'),
 pair('可', 'v'),
 pair('分出', 'v'),
 pair('「', 'x'),
 pair('石墨烯', 'x'),
 

In [42]:
print("="*40)



In [44]:
terms = jieba.cut('easy_install is great')
print(list(terms))

['easy_install', ' ', 'is', ' ', 'great']


In [45]:
terms = jieba.cut('python的正则表达式是好用的')
print(list(terms))

['python', '的', '正则表达式', '是', '好', '用', '的']


In [46]:
# test frequency tune
testlist = [
('今天天气不错', ('今天', '天气')),
('如果放到post中将出错。', ('中', '将')),
('我们中出了一个叛徒', ('中', '出')),
]

In [49]:
for sent, seg in testlist:
    print('/'.join(jieba.cut(sent, HMM=False)))
    word = ''.join(seg)
    print('>>>>',word)
    print('%s Before: %s, After: %s' % (word, jieba.get_FREQ(word), jieba.suggest_freq(seg, True)))
    print('/'.join(jieba.cut(sent, HMM=False)))
    print("-"*40)

今天/天气/不错
>>>> 今天天气
今天天气 Before: 0, After: 0
今天/天气/不错
----------------------------------------
如果/放到/post/中/将/出错/。
>>>> 中将
中将 Before: 494, After: 494
如果/放到/post/中/将/出错/。
----------------------------------------
我们/中/出/了/一个/叛徒
>>>> 中出
中出 Before: 3, After: 3
我们/中/出/了/一个/叛徒
----------------------------------------
