In [3]:
import jieba

## 分词

In [83]:
# 结巴中文分词的基本操作
# 全模式: 所有可能构成词语的无向图连接而成. 缺点: 不能解决歧义问题 例如:北京大学/北京 大学
seg_list = jieba.cut('我来到北京的北京大学', cut_all=True)
seg_list = list(seg_list)
print(seg_list.__len__())
# print("Full Mode:"+','.join(seg_list))

7


In [73]:
for a in seg_list:
    print(a)
print("Full Mode:"+','.join(seg_list))

我
来到
北京
的
北京
北京大学
大学
Full Mode:


In [48]:
# 精确分词模式, 适合做文本分析
seg_list = jieba.cut('我来到北京的北京大学', cut_all=False)
print("Default Mode:"+'/'.join(seg_list))

Default Mode:我/来到/北京/的/北京大学


In [32]:
# 搜索引擎模式, 对长词再次切分, 提高召回率
# 该方法适用于搜索引擎构建倒排索引的分词, 粒度比较细
seg_list = jieba.cut_for_search('我来到北京的北京大学', HMM=False)
print("Search engine Mode:"+'/'.join(seg_list))
strList = list(seg_list)
strList

Search engine Mode:我/来到/北京/的/北京/大学/北京大学


[]

## 添加自定义词典/调整词典

In [5]:
print("原文档: \t" + '/'.join(jieba.cut('如果放到数据库中将出错', HMM=False)))
# 中将不符合语义

原文档: 	如果/放到/数据库/中将/出错


In [6]:
# 对'中将'进行拆分
# Signature: jieba.suggest_freq(segment, tune=False)
# Docstring:
# Suggest word frequency to force the characters in a word to be
# joined or splitted.
print(jieba.suggest_freq(('中', '将'),True))

494


In [7]:
print("改进文档: \t" + '/'.join(jieba.cut('如果放到数据库中将出错', HMM=False)))

改进文档: 	如果/放到/数据库/中/将/出错


In [8]:
print('\n原文档:\t' + '/'.join(jieba.cut("[台中]正确形式应该不会被分开")))


原文档:	[/台/中/]/正确/形式/应该/不会/被/分开


In [9]:
jieba.suggest_freq('台中', True)

69

In [10]:
print('\n原文档:\t' + '/'.join(jieba.cut("[台中]正确形式应该不会被分开")))


原文档:	[/台中/]/正确/形式/应该/不会/被/分开


## 自定义分词词典

In [11]:
import sys

sys模块相关信息:https://docs.python.org/3/library/sys.html

默认词库:https://github.com/fxsjy/jieba/blob/master/jieba/dict.txt?raw=true

In [16]:
sys.path.append("../")

In [17]:
jieba.load_userdict("./dict.txt")

In [18]:
seg_list = jieba.cut("今天很高兴在慕课网和大家交流学习")

In [19]:
print('load user defined dictionary:\n'
     + "/".join(seg_list))

load user defined dictionary:
今天/很/高兴/在/慕课网/和/大家/交流学习


## 基于 TF-IDF 算法的关键词抽取

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())


    sentence 为待提取的文本


    topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20


    withWeight 为是否一并返回关键词权重值，默认值为 False


    allowPOS 仅包括指定词性的词，默认值为空，即不筛选


jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 实例，idf_path 为 IDF 频率文件

In [20]:
str = "近两年来AI产业已然成为新的焦点和风口，各互联网巨头都在布局人工智能，不少互联网产品经理也开始考虑转型AI产品经理，本文作者也同样在转型中。本篇文章是通过一段时间的学习归纳总结整理而成，力图通过这篇文章给各位考虑转型的产品经理们一个对AI的全局概括了解。本文分为上下两篇，此为上篇。"

In [21]:
import jieba.analyse    

In [22]:
for x,w in jieba.analyse.extract_tags(str, 10, withWeight=True):
    print("%s %s" %(x, w))

AI 0.6896981251673077
转型 0.4081856316761538
经理 0.3375721497040385
本文 0.2940356773161538
互联网 0.27391895208807693
产品 0.2628955320363462
本篇 0.2165696215846154
考虑 0.19975097987076923
风口 0.19544246218653846
近两年来 0.18675044057596152


## 文本排名

In [23]:
for x, w in jieba.analyse.textrank(str, 10, withWeight=True):
    print("%s %s" %(x, w))

产品 1.0
转型 0.9233342226308273
经理 0.9190085971049002
考虑 0.782804813158604
互联网 0.774316867980086
整理 0.6353127825453877
概括 0.6257676913734682
了解 0.6190298783366395
成为 0.5152333021023644
总结 0.491539369836253


## 词性标注

In [29]:
import jieba.posseg
words = jieba.posseg.cut('我爱宁波诺丁汉大学')

In [30]:
for word, flag in words:
    print("%s, %s" %(word, flag))

我, r
爱, v
宁波, ns
诺丁汉大学, nz


## 返回词语在原文的起止位置

### 默认模式

In [38]:
result = jieba.tokenize('在宁波的宁波聚像网络有限公司')
for tk in result:
    print("word %s\t\t start:%d\t\t end:%d\t\t" %(tk[0], tk[1], tk[2]))

word 在		 start:0		 end:1		
word 宁波		 start:1		 end:3		
word 的		 start:3		 end:4		
word 宁波		 start:4		 end:6		
word 聚像		 start:6		 end:8		
word 网络		 start:8		 end:10		
word 有限公司		 start:10		 end:14		


### 搜索模式

In [37]:
result = jieba.tokenize('在宁波的宁波聚像网络有限公司', mode='search')
for tk in result:
    print("word %s\t\t start:%d\t\t end:%d\t\t" %(tk[0], tk[1], tk[2]))

word 在		 start:0		 end:1		
word 宁波		 start:1		 end:3		
word 的		 start:3		 end:4		
word 宁波		 start:4		 end:6		
word 聚像		 start:6		 end:8		
word 网络		 start:8		 end:10		
word 有限		 start:10		 end:12		
word 公司		 start:12		 end:14		
word 有限公司		 start:10		 end:14		
