In [1]:
# 基于TextRank算法的关键词提取

In [2]:
# jieba.analyse.textrank(sentence,
#                         topK = 20,
#                         withWeight = False,
#                         allowPOS = ('ns','n','vn'm'v'))
# 接口相同，注意默认过滤词性。
# jieba.analyse.TextRank()新建自定义TextRank实例

In [3]:
# 基本思想：
# 1. 将待抽取关键词的文本进行分词
# 2. 以固定窗口大小（默认为5，通过span属性调整），词之间的共现关系，构造图
# 3. 计算图中节点的PageRank，注意是无向带权图

In [5]:
import jieba
import jieba.posseg
import jieba.analyse

In [6]:
# 1.分词

In [7]:
seg_list = jieba.cut('我来到北京清华大学',cut_all = True)
print("Full Mode:",'/'.join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/w2/qnnfb62x2g760j3nkh9q4ptr0000gn/T/jieba.cache
Loading model cost 0.814 seconds.
Prefix dict has been built succesfully.


Full Mode: 我/来到/北京/清华/清华大学/华大/大学


In [8]:
seg_list = jieba.cut('我来到北京清华大学',cut_all = False)
print('Default Mode:','/'.join(seg_list))

Default Mode: 我/来到/北京/清华大学


In [9]:
seg_list = jieba.cut('他来到了网易行研大厦')
print(','.join(seg_list))

他,来到,了,网易,行研,大厦


In [10]:
seg_list = jieba.cut_for_search('小明硕士毕业于中国科学院计算所，后在日本京都大学深造。')
print(','.join(seg_list))

小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,，,后,在,日本,京都,大学,日本京都大学,深造,。


In [11]:
# 2.添加自定义词典/调整词典

In [12]:
print('/'.join(jieba.cut('如果放到post中将出错。',HMM=False)))

如果/放到/post/中将/出错/。


In [13]:
print(jieba.suggest_freq(('中','将'),True))

494


In [14]:
print('/'.join(jieba.cut('如果放到post中将出错。',HMM=False)))

如果/放到/post/中/将/出错/。


In [15]:
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))

「/台/中/」/正确/应该/不会/被/切开


In [16]:
print(jieba.suggest_freq('台中', True))

69


In [17]:
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))

「/台中/」/正确/应该/不会/被/切开


In [18]:
# 3.关键词提取

In [19]:
s = "此外，公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元，增资后，吉林欧亚置业注册资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。目前在建吉林欧亚城市商业综合体项目。2013年，实现营业收入0万元，实现净利润-139.13万元。"

In [20]:
for x,w in jieba.analyse.extract_tags(s,withWeight=True):
    print('%s %s'%(x,w))

欧亚 0.7300142700289363
吉林 0.659038184373617
置业 0.4887134522112766
万元 0.3392722481859574
增资 0.33582401985234045
4.3 0.25435675538085106
7000 0.25435675538085106
2013 0.25435675538085106
139.13 0.25435675538085106
实现 0.19900979900382978
综合体 0.19480309624702127
经营范围 0.19389757253595744
亿元 0.1914421623587234
在建 0.17541884768425534
全资 0.17180164988510638
注册资本 0.1712441526
百货 0.16734460041382979
零售 0.1475057117057447
子公司 0.14596045237787234
营业 0.13920178509021275


In [22]:
# TextRank
for x,w in jieba.analyse.textrank(s, withWeight= True):
    print('%s %s'%(x,w))

吉林 1.0
欧亚 0.9966893354178172
置业 0.6434360313092776
实现 0.5898606692859626
收入 0.43677859947991454
增资 0.4099900531283276
子公司 0.35678295947672795
城市 0.34971383667403655
商业 0.34817220716026936
业务 0.3092230992619838
在建 0.3077929164033088
营业 0.3035777049319588
全资 0.303540981053475
综合体 0.29580869172394825
注册资本 0.29000519464085045
有限公司 0.2807830798576574
零售 0.27883620861218145
百货 0.2781657628445476
开发 0.2693488779295851
经营范围 0.2642762173558316


In [23]:
# 4.词性标注

In [24]:
words = jieba.posseg.cut('我爱北京天安门')
for word,flag in words:
    print('%s %s'%(word, flag))

我 r
爱 v
北京 ns
天安门 ns


In [25]:
# 5. Tokenize:返回词语在原本的起始位置

In [26]:
# 默认模式
result = jieba.tokenize('永和服装饰品有限公司')
for tk in result:
    print('word %s \t\t start:%d \t\t end:%d'%(tk[0],tk[1],tk[2]))

word 永和 		 start:0 		 end:2
word 服装 		 start:2 		 end:4
word 饰品 		 start:4 		 end:6
word 有限公司 		 start:6 		 end:10


In [27]:
# 搜索模式
result = jieba.tokenize('永和服装饰品有限公司',mode = 'search')
for tk in result:
    print('word %s\t\t start:%d \t\t end:%d'%(tk[0],tk[1],tk[2]))

word 永和		 start:0 		 end:2
word 服装		 start:2 		 end:4
word 饰品		 start:4 		 end:6
word 有限		 start:6 		 end:8
word 公司		 start:8 		 end:10
word 有限公司		 start:6 		 end:10
