In [5]:
import jieba.analyse

In [10]:
print('='*40)
print('1. 分词')
print('-'*40)

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 默认模式

1. 分词
----------------------------------------
Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学


In [11]:
seg_list = jieba.cut("他来到了网易杭研大厦")
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

他, 来到, 了, 网易, 杭研, 大厦
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


In [8]:
print('='*40)
print('2. 添加自定义词典/调整词典')
print('-'*40)

print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
#如果/放到/post/中将/出错/。
print(jieba.suggest_freq(('中', '将'), True))
#494
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
#如果/放到/post/中/将/出错/。
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
#「/台/中/」/正确/应该/不会/被/切开
print(jieba.suggest_freq('台中', True))
#69
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
#「/台中/」/正确/应该/不会/被/切开

2. 添加自定义词典/调整词典
----------------------------------------
如果/放到/post/中/将/出错/。
494
如果/放到/post/中/将/出错/。
「/台中/」/正确/应该/不会/被/切开
70
「/台中/」/正确/应该/不会/被/切开


In [17]:
print('='*40)
print('3. 关键词提取')
print('-'*40)
print(' TF-IDF')
print('-'*40)

s = "传统图像修复：利用各种feature进行各种空间和频域插值魔改，优点是换一种算法就能发一篇paper，我还见过有些三本校的XX还用量子XX算法和遗传算法，缺点是大部分方法都很垃圾，因为他们都企图颠覆香浓定理。"
for x, w in jieba.analyse.extract_tags(s, withWeight=True):
    print('%s %s' % (x, w))

3. 关键词提取
----------------------------------------
 TF-IDF
----------------------------------------
XX 0.6641537501611111
算法 0.48284397217388886
遗传算法 0.33207687508055556
feature 0.33207687508055556
paper 0.33207687508055556
能发 0.33207687508055556
魔改 0.33207687508055556
频域 0.3195217327555555
香浓 0.3195217327555555
插值 0.3058418303916667
本校 0.29165222973055555
各种 0.2571122207738889
颠覆 0.24639554807166666
量子 0.23937427564555558
还用 0.2386780542936111
定理 0.2260729519222222
垃圾 0.22194113910944446
图像 0.21545811160694445
缺点 0.2118309897425
修复 0.2108039678561111


In [28]:
print('='*40)
print('3. 关键词提取')
print('-'*40)
print(' TF-IDF')
print('-'*40)

s = "传统图像修复：利用各种feature进行各种空间和频域插值魔改，优点是换一种算法就能发一篇paper，我还见过有些三本校的XX还用量子XX算法和遗传算法，缺点是大部分方法都很垃圾，因为他们都企图颠覆香浓定理。"
for x, w in jieba.analyse.extract_tags(s, withWeight=True):
    print('%s %s' % (x, w))

print('-'*40)
print(' TextRank')
print('-'*40)

for x, w in jieba.analyse.textrank(s, withWeight=True):
    print('%s %s' % (x, w))

3. 关键词提取
----------------------------------------
 TF-IDF
----------------------------------------
回过头来 0.7316795611090909
苦难 0.7316795611090909
想想 0.6360845813081818
作家 0.605783511440909
转换 0.5918071936581818
财富 0.5788653495018182
经历 0.5233517886545455
以前 0.48104112501
如今 0.4560691073427273
那些 0.4369168080490909
已经 0.3109589677854545
----------------------------------------
 TextRank
----------------------------------------
想想 1.0
转换 0.6703672480838158
财富 0.666268377692433
经历 0.5054612093359121
作家 0.4992970809035772


In [15]:
print('='*40)
print('4. 词性标注')
print('-'*40)

words = jieba.posseg.cut("我爱北京天安门")
for word, flag in words:
    print('%s %s' % (word, flag))
    


4. 词性标注
----------------------------------------
我 r
爱 v
北京 ns
天安门 ns


## 종합 - POS(Part of Speech) Analyse

In [44]:
# Part of Speech Analyse in Chinese

import jieba.analyse

print('-'*40)    
print('Cut')
print('-'*40)
s = "如今，我当了作家,回过头来想想 ，以前经历的那些苦难已经转换为财富"
print('/'.join(jieba.cut(s, HMM=False)))
print('-'*40)
print('POS tag')
print('-'*40)
words = jieba.posseg.cut("如今，我当了作家,回过头来想想 ，以前经历的那些苦难已经转换为财富")
for word, flag in words:
    print('%s %s' % (word, flag))
print('-'*40)    
print(' TF-IDF')
print('-'*40)
for x, w in jieba.analyse.extract_tags(s, withWeight=True):
    print('%s %s' % (x, w))
print('-'*40)    
print(' TextRank')
print('-'*40)

for x, w in jieba.analyse.textrank(s, withWeight=True):
    print('%s %s' % (x, w))


----------------------------------------
Cut
----------------------------------------
如今/，/我/当/了/作家/,/回过头来/想想/ /，/以前/经历/的/那些/苦难/已经/转换/为/财富
----------------------------------------
POS tag
----------------------------------------
如今 t
， x
我 r
当 p
了 ul
作家 n
, x
回过头来 l
想想 v
  x
， x
以前 f
经历 n
的 uj
那些 r
苦难 a
已经 d
转换 v
为 p
财富 n
----------------------------------------
 TF-IDF
----------------------------------------
回过头来 0.7316795611090909
苦难 0.7316795611090909
想想 0.6360845813081818
作家 0.605783511440909
转换 0.5918071936581818
财富 0.5788653495018182
经历 0.5233517886545455
以前 0.48104112501
如今 0.4560691073427273
那些 0.4369168080490909
已经 0.3109589677854545
----------------------------------------
 TextRank
----------------------------------------
想想 1.0
转换 0.6703672480838158
财富 0.666268377692433
经历 0.5054612093359121
作家 0.4992970809035772


In [16]:
print('='*40)
print('6. Tokenize: 返回词语在原文的起止位置')
print('-'*40)
print(' 默认模式')
print('-'*40)

result = jieba.tokenize('永和服装饰品有限公司')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

print('-'*40)
print(' 搜索模式')
print('-'*40)

result = jieba.tokenize('永和服装饰品有限公司', mode='search')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

6. Tokenize: 返回词语在原文的起止位置
----------------------------------------
 默认模式
----------------------------------------
word 永和		 start: 0 		 end:2
word 服装		 start: 2 		 end:4
word 饰品		 start: 4 		 end:6
word 有限公司		 start: 6 		 end:10
----------------------------------------
 搜索模式
----------------------------------------
word 永和		 start: 0 		 end:2
word 服装		 start: 2 		 end:4
word 饰品		 start: 4 		 end:6
word 有限		 start: 6 		 end:8
word 公司		 start: 8 		 end:10
word 有限公司		 start: 6 		 end:10
