In [1]:
import jieba

## 1 分词

In [6]:
seg_list = jieba.cut("让我们走上这条成神之路，北京交通大学毕业生", cut_all=False)
print("【精确模式】：" + '/'.join(seg_list))

seg_list = jieba.cut("让我们走上这条成神之路，北京交通大学毕业生", cut_all=True)
print("【全模式】：" + '/'.join(seg_list))

seg_list = jieba.cut_for_search("让我们走上这条成神之路，北京交通大学毕业生")
print("【搜索引擎模式】：" + '/'.join(seg_list))

【精确模式】：让/我们/走上/这条/成神/之路/，/北京/交通/大学/毕业生
【全模式】：让/我们/走上/这条/成/神/之路///北京/交通/大学/大学毕业/毕业/毕业生/业生
【搜索引擎模式】：让/我们/走上/这条/成神/之路/，/北京/交通/大学/毕业/业生/毕业生


#可以看出全模式和搜索引擎模式会将一个有歧义的词划分一下，然后将字典中的所有可能加入到输出中。

## 2 自定义词典

In [2]:
seg_list = jieba.cut("我是我北京交通大学毕业生")
print("【使用自定义词典前】：" + '/'.join(seg_list))

jieba.load_userdict("user_dict.txt")
seg_list = jieba.cut("我是我北京交通大学毕业生")
print("【使用自定义词典后】：" + '/'.join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\11394\AppData\Local\Temp\jieba.cache
Loading model cost 1.233 seconds.
Prefix dict has been built succesfully.
【使用自定义词典前】：我/是/我/北京/交通/大学/毕业生
【使用自定义词典后】：我/是/我/北京交通大学/毕业生


#可以看出，加载词典后的精确分词模式会直接使用词典里的词。cut_all=True换成全模式，在原输出上，也会加上自定义词典里定义的词。

## 3 调整词典

In [16]:
# 1. 删除
seg_list = jieba.cut("与人交往要有一好")
print("【删除前】：" + '/'.join(seg_list))

jieba.del_word("一好")
seg_list = jieba.cut("与人交往要有一好")
print("【删除后】：" + '/'.join(seg_list))

【删除前】：与/人/交往/要/有/一好
【删除后】：与/人/交往/要/有/一/好


In [2]:
# 2. 添加
seg_list = jieba.cut("与人交往要有一好")
print("【添加前】：" + '/'.join(seg_list))

jieba.add_word("与人")
seg_list = jieba.cut("与人交往要有一好")
print("【添加后】：" + '/'.join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\11394\AppData\Local\Temp\jieba.cache
Loading model cost 1.007 seconds.
Prefix dict has been built succesfully.
【添加前】：与/人/交往/要/有/一好
【添加后】：与人/交往/要/有/一好


In [2]:
# 3. 修改词频
seg_list = jieba.cut("与人交往要有一好")
print("【修改前】：" + '/'.join(seg_list))

print(jieba.suggest_freq("与人", True))
seg_list = jieba.cut("与人交往要有一好")
print("【修改后】：" + '/'.join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\11394\AppData\Local\Temp\jieba.cache
Loading model cost 0.979 seconds.
Prefix dict has been built succesfully.
【修改前】：与/人/交往/要/有/一好
839
【修改后】：与人/交往/要/有/一好


## 4 关键词提取

In [9]:
from jieba import analyse
#原始文本
text = "这个仓库的目的是为了将我接下来学习 nlp 的路线做一下记录，包括测试代码、练手项目还有自己的学习笔记。同时也是为了养成一个写文档的好习惯，希望可以更好地梳理知识，并且为大家的浏览带来便利"

# TF-IDF
tfidf = analyse.extract_tags
keywords = tfidf(text)
print('【TF-IDF】：')
for keyword in keywords:
    print(keyword + '/', end="")

# Textrank
textrank = analyse.textrank
keywords = textrank(text)
print('\n\n【Textrank】：')
for keyword in keywords:
    print(keyword + '/', end="")

【TF-IDF】：
nlp/测试代码/练手/学习/文档/为了/浏览/梳理/笔记/养成/仓库/便利/接下来/路线/记录/知识/更好/习惯/目的/并且/

【Textrank】：
还有/大家/测试代码/项目/文档/包括/习惯/练手/希望/目的/仓库/梳理/记录/知识/浏览/带来/学习/养成/笔记/路线/

## 5 词性标注

In [11]:
import jieba.posseg as pseg
words = pseg.cut('今天我做了不少事情')
for word, flag in words:
    print(word + ' : ' + flag)

今天 : t
我 : r
做 : v
了 : ul
不少 : d
事情 : n


## 6 并行分词

In [14]:
jieba.enable_parallel(4) #开启，并行进程数
jieba.enable_parallel() # 关闭

NotImplementedError: jieba: parallel mode only supports posix system

## 7 返回词语在原文起止位置

In [18]:
result = jieba.tokenize('今天我做了不少事情')
for token in result:
    print('%s\t\t%s\t\t%s' % (token[0], token[1], token[2]))

今天		0		2
我		2		3
做		3		4
了		4		5
不少		5		7
事情		7		9


## 8 延迟加载机制

In [20]:
jieba.initialize()