# 结巴分词实践

## 结巴分词的三种模式

### 全模式

In [1]:
import jieba
seg_list = jieba.cut("我来到北京清华大学",cut_all=True)
print("Full Mode: "+"/".join(seg_list)) # 全模式

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\15113\AppData\Local\Temp\jieba.cache
Loading model cost 1.759 seconds.
Prefix dict has been built successfully.


Full Mode: 我/来到/北京/清华/清华大学/华大/大学


### 精确模式

In [3]:
seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
print("Default Mode: "+"/".join(seg_list)) #精确模式

Default Mode: 我/来到/北京/清华大学


In [4]:
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") # 搜索引擎模式
print(",".join(seg_list))

小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,，,后,在,日本,京都,大学,日本京都大学,深造


## 载入词典

In [3]:
import jieba
jieba.load_userdict("userdict.txt")
seg_list = jieba.cut("林泽松即将是自然语言处理方面的高手", cut_all = False, HMM=False)
print("Default Mode: " + "/".join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\15113\AppData\Local\Temp\jieba.cache
Loading model cost 1.692 seconds.
Prefix dict has been built successfully.


Default Mode: 林泽松/即将/是/自然语言/处理/方面/的/高手


In [1]:
#encoding=utf-8
from __future__ import unicode_literals
import sys
sys.path.append("../")

import jieba
import jieba.posseg
import jieba.analyse

sentence = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

print('='*40)
print(' TF-IDF')
print('-'*40)

# 使用 TF-IDF 提取前 5 个关键词
top_5_keywords_tfidf = jieba.analyse.extract_tags(sentence, topK=5, withWeight=True)
for keyword, weight in top_5_keywords_tfidf:
    print(f'{keyword} {weight}')

print('-'*40)
print(' TextRank')
print('-'*40)

# 使用 TextRank 提取前 5 个关键词
top_5_keywords_textrank = jieba.analyse.textrank(sentence, topK=5, withWeight=True)
for keyword, weight in top_5_keywords_textrank:
    print(f'{keyword} {weight}')
    

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\15113\AppData\Local\Temp\jieba.cache


 TF-IDF
----------------------------------------


Loading model cost 1.782 seconds.
Prefix dict has been built successfully.


河北省人民政府 0.47415056901111113
一流大学 0.4634956774407407
燕山大学 0.4427691667740741
学科建设 0.42955898366666667
大学 0.4232750535222222
----------------------------------------
 TextRank
----------------------------------------
重点 1.0
大学 0.9635631335578456
国家 0.9273412563201143
河北省 0.6235965850264276
共建 0.5433775103953393
