# 结巴分词实践

## 结巴分词的三种模式

### 全模式

In [4]:
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\19925\AppData\Local\Temp\jieba.cache
Loading model cost 0.466 seconds.
Prefix dict has been built successfully.


Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学


### 精确模式

In [5]:
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

Default Mode: 我/ 来到/ 北京/ 清华大学


### 搜索引擎模式

In [7]:
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


## 载入词典

In [9]:
jieba.load_userdict("userdict.txt")
seg_list = jieba.cut("吴杰润即将是自然语言处理方面的高手", cut_all=False,HMM=False)
print("Default Mode: " + "/ ".join(seg_list))

Default Mode: 吴杰润/ 即将/ 是/ 自然语言/ 处理/ 方面/ 的/ 高手


## 关键词提取实践

In [11]:
import jieba.analyse

sentence = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

keywords = jieba.analyse.textrank(
    sentence,
    topK=5,
    withWeight=True
)

# 输出结果
for keyword, weight in keywords:
    print(f"{keyword}: {weight:.4f}")

重点: 1.0000
大学: 0.9636
国家: 0.9273
河北省: 0.6236
共建: 0.5434
