# 结巴分词实践  

## 结巴分词的三种模式  

### 精准模式

In [10]:
import jieba

# 待分词的句子
text = "我来到北京清华大学"

# 使用精确模式进行分词
seg_list = jieba.cut(text, cut_all=False)

# 输出分词结果，用斜杠分隔
print("精确模式结果：", "/ ".join(seg_list))

精确模式结果： 我/ 来到/ 北京/ 清华大学


### 全模式

In [13]:
import jieba

# 待分词的句子
text = "我来到北京清华大学"

# 使用全模式进行分词
seg_list = jieba.cut(text, cut_all=True)

# 输出分词结果，用斜杠分隔
print("全模式结果：", "/ ".join(seg_list))

全模式结果： 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学


### 搜索引擎模式

In [18]:
import jieba

# 待分词的句子
text = "小明硕士毕业于中国科学院计算所，后在日本京都大学深造"

# 使用搜索引擎模式进行分词
seg_list = jieba.cut_for_search(text)

# 输出分词结果，用斜杠分隔
print("搜索引擎模式结果：", "/ ".join(seg_list))

搜索引擎模式结果： 小明/ 硕士/ 毕业/ 于/ 中国/ 科学/ 学院/ 科学院/ 中国科学院/ 计算/ 计算所/ ，/ 后/ 在/ 日本/ 京都/ 大学/ 日本京都大学/ 深造


In [1]:
import jieba.analyse

# 待提取关键词的文本
text = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

# 使用 TF-IDF 算法提取关键词，topK=5 表示提取前 5 个关键词
# withWeight=False 表示不返回关键词的权重
keywords_tfidf = jieba.analyse.extract_tags(text, topK=5, withWeight=False)

# 输出基于 TF-IDF 算法提取的关键词
print("基于 TF-IDF 算法提取的 Top 5 关键词：", keywords_tfidf)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Userdata\AppData\Local\Temp\jieba.cache
Loading model cost 0.370 seconds.
Prefix dict has been built successfully.


基于 TF-IDF 算法提取的 Top 5 关键词： ['河北省人民政府', '一流大学', '燕山大学', '学科建设', '大学']


In [3]:
import jieba.analyse

# 待提取关键词的文本
text = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

# 使用 TextRank 算法提取关键词，topK=5 表示提取前 5 个关键词
# withWeight=False 表示不返回关键词的权重
keywords_textrank = jieba.analyse.textrank(text, topK=5, withWeight=False)

# 输出基于 TextRank 算法提取的关键词
print("基于 TextRank 算法提取的 Top 5 关键词：", keywords_textrank)

基于 TextRank 算法提取的 Top 5 关键词： ['重点', '大学', '国家', '河北省', '共建']


## 载入词典

In [1]:
import jieba
seg_list = jieba.cut("喻龙即将是自然语言处理方面的高手。", HMM=False)
print("/".join(seg_list))

Building prefix dict from the default dictionary ...
Loading model from cache C:\Userdata\AppData\Local\Temp\jieba.cache
Loading model cost 0.384 seconds.
Prefix dict has been built successfully.


喻/龙/即将/是/自然语言/处理/方面/的/高手/。
