# 结巴分词实践

## 结巴分词的三种模式

### 精确模式
对句子“我来到北京清华大学”执行精确模式分词

### 全模式
对句子“我来到北京清华大学”执行全模式分词

### 搜索引擎模式
对句子“小明硕士毕业于中国科学院计算所，后在日本京都大学深造”执行搜索引擎模式分词。

In [10]:
# 导入结巴分词库  
import jieba  

# 定义要分词的句子  
sentence1 = "我来到北京清华大学"  
sentence2 = "小明硕士毕业于中国科学院计算所，后在日本京都大学深造"  

# 精确模式分词  
precision_mode = jieba.cut(sentence1, cut_all=False)  
# 全模式分词  
full_mode = jieba.cut(sentence1, cut_all=True)  
# 搜索引擎模式分词  
search_engine_mode = jieba.cut_for_search(sentence2)  

# 输出结果  
precision_result = "/ ".join(precision_mode)  
full_result = "/ ".join(full_mode)  
search_engine_result = "/ ".join(search_engine_mode)  

# 打印结果  
print("精确模式分词结果：", precision_result)  
print("全模式分词结果：", full_result)  
print("搜索引擎模式分词结果：", search_engine_result)  

精确模式分词结果： 我/ 来到/ 北京/ 清华大学
全模式分词结果： 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
搜索引擎模式分词结果： 小明/ 硕士/ 毕业/ 于/ 中国/ 科学/ 学院/ 科学院/ 中国科学院/ 计算/ 计算所/ ，/ 后/ 在/ 日本/ 京都/ 大学/ 日本京都大学/ 深造


In [8]:
# 创建自定义词典文件并写入姓名  
with open('userdict.txt', 'w', encoding='utf-8') as f:  
    f.write("王子文 10 n\n")   
    f.write("帅 10 n\n")    

In [9]:
import jieba  

# 加载自定义词典  
jieba.load_userdict('userdict.txt')  

# 定义句子  
name = "王子文"   
sentence = f"{name}即将是自然语言处理方面的高手。"  

# 进行分词，设置HMM=False  
seg_list = jieba.cut(sentence, HMM=False)  

# 输出分词结果  
print("/ ".join(seg_list))  

王子文/ 即将/ 是/ 自然语言/ 处理/ 方面/ 的/ 高手/ 。


In [11]:
import jieba  
import jieba.analyse  

# 待提取关键词的句子  
text = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"  

# 使用TextRank提取关键词  
keywords = jieba.analyse.extract_tags(text, topK=5)  

# 输出结果  
print("提取的关键词:", keywords)  

提取的关键词: ['河北省人民政府', '一流大学', '燕山大学', '学科建设', '大学']
