# 结巴分词实践

## 结巴分词的三种模式

### 全模式

### 精确模式

In [13]:
import jieba

text = "我来到北京清华大学"
seg_list = jieba.cut(text, cut_all=False)  # cut_all=False 表示精确模式
print("[精确模式] " + "/".join(seg_list))

[精确模式] 我/来到/北京/清华大学


### 全模式

In [3]:
text = "我来到北京清华大学"
seg_list = jieba.cut(text, cut_all=True)  # cut_all=True 表示全模式
print("[全模式] " + "/".join(seg_list))

[全模式] 我/来到/北京/清华/清华大学/华大/大学


### 搜索引擎模式

In [4]:
text = "小明硕士毕业于中国科学院计算所，后在日本京都大学深造"
seg_list = jieba.cut_for_search(text)  # 搜索引擎模式专用方法
print("[搜索引擎模式] " + "/".join(seg_list))

[搜索引擎模式] 小明/硕士/毕业/于/中国/科学/学院/科学院/中国科学院/计算/计算所/，/后/在/日本/京都/大学/日本京都大学/深造


## 载入词典

In [None]:
import jieba

# 先创建或追加自定义词典（避免覆盖）
with open("userdict.txt", "a+", encoding="utf-8") as f:  # 使用 "a+" 追加模式
    f.write("自然语言处理 10 n\n")
    f.write("黄康 1000\n")

# 加载自定义词典（确保文件已存在）
jieba.load_userdict("userdict.txt")

text = "黄康即将是自然语言处理方面的高手。"

# 关闭HMM以强制使用词典
seg_list = jieba.cut(text, HMM=False)
print("分词结果: " + "/".join(seg_list))

分词结果: 黄/康/即将/是/自然语言/处理/方面/的/高手/。


In [None]:
import jieba.analyse

text = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

# 提取 top-5 关键词
keywords = jieba.analyse.textrank(text, topK=5, withWeight=False)

print(keywords)


['重点', '大学', '国家', '河北省', '共建']
