# 结巴分词实践

In [2]:
import jieba
text = "我要机器学习"
seg_list = jieba.cut(text)
print("|".join(seg_list))

我要|机器|学习


## 结巴分词的三种模式

In [3]:
import jieba

# 加载自定义词典（确保路径正确！）
jieba.load_userdict("userdict.txt")  # 若文件在其他路径，需写绝对路径如 "./data/userdict.txt"

# 测试分词
text = "黄宇轩正在研究机器学习"
seg_list = jieba.cut(text)
print("|".join(seg_list))

黄宇轩|正在|研究|机器学习


### 精确模式

In [4]:

import jieba

# 精确模式（默认模式）
text = "我喜欢上机器学习"
seg_list = jieba.cut(text, cut_all=False)
print("精确模式分词结果：", "|".join(seg_list))

精确模式分词结果： 我|喜欢|上|机器学习


###  全模式

In [5]:
# 全模式（切出所有可能词语）
text = "我喜欢上机器学习"
seg_list = jieba.cut(text, cut_all=True)
print("全模式分词结果：", "|".join(seg_list))

全模式分词结果： 我|喜欢|上机|机器|机器学习|学习


搜索引擎模式

In [6]:
# 搜索引擎模式（对长词再切分）
text = "小明硕士毕业于广州城市理工大学，后在华南理工大学深造"
seg_list = jieba.cut_for_search(text)
print("搜索引擎模式分词结果：", "|".join(seg_list))

搜索引擎模式分词结果： 小明|硕士|毕业|于|广州|城市|理工|工大|大学|理工大|理工大学|，|后|在|华南|理工|工大|大学|南理工|理工大|华南理工大学|深造


### 载入词典

In [7]:
import jieba

# 动态添加用户姓名到词典（替换"***"为你的真实姓名）
your_name = "黄宇轩"  # 示例姓名，请修改为你的真实姓名
jieba.add_word(your_name, freq=10000, tag='nr')  # 高频确保优先切分

# 使用精确模式且关闭HMM新词发现
sentence = f"{your_name}即将是自然语言处理方面的高手。"
seg_list = jieba.cut(sentence, HMM=False)

print("分词结果：", "|".join(seg_list))

分词结果： 黄宇轩|即将|是|自然语言|处理|方面|的|高手|。



关键词提取实践

In [8]:
import jieba.analyse

# 原始文本
text = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

# 使用TextRank算法提取top5关键词（不显示权重）
keywords = jieba.analyse.textrank(text, topK=5, withWeight=False)

print("Top-5关键词：", keywords)

Top-5关键词： ['重点', '大学', '国家', '河北省', '共建']
