# 结巴分词实践

## 结巴分词的三种模式

In [5]:
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学


In [6]:
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

Default Mode: 我/ 来到/ 北京/ 清华大学


In [7]:
seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

他, 来到, 了, 网易, 杭研, 大厦


In [8]:
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


In [9]:
import jieba

# 加载自定义词典
jieba.load_userdict("userdict.txt")

# 测试自定义词典
sentence = "Wiz和吴正超是好朋友"
seg_list = jieba.cut(sentence, cut_all=False)
print("/".join(seg_list))

Wiz/和/吴正超/是/好/朋友


## 载入词典

In [10]:
import jieba

# 加载自定义词典
jieba.load_userdict("userdict.txt")

# 设置 HMM=False，对句子进行分词
sentence = "吴正超即将是自然语言处理方面的高手。"
seg_list = jieba.cut(sentence, HMM=False)

# 输出分词结果
print("/".join(seg_list))

吴正超/即将/是/自然语言/处理/方面/的/高手/。


## 关键词提取实践（TextRank）

In [12]:
import jieba.analyse

# 输入句子
sentence = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

# 使用 TextRank 算法提取 top-5 关键词
keywords = jieba.analyse.textrank(sentence, topK=5, withWeight=True, allowPOS=('n', 'ns', 'nr'))

# 输出关键词及其权重
for keyword, weight in keywords:
    print(f"{keyword}: {weight}")

大学: 1.0
重点: 0.9786240082731242
国家: 0.875747861419559
高校: 0.679035243747539
北京: 0.6685252150846404
