# 结巴分词实践

## 结巴分词的三种模式

In [4]:
import jieba

### 精确模式

In [5]:
text1 = "我来到北京清华大学"
seg_list = jieba.cut(text1, cut_all=False)
print("精确模式: " + "/".join(seg_list))

精确模式: 我/来到/北京/清华大学


### 全模式

In [6]:
seg_list = jieba.cut(text1, cut_all=True)
print("全模式: " + "/".join(seg_list))

全模式: 我/来到/北京/清华/清华大学/华大/大学


### 搜索引擎模式

In [13]:
text2 = "小明硕士毕业于中国科学院计算所，后在日本京都大学深造"
seg_list = jieba.cut_for_search(text2)
print("搜索引擎模式: " + ",".join(seg_list))

搜索引擎模式: 小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,，,后,在,日本,京都,大学,日本京都大学,深造


In [14]:
with open("userdict.txt", "w", encoding="utf-8") as f:
    f.write("古中权\n")

## 载入词典

In [16]:
jieba.load_userdict("userdict.txt")
seg_list = jieba.cut("古中权即将是自然语言处理方面的高手", cut_all=False, HMM=False)
print("Default Mode: "+"/".join(seg_list))

Default Mode: 古中权/即将/是/自然语言/处理/方面/的/高手


In [18]:
import jieba.analyse
text = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"

keywords = jieba.analyse.textrank(
    text, 
    topK=5,      
    withWeight=False, 
    allowPOS=('ns', 'n', 'vn', 'v')  # 允许的词性：地名、名词、动名词、动词（默认不限制）
)

print("Top-5 关键词:", keywords)

Top-5 关键词: ['重点', '大学', '国家', '河北省', '共建']
