# 结巴分词实践

## 结巴分词的三种实践

### 精确模式

In [12]:
# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

Default Mode: 我/ 来到/ 北京/ 清华大学


### 全模式

In [13]:
# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式


Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学


### 搜索引擎模式

In [14]:
# encoding=utf-8
import jieba

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造


## 载入词典

In [16]:
jieba.load_userdict("userdict.txt")
seg_list = jieba.cut("钱伯斯即将是自然语言处理方面的高手",cut_all=False,HMM=False)
print("Default Mode: "+"/".join(seg_list))

Default Mode: 钱伯斯/即将/是/自然语言/处理/方面/的/高手


## 基于TextRank算法的关键词抽取

In [23]:
#encoding=utf-8
from __future__ import unicode_literals
import sys
sys.path.append("../")

import jieba
import jieba.posseg
import jieba.analyse


print('='*40)
print('关键词提取')
print('-'*40)
print(' TF-IDF')
print('-'*40)

s = "燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。"
for x, w in jieba.analyse.extract_tags(s, withWeight=True):
    print('%s %s' % (x, w))

print('-'*40)
print(' TextRank')
print('-'*40)

result = jieba.tokenize('燕山大学是河北省人民政府、教育部、工业和信息化部、国家国防科技工业局四方共建的全国重点大学，河北省重点支持的国家一流大学和世界一流学科建设高校，北京高科大学联盟成员。', mode='search')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1]，tk[2]))

关键词提取
----------------------------------------
 TF-IDF
----------------------------------------
河北省人民政府 0.47415056901111113
一流大学 0.4634956774407407
燕山大学 0.4427691667740741
学科建设 0.42955898366666667
大学 0.4232750535222222
国防科技 0.40035685920740743
工业局 0.3901252526666667
重点 0.3890838260844444
共建 0.34656973591518514
高科 0.3149079611281482
教育部 0.3118532862455556
高校 0.2988442657292593
国家 0.29632928830814814
一流 0.29368206711814815
四方 0.290514579212963
信息化 0.28711886503925926
河北省 0.28680365431074073
联盟 0.2550319741
成员 0.22806821098333335
支持 0.18803813714
----------------------------------------
 TextRank
----------------------------------------


TypeError: not enough arguments for format string