In [1]:
import jieba
import jieba.analyse

## jieba库基本应用

In [39]:
#分词
seg_list = jieba.cut("我是来自中华人民共和国湖北省武汉市武汉大学的一名大学生", cut_all=True)
print("全模式: :\n " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我是来自中华人民共和国湖北省武汉市武汉大学的一名大学生", cut_all=False)
print("精确模式:\n " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("我是来自中华人民共和国湖北省武汉市武汉大学的一名大学生")  # 默认是精确模式
print("默认模式:\n " + "/ ".join(seg_list))

seg_list = jieba.cut_for_search("我是来自中华人民共和国湖北省武汉市武汉大学的一名大学生")  # 搜索引擎模式
print("搜索模式:\n " + "/ ".join(seg_list))

全模式: :
 我/ 是/ 来自/ 中华/ 中华人民/ 中华人民共和国/ 华人/ 人民/ 人民共和国/ 共和/ 共和国/ 湖北/ 湖北省/ 武汉/ 武汉市/ 武汉/ 武汉大学/ 大学/ 的/ 一名/ 大学/ 大学生/ 学生
精确模式:
 我/ 是/ 来自/ 中华人民共和国/ 湖北省/ 武汉市/ 武汉大学/ 的/ 一名/ 大学生
默认模式:
 我/ 是/ 来自/ 中华人民共和国/ 湖北省/ 武汉市/ 武汉大学/ 的/ 一名/ 大学生
搜索模式:
 我/ 是/ 来自/ 中华/ 华人/ 人民/ 共和/ 共和国/ 中华人民共和国/ 湖北/ 湖北省/ 武汉/ 武汉市/ 武汉/ 大学/ 武汉大学/ 的/ 一名/ 大学/ 学生/ 大学生


## 添加自定义词典

In [98]:
seg_list = jieba.cut("哈利波特大声言道，'人生而自由，却无往不在枷锁中'。")
print("/ ".join(seg_list))  

哈利波/ 特大/ 声言/ 道/ ，/ '/ 人/ 生而自由/ ，/ 却/ 无往/ 不/ 在/ 枷锁/ 中/ '/ 。


In [99]:
#添加用户词典
jieba.load_userdict('userdic.txt')
seg_list = jieba.cut("哈利波特大声言道，'人生而自由，却无往不在枷锁中'。")
print("/ ".join(seg_list)) 

哈利波特/ 大声/ 言/ 道/ ，/ '/ 人/ 生而自由/ ，/ 却/ 无往/ 不/ 在/ 枷锁/ 中/ '/ 。


In [101]:
#添加词
jieba.add_word('言道')
jieba.add_word('无往不在')
seg_list = jieba.cut("哈利波特言道，'人生而自由，却无往不在枷锁中'。")
print("/ ".join(seg_list)) 

哈利波特/ 言道/ ，/ '/ 人/ 生而自由/ ，/ 却/ 无往不在/ 枷锁/ 中/ '/ 。


In [102]:
#删除词
jieba.del_word('无往不在')

seg_list = jieba.cut("哈利波特言道，'人生而自由，却无往不在枷锁中'。")
print("/ ".join(seg_list))  

哈利波特/ 言道/ ，/ '/ 人/ 生而自由/ ，/ 却/ 无往/ 不/ 在/ 枷锁/ 中/ '/ 。


## 词性标注

In [38]:
#导入词性标注的包
import jieba.posseg as pseg

words = pseg.cut("我是来自中华人民共和国湖北省武汉市武汉大学的一名大学生")

for word, flag in words:
    print('%s %s' % (word, flag))

我 r
是 v
来自 v
中华人民共和国 ns
湖北省 ns
武汉市 ns
武汉大学 nt
的 uj
一名 m
大学生 n


## 文本数据预处理

In [7]:
import re
import jieba

In [2]:
# 读入数据文件文件
content = open('hlm.txt').read()
content[:99]     #显示部分数据内容

'    上卷 第一回  甄士隐梦幻识通灵\u3000贾雨村风尘怀闺秀\n此开卷第一回也．作者自云：因曾历过一番梦幻之后，故将真事隐去，而借"通灵"之说，撰此《石头记》一书也．故曰"甄士隐"云云．但书中所记何事何'

In [3]:
#数据清理
content = re.sub(r'\n+','',content) #remove \n
content = re.sub(r' +','',content)  #remove blank
content = re.sub(r'\W+',' ',content) #replace symbols with blank
content[:99]      #显示部分文本内容

'上卷第一回甄士隐梦幻识通灵 贾雨村风尘怀闺秀此开卷第一回也 作者自云 因曾历过一番梦幻之后 故将真事隐去 而借 通灵 之说 撰此 石头记 一书也 故曰 甄士隐 云云 但书中所记何事何人 自又云 今风'

In [8]:
#分词
seg_list = list(jieba.cut(content))
print("分词结果: \n","/".join(seg_list[:99]))     #显示部分分词结果

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/zt/_gpwfbgn0919jcl5k156sjtr0000gp/T/jieba.cache
Loading model cost 0.984 seconds.
Prefix dict has been built successfully.


分词结果: 
 上卷/第一回/甄士隐/梦幻/识通灵/ /贾雨村/风尘/怀/闺秀/此/开卷/第一回/也/ /作者/自云/ /因曾/历过/一番/梦幻/之后/ /故/将/真事/隐去/ /而/借/ /通灵/ /之/说/ /撰此/ /石头记/ /一书/也/ /故曰/ /甄士隐/ /云云/ /但书中/所记/何事/何人/ /自又云/ /今/风尘碌碌/ /一事无成/ /忽/念及/当日/所有/之/女子/ /一一/细考/较/去/ /觉其/行止/见识/ /皆/出于/我/之上/ /何/我/堂堂/须眉/ /诚不若/彼/裙钗/哉/ /实愧/则/有余/ /悔/又


In [9]:
#加载停用词表
stopwords = open('stopwords.txt').read() #长字符串
stopwords = stopwords.split('\n')       #字符串按'\n'分割，构建列表类型
print("停用词: \n",",".join(stopwords[:20]))      #显示部分停用词，第一个为空格

停用词: 
  ,?,、,。,“,”,《,》,！,，,：,；,？,同志们,同时,啊,阿,哎,哎呀,哎哟


In [10]:
#去停用词
final_content = []
for seg in seg_list:
    if seg not in stopwords:
        final_content.append(seg)
print("分词结果: \n","/".join(final_content[:99]))     #显示部分处理结果

分词结果: 
 上卷/第一回/甄士隐/梦幻/识通灵/贾雨村/风尘/怀/闺秀/开卷/第一回/作者/自云/因曾/历过/一番/梦幻/之后/真事/隐去/通灵/说/撰此/石头记/一书/故曰/甄士隐/但书中/所记/何事/何人/自又云/今/风尘碌碌/一事无成/忽/念及/当日/所有/女子/一一/细考/觉其/行止/见识/皆/出于/之上/堂堂/须眉/诚不若/裙钗/实愧/有余/悔/无益/之大/无可如何/之日/自欲/已往/所赖/天恩祖/德/锦衣/纨绔/时/饫甘餍肥/日/背/父兄/教育/之恩/负/师友/规谈/之德/今日/一技无成/半生/潦倒/之罪/编述/一集/以告/天下人/罪固/闺阁/中本/历历/有人/万/不可/不肖/自护己/短/一并/使/泯灭


## 词频统计

In [17]:
#使用 counter 做词频统计，选取出现频率前 500 的词汇
from collections import Counter

counting_words = Counter(final_content)
common_words = counting_words.most_common(20)
print(common_words)

[('道', 6370), ('说', 6132), ('宝玉', 3748), ('人', 2659), ('笑', 2481), ('听', 1767), ('好', 1647), ('一个', 1451), ('只', 1301), ('贾母', 1228), ('凤姐', 1100), ('倒', 1059), ('罢', 1048), ('忙', 1021), ('王夫人', 1011), ('说道', 973), ('知道', 967), ('老太太', 966), ('吃', 952), ('问', 943)]


## 关键词提取

In [103]:
#TF-IDF算法提取关键词
key_words_TFIDF = jieba.analyse.extract_tags(content,topK=2000,withWeight=True)
key_words_TFIDF[:10]

[('宝玉', 0.11122995893205928),
 ('笑道', 0.053448859950478725),
 ('贾母', 0.0405207674424686),
 ('凤姐', 0.03672722920642641),
 ('王夫人', 0.03365584022963898),
 ('老太太', 0.029873612250538088),
 ('那里', 0.025115462209370165),
 ('什么', 0.024482714477153944),
 ('贾琏', 0.02417753087165903),
 ('太太', 0.023962716541594858)]

In [104]:
#TextRank算法提取关键词
key_words_TR = jieba.analyse.textrank(content,topK=2000,withWeight=True)
key_words_TR[:10]

[('笑道', 1.0),
 ('众人', 0.5846481316942517),
 ('只见', 0.5764328845607578),
 ('起来', 0.5684293628391204),
 ('说道', 0.5625293537728534),
 ('出来', 0.5564851494917306),
 ('姑娘', 0.5519805491146055),
 ('知道', 0.4831520517585031),
 ('太太', 0.4807813682382808),
 ('没有', 0.4797838154568143)]