# 自然语言处理——运用Python jieba库实现小说人物角色抽取

## 
本文运用自然语言处理技术，对中文小说《神雕侠侣》人物关系进行抽取，通过社会网络分析法对人物关系进行分析，使文学研究者、社会学家和普通读者对小说人物关系和背景有更全面的认识
## 自然语言处理技术
自然语言处理（NLP）是一门融语言学、计算机科学、数学于一体的科学。国外学者于20世纪40年代末至50年代初开始NLP相关的研究，近年来，随着人工智能和计算机技术的发展，自然语言处理（NLP）已经成为一个重要的人工智能发展方向，目前已广泛的应用于机器翻译、问答系统、文本分类、信息检索、自动文本摘要等领域。中文的自然语言处理相对于英文还是有诸多差异的，英文是以空格来区分词语，每一个单词即是一个词语，而中文则是以字为字符单位，以词语来表达意思，而且存在一词多义、多词一义等情况，所以相对于英文来说，中文的自然语言处理更为艰难。分词、词性标注、句法分析是中文自然语言处理的三大基本任务，本文主要应用分词、词性标注两类处理技术。
## jieba库基本介绍
### jieba库概述 
jieba是优秀的中文分词第三方库 
中文文本需要通过分词获得单个的词语
jieba是优秀的中文分词第三方库，需要额外安装
jieba库提供三种分词模式，最简单只需掌握一个函数
### jieba分词的原理
Jieba分词依靠中文词库 
利用一个中文词库，确定汉字之间的关联概率
汉字间概率大的组成词组，形成分词结果
除了分词，用户还可以添加自定义的词组
### jieba库的优点
- 支持三种分词模式：
- - 精确模式，试图将句子最精确地切开，适合文本分析；
- - 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
- - 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。



## 安装jieba：

命令行安装方法

```
pip3 install jieba
```

jupyter notebook中的安装方法

```
!pip3 install jieba
```

In [11]:
!pip3 install jieba



## jieba库常用函数
### 分词

|代码|功能|
|---|---|
|jieba.cut(s)|精确模式，返回一个可迭代的数据类型|
|jieba.cut(s，cut_all=True)|全模式，输出文本s中所有可能单词|
|jieba.cut_for_search(s)|搜索引擎模式，适合搜索建立索引的分词|
|jieba.lcut(s)|精确模式，返回一个列表类型，常用|
|jieba.lcut(s，cut_all=True)|全模式，返回一个列表类型，常用|
|jieba.lcut_for_search(s)|搜索引擎模式，返回一个列表类型，常用|
|jieba.add_word(w)|向词典中增加新词|

### 词性标注
Jieba0.39版本提供55种词性标注，部分符号及含义如表1所示。由表1可知，人名被标注为nr,因此对小说进行分词和词性标注后的文本进行进一步提取，提取出词性为nr的词作为人物角色名称，即可构建角色列表。


In [12]:
import jieba

text = '我来到北京清华大学'
wordlist = jieba.lcut(text)
wordlist

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\z\AppData\Local\Temp\jieba.cache
Loading model cost 1.717 seconds.
Prefix dict has been built succesfully.


['我', '来到', '北京', '清华大学']

### jieba分词的简单应用
使用 jieba 分词对一个文本进行分词，统计长度大于2，出现次数最多的词语，这里以《神雕侠侣》为例

import jieba

txt = open("D:\软件\python\神雕侠侣-网络版.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)     # 使用精确模式对文本进行分词
counts = {}     # 通过键值对的形式存储词语及其出现的次数

for word in words:
    if len(word) == 1:    # 单个词语不计算在内
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍历所有词语，每出现一次其对应的值加 1

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序

for i in range(3):
    word, count = items[i]
    print("{0:<5}{1:>5}".format(word, count))

In [1]:
import jieba

txt = open("神雕侠侣-网络版.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)     # 使用精确模式对文本进行分词
counts = {}     # 通过键值对的形式存储词语及其出现的次数

for word in words:
    if len(word) == 1:    # 单个词语不计算在内
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍历所有词语，每出现一次其对应的值加 1

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序

for i in range(len(items)):
    word, count = items[i]
    print("{0:<5}{1:>5}".format(word, count))

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/rr/6m7nhd_d0296rq7gjqlf0gsr0000gn/T/jieba.cache
Loading model cost 0.702 seconds.
Prefix dict has been built succesfully.


杨过    4575
小龙女   2012
说道    1450
甚么    1353
自己    1202
李莫愁   1011
一个     991
武功     940
郭靖     874
心中     872
黄蓉     791
一声     738
法王     722
不知     700
咱们     697
二人     685
心想     626
师父     605
蒙古     605
只是     590
陆无双    577
周伯通    573
此时     567
如此     559
当下     555
突然     552
弟子     537
只见     529
两人     499
不是     499
知道     494
赵志敬    482
出来     467
如何     454
之中     442
他们     427
不能     419
不敢     418
今日     417
便是     414
原来     413
功夫     408
眼见     406
却是     404
这时     397
虽然     392
郭襄     392
于是     389
身上     371
金轮法王   371
两个     369
姑姑     363
身子     361
长剑     346
众人     340
当真     334
脸上     334
喝道     331
左手     329
你们     326
这般     325
裘千尺    325
伸手     320
性命     308
登时     303
说话     301
过去     299
跟着     299
怎么     297
问道     297
正是     292
兵刃     289
不禁     287
我们     284
之下     284
姑娘     284
过儿     280
当即     277
女儿     276
一招     273
这么     272
霍都     272
耶律齐    272
起来     270
襄阳     270
不由得    269
少女     267
大声     267
之后     263
难道     263
绿萼     263

群兽      27
安慰      26
着实      26
分手      26
这场      26
逝世      26
飞舞      26
四大      26
双方      26
睡着      26
不由自主    26
巧妙      26
情意      26
十余招     26
数里      26
跌倒      26
回过      26
气息      26
思索      26
本门      26
次日      26
我来      26
昨晚      26
那姓      26
仇人      26
化解      26
必定      26
吃惊      26
拳脚      26
幸好      26
四字      26
小孩儿     26
这么一来    26
几乎      26
太过      26
轻身      26
无用      26
一年      26
豪杰      26
身躯      26
自负      26
试试      26
应道      26
淡淡的     26
决无      26
决不会     26
茅屋      26
铁锤      26
窗外      26
坐骑      26
老丐      26
雪地      26
焉能      26
老和尚     26
向法王     26
天竺      26
赵二人     26
王旗      26
大嫂      26
台上      26
当地      25
泪水      25
娃娃      25
两截      25
抓起      25
行走      25
墙头      25
取过      25
点穴      25
自尽      25
出家      25
不得不     25
好玩      25
打个      25
长气      25
击落      25
贱人      25
平平      25
大出      25
老头儿     25
数月      25
不顾      25
去势      25
舞动      25
毒蛇      25
之士      25
郭靖心     25
长啸      25
法门      25
张望      25
领会      25

再强      15
刺伤      15
因为      15
天地      15
杨过奇     15
一阵阵     15
起初      15
气闷      15
奇妙      15
路子      15
提醒      15
关头      15
出鞘      15
三剑      15
喉头      15
杨过相     15
悠悠      15
逃命      15
真情      15
惊惧      15
柔情      15
这条      15
精湛      15
见过      15
六个      15
竭力      15
断骨      15
火堆      15
医治      15
负着      15
之计      15
老天爷     15
骑马      15
一摆      15
只用      15
自会      15
人皮      15
拚斗      15
扰乱      15
杨兄      15
鬼鬼祟祟    15
五丑      15
瘦马      15
黄蓉叫     15
之徒      15
黄蓉微微    15
转世      15
莽撞      15
石阵      15
玉箫剑     15
铁匠      15
围住      15
尽头      15
铜轮      15
活命      15
独孤求败    15
四头      15
彩雪蛛     15
蛛网      15
石梁      15
大头      15
郭襄笑     15
龙象      15
万人队     15
以及      14
中有      14
传到      14
丛中      14
所用      14
近前      14
二女      14
猛力      14
一大块     14
脖子      14
未能      14
可说是     14
盛怒之下    14
急跃      14
学得      14
深仇      14
来此      14
好教      14
清脆      14
追上      14
只想      14
大多      14
来得及     14
一刻      14
刀法      14
华山论剑    14
不堪      14

罢手      10
傻姑道     10
便会      10
玉镯      10
谷去      10
十二个     10
公孙      10
那谷主     10
你死我活    10
金龙      10
十六名     10
二十余年    10
截住      10
名目      10
不假      10
第二件     10
公孙止见    10
佛经      10
鄂尔多     10
为国为民    10
下令      10
千人队     10
敌营      10
丧命      10
花豹      10
中央      10
一雕      10
反复      10
李道长     10
哪里      10
板壁      10
刘贵妃     10
蓝天      10
坠入      10
陈大方     10
万兽      10
头陀      10
人厨子     10
柔情密意     9
传入       9
须发       9
玩耍       9
撇下       9
走入       9
仰起       9
大嚷       9
地来       9
小脸       9
滚来滚去     9
包扎       9
痛哭       9
现今       9
烟雾       9
似要       9
拔起       9
并肩而立     9
插入       9
摘下       9
亲眼见到     9
血手印      9
心狠手辣     9
含泪       9
婢女       9
小嘴       9
阿根       9
家里       9
飞跃       9
问话       9
风中       9
天井       9
割断       9
粗浅       9
称谢       9
援手       9
哭泣       9
有关       9
辈份       9
一节       9
白色       9
孤身一人     9
非常       9
不好意思     9
气急       9
大明       9
平日       9
黑沉沉      9
大增       9
无幸       9
分从       9
插手       9
肤色       9

大气       7
月亮       7
百端       7
反驳       7
后堂       7
杀气       7
坏事       7
相干       7
定会       7
练习       7
气喘吁吁     7
衣角       7
三月       7
一招一式     7
天罗地网     7
屋子       7
杨过进      7
仰望       7
十六岁      7
多久       7
无处       7
步步       7
专心       7
并排       7
感应       7
首座       7
神不守舍     7
休想       7
斗到       7
庞大       7
迈开       7
与其       7
但知       7
杨过剑      7
再也不能     7
立誓       7
喘息       7
一块儿      7
借给       7
生得       7
嫡传       7
忧色       7
作势       7
脸露       7
晶莹       7
数度       7
荆棘       7
秘道       7
做梦       7
巨骨       7
低低的      7
角落       7
桌旁       7
斗不过      7
筋脉       7
换上       7
机括       7
周密       7
毒液       7
未得       7
实难       7
模糊       7
别伤       7
扣住       7
发麻       7
遗刻       7
活不成      7
喜出望外     7
恁地       7
原该       7
回复       7
幸亏       7
大队       7
少有       7
命苦       7
复生       7
真力       7
十六个      7
过世       7
秘密       7
闭上       7
深山       7
刻下       7
深自       7
打通       7
约略       7
一冲       7
好极       7
斗了起来     7
妒忌       7
不明不白     7

立毙       5
发力       5
左袖       5
再图       5
直飞       5
如许       5
难救       5
旁跃开      5
捏住       5
第一句      5
疼爱       5
依法       5
正说       5
茶馆       5
太湖       5
倒塌       5
驾临       5
斗斗       5
越大       5
出自       5
凑近       5
皮肉       5
毒血       5
血中       5
传送       5
化境       5
足步       5
果有       5
威势       5
难敌       5
扶持       5
作别       5
余毒       5
眉目       5
再试       5
采药       5
吹灭       5
传过       5
教得       5
这几年来     5
真情流露     5
一百个      5
应手       5
走遍       5
天涯海角     5
脑子       5
想不起来     5
吐血       5
下见       5
而复       5
稳重       5
东南       5
将要       5
黄蓉双      5
疯病       5
未愈       5
未毕       5
直是       5
微风       5
相应       5
骨折       5
逼开       5
电光石火     5
失色       5
郭靖相      5
半丈       5
七八里      5
房屋       5
机伶       5
一所       5
生病       5
庄丁       5
用过       5
墙外       5
预备       5
庙门       5
探视       5
柯瞎子      5
何话       5
击下       5
旁听       5
受损       5
击敌       5
触手       5
大漠       5
义弟       5
金星       5
绕到       5
关键       5
耳鼓       5
放轻       5

会见       4
许配给      4
清秀       4
傻小子      4
一揖到      4
安静       4
瓦盆       4
回合       4
欢叫       4
傲气       4
毒虫       4
讨饶       4
放屁       4
两拳       4
伤痕       4
安置       4
压倒       4
花木       4
诉说       4
但是       4
凉风       4
数说       4
烧烤       4
充饥       4
闪避不及     4
独立       4
孤寂       4
色道       4
偏袒       4
门中       4
大同小异     4
你老       4
七位       4
多问       4
旋转       4
奇高       4
读书       4
再教       4
它们       4
但感       4
百无聊赖     4
早饭       4
之变       4
斜睨       4
所教       4
脚踢       4
灵光       4
拳术       4
本有       4
章法       4
他头       4
爆裂       4
运用       4
落魄       4
一杖       4
豁出       4
怎么样      4
一地       4
耽误       4
修心养性     4
景色       4
不回       4
决绝       4
你生       4
普光寺      4
冷淡       4
造物       4
爱护       4
面上       4
死因       4
近来       4
兴旺       4
解困       4
嗓门       4
洪亮       4
远近       4
分向       4
沉着脸      4
刺来       4
宫学艺      4
发呆       4
险峻       4
自空       4
俯视       4
绝学       4
微见       4
相击       4
敌机       4
洞开       4
自由       4
易易       4

居民       3
撞开       3
脚掌       3
这一杖      3
朱聪       3
头盖       3
中行       3
常用       3
牛刀       3
腰胁       3
直冒       3
钟旁       3
钟后       3
细辨       3
耳音       3
虽失       3
累死       3
架上       3
虽利       3
连翻       3
仇深似      3
挖掘       3
珍贵       3
洞孔       3
那口钟      3
恋恋不舍     3
查看       3
伤者       3
上午       3
下午       3
哀哀       3
上船       3
衰迈       3
往昔       3
处分       3
诸长老      3
会商       3
郭啸天      3
不端       3
郭杨       3
言下       3
怃然       3
感激不尽     3
应允       3
屋里       3
杨哥哥      3
挑出       3
张开巨      3
洋洋得意     3
叽叽       3
鸣叫       3
杨过拾      3
扭曲       3
共居       3
这拳       3
双拳       3
杨过伏      3
有力       3
滑腻       3
砸死       3
无路可走     3
跳下去      3
瞥眼       3
后果       3
推去       3
六七丈      3
推在       3
红肿       3
小艇       3
石缝       3
暮色苍茫     3
星星       3
围坐       3
唾抹       3
中站       3
天没亮      3
摸摸       3
天边       3
梦中       3
下峰       3
磕过       3
他顿       3
所杀       3
郭芙向      3
本书       3
妙手       3
论语       3
舒泰       3
进益       3
早晨       3
黄蓉教      3

酒过三巡     3
牡丹       3
群贤       3
主为       3
云游       3
诛杀       3
盛年       3
始料       3
之所及      3
无计       3
手到拿来     3
素闻       3
出马       3
不调       3
步出       3
数位       3
夹着尾巴     3
污辱       3
尝尝       3
家丁       3
字刚       3
幽香       3
脚胫       3
棒影       3
右扇       3
霍都心      3
这一棒      3
两端       3
绿影       3
洞庭湖      3
幻术       3
交还       3
以求       3
蛮子       3
一折       3
比起       3
算得       3
连郭靖      3
各使       3
往上       3
不收       3
注目       3
何妙策      3
第一场      3
正是如此     3
上驷       3
兵法       3
马与齐      3
马赛       3
结盟       3
为礼       3
之邦       3
薄雾       3
波折       3
叙话       3
登生       3
中华       3
毛笔       3
文武       3
划来划去     3
之妙       3
不仅       3
一横       3
草书       3
弹去       3
阵前       3
自言帖      3
唐代       3
张旭       3
笔法       3
已处       3
得儿       3
有似       3
通神       3
奇观       3
既强       3
脉脉含情     3
伤身       3
发响       3
大篆       3
便识       3
更乱       3
突感       3
朱师叔      3
他会       3
痛斥       3
应战       3
答不出      3
钢铁       3
惨状       3
铁交鸣      3

史大哥      3
命在旦夕     3
另一头      3
豁达       3
快得       3
十五年      3
郭襄喜      3
豪气       3
死尸       3
发兵       3
焦雷       3
眼前一亮     3
一抓       3
养生       3
激将       3
拳来       3
伏魔拳      3
一十七招     3
杞人忧天     3
掌力之      3
一十七路     3
四路       3
一错       3
郭襄行      3
旋儿       3
名望       3
郭襄怒      3
沉稳       3
猛将       3
气绝       3
狗熊       3
御驾亲征     3
两条腿      3
提声       3
鬼神       3
匠人       3
一持       3
合城       3
陆抗       3
胯子       3
统领       3
不三不四     3
席地而坐     3
折扇       3
金冠       3
这枝       3
雪参       3
少林       3
为争       3
纸扇       3
几行字      3
郭襄房      3
兵势       3
首席       3
遍布       3
深藏不露     3
后花园      3
爆炸       3
胶水       3
整齐       3
巧手       3
隔得       3
接令       3
两件事      3
何兄       3
齐儿       3
藏边       3
巡查       3
旗斗中      3
拿上来      3
校场口      3
见不着      3
约期       3
三头六臂     3
必践       3
落马       3
二鬼       3
铁桶       3
马向前      3
传以       3
三月初      3
半幅       3
气流       3
这粒       3
深潭       3
细字       3
缘绳       3
玉枕       3
四门       3
扈驾亲      3
生力军      3

并不知道     2
惭怒       2
传女       2
抢近       2
未用过      2
竟全       2
莫理       2
左掌横      2
怪极       2
避招       2
别出心裁     2
弑师       2
交攻       2
缓急       2
双力       2
一凝持      2
三路       2
摸清       2
如初       2
制敌       2
掌力沉      2
压向       2
无名指      2
木兰       2
发个       2
愈惊       2
刚一       2
大口       2
喷得       2
多前       2
无劲力      2
实右       2
发黑       2
妙龄       2
会武       2
心悸       2
执拾       2
上上下下     2
怪法       2
反笑       2
两锭       2
装出       2
砍柴       2
手去       2
捧住       2
乱草       2
要活       2
抵在       2
疑惑       2
不怀       2
之难       2
顺眼       2
田地       2
嚷起来      2
跟得上      2
象牙       2
白得       2
转怒       2
近年       2
门武学      2
锻羽       2
此念       2
遥远       2
准要       2
劈成       2
赶跑       2
大坟       2
醒来时      2
快领       2
通往       2
傻得       2
墓前       2
大石碑      2
心绪       2
东一转      2
生疑       2
私自       2
泰然       2
平剑       2
克制不住     2
鸣咽       2
一滩       2
短促       2
天缘       2
你治伤      2
有话       2
迫不及待     2
针儿       2
染上       2
京门       2
自通       2

杨过均      2
四十年      2
一片至诚     2
要出       2
害得       2
反覆思量     2
桌面上      2
未乾       2
瞠目       2
马厩       2
催马       2
斗逢       2
一问一答     2
马神骏      2
店主人      2
叫骂       2
活口       2
能救       2
追及       2
久攻不下     2
这几人      2
想通       2
太极       2
妙术       2
深究       2
右翼       2
前锋       2
惊佩无已     2
出类拔萃     2
有隙可乘     2
哑穴       2
疾飞       2
飞回       2
黄蓉抱      2
省得       2
两堆       2
并世       2
自给       2
巧遇       2
遇合       2
以退为进     2
全套       2
事急       2
黄蓉轻      2
豁然贯通     2
之点       2
诱进       2
师法       2
事起       2
奄至       2
阵图       2
已足       2
肯来       2
百死       2
拒战       2
越转       2
越乱       2
东至西      2
往南       2
嶙峋       2
森森鬼      2
山响       2
落下来      2
杨过棒      2
人未       2
般飞       2
猛之极      2
石落       2
阵内       2
报信       2
无名       2
自识       2
日落西山     2
角木蛟      2
亢金龙      2
又生       2
火猪       2
起脚       2
挑动       2
自谋       2
威风凛凛     2
神志       2
如入       2
一应       2
专心致志     2
楼台       2
错认       2
不羁       2
冷若冰霜     2
写些       2
碑帖       2

河北       2
沦于       2
救星       2
无所适从     2
大河       2
重镇       2
所命       2
强援       2
这定       2
筹划       2
许之处      2
山头       2
第三座      2
这山       2
此山       2
来去自如     2
之高实      2
他恼       2
放满       2
炸死       2
少不了      2
洞去       2
照去       2
布旗       2
心寒       2
之近       2
鲜艳       2
东来       2
使毒       2
便怕       2
尖针       2
体液       2
幸而       2
细语       2
赵道士      2
震人       2
罪责       2
罪不容诛     2
大妙       2
汗流浃背     2
射出       2
必会       2
狼牙棒      2
狼牙布      2
受罪       2
这瓶玉      2
刺上       2
反使       2
一耗       2
渐明       2
盒盖       2
十余只      2
鲜艳夺目     2
红红绿绿的    2
恢复       2
两心       2
之爱       2
千伶百俐     2
浑圆       2
整整齐齐     2
娘胎       2
旧日       2
未除       2
面目狰狞     2
驱蜂       2
中得       2
手舞足蹈     2
五六只      2
成群结队     2
数十只      2
王一惊      2
这一跌      2
酷寒       2
试着       2
吸入       2
人去       2
探身       2
贼赃       2
自遣       2
举鞭       2
抽马       2
一路行      2
完好       2
精绝       2
使何       2
不堪一击     2
五子       2
杰出       2
晚宿       2
日日夜夜     2
揭发       2

手气       1
赌连输      1
欠下       1
避债       1
长住       1
无论怎样     1
暗地里      1
赌债       1
郭靖要      1
出岛       1
郭芙自      1
行程       1
债主       1
四人宿      1
故旧       1
说前       1
城乡       1
中玩       1
伤柯       1
郭氏       1
难斗       1
般向       1
一剌之势     1
菊花       1
力挥       1
竟无程      1
肆暴       1
气得目      1
钢剑       1
那剑头      1
掠顶       1
惊声       1
虽扣       1
想素       1
闻赤练      1
引出       1
刚透杖      1
相夺       1
柯老爷子     1
竟动       1
闷恶       1
第二回      1
那块围      1
便腾身      1
东弯西绕     1
陶窑       1
见敦儒      1
啊呀       1
引鬼上门     1
头骨       1
已碎       1
程英抹      1
胸衣       1
白缎       1
花红       1
朵花       1
翠绿色      1
已旧       1
花叶       1
花真叶      1
姨父       1
之托       1
定情之物     1
曼陀罗花     1
绿叶       1
一届       1
莫愁       1
忽染       1
这锦帕      1
必输       1
播于       1
这锦帕缠     1
念旧情      1
一忍       1
锦帕向      1
襟兄       1
托付       1
责任       1
舐犊情深     1
姨母       1
为锦帕      1
姨妈       1
别接       1
将锦帕      1
右脸       1
木木的      1
临去       1
温香       1
抛出来      1
若银铃      1
既脆       1

缩渐       1
进不了      1
加剧       1
钻身       1
紧接着      1
掌一掌      1
以毒       1
掌力发      1
可假       1
裙不扬      1
推中       1
幼儿       1
清冷       1
寒峻       1
阳宫       1
密布       1
能悄       1
离墓       1
进观       1
狠下       1
止水       1
不波       1
竟修       1
锻羽败      1
逃之事      1
传遍       1
虽未下      1
没求       1
想求       1
洗澡       1
上齿       1
俯耳到      1
腰弯       1
无依无靠     1
血点       1
非本意      1
罪业       1
一劫       1
三四十名     1
冰绡       1
白绡戴      1
出观       1
息事宁人     1
朕兆       1
金球疾      1
迎香       1
承泣       1
认位       1
虽不大      1
荡心       1
摇魄       1
铁板桥      1
离脸       1
挥洒自如     1
招避过      1
齐挥       1
蜿蜒       1
灵道       1
失敬       1
高着       1
带飞       1
如虹       1
剑动       1
华发       1
渐斗       1
渐烈       1
单以剑      1
数得上      1
第三四位     1
矫矢似      1
扰人       1
自快       1
转慢       1
女面       1
欢呼声      1
中剑刃      1
递进       1
必致       1
铜钱       1
瞧着办      1
苦是       1
抹脖子      1
十八颗      1
割完       1
多闹       1
虚文       1
高邻       1
力透       1
手夹着      1
丘郝       1
见马       1

绳一抖      1
洗洗       1
我脏       1
感腹边      1
中州       1
紫荆关      1
迂远些      1
一束花      1
撒头       1
油菜花      1
花束       1
即速       1
切切       1
太浅       1
青天白日     1
抬来       1
簇拥       1
粗鄙       1
韵味       1
第九回      1
傻话       1
教美       1
扮法       1
叫驴       1
欲待拉住     1
皮鞭       1
戴金花      1
力壮       1
关西       1
唱个       1
肥诺       1
别瞎缠      1
买糖       1
常有       1
为异       1
横放       1
鞍头       1
轿门       1
手拉下      1
福相       1
这当口      1
快换       1
穿戴       1
已响       1
吹吹打打     1
锁呐       1
锣钹       1
小步       1
轿外       1
马颈       1
队中       1
急驰而去     1
兜过       1
驴头       1
答答       1
裙下       1
比骑       1
珠圆玉润     1
五官端正     1
窃喜       1
劫持       1
来里       1
求放人      1
你噜       1
直闯       1
帷子       1
哭哭啼啼     1
喊爹       1
叫娘       1
归鸦       1
中所见      1
麻布袋      1
定比       1
得怕       1
没一人敢     1
要讨       1
几文       1
赏钱       1
娶媳妇      1
儿莫要      1
坐不稳      1
济困       1
拯危       1
包涵       1
小钱       1
扑打       1
身负重伤     1
能动       1
相貌堂堂     1
升官发财     1
推便       1

莫属       1
泰山北斗     1
众望所归     1
艺能       1
德能胜      1
四旬       1
精悍       1
左顾右盼     1
云游四方     1
唯命是从     1
鼓掌声      1
众论       1
纷耘       1
正乱间      1
席相迎      1
郭靖耳      1
报讯       1
厅来       1
郭靖识      1
公子模样     1
削身       1
极高极      1
微陷       1
碟子       1
凹下       1
喝上       1
欢迎       1
庄丁另      1
开新席      1
道歉       1
众宾       1
死光光      1
轮不到      1
努嘴       1
最僻       1
似开       1
似闭       1
垂半闭      1
带讯       1
未接       1
老着脸皮     1
不速之客     1
盛会       1
良时       1
尽聚于      1
依小王      1
领袖       1
归位       1
德望       1
人当       1
削弱       1
决难善      1
难令       1
主在       1
周游       1
铲除       1
为虎作伥     1
定感       1
主与       1
已算       1
能强       1
胜券在握     1
声震       1
偏厅       1
人少       1
郭靖交      1
即败       1
自即       1
声极       1
重浊       1
转换       1
洪老儿      1
消法       1
官服       1
几拨       1
不过尔尔     1
人献此      1
直遮至      1
明是       1
指名       1
轻用       1
半闭       1
出座       1
有若渊      1
停岳峙      1
一面之缘     1
投拜       1
艺兼众      1
主及       1
代得       1
时潜运      1

师祖身      1
制其       1
中傻姑      1
腊烛       1
师向       1
她识       1
从体       1
醒时       1
离经叛道     1
落落寡合     1
之亲       1
尤非意      1
下所喜      1
他耳中      1
大合       1
先不认      1
名正言顺     1
杨小邪      1
没法儿      1
非定       1
邪名       1
大可交个     1
酒逢知己千杯少    1
大叹       1
深得我心     1
他口       1
虽不认      1
命程       1
设一榻      1
联床       1
如胶如漆     1
难舍难分     1
前共饮      1
剪灯       1
零头       1
心窍       1
赞成       1
片言只字     1
不引       1
自想       1
必知       1
探明       1
傻姑见      1
拍掌       1
离所居      1
丢到       1
父为       1
目能       1
轻咳       1
姑疾纵      1
轮到       1
帕子蒙      1
撕裂       1
帕子放      1
好多好多     1
蔽日       1
之谜       1
程英知      1
未释       1
要制       1
耻于       1
有见       1
疏于防备     1
免遭       1
旁有间      1
破旧不堪     1
四行       1
间弹       1
外祖父      1
蒲图       1
手捉       1
神光       1
妙相       1
甚旁       1
凌寡       1
以黄       1
苦处       1
卧榻       1
已愈       1
大泽       1
穿衣       1
奇声       1
至斯       1
明朝       1
大儒       1
王阳明      1
兵营       1
一军       1
皆惊       1
史有明      1
文之事     

人情之常     1
想害       1
苦口       1
白饶       1
但大有      1
快服       1
剖成       1
气候       1
服入       1
暖洋洋      1
说治       1
怎再容      1
抖出来      1
不大好      1
弱光       1
谷水仙      1
水纹       1
旁绘       1
对照       1
通至       1
才知丹      1
潜伏着      1
还养       1
坐以待毙     1
肚上       1
沉落       1
已跃到      1
探去       1
加在一起     1
中一浸      1
立足之地     1
凸出       1
岩角       1
仔细听      1
回腕       1
辨形       1
拉过来      1
望出去      1
抓不住      1
力撑       1
已飞       1
抖腕       1
一挥出      1
洞边       1
真高       1
洞里       1
膝行       1
气蒸       1
下同       1
苦尽甘来     1
渐入佳境     1
乐子       1
闻此       1
洞顶       1
进是       1
极低       1
那音       1
那人似      1
惊怖       1
可识       1
之绿       1
花萼       1
之萼       1
何年       1
何月       1
初三       1
异感       1
孔离       1
一百余丈     1
所及       1
处生       1
遮体       1
净尽       1
万福       1
问安       1
求援       1
势所难免     1
思忖       1
石孔       1
稀疏       1
几已       1
全秃       1
炯炯有神     1
印记       1
红记       1
密切       1
声厉       1
问有       1
没红记      1
满颊       1
背向着      1

近卫       1
军令如山     1
郭靖拥      1
黄马甚      1
马儿快      1
战得       1
郭靖腿      1
提上       1
马长声      1
纵蹄       1
追至       1
黄马之      1
骏物       1
红马远      1
猛吸       1
中一痛      1
低伏       1
削红       1
马马足      1
却定       1
他算到      1
方能建      1
耗尽       1
架得住      1
实迫       1
尽力而为     1
距马       1
响得       1
垂剑       1
马腿       1
距马足      1
哀嘶       1
恋恋       1
追风       1
逐雷       1
莫伤       1
乱削       1
人事不省     1
横溢       1
洋洋       1
一无所      1
他己       1
体健       1
有警       1
悬在       1
因人       1
而施       1
光天化日     1
于烛       1
灭星       1
沉之夜      1
会晤       1
跃下庭      1
送呈       1
便进       1
危地       1
须防       1
以小人之心    1
舌战       1
藏拙       1
黄蓉挥      1
那通       1
黏劲       1
分娩       1
隆起       1
入城       1
消折       1
信已       1
城由得      1
茶壶       1
一壶       1
壶嘴       1
中如       1
一条线      1
般射       1
射出来      1
先有       1
警觉       1
爬起来      1
药水       1
惨法       1
突然袭击     1
扑下       1
铁骨       1
已自上      1
猜度       1
溃烂       1
可活       1
都素知      1
药理       1
家传之      1

马向南      1
黄衫星      1
曾多次      1
尹祁       1
纵马快      1
马奔出      1
四五里      1
击马       1
不要命      1
得护       1
天多高      1
地多厚      1
千金之躯     1
镇静       1
如恒       1
伸颈       1
一段路      1
三前       1
一后       1
北而行      1
金鼓       1
荒不择      1
偏僻       1
空屋       1
门窗       1
连晚       1
打磕睡      1
难分高下     1
慢则       1
急召       1
须修持      1
近旁       1
实足       1
四代       1
赶召       1
相随       1
以出       1
同路       1
一片痴心     1
遇仙       1
尤为       1
响箭       1
黄冠道人     1
等候多时     1
谦道       1
最长       1
二十多天     1
击罄       1
铁钵       1
法器       1
护拥       1
羡妒       1
五百多名     1
直排       1
肃候       1
颓唐       1
元始       1
天尊       1
太上       1
殿全       1
集议       1
七张       1
空椅       1
有客       1
大模大样     1
逃不过      1
硬着头皮     1
官朗声      1
黄缎       1
特授       1
演道       1
玄门掌      1
文粹开      1
玄宏仁      1
广义       1
接旨       1
坐关       1
现由       1
非对       1
玉音       1
所敬       1
须授       1
便荣受      1
忽降       1
侍茶       1
别院       1
此事体大     1
擅自作主     1
日益       1
小视       1
诏书       1

非礼       1
慧剑斩情     1
渊深       1
绝世       1
自闭       1
感叹       1
根由       1
苦心孤诣     1
后生小子     1
窥测       1
我剑下      1
群居       1
参修       1
法地       1
认为       1
神圣不可     1
置若罔闻     1
岂不令      1
始于       1
执剑       1
再见面      1
挥开       1
声动林      1
斗闻       1
脱小龙      1
会宗       1
支沟       1
凭依       1
已拉着      1
脱兔       1
竟长       1
笑扰       1
两事       1
其手       1
回廊       1
远振       1
初出       1
大椎       1
中道       1
飒爽       1
旁题       1
几笔       1
画中人      1
中之画      1
数百位      1
盈泪       1
行站       1
福缘       1
始终不渝     1
荒诞不经     1
间众       1
我收       1
遵守       1
灾劫       1
罪有应得     1
泉下       1
前殿       1
千余斤      1
分托       1
料准       1
无数寸      1
之差       1
甚理       1
血肉横飞     1
可言       1
无向肢      1
残迹       1
受嘱       1
一待       1
巨声突      1
叫嚷声      1
呼喊       1
圣像       1
兜截       1
殿顶       1
二十一名     1
杨过刚      1
从殿       1
四人谅      1
冲不出      1
宽阔       1
突出重围     1
暗恨       1
困得       1
殿外       1
跟进       1
后殿中      1
加乱       1
浆后       1
害得师      1
九死一生     1

炽热       1
粗工       1
搬堆       1
柴炭       1
严寒       1
赤膊       1
短裤       1
首张       1
上挥画      1
作画       1
遣怀       1
写来       1
不亦悦乎     1
安之若素     1
临难       1
恬然       1
遇救       1
以嘻       1
抗热       1
棕过       1
开成       1
从破孔      1
热晕       1
透透气      1
喜迎       1
一泼       1
师叔言      1
人畜       1
这花毒      1
我师叔      1
太怪       1
他入       1
能得       1
博施济众     1
试毒       1
佛言       1
不入       1
神农       1
觅药       1
错食       1
脸为       1
之青       1
取花       1
可醒       1
重极       1
若动       1
性便       1
却胜于      1
找来       1
禁入       1
有位       1
常来       1
长挑       1
药而来      1
师叔要      1
递讯       1
规定       1
不旺       1
比慈恩      1
但慈恩      1
尊之为      1
反增       1
权谋       1
大局       1
必无       1
难觅       1
隐妥       1
即明       1
言大妙      1
安如磐石     1
自私       1
重觅       1
旧路       1
不华       1
尽落       1
春花       1
早谢       1
先治       1
因救程      1
激兄       1
任凭       1
自决       1
杀兄       1
交争       1
决得定      1
带笑       1
火并       1
人好       1
怒目相向     1
幼年       1
为讽       1

两成       1
仲猛       1
季强       1
四见       1
七十余      1
躯干       1
一百数十斤    1
张牙舞爪     1
嘲笑       1
咱五       1
伺机       1
撤回       1
执杵       1
压击       1
长鼻       1
击物       1
前细后      1
前端       1
生铁       1
铸住       1
莽夫       1
急拗       1
这一拗      1
既巧且      1
铜板       1
拗落       1
灭迹       1
他游目      1
按耳       1
纵口       1
长呼       1
塞外       1
心旌摇荡     1
如痴如醉     1
十余头      1
环顾       1
傲色       1
病夫       1
停啸       1
震晕       1
仲请       1
故特       1
一揖至      1
姓樊       1
这长须      1
自蒙       1
自更认      1
既愿       1
侍回家      1
用大       1
妻妾       1
跪地       1
硬轰四妾     1
强留       1
大老婆      1
小老婆      1
打打闹闹     1
容许       1
安业       1
恭候大驾     1
多结       1
口服心服     1
言重       1
冒犯之处     1
向贤昆      1
赔礼       1
互掷       1
追捕       1
我史       1
老四       1
无胜得      1
求神       1
罗金仙      1
捕得       1
史二叔      1
前年       1
岁尾       1
谬赞       1
实如       1
萤火       1
大法师      1
劳动       1
正大光明     1
再输       1
另成       1
历久       1
不愈       1
灵狐之血方    1
灵狐是      1
当直       1
林中围      1

饿肚子      1
军以       1
轰城       1
山裂石      1
铁炮       1
未用       1
携有       1
遭大劫      1
大煞       1
其威       1
军在       1
不继       1
之劳       1
何足挂齿     1
爆炸声      1
略响       1
火药库      1
各带       1
掩袭       1
齐整       1
接踵而来     1
称颂       1
功德无量     1
艺冠       1
勃而怒      1
郭芙同席     1
爷为       1
高官       1
负此       1
重嫌       1
先君       1
楚材公      1
先兄       1
暴君       1
风传       1
闻有何      1
确证       1
帮大       1
做成       1
先显       1
抬脚       1
手轻       1
数千对      1
齐都集      1
中本乏      1
奇无伦      1
帮众识      1
沉默寡言     1
碌碌       1
勤勉       1
卑下       1
极限       1
庸人       1
质问       1
之丑       1
帮旧       1
众心       1
此乃本      1
凡本       1
人人有责     1
报是       1
众所共知     1
未办       1
理正       1
词严       1
咄咄逼人     1
说办       1
错之极      1
本末倒置     1
一个五袋     1
郭芙正恼     1
主管       1
却管       1
耶律夫人     1
战胜       1
当不上      1
得任       1
十拿九稳     1
稳健       1
才疏学浅     1
肯于       1
台侧       1
深藏若虚     1
脚往       1
沉星淡      1
十多枝      1
竟辨       1
招式甚      1
驳杂       1
全无奇      1
十一二年     1

玉蜂翅      1
数千只      1
没捉       1
这原       1
下策       1
这字       1
细于       1
蝇头       1
一百只      1
撞入       1
你念       1
蜂翅上      1
盆鱼       1
佐以       1
味美       1
多脂       1
哄哄       1
威慑       1
千百倍      1
过耳       1
捉鱼       1
摘果       1
造屋       1
兴味盎然     1
长谈       1
极而眠      1
终老       1
直悬       1
错杂       1
余烬       1
用刀       1
伯通       1
怅怅       1
沉潭       1
冥冥中      1
精诚所至     1
金石为开     1
绳身       1
逃之夭夭     1
寸进       1
运动       1
攀绳       1
花人       1
人面       1
增了       1
请下       1
在校       1
听调       1
多点       1
孙子兵法     1
有言       1
十则       1
善用       1
兵者       1
一围       1
何难哉      1
之战       1
听令       1
黄陵       1
属土       1
郭靖统      1
此军       1
直捣       1
歼敌       1
各军       1
以土囊      1
灭火       1
压柴       1
拆台       1
丹陵       1
属火       1
上应       1
井木犴      1
鬼金羊      1
柳土       1
星日马      1
张月鹿      1
火蚓       1
玄陵       1
属水       1
黄蓉统      1
应玄武      1
斗木       1
牛金       1
虚日鼠      1
危月燕      1
壁水       1
兵以       1
兵后       1
青陵       1
东路兵      1

# 从小说中提取人名及出现的次数
### 词性标注
Jieba0.39版本提供55种词性标注，部分符号及含义如表1所示。由表1可知，人名被标注为nr,因此对小说进行分词和词性标注后的文本进行进一步提取，提取出词性为nr的词作为人物角色名称，即可构建角色列表。



![j](词性标注.png)

In [2]:
import jieba.posseg as psg

sent='中文分词是文本处理不可或缺的一步！'
seg_list=psg.cut(sent)
for w in seg_list:
    if w.flag == "n" :
        print(w.flag)

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\z\AppData\Local\Temp\jieba.cache
Loading model cost 1.535 seconds.
Prefix dict has been built succesfully.


n
n


# jieba词性标注的简单应用
使用 jieba 分词对一个文本进行分词及词性标注，统计词性为nr，出现次数最多的词语，这里以《神雕侠侣》为例

In [15]:
import jieba
import jieba.posseg as psg

txt = open("神雕侠侣-网络版.txt","r",encoding="utf-8").read()
words = psg.cut(txt)     # 使用精确模式对文本进行分词
counts = {}     # 通过键值对的形式存储词语及其出现的次数

for word in words:
    if len(word.word) == 1: # 单个词语不计算在内
        continue
    else:
        if word.flag == "nr":    # 仅统计词性为nr的词语
            counts[word] = counts.get(word, 0) + 1    # 遍历所有词语，每出现一次其对应的值加 1

items = list(counts.items())
items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序
fi = open("人物角色提取.txt","w",encoding="utf-8")
for i in range(len(items)):
    word,pos = items[i][0]
    count = items[i][1]
    a = word + "," + str(count)
    fi.write(a + "\n")
fi.close()

In [8]:
import jieba
import jieba.posseg as psg

In [9]:
txt ="杨过爱小龙女"
words = psg.cut(txt)
for word in words:
    word.flag