In [1]:
# coding=utf-8
import json
import os
import re
import numpy as np
import pandas as pd
from collections import defaultdict
import jieba
import jieba.posseg as pseg

引入知识库，资料从网络上收集并已经加以整理。

In [2]:
name_data = pd.read_excel("name_data.xlsx",index_col=0)
name_data = name_data.set_index("姓名")
name_data = name_data.fillna("")

In [3]:
name_data.head()

Unnamed: 0_level_0,姓,名,字
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
丁仪,丁,仪,正礼
丁冲,丁,冲,无
丁原,丁,原,建阳
丁厷,丁,厷,无
丁君干,丁,君干,无


下面用过程式的方法演示字典树（实体匹配型）的构造过程。相比我实际应用中的有所简化，更详细的代码和数据可以在我的github上找到：

https://github.com/blmoistawinde/simpleSanGuoNLP

In [4]:
trie_root = {}
def build_trie(new_word,entity,trie_root):
    trie_node = trie_root
    for ch in new_word:
        if not ch in trie_node:
            trie_node[ch] = {}
        trie_node = trie_node[ch]
    if not 'leaf' in trie_node:
        trie_node['leaf'] = set([entity])    #同一个代称有时会对应多个实体，所以这里的叶结点是集合类型
    else:
        trie_node['leaf'].add(entity)

In [5]:
build_trie("玄德","刘备",trie_root)
build_trie("玄德公","刘备",trie_root)
build_trie("刘皇叔","刘备",trie_root)
build_trie("刘备","刘备",trie_root)

In [6]:
print(trie_root)

{'玄': {'德': {'leaf': {'刘备'}, '公': {'leaf': {'刘备'}}}}, '刘': {'皇': {'叔': {'leaf': {'刘备'}}}, '备': {'leaf': {'刘备'}}}}


在字典树中查找代称对应的实体。

In [7]:
def find_trie(word,trie_root):
    trie_node = trie_root
    for ch in word:
        if not ch in trie_node:
            return set()
        trie_node = trie_node[ch]
    if "leaf" in trie_node:
        return trie_node['leaf']
    else:
        return set()

In [8]:
print(find_trie("刘备",trie_root))
print(find_trie("刘备啊",trie_root))

{'刘备'}
set()


但这里我需要的其实是把字典树与顺序扫描结合在一起，一边扫描一边识别实体。这样其实我是不能准确得到词语的右边界的。于是我需要另一个函数来完成这个任务，逐字符扫描中深入字典树【每一步暂存当前结点】，直到发现实体（集）或者无法匹配再跳出。

In [9]:
def dig_trie(sent,l,trie_root):                                #返回实体右边界r,实体范围
    trie_node = trie_root
    for i in range(l,len(sent)):
        if sent[i] in trie_node:
            trie_node = trie_node[sent[i]]
        else:
            if "leaf" in trie_node:
                return i, trie_node["leaf"]
            else:
                return -1, set()                                 # -1表示未找到
    # 收尾
    if "leaf" in trie_node:
        return len(sent), trie_node["leaf"]
    else:
        return -1, set()                                 # -1表示未找到

In [10]:
build_trie("刘","666",trie_root)
build_trie("刘胜","刘胜",trie_root)

In [11]:
print(dig_trie("中山靖王刘胜之后，汉景帝阁下玄孙",0,trie_root))
print(dig_trie("中山靖王刘胜之后，汉景帝阁下玄孙",4,trie_root))          # 不会被单独的刘干扰，除非确实不匹配
print(dig_trie("中山靖王刘某之后，汉景帝阁下玄孙",4,trie_root))

(-1, set())
(6, {'刘胜'})
(5, {'666'})


In [12]:
def entity_linking(sent,trie_root):
    ret = []
    l = 0
    while l < len(sent):
        r, entities = dig_trie(sent,l,trie_root)
        if r != -1:
            name0 = sent[l:r]
            ret.append(([l,r],list(entities)[0])) #简单起见，在这里如果同一个名称对应多个实体，默认选取第一个，完整版中用了更多消歧方法
            l = r
        else:
            l += 1
    return ret
sent = "刘备字玄德，号称刘皇叔，是刘氏又一豪杰"
print(entity_linking(sent,trie_root))

[([0, 2], '刘备'), ([3, 5], '刘备'), ([8, 11], '刘备'), ([13, 14], '666')]


如果只是要统计实体的出现次数的话，到这里已经足够，如果再想利用这些知识进行分词的话，还有几步要做。

首先，利用我们所有的姓名知识库构建一颗完整的字典树。

In [13]:
names_trie = {}
for entity0, line in name_data.iterrows():
    for name0 in [line["姓"]+line["名"],line["字"]]:               
        if not name0 in ["无","None",""] and len(name0) > 1:            
            build_trie(name0,entity0,names_trie)
    name0  = line["姓"]+line["名"]
    if not name0 in ["无","None",""] and len(name0) > 1:            # 长度1的名字太容易混淆，不采纳
        build_trie(name0,entity0,names_trie)

In [14]:
names_trie["玄"]

{'伯': {'leaf': {'陈泰'}},
 '冲': {'leaf': {'王浑[西晋]'}},
 '威': {'leaf': {'胡奋'}},
 '嶷': {'leaf': {'胡岐'}},
 '德': {'leaf': {'刘备'}},
 '方': {'leaf': {'枣腆'}},
 '武': {'leaf': {'胡烈'}},
 '胄': {'leaf': {'李秉'}},
 '通': {'leaf': {'王览'}},
 '风': {'leaf': {'卜静'}},
 '骏': {'leaf': {'华澹'}},
 '默': {'leaf': {'庾倏'}}}

关键的一个小操作，指定一个标准词与所有实体联系起来，保证分词工具能够把它分割出来，并且赋予恰当的词性("nr"：人名)。

In [15]:
jieba.add_word("人占位符",freq=10000,tag="nr")

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\KELEN\AppData\Local\Temp\jieba.cache
Loading model cost 0.811 seconds.
Prefix dict has been built succesfully.


In [16]:
def decoref(sent,entities_info):
    left = 0
    processed_text = ""
    for (beg,end),entity in entities_info:
        print(sent[beg:end],entity)
        processed_text += sent[left:beg] + "人占位符"
        left = end
    processed_text += sent[left:]
    return processed_text

In [17]:
sent = "玄德幼孤，事母至孝；家贫，贩屦织席为业。"
entities_info = [([0, 2], '刘备')]
print(decoref(sent,entities_info))

玄德 刘备
人占位符幼孤，事母至孝；家贫，贩屦织席为业。


看到这里我们的标准词"人占位符"已经替代了识别到的实体的位置，分词时，我们则会把它再换回来，并且提取出了我们设定的词性。

In [18]:
def posseg(sent,trie_root):
    entities_info = entity_linking(sent,trie_root)
    sent2 = decoref(sent,entities_info)
    result = []
    i = 0
    for word, flag in pseg.cut(sent2):
        if word == "人占位符":
            word = entities_info[i][1]
            i += 1
        result.append((word, flag))
    return result

In [19]:
print(posseg("玄德幼孤，事母至孝；家贫，贩屦织席为业。",names_trie))

玄德 刘备
[('刘备', 'nr'), ('幼', 'ag'), ('孤', 'ng'), ('，', 'x'), ('事母至孝', 'l'), ('；', 'x'), ('家贫', 'b'), ('，', 'x'), ('贩', 'v'), ('屦', 'g'), ('织', 'v'), ('席为业', 'nr'), ('。', 'x')]


这次第一个“刘备”君被成功地识别了出来。不过还有一个有趣的插曲是，分词工具“识别”出了另一个人名“席为业”。这个问题也可以用我们的知识库解决，毕竟统计的时候只需要统计我们知识库中已经出现的人名就好了吗。

# 一些数据分析

最后附上一些我基于这个数据做的一些简单分析。为简洁起见，这里只描述结果，不附上代码。

将出现在两句话以内的每一对人物添加一条边，统计了整个三国演义的文本后，我们就能够得到一个**三国演义的人物关系网络**。其中，最为频繁的联系包括：

- 刘备     诸葛亮    392

- 曹操     刘备     257

- 刘备     关羽     192

- 刘备     张飞     182

- 赵云     刘备     177

- 司马懿    诸葛亮    150

- 诸葛亮    曹操     143

- 鲁肃     诸葛亮    143

- 魏延     诸葛亮    139

- 诸葛亮    赵云     139

- 赵云     诸葛亮    139

- 孟获     诸葛亮    122

对于熟悉三国的朋友，看到这些名字，那些经典章节（桃园结义、三顾茅庐、六出祁山、七擒孟获......）是不是马上涌上心头了呢？

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;这个网络由于比较庞大，而且也不完全连通，所以用python常用的网络库networkx可视化的效果不佳，这里我尝试了另外一种可视化方法——**node2vec**+**TSNE**，把网络化为了二维散点图，再利用**pyecharts**做成了一个**交互式的散点图**，可以用滚轮放大缩小，鼠标在点上悬停则可以看到人物姓名，这样我们就可以自由探索每个人物在网络中的位置了，感兴趣的朋友，不妨上这里一看:

<html>
    <a title="三国演义人物地图" href="TSNE_node2vec.html">三国演义人物地图</a>

    <a title="三国演义人物聚类地图" href="TSNE_node2vec_DBSCAN.html">三国演义人物聚类地图</a>
</html>

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;这里再附上这个网络的**中间中心度**排行，对社交网络分析比较熟悉的朋友应该知道这是一个很适合描述**“权力”**的一个指标。所以我们看到刘备、曹操、孙权、袁绍等主公都名列前茅。而另一个有趣的发现是，司马懿、司马昭、司马师父子三人同样榜上有名，而曹氏的其他后裔则不见其名，所以说，司马氏的权力之大和篡逆之心，似乎就这样被大数据揭示了出来！

- 曹操     0.191572

- 刘备     0.170507

- 诸葛亮    0.154396

- 孙权     0.076092

- 司马懿    0.057414

- 赵云     0.052706

- 司马昭    0.045726

- 袁绍     0.039813

- 吕布     0.032888

- 关羽     0.028887

- 姜维     0.026319

- 马超     0.024139

- 丁奉     0.019025

- 张翼     0.018943

- 邓艾     0.018524

- 贾充     0.017374

- 司马师    0.017265

- 廖化     0.016621

- 徐晃     0.016085

- 孙策     0.015829