In [5]:
import networkx as nx # 图数据挖掘

# 数据分析
import pandas as pd
import numpy as np

import random # 随机数
from tqdm import tqdm # 进度条

# 数据可视化
import matplotlib.pyplot as plt
%matplotlib inline

plt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签  
plt.rcParams['axes.unicode_minus']=False  # 用来正常显示负号

In [6]:
# 导入 csv 文件定义的有向图
df = pd.read_csv('data/harrypotterkgdata.csv')

In [7]:
df.head()

Unnamed: 0,head,tail,relation
0,C.沃林顿,斯莱特林魁地奇球队,从属
1,C.沃林顿,调查行动组,从属
2,C.沃林顿,霍格沃茨魔法学校,从属
3,乔治·韦斯莱,亚瑟·韦斯莱,父亲
4,乔治·韦斯莱,凤凰社,从属


In [8]:
G = nx.from_pandas_edgelist(df, "head", "tail", edge_attr=True, create_using=nx.Graph())


In [9]:
len(G)

648

In [10]:
def get_randomwalk(node, path_length):
    '''
    输入起始节点和路径长度，生成随机游走节点序列
    '''
    
    random_walk = [node]
    
    for i in range(path_length-1):
        # 汇总邻接节点
        temp = list(G.neighbors(node))
        temp = list(set(temp) - set(random_walk))    
        if len(temp) == 0:
            break
        # 从邻接节点中随机选择下一个节点
        random_node = random.choice(temp)
        random_walk.append(random_node)
        node = random_node
        
    return random_walk

In [11]:
all_nodes = list(G.nodes())
all_nodes

['C.沃林顿',
 '斯莱特林魁地奇球队',
 '调查行动组',
 '霍格沃茨魔法学校',
 '乔治·韦斯莱',
 '亚瑟·韦斯莱',
 '凤凰社',
 '吉迪翁·普威特',
 '哈利·波特',
 '塞德瑞拉·布莱克',
 '塞德里克·迪戈里',
 '塞普蒂默斯·韦斯莱',
 '奥黛丽·韦斯莱',
 '安吉利娜·约翰逊',
 '弗雷德·韦斯莱',
 '弗雷德·韦斯莱二世',
 '普威特先生',
 '普威特夫人',
 '普威特家族',
 '查理·韦斯莱',
 '格兰芬多学院',
 '格兰芬多魁地奇球队',
 '比利尔斯',
 '比尔·韦斯莱',
 '珀西·韦斯莱',
 '纳威·隆巴顿',
 '罗克珊·韦斯莱',
 '罗恩·韦斯莱',
 '芙蓉·德拉库尔',
 '莫丽·韦斯莱',
 '莱姆斯·卢平',
 '费比安·普威特',
 '赫敏·格兰杰',
 '邓布利多军',
 '金妮·韦斯莱',
 '阿拉斯托·穆迪',
 '韦斯莱家族',
 '韦斯莱魔法把戏坊',
 '乔治三世',
 '亨利七世',
 '威廉一世',
 '维多利亚',
 '亚伯拉罕·波特',
 '波特家族',
 '美国魔法国会',
 '詹姆·波特',
 '伪劣防御咒及防护用品侦查收缴办公室',
 '伪劣防御咒及防护用品侦查收缴办公室主任',
 '多米尼克·韦斯莱',
 '禁止滥用麻瓜物品办公室',
 '禁止滥用麻瓜物品办公室主任',
 '穆丽尔',
 '维克托娃·韦斯莱',
 '罗丝·韦斯莱',
 '英国魔法部',
 '莉莉·卢娜·波特',
 '莫丽·韦斯莱二世',
 '莱桑德拉·亚克斯利',
 '詹姆·小天狼星·波特',
 '路易·韦斯莱',
 '阿不思·西弗勒斯·波特',
 '阿克图勒斯·布莱克二世',
 '雨果·韦斯莱',
 '露西·韦斯莱',
 '魔法法律执行司',
 '亨利·波特',
 '威森加摩',
 '尤菲米娅·波特',
 '弗利蒙·波特',
 '波特夫人，原姓弗利蒙',
 '亨利八世',
 '伊丽莎白一世',
 '威廉三世',
 '安妮·博林',
 '玛丽一世',
 '玛丽二世',
 '亨利六世',
 '伊万斯姐妹的父亲',
 '伊万斯夫人',
 '佩妮·伊万斯',
 '弗农·德思礼',
 '莉莉·伊万斯',
 '达力·德思礼',
 '伊万杰琳·奥平顿',
 '伊索特·塞耶',
 '伊尔弗莫尼

In [12]:
get_randomwalk('哈利·波特', 5)

['哈利·波特', '乔治·韦斯莱', '吉米·珀克斯', '格兰芬多魁地奇球队', '查理·韦斯莱']

In [13]:
gamma = 10 # 每个节点作为起始点生成随机游走序列个数
walk_length = 5 # 随机游走序列最大长度

In [14]:
random_walks = []

for n in tqdm(all_nodes): # 遍历每个节点
    for i in range(gamma): # 每个节点作为起始点生成gamma个随机游走序列
        random_walks.append(get_randomwalk(n, walk_length))

100%|██████████| 648/648 [00:00<00:00, 13987.13it/s]


In [15]:
# 生成随机游走序列个数
len(random_walks)

6480

In [16]:
random_walks[1]

['C.沃林顿', '斯莱特林魁地奇球队', '马库斯·弗林特', '斯莱特林', '纳西莎·马尔福']

In [17]:
from gensim.models import Word2Vec # 自然语言处理

In [18]:
model = Word2Vec(vector_size=256, # Embedding维数
                 window=4, # 窗口宽度
                 sg=1, # Skip-Gram
                 hs=0, # 不加分层softmax
                 negative=10, # 负采样
                 alpha=0.03,  # 初始学习率
                 min_alpha=0.0007, # 最小学习率
                 seed=14 # 随机数种子
                )

In [19]:
# 用随机游走序列构建词汇表
model.build_vocab(random_walks, progress_per=2)

In [20]:
# 训练（耗时1分钟左右）
model.train(random_walks, total_examples=model.corpus_count, epochs=50, report_delay=1)

(1167856, 1412200)

In [21]:
# 查看某个节点的Embedding
model.wv.get_vector('哈利·波特').shape

(256,)

In [22]:
model.wv.get_vector('哈利·波特')

array([ 0.04805676, -0.08903797, -0.06913359, -0.16911325,  0.2460473 ,
       -0.05157926, -0.30803734,  0.25270435, -0.32293865, -0.28934702,
        0.10030584, -0.43395793,  0.10813572,  0.07096055, -0.1275813 ,
        0.18640755, -0.24325544,  0.38442722,  0.08912934,  0.01001695,
        0.07745539, -0.10149032, -0.03364048, -0.23008789, -0.55350745,
       -0.3487958 , -0.03271427, -0.1618109 , -0.24214289,  0.02543607,
       -0.20444599,  0.40515772, -0.12824088, -0.09466792, -0.31554168,
        0.0943582 ,  0.16531762, -0.0716354 , -0.39589322, -0.33008033,
        0.13744406,  0.5701074 ,  0.46739894,  0.14855224,  0.20503438,
       -0.04841891, -0.02022275,  0.21909021, -0.15327482,  0.15959038,
        0.01148046, -0.17986596, -0.2644588 , -0.6122868 ,  0.19222453,
       -0.00251377, -0.13353056, -0.05891381, -0.05234259, -0.4432555 ,
        0.05426223, -0.2857316 , -0.26033476,  0.5164521 , -0.17262267,
        0.1568728 ,  0.3926177 ,  0.05532842, -0.28744477, -0.24

In [23]:
# 找相似词语
model.wv.similar_by_word('哈利·波特')

[('达力·德思礼的孩子', 0.4988202452659607),
 ('格朗宁公司的上班族', 0.48592865467071533),
 ('家庭主妇', 0.4788525402545929),
 ('路易斯·韦斯莱', 0.47627004981040955),
 ('哈德温·波特', 0.4759107828140259),
 ('德思礼夫人', 0.4644019901752472),
 ('达力的孩子', 0.4637949764728546),
 ('沃伦家庭', 0.46323665976524353),
 ('斯梅廷中学', 0.4615587294101715),
 ('德拉库尔先生', 0.4590758979320526)]