在本节，我们尝试调用Python库 `py2neo` 调用`neo4j`来创建疾病与病因的数据库。

# 安装py2neo库

`pip install py2neo`

# 数据初探

我们的数据存储在`./data/disease_cause_entity_label.txt`中，数据格式为:

|字段1|分隔符|字段2|分隔符|字段3|分隔符|字段4|分隔符|字段5|
|--|--|--|--|--|--|--|--|--|
|疾病|<->|病因|<->|具体病因|<->|实体对齐后的病因|<->病因类别|

# 构建节点和关系类型

从原数据中分析可知，我们需要定义：

1. Node 节点类型：疾病 、具体的病因、病因的类别
2. Relationship 关系类型：疾病的致病原因、病因属于什么病因类别

即：`(疾病)-[病因]->(具体病因)` 和 `(具体病因)-[属于]->(病因类别)` 。

# 开始构建 疾病与病因的数据库

## 读取数据，并解析出各个字段

In [3]:
import re

regx = re.compile('<->') # 用于切分字段

data = [] 
with open('./data/disease_cause_entity_label.txt','r',encoding='utf-8') as fi:
    for line in fi:
        result = regx.split(line.strip())
        data.append(result)

data[:5]

[['疾病', '病因', '具体病因', '实体对齐后的病因', '类别'],
 ['新生儿惊厥', '病因', '围产期窒息', '围产期窒息', '既往史'],
 ['新生儿惊厥', '病因', '产伤性颅内出血', '产伤性颅内出血', '既往史'],
 ['新生儿惊厥', '病因', '宫内感染风疹', '宫内感染风疹', '病原体'],
 ['新生儿惊厥', '病因', '宫内感染弓形虫', '宫内感染弓形虫', '病原体']]

## 连接neo4j数据库

In [69]:
from py2neo import Graph

graph = Graph('http://localhost:7474',username='neo4j',password='1990121')

In [71]:
statement = 'match(p:疾病)-[r:病因]->(g:具体病因) where p.name="感冒" and g.name="咳嗽"  return r'
temp = graph.evaluate(statement)
print(temp)

None


## 创建节点 和 节点之间的关系

In [73]:
count = 0
for line in data:
    # 过滤出 无效的数据
    if line[0] == line[3] or line[3] == line[4]:
        continue
    # 给节点 和 关系 添加唯一约束
    if count == 0:
        # 节点
        statement = 'create constraint on (p:疾病) assert p.name is unique'
        graph.evaluate(statement)
        statement = 'create constraint on (p:具体病因) assert p.name is unique'
        graph.evaluate(statement)
        statement = 'create constraint on (p:病因类别) assert p.name is unique'
        graph.evaluate(statement)
        
        # 关系
        statement = 'create constraint on (r:病因) assert r.name is unique'
        graph.evaluate(statement)
        statement = 'create constraint on (r:属于) assert r.name is unique'
        graph.evaluate(statement)
        count += 1
        continue
    
    
    # 查找节点是否存在
    statement = 'match(p:疾病) where p.name="%s" return p'%line[0] # match 后必须有return语句
    temp = graph.evaluate(statement)
    if temp == None:
        # 如果不存在该节点，则创建节点
        statement = 'create (p:疾病{name:"%s"}) return p'%(line[0])
        graph.evaluate(statement)
        
    statement = 'match(p:具体病因) where p.name="%s" return p'%line[3]
    temp = graph.evaluate(statement)
    if temp == None:
        # 如果不存在该节点，则创建节点
        statement = 'create (p:具体病因{name:"%s"}) return p'%(line[3])
        graph.evaluate(statement)
        
    statement = 'match(p:病因类别) where p.name="%s" return p'%line[4]
    temp = graph.evaluate(statement)
    if temp == None:
        # 如果不存在该节点，则创建节点
        statement = 'create (p:病因类别{name:"%s"}) return p'%(line[4])
        graph.evaluate(statement)

    # 查找关系是否存在
    statement = 'match(p:疾病)-[r:病因]->(q:具体病因) where p.name="%s" and q.name="%s" return r'%(line[0],line[3])
    temp = graph.evaluate(statement)
    print(temp,line[0],line[4])
    if temp == None:
        # 如果不存在该节点，则创建节点
        statement = 'match (p:疾病),(g:具体病因) where p.name= "%s" and g.name="%s" create (p)-[r:病因]->(g) '%(line[0],line[3])
        graph.evaluate(statement)
        
    statement = 'match(p:具体病因)-[r:属于]->(q:病因类别) where p.name="%s" and q.name="%s" return r'%(line[3],line[4])
    temp = graph.evaluate(statement)
    print(temp,line[3],line[4])
    if temp == None:
        # 如果不存在该节点，则创建节点
        statement = 'match (p:具体病因),(g:病因类别) where p.name= "%s" and g.name="%s" create (p)-[r:属于]->(g) '%(line[3],line[4])
        graph.evaluate(statement)
    
    count += 1
    

None 新生儿惊厥 既往史
None 围产期窒息 既往史
(新生儿惊厥)-[:病因 {}]->(产伤性颅内出血) 新生儿惊厥 既往史
(产伤性颅内出血)-[:属于 {}]->(既往史) 产伤性颅内出血 既往史
(新生儿惊厥)-[:病因 {}]->(宫内感染风疹) 新生儿惊厥 病原体
(宫内感染风疹)-[:属于 {}]->(病原体) 宫内感染风疹 病原体
(新生儿惊厥)-[:病因 {}]->(宫内感染弓形虫) 新生儿惊厥 病原体
(宫内感染弓形虫)-[:属于 {}]->(病原体) 宫内感染弓形虫 病原体
(新生儿惊厥)-[:病因 {}]->(宫内感染巨细胞病毒) 新生儿惊厥 病原体
(宫内感染巨细胞病毒)-[:属于 {}]->(病原体) 宫内感染巨细胞病毒 病原体
(新生儿惊厥)-[:病因 {}]->(代谢异常) 新生儿惊厥 身体状态
(代谢异常)-[:属于 {}]->(身体状态) 代谢异常 身体状态
(新生儿肺炎)-[:病因 {}]->(新生儿吸入性肺炎) 新生儿肺炎 既往史
(新生儿吸入性肺炎)-[:属于 {}]->(既往史) 新生儿吸入性肺炎 既往史
(新生儿肺炎)-[:病因 {}]->(新生儿感染性肺炎) 新生儿肺炎 既往史
(新生儿感染性肺炎)-[:属于 {}]->(既往史) 新生儿感染性肺炎 既往史
(矮小症)-[:病因 {}]->(生长激素缺乏) 矮小症 身体状态
(生长激素缺乏)-[:属于 {}]->(身体状态) 生长激素缺乏 身体状态
(矮小症)-[:病因 {}]->(生长激素分泌不足) 矮小症 身体状态
(生长激素分泌不足)-[:属于 {}]->(身体状态) 生长激素分泌不足 身体状态
(矮小症)-[:病因 {}]->(家族性矮身材) 矮小症 既往史
(家族性矮身材)-[:属于 {}]->(既往史) 家族性矮身材 既往史
(矮小症)-[:病因 {}]->(生长激素不敏感) 矮小症 身体状态
(生长激素不敏感)-[:属于 {}]->(身体状态) 生长激素不敏感 身体状态
(矮小症)-[:病因 {}]->(抵抗综合征) 矮小症 既往史
(抵抗综合征)-[:属于 {}]->(既往史) 抵抗综合征 既往史
(矮小症)-[:病因 {}]->(先天性卵巢发育不全) 矮小症 先天因素
(先天性卵巢发育不全)-[:属于 {}]->(先天因素) 先天性卵巢发育不全

None 子宫息肉 身体状态
(内分泌失调)-[:属于 {}]->(身体状态) 内分泌失调 身体状态
None 子宫息肉 既往史
None 炎症刺激 既往史
None 呆滞 心理状态
None 受压力或者受压迫较少 心理状态
None 呆滞 心理状态
None 情志、情结失调 心理状态
None 呆滞 体型结构
(个体体质)-[:属于 {}]->(体型结构) 个体体质 体型结构
None 精神疾病 心理状态
None 心理因素 心理状态
None 健忘症 社会/人口
None 电子产品的频繁使用 社会/人口
None 健忘症 生活习惯
None 日常生活习惯 生活习惯
None 健忘症 身体状态
None 失眠或少眠 身体状态
None 被害妄想症 身体状态
None 器质性病变 身体状态
None 被害妄想症 心理状态
(心理因素)-[:属于 {}]->(心理状态) 心理因素 心理状态
None 臆想症 心理状态
(心理因素)-[:属于 {}]->(心理状态) 心理因素 心理状态
None 臆想症 身体状态
None 器质性因素 身体状态
None 春节综合征 生活习惯
None 暴饮暴食 生活习惯
None 春节综合征 行为类型
None 敬神 行为类型
None 春节综合征 心理状态
None 压力和亚健康 心理状态
None 感觉统合失调 行为类型
None 哺育不当 行为类型
None 感觉统合失调 教育文化
None 教育方法不当 教育文化
None 性变态 心理状态
(心理因素)-[:属于 {}]->(心理状态) 心理因素 心理状态
None 性变态 环境病因
(环境因素)-[:属于 {}]->(环境病因) 环境因素 环境病因
None 广场恐惧症 身体状态
None 宿主因素 身体状态
None 广场恐惧症 心理状态
None 敌对心理 心理状态
None 广场恐惧症 心理状态
None 心理阴影 心理状态
None 精神强迫症 心理状态
(心理因素)-[:属于 {}]->(心理状态) 心理因素 心理状态
None 人群恐惧症 体型结构
(个体体质)-[:属于 {}]->(体型结构) 个体体质 体型结构
None 人群恐惧症 体型结构
None 生理因素 体型结构
None 人群恐惧症 心理状态
(心理因素)-[:属于 {}]->(心理状态) 心理因

ProtocolError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))

## 完整程序