In [1]:
'''
下面是处理完三元组之后如何利用它们构建知识图谱（因此不要担心你的知识图谱的实体不能连接在一起）

1.识别唯一实体：因为我们的三元组已经是主谓宾的结构，因此可以直接从三元组的主语和宾语位置提取所有唯一的实体，这些实体将成为知识图中的节点

2.创建节点：在知识图谱中为每个识别出的唯一实体创建一个节点，为每个节点分配一个唯一的标识符或标签

3.创建关系：将三元组中的谓词映射到知识图谱中的关系上 -- 对于每个三元组，根据谓词在相应的主语和宾语节点之间创建一个关系
（注意，知识图谱与其他数据结构不同的地方就在于两个实体之间是可以存在多种不同的关系的，而传统的图或关系数据库模型中，实体之间的关系通常局限于一种类型）

'''
import pandas as pd
import csv

In [2]:
# 读取三元组文件
h_r_t_name = [":START_ID", "role", ":END_ID"]
h_r_t = pd.read_table("./data/handle_triples_data.txt", decimal="\t", names=h_r_t_name)
print(h_r_t.info())
print(h_r_t.head())

# 去除重复实体
entity = set()
entity_h = h_r_t[':START_ID'].tolist()
entity_t = h_r_t[':END_ID'].tolist()
for i in entity_h:
    entity.add(i)
for i in entity_t:
    entity.add(i)
print(entity)
# 保存节点文件
csvf_entity = open("./data/entity.csv", "w", newline='', encoding='utf-8')
w_entity = csv.writer(csvf_entity)
# 实体ID，要求唯一，名称，LABEL标签，可自己不同设定对应的标签
w_entity.writerow(("entity:ID", "name", ":LABEL"))
entity = list(entity)
entity_dict = {}
for i in range(len(entity)):
    w_entity.writerow(("e" + str(i), entity[i], "my_entity"))
    entity_dict[entity[i]] = "e"+str(i)
csvf_entity.close()
# 生成关系文件，起始实体ID，终点实体ID，要求与实体文件中ID对应，:TYPE即为关系
h_r_t[':START_ID'] = h_r_t[':START_ID'].map(entity_dict)
h_r_t[':END_ID'] = h_r_t[':END_ID'].map(entity_dict)
h_r_t[":TYPE"] = h_r_t['role']
h_r_t.pop('role')
h_r_t.to_csv("./data/roles.csv", index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4554 entries, 0 to 4553
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   :START_ID  4554 non-null   object
 1   role       4554 non-null   object
 2   :END_ID    4554 non-null   object
dtypes: object(3)
memory usage: 106.9+ KB
None
           :START_ID role :END_ID
0                天水地   出现   强降雨过程
1                 损失    是      惨重
2               受灾范围  集中在     福建省
3               受灾范围   搜救    失踪人员
4  四川省雅安市汉源县万工乡境内后背山   发生    山体滑坡
{'民政部调运物资', '宜昌市自然灾害救助指挥部', '危房动员老百姓转移', '距离', '各地确保专款专用', '小二型康家沟水库', '极端天气影响', '遭受洪涝风雹灾害的', '县城多处被淹', '支持', '千亩以上圩堤溃决', '农业部门组成工作组', '当天通报', '九江地', '强降雨是直接原因', '腾空库容', '新居', '福建省份遭受洪涝风雹灾害', '临街商铺', '重庆主城', '较大挑战', '常年同期2.9倍', '来自拉萨市政府防汛抗旱指挥办公室消息', '要求', '大家', '多生活可以', '货物专用车', '藏镍矿修路', '地', '当前处于防汛关键时刻', '吃菜', '副总理汪洋', '化工原料桶', '三明局地降雨量', '贵州遭受袭击造成19个县市发生洪涝灾害', '大量房屋', '危险区域', '山洪自然灾害', '陕西洪涝灾区民房重建', '洪涝灾害损失统计指标', '很多游客', '地质灾害气象风险', '黄泽元', '

csv文件直接使用excel打开一般会出现乱码，推荐将其使用excel的导入功能进行导入进而可视化