# 导入包

In [1]:
from collections import defaultdict
from tqdm import tqdm
import re
import json
from copy import deepcopy
import random

# 将数据处理成QA对形式

## 读取原始数据

In [3]:
def read_data(data_path):
    with open(data_path) as f:
        lines=f.readlines()
    data=[]
    for line in lines:
        data.append(json.loads(line))
    print("原始数据有{}个样本".format(len(data)))
    return data
    
data=[]
data.extend(read_data('/home/xhsun/Desktop/KG/kgCLUE/qa_data/train.json'))
data.extend(read_data('/home/xhsun/Desktop/KG/kgCLUE/qa_data/dev.json'))
data.extend(read_data('/home/xhsun/Desktop/KG/kgCLUE/qa_data/test_public.json'))

原始数据有18000个样本
原始数据有2000个样本
原始数据有2000个样本


In [4]:
print("原始数据有{}个样本".format(len(data)))
for i in range(10):
    print(data[i])

原始数据有22000个样本
{'id': 0, 'question': '你知道守望星光是哪家公司出品的吗？', 'answer': '守望星光（韩玉玲、刘东考演唱歌曲） ||| 出品公司 ||| 韩玉玲原创音乐'}
{'id': 1, 'question': '武汉交通职业学院计算机协会有哪些学校？', 'answer': '武汉交通职业学院计算机协会 ||| 学校 ||| 武汉交通职业学院'}
{'id': 2, 'question': '你知道龙晶用繁体字怎么写吗？', 'answer': '龙晶（游戏） ||| 繁体 ||| 龍晶'}
{'id': 3, 'question': '无罪无我的和声是什么？', 'answer': '无罪无我 ||| 和声 ||| 章韵、徐晨辰'}
{'id': 4, 'question': '你知道影舞者的车身有多重吗？', 'answer': '影舞者（《QQ飞车》中的赛车） ||| 车身重量 ||| 1232kg'}
{'id': 5, 'question': '冯慧专业是什么方向？', 'answer': '冯慧（武汉大学教授） ||| 专业方向 ||| 偏微分方程数值解'}
{'id': 6, 'question': '你知道戴姆勒股份公司有多少员工吗？', 'answer': '戴姆勒股份公司 ||| 员工数 ||| 298655 人(2020年)'}
{'id': 7, 'question': '谁知道魔力w.i.t.c.h.系列有哪些丛书？', 'answer': '魔力w.i.t.c.h. ||| 丛书系列 ||| 魔力w.i.t.c.h.100少女完全手册、魔力w.i.t.c.h.故事集、魔力w.i.t.c.h.小说《破碎的魔球》'}
{'id': 8, 'question': '谁知道端午节有什么重要意义？', 'answer': '端午节（中国四大传统节日之一） ||| 节日意义 ||| 传承与弘扬非物质文化'}
{'id': 9, 'question': '谁唱的风不息？', 'answer': '风不息（1995年郭富城发行的音乐专辑） ||| 歌手 ||| 郭富城'}


## 将原始数据转换为QA对的形式

In [5]:
all_examples=[]
bad_examples=[]
for example in data:
    question,answer=example['question'],example['answer']
    triplet=answer.strip().split('|||')
    assert len(triplet)==3
    assert type(question)==str
    question=question.strip()
    entity=triplet[0].strip()
    rel=triplet[1].strip()
    ans=triplet[2].strip()
    
    if ('（' in entity and '）' in entity) and entity not in question:
        #print(entity,question)
        #assert entity.split('（')[0] in question
        question=question.replace(entity.split('（')[0],entity)
            
    if entity in question:
        start_id=question.find(entity)
        end_id=start_id+len(entity)
        question=question[:start_id]+'<'+entity+'>'+question[end_id:]
        all_examples.append({"question":question,'topic_entity':entity,'answer':ans,'relation':rel})
    else:
        bad_examples.append(example)

In [6]:
print(len(data),len(all_examples))
print('转换后的每一个样本形如：')
for i in range(5):
    print(all_examples[i])

22000 21975
转换后的每一个样本形如：
{'question': '你知道<守望星光（韩玉玲、刘东考演唱歌曲）>是哪家公司出品的吗？', 'topic_entity': '守望星光（韩玉玲、刘东考演唱歌曲）', 'answer': '韩玉玲原创音乐', 'relation': '出品公司'}
{'question': '<武汉交通职业学院计算机协会>有哪些学校？', 'topic_entity': '武汉交通职业学院计算机协会', 'answer': '武汉交通职业学院', 'relation': '学校'}
{'question': '你知道<龙晶（游戏）>用繁体字怎么写吗？', 'topic_entity': '龙晶（游戏）', 'answer': '龍晶', 'relation': '繁体'}
{'question': '<无罪无我>的和声是什么？', 'topic_entity': '无罪无我', 'answer': '章韵、徐晨辰', 'relation': '和声'}
{'question': '你知道<影舞者（《QQ飞车》中的赛车）>的车身有多重吗？', 'topic_entity': '影舞者（《QQ飞车》中的赛车）', 'answer': '1232kg', 'relation': '车身重量'}


In [7]:
for i in range(len(bad_examples)):
    print(bad_examples[i])

{'id': 209, 'question': '哈维尔埃尔南德斯习惯用哪只脚？', 'answer': '哈维尔·埃尔南德斯（1988年生墨西哥足球运动员） ||| 惯用脚 ||| 右脚'}
{'id': 747, 'question': '正大综艺是什么频道播出的？', 'answer': '2009年正大综艺节目列表 ||| 播出频道 ||| 中央电视台综艺频道'}
{'id': 838, 'question': '有人了解网易的股票代码吗？', 'answer': '网易公司 ||| 股票代码 ||| NTES（美股）'}
{'id': 977, 'question': '安徽日报农村版的周期是什么？', 'answer': '安徽日报·农村版 ||| 周期 ||| 周二刊'}
{'id': 2798, 'question': '你知道利群集团的年营业额是多少吗？', 'answer': '利群集团股份有限公司 ||| 年营业额 ||| 3038679 万元(2019年)'}
{'id': 4147, 'question': '你知道我家的女仆有够烦的出版社是什么吗？', 'answer': '我家的女仆有够烦！（中村カンコ著作的漫画） ||| 其他出版社 ||| 青文出版社（中国台湾）'}
{'id': 4148, 'question': '仓央嘉措是在哪里逝世的？', 'answer': '第六世达赖喇嘛·仓央嘉措 ||| 逝世地 ||| 中国青海湖附近公噶瑙尔'}
{'id': 5046, 'question': '请问阿莱克斯库珀哪只脚为惯用脚？', 'answer': '阿莱克斯·库珀 ||| 惯用脚 ||| 左脚'}
{'id': 5358, 'question': '认真和我谈恋爱的游戏平台是什么呀?', 'answer': '认真和我谈恋爱！！（2009年みなとそふと开发的恋爱冒险电脑游戏） ||| 游戏平台 ||| PC(Windows2000/XP/Vista)'}
{'id': 5591, 'question': '姚明的中文名是什么？', 'answer': '王子（亚洲篮球联合会主席、中国篮球协会主席） ||| 中文名 ||| 王子'}
{'id': 5988, 'question': '电视里演的还珠格格是哪种类型的电视剧？', 

**问题中的实体(topic entity)用<>括起来**

# 根据构造的QA对数据来提取一个小规模的知识图谱
提交的测试集泛化性不高

## 首先读取大规模的知识图谱

In [8]:
sub_map = defaultdict(list)
obj_map = defaultdict(list)
so_map=defaultdict(list)
kg_path='../../KgCLUE-main/knowledge/Knowledge.txt'
with open(kg_path) as f:
    lines=f.readlines()
    
entities_set=set()
relations_set=set()
for i in tqdm(range(len(lines))):
    line=lines[i]
    l = line.strip().split('\t')
    s = l[0].strip()
    p = l[1].strip()
    o = l[2].strip()
    entities_set.add(s)
    entities_set.add(o)
    relations_set.add(p)
    
    sub_map[s].append((p, o))
    obj_map[o].append((s, p))
    so_map[(s,o)].append(p)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 22884223/22884223 [01:13<00:00, 310007.26it/s]


In [9]:
print('大规模图谱中一共有{}个三元组，{}个实体，{}个关系'.format(len(lines),len(entities_set),len(relations_set)))

大规模图谱中一共有22884223个三元组，9418365个实体，245838个关系


**sub_map记录的是每一个头实体(subject、head)对应的所有可能出现的(关系,尾实体)的集合**

In [10]:
sub_map['周杰伦']

[('中文名', '周杰伦'),
 ('主要成就',
  '获得十五座金曲奖两届台湾金曲奖最佳国语男歌手四届世界音乐大奖最畅销中华区艺人入选美国CNN亚洲25位最具影响力人物\xa0《Fast Company》全球百大创意人物大中华区8次年度唱片销量冠军2010年MP3下载量全球第三2009年悉尼演唱会票房公告牌全球第二两届MTV亚洲大奖最受欢迎艺人连续7年获得IFPI香港唱片销量大奖十大销量国语唱片四届新加坡金曲奖最受欢迎男歌手收起'),
 ('主要成就',
  '获得十五座金曲奖两届台湾金曲奖最佳国语男歌手四届世界音乐大奖最畅销中华区艺人入选美国CNN亚洲25位最具影响力人物\xa0《Fast Company》全球百大创意人物展开获得十五座金曲奖两届台湾金曲奖最佳国语男歌手四届世界音乐大奖最畅销中华区艺人入选美国CNN亚洲25位最具影响力人物\xa0《Fast Company》全球百大创意人物大中华区8次年度唱片销量冠军2010年MP3下载量全球第三2009年悉尼演唱会票房公告牌全球第二两届MTV亚洲大奖最受欢迎艺人连续7年获得IFPI香港唱片销量大奖十大销量国语唱片四届新加坡金曲奖最受欢迎男歌手收起'),
 ('代表作品', '星晴、龙卷风、简单爱、双截棍、晴天、以父之名、七里香、夜曲、青花瓷、彩虹、稻香、告白气球'),
 ('出生地', '台湾省新北市'),
 ('出生日期', '1979年1月18日'),
 ('别名', '周董'),
 ('国籍', '中国'),
 ('外文名', 'Jay Chou'),
 ('影视代表作', '不能说的秘密、逆战、天台'),
 ('影视代表作', '青蜂侠、头文字D、大灌篮、寻找周杰伦'),
 ('星座', '摩羯座'),
 ('毕业院校', '淡江中学'),
 ('民族', '汉族'),
 ('经纪公司', '杰威尔音乐有限公司'),
 ('职业', '歌手、音乐人、制作人、导演、商人'),
 ('血型', 'O型'),
 ('身高', '175cm')]

**obj_map记录的是每一个尾实体(object、tail)对应的所有可能出现的(头实体，关系)的集合**

In [11]:
obj_map['金庸']

[('七虫七花膏', '发明者'),
 ('三恋', '编剧'),
 ('三恋', '编剧'),
 ('九阴真经（金庸小说中的武学秘籍）', '作者'),
 ('书剑恩仇录（1976年香港TVB郑少秋主演版电视剧）', '原著'),
 ('书剑恩仇录（1976年香港TVB郑少秋主演版电视剧）', '原著'),
 ('书剑恩仇录（1981年香港邵氏狄龙主演版电影）', '原著'),
 ('书剑恩仇录（1981年香港邵氏狄龙主演版电影）', '原著'),
 ('书剑恩仇录（2015张纪中版书剑恩仇录）', '原著'),
 ('书剑恩仇录（2015张纪中版书剑恩仇录）', '原著'),
 ('书剑恩仇录（原著改编连环画）', '小说作者'),
 ('书剑恩仇录（金庸创作长篇武侠小说）', '作者'),
 ('书剑恩仇录（金庸创作长篇武侠小说）', '作者'),
 ('伏魔杖法', '作者'),
 ('何三七', '作者'),
 ('何三七', '作者'),
 ('侠客行（金庸创作长篇武侠小说）', '作者'),
 ('侠客行（金庸创作长篇武侠小说）', '作者'),
 ('俞连舟', '作者'),
 ('俞连舟', '作者'),
 ('倚天屠龙记之魔教教主', '编剧'),
 ('倚天屠龙记（1986年王天林监制的TVB电视剧）', '原著'),
 ('倚天屠龙记（1994年台湾台视版马景涛主演电视剧）', '原著'),
 ('倚天屠龙记（1994年马景涛主演电视剧）', '原著'),
 ('倚天屠龙记（2001年香港TVB版吴启华主演电视剧）', '原著'),
 ('倚天屠龙记（2001年香港TVB版吴启华主演电视剧）', '原著'),
 ('倚天屠龙记（2003年合拍版苏有朋主演电视剧）', '原著'),
 ('倚天屠龙记（2003年合拍版苏有朋主演电视剧）', '原著'),
 ('倚天屠龙记（2009年大陆版邓超主演电视剧）', '原著'),
 ('倚天屠龙记（2009年大陆版邓超主演电视剧）', '原著'),
 ('倚天屠龙记（2019年曾舜晞主演电视剧）', '原著'),
 ('倚天屠龙记（2019年蒋家骏执导电视剧）', '原著'),
 ('倚天屠龙记（共四册）', '作者'),
 ('倚天屠龙记（武侠小说改编漫画）', '原作'),
 ('倚天屠龙记（金庸创

**so_map记录的每一个（头实体，尾实体）对应的所有可能的关系集合**

In [12]:
print(so_map[('周杰伦', '汉族')])
print(so_map[('金庸', '中国')])

['民族']
['国籍']


## 根据QA对数据构造小规模知识图谱

符号说明
- KG   知识图谱               
- $T_{big}$  大规模KG中三元组集合 
- $E_{big}$  大规模KG中的实体集合   
- $R_{big}$  大规模KG中的关系集合   

构造的思路是对于数据集中每一个（问题，答案）：
1. 将问题中的topic entity作为头实体，答案视为尾实体，根据（头实体，尾实体）的组合从so_map中找到所有可能的关系。
2. 根据问题中的topic entity，获取这个topic entity的n跳路径内的所有实体（n一般设置为2-4即可）

第一步的目的是统计QA数据集中每一个（问题，答案）之间的所有关系，记为集合$R_{qa}$，该集合代表的是整个QA数据集中所有可能出现的关系。
针对$T_{big}$，我们仅保留涉及这些关系的三元组，**也就是说对于$T_{big}$中的某个三元组$(h,r,t)$，如果$r$不在集合$R_{qa}$中,那么这个三元组就会被舍弃**。

显然这一步的目的是为了缩小关系集合，从而进一步的缩小三元组数量以及对应的实体数量。

第二步的目的是通过限定路径长度进一步的缩小实体数量。

In [13]:
small_triplets=set()
small_entities=set()
small_relations=set()
new_examples=[]
bad_entities=[]
bad_answers=[]
for i in tqdm(range(len(all_examples))):
    example=deepcopy(all_examples[i])
    question,topic_entity,answer,relation=example['question'],example['topic_entity'],example['answer'],example['relation']
    answer=answer.replace('\t','').replace(' ','')
    example['answer']=answer
    if answer.strip()=='':
        continue
    elif topic_entity not in sub_map:
        bad_entities.append(topic_entity)
        continue
    elif answer not in obj_map:
        bad_answers.append(answer)
        continue
    else:
        head=topic_entity
        small_entities.add(head)
        small_entities.add(answer)
        for rel in so_map[(head,answer)]:
            small_relations.add(rel)#仅仅添加qa数据对中涉及的关系即可
        
        for p1, o1 in sub_map[head]:
            if p1 in small_relations:
                small_triplets.add((head,p1,o1))
                small_entities.add(o1)
            for p2, o2 in sub_map[o1]:
                if p2 in small_relations:
                    small_triplets.add((o1,p2,o2))
                    small_entities.add(o2)
                for p3, o3 in sub_map[o2]:
                    if p3 in small_relations:
                        small_triplets.add((o2,p3,o3))
                        small_entities.add(o3)
                    for p4, o4 in sub_map[o3]:
                        if p4 in small_relations:
                            small_triplets.add((o3,p4,o4))
                            small_entities.add(o4)
        new_examples.append(example)

100%|███████████████████████████████████████████████████████████████████████████████████████████████| 21975/21975 [00:02<00:00, 9093.93it/s]


In [14]:
print('大规模图谱中一共有{}个三元组，{}个实体，{}个关系'.format(len(lines),len(entities_set),len(relations_set)))
print('小规模图谱中一共有{}个三元组，{}个实体，{}个关系'.format(len(small_triplets),len(small_entities),len(small_relations)))

大规模图谱中一共有22884223个三元组，9418365个实体，245838个关系
小规模图谱中一共有324494个三元组，210227个实体，2274个关系


**QA数据集和知识图谱构造完毕**

In [15]:
new_examples[0]

{'question': '你知道<守望星光（韩玉玲、刘东考演唱歌曲）>是哪家公司出品的吗？',
 'topic_entity': '守望星光（韩玉玲、刘东考演唱歌曲）',
 'answer': '韩玉玲原创音乐',
 'relation': '出品公司'}

In [24]:
for example in new_examples:
    topic_entity,answer,relation=example['topic_entity'],example['answer'],example['relation']
    assert topic_entity.strip() in small_entities
    assert answer.strip() in small_entities
    #assert relation in small_relations

# 将QA数据集划分并保存

In [16]:
print(len(new_examples))
def write_file(data,path):
    f=open(path,'w')
    for example in data:
        question,topic_entity,answer,relation=example['question'],example['topic_entity'],example['answer'],example['relation']
        if answer=='' or answer.strip()=='':
            count+=1
            continue
        f.write(question+'\t'+answer+'\t'+'\n')
    f.close()
    
write_file(new_examples[:-2000],'../../train.txt')
write_file(new_examples[-2000:],'../../test.txt')

20724


# 保存构造的小规模知识图谱

In [17]:
print('小规模图谱中一共有{}个三元组，{}个实体，{}个关系'.format(len(small_triplets),len(small_entities),len(small_relations)))

小规模图谱中一共有324494个三元组，210227个实体，2274个关系


## 保存三元组

In [18]:
with open("../../KgCLUE-main/knowledge/small_kg.txt",'w') as f:
    for head,rel,tail in small_triplets:
        f.write('|||'.join([head,rel,tail])+'\n')

## 保存实体

In [19]:
with open("../../KgCLUE-main/knowledge/small_knowledge/entities.dict",'w') as f:
    for i,ent in enumerate(small_entities):
        f.write(ent+'\t'+str(i)+'\n')

## 保存关系

In [20]:
with open("../../KgCLUE-main/knowledge/small_knowledge/relations.dict",'w') as f:
    for i,rel in enumerate(small_relations):
        f.write(rel+'\t'+str(i)+'\n')

**至此，数据处理部分完毕**

In [9]:
with open("../../KgCLUE-main/knowledge/entities.dict",'w') as f:
    for i,ent in enumerate(entities_set):
        f.write(ent+'\t'+str(i)+'\n')

In [13]:
with open("../../KgCLUE-main/knowledge/relations.dict",'w') as f:
    for i,ent in enumerate(relations_set):
        if ent=='' or ent=='\n':
            continue
        f.write(ent+'\t'+str(i)+'\n')

In [21]:
bad_count=0
with open("../../KgCLUE-main/knowledge/Knowledge.txt",'w') as f:
    for i in tqdm(range(len(lines))):
        triplets='|||'.join(lines[i].strip().split('\t'))
        if len(triplets.split('|||'))!=3:
            bad_count+=1
            continue
        f.write(triplets+'\n')

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 22884223/22884223 [00:18<00:00, 1233481.41it/s]


In [22]:
bad_count

0

In [23]:
len(lines)

22884223

In [32]:
import os

ent2id = {}
with open(os.path.join('../../KgCLUE-main/knowledge/', 'entities.dict')) as f:
    lines=f.readlines()
for i in tqdm(range(len(lines))):
    l = lines[i].strip().split('\t')
    ent2id[l[0].strip()] = len(ent2id)

rel2id = {}
with open(os.path.join('../../KgCLUE-main/knowledge/', 'relations.dict')) as f:
    lines=f.readlines()
for i in tqdm(range(len(lines))):
    l = lines[i].strip().split('\t')
    rel2id[l[0].strip()] = int(l[1])

bad_count=0
triples=[]
with open(os.path.join('../../KgCLUE-main/knowledge/', 'Knowledge.txt')) as f:
    lines=f.readlines()
for i in tqdm(range(len(lines))):
    l = lines[i].strip().split('|||')
    try:
        s = ent2id[l[0].strip()]
        p = rel2id[l[1].strip()]
        o = ent2id[l[2].strip()]
        triples.append((s, p, o)) 
    except:
        bad_count+=1


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9418365/9418365 [00:05<00:00, 1865843.87it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 245837/245837 [00:00<00:00, 1915961.86it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 22884223/22884223 [00:23<00:00, 957400.90it/s]


In [33]:
bad_count

688

In [35]:
relations_set=set()
entities_set=set()

for s,p,o in triples:
    entities_set.add(s)
    entities_set.add(o)
    relations_set.add(p)
    
print(len(entities_set))
print(len(relations_set))
bad_rel=0
with open("../../KgCLUE-main/knowledge/relations.dict",'w') as f:
    for i,ent in enumerate(relations_set):
        if ent=='' or ent=='\n':
            bad_rel+=1
            continue
        f.write(str(ent)+'\t'+str(i)+'\n')
        
bad_ent=0
with open("../../KgCLUE-main/knowledge/entities.dict",'w') as f:
    for i,ent in enumerate(entities_set):
        if ent=='' or ent=='\n':
            bad_ent+=1
            continue
        f.write(str(ent)+'\t'+str(i)+'\n')

9418099
245837


大规模图谱中一共有22884223个三元组，9418365个实体，245838个关系

In [38]:
bad_ent

0

In [18]:
'|||'.join('\t'.split(lines[i].strip()))

'\t'

In [40]:
ent2id['!=']

2225677

In [42]:
len(triples)

22883535

In [44]:
with open(os.path.join('../../KgCLUE-main/knowledge/', 'Knowledge.txt'),'w') as f:
    for s,p,o in triples:
        f.write('|||'.join([str(s),str(p),str(o)])+'\n')