# 导入包

In [69]:
from collections import defaultdict
from tqdm import tqdm
import re
import json
from copy import deepcopy
import random

# 将数据处理成QA对形式

## 读取原始数据

In [2]:
data_path='/home/xhsun/Desktop/KG/nlpcc2018/nlpcc2018.kbqg.train'
with open(data_path) as f:
    lines=f.readlines()

data=[[]]
for line in lines:
    if len(line.strip().split())<=1:
        data.append([])
    else:
        data[-1].append(line.strip())
if data[-1]==[]:
    del data[-1]
for example in data:
    assert len(example)==2

In [11]:
print("原始数据有{}个样本".format(len(data)))
print('每一个样本包含（问题，三元组）：')
for i in range(5):
    print("问题：",data[i][1],' 三元组：',data[i][0])

原始数据有24479个样本
每一个样本包含（问题，三元组）：
问题： <question id=1>	《机械设计基础》这本书的作者是谁？  三元组： <triple id=1>	机械设计基础 ||| 作者 ||| 杨可桢，程光蕴，李仲生
问题： <question id=2>	《高等数学》是哪个出版社出版的？  三元组： <triple id=2>	高等数学 ||| 出版社 ||| 武汉大学出版社
问题： <question id=3>	《线性代数》这本书的出版时间是什么？  三元组： <triple id=3>	线性代数 ||| 出版时间 ||| 2013-12-30
问题： <question id=4>	安德烈是哪个国家的人呢？  三元组： <triple id=4>	安德烈 ||| 国籍 ||| 摩纳哥
问题： <question id=5>	《线性代数》的isbn码是什么？  三元组： <triple id=5>	线性代数 ||| isbn ||| 978-7-111-36843-4


## 将原始数据转换为QA对的形式

In [56]:
all_examples=[]
for example in data:
    triplet,question=example
    triplet=triplet.split('\t')
    question=question.split('\t')
    assert len(question)==2 and question[0].startswith('<') and question[0].endswith('>') and len(triplet)==2
    question=question[1]
    triplet=triplet[1].split('|||')
    assert len(triplet)==3
    entity=triplet[0].strip()
    rel=triplet[1].strip()
    ans=triplet[2].strip()
    assert type(question)==str
    question=question.strip()
    if ('《' in question and '》' in question) and ('《' not in entity and '》' not in entity):
        #print(question,entity)
        entity='《'+entity+'》'
            
    if entity in question:
        start_id=question.find(entity)
        end_id=start_id+len(entity)
        question=question[:start_id]+'<'+entity+'>'+question[end_id:]
        all_examples.append({"question":question,'topic_entity':entity,'answer':ans,'relation':rel})

In [57]:
print('转换后的每一个样本形如：')
for i in range(5):
    print(all_examples[i])

转换后的每一个样本形如：
{'question': '<《机械设计基础》>这本书的作者是谁？', 'topic_entity': '《机械设计基础》', 'answer': '杨可桢，程光蕴，李仲生', 'relation': '作者'}
{'question': '<《高等数学》>是哪个出版社出版的？', 'topic_entity': '《高等数学》', 'answer': '武汉大学出版社', 'relation': '出版社'}
{'question': '<《线性代数》>这本书的出版时间是什么？', 'topic_entity': '《线性代数》', 'answer': '2013-12-30', 'relation': '出版时间'}
{'question': '<安德烈>是哪个国家的人呢？', 'topic_entity': '安德烈', 'answer': '摩纳哥', 'relation': '国籍'}
{'question': '<《线性代数》>的isbn码是什么？', 'topic_entity': '《线性代数》', 'answer': '978-7-111-36843-4', 'relation': 'isbn'}


**问题中的实体(topic entity)用<>括起来**

# 根据构造的QA对数据来提取一个小规模的知识图谱

## 首先读取大规模的知识图谱

In [51]:
sub_map = defaultdict(list)
obj_map = defaultdict(list)
so_map=defaultdict(list)
kg_path='/home/xhsun/Desktop/KG/nlpcc2018/knowledge/original_knowledge/nlpcc-iccpol-2016.kbqa.kb'
with open(kg_path) as f:
    lines=f.readlines()
    
entities_set=set()
relations_set=set()
for i in tqdm(range(len(lines))):
    line=lines[i]
    l = line.strip().split('|||')
    s = l[0].strip()
    p = l[1].strip()
    o = l[2].strip()
    entities_set.add(s)
    entities_set.add(o)
    relations_set.add(p)
    
    sub_map[s].append((p, o))
    obj_map[o].append((s, p))
    so_map[(s,o)].append(p)

100%|███████████████████████████████████████████████████████████████████████████████████████| 43063796/43063796 [02:43<00:00, 263123.08it/s]


In [52]:
print('大规模图谱中一共有{}个三元组，{}个实体，{}个关系'.format(len(lines),len(entities_set),len(relations_set)))

大规模图谱中一共有43063796个三元组，16196206个实体，595941个关系


**sub_map记录的是每一个头实体(subject、head)对应的所有可能出现的(关系,尾实体)的集合**

In [22]:
sub_map['笑傲江湖']

[('别名', '笑傲江湖'),
 ('中文名', '笑傲江湖'),
 ('出品时间', '1990年'),
 ('制片地区', '中国香港'),
 ('类型', '喜剧，动作，剧情，爱情'),
 ('片长', '120分钟'),
 ('对白语言', '粤语'),
 ('执行导演', '徐克，程小东，李惠民'),
 ('外文名', 'Swordsman'),
 ('出品公司', '金公主电影，新宝娱乐，龙祥影业'),
 ('导演', '胡金铨'),
 ('主演', '许冠杰，叶童，张学友，张敏，袁洁莹，刘兆铭'),
 ('上映时间', '1990年4月5日（中国香港）'),
 ('色彩', '彩色'),
 ('书名', '笑傲江湖'),
 ('作者', '金庸'),
 ('首播平台', '湖南卫视：金鹰独播剧场'),
 ('杀青时间', '2012年07月14日'),
 ('网络首播', '爱奇艺、腾讯、乐视'),
 ('编剧', '于正'),
 ('集数', '42集（剪辑版56集）'),
 ('开机时间', '2012年03月24日'),
 ('拍摄地点', '浙江省丽水市缙云仙都旅游胜地'),
 ('影片名称', '笑傲江湖'),
 ('其他名称', '新加坡版笑傲江湖'),
 ('香港首播', '2003年02月10日，翡翠台'),
 ('制片人', '张纪中'),
 ('其它译名', 'The Proud Youth'),
 ('制作人', '杨佩佩'),
 ('游戏类别', '3D武侠网游、MMORPG'),
 ('游戏语言', '简体中文'),
 ('发行商', '完美世界'),
 ('战斗方式', '即时战斗'),
 ('游戏平台', 'PC、网络游戏'),
 ('开发商', '完美世界'),
 ('发行时间', '2013年4月17日'),
 ('简称', '笑傲江湖'),
 ('中文名称', '《笑傲江湖》'),
 ('播出时间', '2014年3月16日首播'),
 ('语言', '汉语普通话'),
 ('嘉宾', '冯小刚、宋丹丹、吴君如、刘仪伟'),
 ('书籍封面', '书籍封面'),
 ('出版地', '香港'),
 ('题材', '武侠'),
 ('出版者', '明河社（香港） 远流（台湾） 牛津大学出版社 英语译本 德间书店 日语译

**obj_map记录的是每一个尾实体(object、tail)对应的所有可能出现的(头实体，关系)的集合**

In [23]:
obj_map['金庸']

[('阿丽丝漫游记', '作者'),
 ('雪山飞狐(吕良伟1985年主演电视剧)', '原著'),
 ('汤沛', '作者'),
 ('日月神教', '撰写者'),
 ('射雕英雄传(金庸武侠小说)', '作者'),
 ('侯通海', '作者'),
 ('袁冠南', '作者'),
 ('袁崇焕评传', '作者'),
 ('江南七怪', '作者'),
 ('程灵素', '作者'),
 ('射雕英雄传之东成西就', '故事'),
 ('计无施', '小说作者'),
 ('郭芙', '作者'),
 ('冯锡范', '作者'),
 ('风清扬', '作者'),
 ('达尔巴', '作者'),
 ('金庸全集', '作者'),
 ('阿珂', '作者'),
 ('射雕英雄传(2003年内地版李亚鹏、周迅主演电视剧)', '原著'),
 ('王语嫣', '作者'),
 ('辟邪剑谱', '作者'),
 ('辟邪剑谱', '作 者'),
 ('定静师太', '作者'),
 ('丹青生', '作者'),
 ('独孤九剑(金庸小说中的武学)', '作者'),
 ('嵩山十三太保', '作者'),
 ('嵩山十三太保', '作 者'),
 ('花万紫', '作品作者'),
 ('雪山飞狐(金庸武侠小说)', '作者'),
 ('冰雪儿', '作者'),
 ('骆冰', '作者'),
 ('钟灵', '作者'),
 ('天山六阳掌', '作者'),
 ('天山六阳掌', '作 者'),
 ('碧血剑(1956年金庸创作武侠小说)', '作者'),
 ('焦宛儿', '作者'),
 ('木婉清', '作者'),
 ('内劲', '较早提出者'),
 ('倚天屠龙记(武侠小说改编漫画)', '原作'),
 ('白阿绣', '作者'),
 ('笑傲江湖(金庸创作小说)', '作者'),
 ('徐潮生', '作者'),
 ('连城诀(金庸创作武侠小说)', '作者'),
 ('胡青牛', '作者'),
 ('胡青牛', '作 者'),
 ('书剑恩仇录(1976年香港TVB郑少秋主演版电视剧)', '原著'),
 ('上官剑南', '作者'),
 ('雪山飞狐(聂远2007年主演电视剧)', '原著'),
 ('金庸作品', '作者'),
 ('五轮大转', '作者'),
 ('雪山飞狐(卫子

**so_map记录的每一个（头实体，尾实体）对应的所有可能的关系集合**

In [50]:
print(so_map[('姚明', '226厘米')])
print(so_map[('姚明', '中国')])

['身高']
['国籍']


## 根据QA对数据构造小规模知识图谱

符号说明
- KG   知识图谱               
- $T_{big}$  大规模KG中三元组集合 
- $E_{big}$  大规模KG中的实体集合   
- $R_{big}$  大规模KG中的关系集合   

构造的思路是对于数据集中每一个（问题，答案）：
1. 将问题中的topic entity作为头实体，答案视为尾实体，根据（头实体，尾实体）的组合从so_map中找到所有可能的关系。
2. 根据问题中的topic entity，获取这个topic entity的n跳路径内的所有实体（n一般设置为2-4即可）

第一步的目的是统计QA数据集中每一个（问题，答案）之间的所有关系，记为集合$R_{qa}$，该集合代表的是整个QA数据集中所有可能出现的关系。
针对$T_{big}$，我们仅保留涉及这些关系的三元组，**也就是说对于$T_{big}$中的某个三元组$(h,r,t)$，如果$r$不在集合$R_{qa}$中,那么这个三元组就会被舍弃**。

显然这一步的目的是为了缩小关系集合，从而进一步的缩小三元组数量以及对应的实体数量。

第二步的目的是通过限定路径长度进一步的缩小实体数量。

In [58]:
small_triplets=set()
small_entities=set()
small_relations=set()
new_examples=[]
bad_entities=[]
bad_answers=[]
for i in tqdm(range(len(all_examples))):
    example=deepcopy(all_examples[i])
    question,topic_entity,answer,relation=example['question'],example['topic_entity'],example['answer'],example['relation']
    answer=answer.replace('\t','').replace(' ','')
    example['answer']=answer
    if answer.strip()=='':
        continue
    elif topic_entity not in sub_map:
        bad_entities.append(topic_entity)
        continue
    elif answer not in obj_map:
        bad_answers.append(answer)
        continue
    else:
        head=topic_entity
        small_entities.add(head)
        small_entities.add(answer)
        for rel in so_map[(head,answer)]:
            small_relations.add(rel)#仅仅添加qa数据对中涉及的关系即可
        
        for p1, o1 in sub_map[head]:
            if p1 in small_relations:
                small_triplets.add((head,p1,o1))
                small_entities.add(o1)
            for p2, o2 in sub_map[o1]:
                if p2 in small_relations:
                    small_triplets.add((o1,p2,o2))
                    small_entities.add(o2)
                for p3, o3 in sub_map[o2]:
                    if p3 in small_relations:
                        small_triplets.add((o2,p3,o3))
                        small_entities.add(o3)
                    for p4, o4 in sub_map[o3]:
                        if p4 in small_relations:
                            small_triplets.add((o3,p4,o4))
                            small_entities.add(o4)
        new_examples.append(example)

100%|███████████████████████████████████████████████████████████████████████████████████████████████| 23999/23999 [00:13<00:00, 1824.77it/s]


In [62]:
print('大规模图谱中一共有{}个三元组，{}个实体，{}个关系'.format(len(lines),len(entities_set),len(relations_set)))
print('小规模图谱中一共有{}个三元组，{}个实体，{}个关系'.format(len(small_triplets),len(small_entities),len(small_relations)))

大规模图谱中一共有43063796个三元组，16196206个实体，595941个关系
小规模图谱中一共有369812个三元组，190912个实体，3906个关系


**QA数据集和知识图谱构造完毕**

In [68]:
new_examples[0]

{'question': '<《机械设计基础》>这本书的作者是谁？',
 'topic_entity': '《机械设计基础》',
 'answer': '杨可桢，程光蕴，李仲生',
 'relation': '作者'}

# 将QA数据集划分并保存

In [71]:
random.shuffle(new_examples)

def write_file(data,path):
    f=open(path,'w')
    for example in data:
        question,topic_entity,answer,relation=example['question'],example['topic_entity'],example['answer'],example['relation']
        if answer=='' or answer.strip()=='':
            count+=1
            continue
        f.write(question+'\t'+answer+'\t'+'\n')
    f.close()
    
write_file(new_examples[:-2000],'/home/xhsun/Desktop/KG/QApairs/ChineseQA/train.txt')
write_file(new_examples[-2000:],'/home/xhsun/Desktop/KG/QApairs/ChineseQA/test.txt')

# 保存构造的小规模知识图谱

In [73]:
print('小规模图谱中一共有{}个三元组，{}个实体，{}个关系'.format(len(small_triplets),len(small_entities),len(small_relations)))

小规模图谱中一共有369812个三元组，190912个实体，3906个关系


## 保存三元组

In [74]:
with open("/home/xhsun/Desktop/KG/nlpcc2018/knowledge/small_knowledge/small_kb",'w') as f:
    for head,rel,tail in small_triplets:
        f.write('|||'.join([head,rel,tail])+'\n')

## 保存实体

In [75]:
with open("/home/xhsun/Desktop/KG/nlpcc2018/knowledge/small_knowledge/entities.dict",'w') as f:
    for i,ent in enumerate(small_entities):
        f.write(ent+'\t'+str(i)+'\n')

## 保存关系

In [77]:
with open("/home/xhsun/Desktop/KG/nlpcc2018/knowledge/small_knowledge/relations.dict",'w') as f:
    for i,rel in enumerate(small_relations):
        f.write(rel+'\t'+str(i)+'\n')

**至此，数据处理部分完毕**