In [1]:
import os
import json
import jsonlines
from collections import defaultdict
import time

In [2]:
all_start = time.time()

In [3]:
# CMeIE
# A. c→(h,r)
out_name = 'c_to_hr'
inp_prompt = '''当前你是一个资深的信息提取的专家。
你的任务是从给定文本中，先抽取可能存在的主体，再基于主体从给定关系列表中提取可能的关系。给定的关系列表{type_list}。
任务的输出形式是（主体||关系类型）。
给定文本：“{text}”
'''
oup_prompt = '{answer_text}'

In [4]:
data_file_list = [
    'CMeIE-V2_train.jsonl',
    'CMeIE-V2_dev.jsonl',
    'CMeIE-V2_test.jsonl',
]
out_file_list = [
    'train.json',
    'dev.json',
    'test.json'
]

In [5]:
read_dir = './ori/CMeIE-V2/'
out_dir = './bidirection/CMeIE-V2'
out_dir = os.path.join(out_dir,out_name)
if not os.path.exists(out_dir):
    os.makedirs(out_dir)
with open(os.path.join(read_dir,'53_schemas.json'),'r') as f:
    trip_types_list = json.load(f)

In [6]:
trip_types = sorted(set([data['predicate'] for data in trip_types_list]))

In [7]:
start = time.time()
print('out_name:{}'.format(out_name))
for data_file,out_file in zip(data_file_list,out_file_list):
    read_path = os.path.join(read_dir,data_file)
    out_path = os.path.join(out_dir,out_file)
    with jsonlines.open(read_path,'r') as f:
        datas = [data for data in f]
    with jsonlines.open(out_path,'w') as fw:
        for data in datas:
            inp = inp_prompt.format(type_list='，'.join(trip_types),text=data['text'])
            spo_list = [(item['subject'],item['predicate']) for item in data['spo_list']]
            processed_spo_list = []
            for spo_item in spo_list:
                if spo_item not in processed_spo_list:
                    processed_spo_list.append(spo_item)
            oup = '\n'.join(['（{}||{}）'.format(item[0],item[1]) for item in processed_spo_list])
            oup = '```\n' + oup.strip() + '\n```'
            out_data = {
                'instruction':inp,
                'input':'',
                'output':oup,
                'text':data['text'],
                'spo_list':data['spo_list']
            }
            fw.write(out_data)
end = time.time()
print('cost:{}秒'.format(round(end-start, 2)))

out_name:c_to_hr
cost:2.36秒


In [8]:
# CMeIE
# B. c→(t,r)
out_name = 'c_to_tr'
inp_prompt = '''当前你是一个资深的信息提取的专家。
你的任务是从给定文本中，先抽取可能存在的客体，再基于客体从给定关系列表中提取可能的关系。给定的关系列表：{type_list}。
任务的输出形式是（客体||关系类型）。
给定文本：“{text}”
'''
oup_prompt = '{answer_text}'

In [9]:
data_file_list = [
    'CMeIE-V2_train.jsonl',
    'CMeIE-V2_dev.jsonl',
    'CMeIE-V2_test.jsonl',
]
out_file_list = [
    'train.json',
    'dev.json',
    'test.json'
]

In [10]:
read_dir = './ori/CMeIE-V2/'
out_dir = './bidirection/CMeIE-V2'
out_dir = os.path.join(out_dir,out_name)
if not os.path.exists(out_dir):
    os.makedirs(out_dir)
with open(os.path.join(read_dir,'53_schemas.json'),'r') as f:
    trip_types_list = json.load(f)

In [11]:
trip_types = sorted(set([data['predicate'] for data in trip_types_list]))

In [12]:
start = time.time()
print('out_name:{}'.format(out_name))
for data_file,out_file in zip(data_file_list,out_file_list):
    read_path = os.path.join(read_dir,data_file)
    out_path = os.path.join(out_dir,out_file)
    with jsonlines.open(read_path,'r') as f:
        datas = [data for data in f]
    with jsonlines.open(out_path,'w') as fw:
        for data in datas:
            inp = inp_prompt.format(type_list='，'.join(trip_types),text=data['text'])
            spo_list = [(item['object']['@value'],item['predicate']) for item in data['spo_list']]
            processed_spo_list = []
            for spo_item in spo_list:
                if spo_item not in processed_spo_list:
                    processed_spo_list.append(spo_item)
            oup = '\n'.join(['（{}||{}）'.format(item[0],item[1]) for item in processed_spo_list])
            oup = '```\n' + oup.strip() + '\n```'
            out_data = {
                'instruction':inp,
                'input':'',
                'output':oup,
                'text':data['text'],
                'spo_list':data['spo_list']
            }
            fw.write(out_data)
end = time.time()
print('cost:{}秒'.format(round(end-start, 2)))

out_name:c_to_tr
cost:1.79秒


In [13]:
# CMeIE
# C. h[s1]c→(t,r)
out_name = 'sc_to_tr'
inp_prompt = '''当前你是一个资深的信息提取的专家。
你的任务是从给定文本和主体，先抽取可能存在的客体，再基于主客实体对从给定关系列表中提取可能的关系。给定的关系列表：{type_list}。
任务的输出形式是（客体||关系类型）。
给定文本：“{text}；主体：{subject}”
'''
oup_prompt = '{answer_text}'

In [14]:
data_file_list = [
    'CMeIE-V2_train.jsonl',
    'CMeIE-V2_dev.jsonl',
    'CMeIE-V2_test.jsonl',
]
out_file_list = [
    'train.json',
    'dev.json',
    'test.json'
]

In [15]:
read_dir = './ori/CMeIE-V2/'
out_dir = './bidirection/CMeIE-V2'
out_dir = os.path.join(out_dir,out_name)
if not os.path.exists(out_dir):
    os.makedirs(out_dir)
with open(os.path.join(read_dir,'53_schemas.json'),'r') as f:
    trip_types_list = json.load(f)

In [16]:
trip_types = sorted(set([data['predicate'] for data in trip_types_list]))

In [17]:
start = time.time()
print('out_name:{}'.format(out_name))
for data_file,out_file in zip(data_file_list,out_file_list):
    read_path = os.path.join(read_dir,data_file)
    out_path = os.path.join(out_dir,out_file)
    with jsonlines.open(read_path,'r') as f:
        datas = [data for data in f]
    with jsonlines.open(out_path,'w') as fw:
        for data in datas:
            spo_def_list = defaultdict(list)
            for spo_item in data['spo_list']:
                subject = spo_item['subject']
                predicate = spo_item['predicate']
                obj = spo_item['object']['@value']
                spo_def_list[subject].append((obj,predicate))
            for sub in spo_def_list.keys():
                inp = inp_prompt.format(type_list='，'.join(trip_types),text=data['text'],subject=sub)
                spo_list = spo_def_list[sub]
                oup = '\n'.join(['（{}||{}）'.format(item[0],item[1]) for item in spo_list])
                oup = '```\n' + oup.strip() + '\n```'
                out_data = {
                    'instruction':inp,
                    'input':'',
                    'output':oup,
                    'text':data['text'],
                    'spo_list':data['spo_list']
                }
                fw.write(out_data)
end = time.time()
print('cost:{}秒'.format(round(end-start, 2)))

out_name:sc_to_tr
cost:1.51秒


In [18]:
out_data

{'instruction': '当前你是一个资深的信息提取的专家。\n你的任务是从给定文本和主体，先抽取可能存在的客体，再基于主客实体对从给定关系列表中提取可能的关系。给定的关系列表：临床表现，传播途径，侵及周围组织转移的症状，内窥镜检查，化疗，发病年龄，发病性别倾向，发病机制，发病率，发病部位，同义词，外侵部位，多发地区，多发季节，多发群体，实验室检查，就诊科室，并发症，影像学检查，手术治疗，放射治疗，死亡率，治疗后症状，病史，病因，病理分型，病理生理，相关（导致），相关（症状），相关（转化），筛查，组织学检查，药物治疗，转移部位，辅助检查，辅助治疗，遗传因素，鉴别诊断，阶段，预后状况，预后生存率，预防，风险评估因素，高危因素。\n任务的输出形式是（客体||关系类型）。\n给定文本：“前列腺癌@## 病史和查体 ### 关键诊断因素 ### 常见 查看全部 \ue313 \ue316 ### 存在的危险因素 主要危险因素包括年龄大于50岁，黑人和有前列腺癌的家族史。；主体：前列腺癌”\n',
 'input': '',
 'output': '```\n（年龄大于50岁||高危因素）\n（有前列腺癌的家族史||高危因素）\n（黑人||多发群体）\n```',
 'text': '前列腺癌@## 病史和查体 ### 关键诊断因素 ### 常见 查看全部 \ue313 \ue316 ### 存在的危险因素 主要危险因素包括年龄大于50岁，黑人和有前列腺癌的家族史。',
 'spo_list': [{'Combined': False,
   'predicate': '高危因素',
   'subject': '前列腺癌',
   'subject_type': '疾病',
   'object': {'@value': '年龄大于50岁'},
   'object_type': {'@value': '社会学'}},
  {'Combined': False,
   'predicate': '高危因素',
   'subject': '前列腺癌',
   'subject_type': '疾病',
   'object': {'@value': '有前列腺癌的家族史'},
   'object_type': {'@value': '社会学'}},
  {'Com

In [19]:
# CMeIE
# D. t[s1]c→(h,r). 
out_name = 'sc_to_hr'
inp_prompt = '''当前你是一个资深的信息提取的专家。
你的任务是从给定文本和客体，先抽取可能存在的主体，再基于主客实体对从给定关系列表中提取可能的关系。给定的关系列表：{type_list}。
任务的输出形式是（主体||关系类型）。
给定文本：“{text}；客体：{object}”
'''
oup_prompt = '{answer_text}'

In [20]:
data_file_list = [
    'CMeIE-V2_train.jsonl',
    'CMeIE-V2_dev.jsonl',
    'CMeIE-V2_test.jsonl',
]
out_file_list = [
    'train.json',
    'dev.json',
    'test.json'
]

In [21]:
read_dir = './ori/CMeIE-V2/'
out_dir = './bidirection/CMeIE-V2'
out_dir = os.path.join(out_dir,out_name)
if not os.path.exists(out_dir):
    os.makedirs(out_dir)
with open(os.path.join(read_dir,'53_schemas.json'),'r') as f:
    trip_types_list = json.load(f)

In [22]:
trip_types = sorted(set([data['predicate'] for data in trip_types_list]))

In [23]:

start = time.time()
print('out_name:{}'.format(out_name))
for data_file,out_file in zip(data_file_list,out_file_list):
    read_path = os.path.join(read_dir,data_file)
    out_path = os.path.join(out_dir,out_file)
    with jsonlines.open(read_path,'r') as f:
        datas = [data for data in f]
    with jsonlines.open(out_path,'w') as fw:
        for data in datas:
            spo_def_list = defaultdict(list)
            for spo_item in data['spo_list']:
                subject = spo_item['subject']
                predicate = spo_item['predicate']
                obj = spo_item['object']['@value']
                spo_def_list[obj].append((subject,predicate))
            for obj in spo_def_list.keys():
                inp = inp_prompt.format(type_list='，'.join(trip_types),text=data['text'],object=obj)
                spo_list = spo_def_list[obj]
                oup = '\n'.join(['（{}||{}）'.format(item[0],item[1]) for item in spo_list])
                oup = '```\n' + oup.strip() + '\n```'
                out_data = {
                    'instruction':inp,
                    'input':'',
                    'output':oup,
                    'text':data['text'],
                    'spo_list':data['spo_list']
                }
                fw.write(out_data)
end = time.time()
print('cost:{}秒'.format(round(end-start, 2)))

out_name:sc_to_hr
cost:6.12秒


In [24]:
# CMeIE
# A0. c→(h,r,t)  不带标签
out_name = 'c_to_hrt'
inp_prompt = '''当前你是一个资深的信息提取的专家。
你的任务是从给定文本中，抽取关系三元组。先从给定文本中抽取主客体实体对，再基于主客实体对从给定关系列表中提取可能的关系。给定的关系列表：{type_list}。
任务的输出形式是（主体||关系类型||客体）。
给定文本：“{text}”
'''
oup_prompt = '{answer_text}'

In [25]:
data_file_list = [
    'CMeIE-V2_train.jsonl',
    'CMeIE-V2_dev.jsonl',
    'CMeIE-V2_test.jsonl',
]
out_file_list = [
    'train.json',
    'dev.json',
    'test.json'
]

In [26]:
read_dir = './ori/CMeIE-V2/'
out_dir = './bidirection/CMeIE-V2'
out_dir = os.path.join(out_dir,out_name)
if not os.path.exists(out_dir):
    os.makedirs(out_dir)
with open(os.path.join(read_dir,'53_schemas.json'),'r') as f:
    trip_types_list = json.load(f)

In [27]:
trip_types = sorted(set([data['predicate'] for data in trip_types_list]))

In [28]:
start = time.time()
print('out_name:{}'.format(out_name))
for data_file,out_file in zip(data_file_list,out_file_list):
    read_path = os.path.join(read_dir,data_file)
    out_path = os.path.join(out_dir,out_file)
    with jsonlines.open(read_path,'r') as f:
        datas = [data for data in f]
    with jsonlines.open(out_path,'w') as fw:
        for data in datas:
            inp = inp_prompt.format(type_list='，'.join(trip_types),text=data['text'])
            spo_list = [(item['subject'],item['predicate'],item['object']['@value']) for item in data['spo_list']]
            processed_spo_list = []
            for spo_item in spo_list:
                if spo_item not in processed_spo_list:
                    processed_spo_list.append(spo_item)
            oup = '\n'.join(['（{}||{}||{}）'.format(item[0],item[1],item[2]) for item in processed_spo_list])
            oup = '```\n' + oup.strip() + '\n```'
            out_data = {
                'instruction':inp,
                'input':'',
                'output':oup,
                'text':data['text'],
                'spo_list':data['spo_list']
            }
            fw.write(out_data)
end = time.time()
print('cost:{}秒'.format(round(end-start, 2)))

out_name:c_to_hrt
cost:1.54秒


In [29]:
all_end = time.time()
all_end - all_start

29.590245723724365