In [150]:
import pandas as pd
import os
import json
import pickle
from tqdm.auto import tqdm
import numpy as np
from typing import List
import re
from fast_bm25 import BM25
from sklearn.model_selection import train_test_split
from utils.utils import *
import random
from collections import Counter

seed_everything(42)

# KorQuAD

In [151]:
def make_instance(data:List):
    output = []
    for article in tqdm(data):
        if article.get('title') is not None:
            title = article['title']
        elif article.get('doc_title') is not None:
            title = article['doc_title']
        else:
            raise Exception('title error')
        title = re.sub('_',' ',title)
        for paragraph in article['paragraphs']:
            context = paragraph['context']
            #contexts.append(dict(title=title, context=context))
            for qas in paragraph['qas']:
                question = qas['question']
                if type(qas['answers'])==list:
                    answer = [a['text'] for a in qas['answers']]
                else:
                    answer = qas['answers']['text']
                if qas.get('is_impossible') is not None:
                    if qas['is_impossible']==True:
                        output.append(dict(title=title, context=context, question=question, answer=answer, label=0))
                    else:
                        output.append(dict(title=title, context=context, question=question, answer=answer, label=1))
                else:
                    output.append(dict(title=title, context=context, question=question, answer=answer, label=1))
    return output

In [152]:
def no_answer_make_instance(data:List):
    output = []
    for article in tqdm(data):
        if article.get('title') is not None:
            title = article['title']
        elif article.get('doc_title') is not None:
            title = article['doc_title']
        else:
            raise Exception('title error')
        title = re.sub('_',' ',title)
        for paragraph in article['paragraphs']:
            context = paragraph['context']
            #contexts.append(dict(title=title, context=context))
            for qas in paragraph['qas']:
                question = qas['question']
                answer = qas['answers'] if qas.get('answers') is not None else None
                output.append(dict(title=title, context=context, question=question, answer=answer, label=0))
    return output

In [196]:
def annotation(data_list): # train, val, test 따로 따로 진행 요망.
    output = []
    total_contexts = set()
    c = 0
    label_1 = 0
    label_0 = 0
    label_0_0 = 0
    for i in tqdm(data_list,desc='make_context'):
        for j in i:
            c+=1
            total_contexts.add(j['title']+' '.join(j['context'].split())) # 전처리
    total_contexts = list(total_contexts)
    for i in data_list:
        for j in tqdm(i, desc='attach'):
            q = j['question']
            a = j['answer']
            if j['label']==1:
                pos = j['title']+' '+' '.join(j['context'].split())
                output.append(dict(question=q, answer=a, context=pos, label=1))
                label_1+=1
                while True:
                    tmp = random.choice(total_contexts)
                    # list가 아니면 None임 - is impossible임.
                    if type(j['answer'])==list:
                        for answer in j['answer']:
                            if answer in tmp:
                                break
                        else:
                            label_0+=1
                            output.append(dict(question=q, answer=a, context=tmp, label=0))
                            break 
                    else:
                        if a not in tmp:
                            label_0+=1
                            output.append(dict(question=q, answer=a, context=tmp, label=0))
                            break                        
            else:
                label_0_0 +=1
                neg = j['title']+' '+j['context']
                output.append(dict(question=q, answer=a, context=neg, label=2))
    print(f'positive 개수 : {label_1}, negative 개수 : {label_0}, is_impossible neagtive 개수 : {label_0_0}, total negative 개수 : {label_0+label_0_0}')
    
    return output

In [154]:
korquad_train = json.load(open('../../data/MRC_data/KorQuAD 1.0/KorQuAD_v1.0_train.json','r'))
korquad_dev = json.load(open('../../data/MRC_data/KorQuAD 1.0/KorQuAD_v1.0_dev.json','r'))

In [155]:
korquad_train = make_instance(korquad_train['data'])
korquad_dev = make_instance(korquad_dev['data'])

100%|███████████████████████████████████████████████████████████████████████████| 1420/1420 [00:00<00:00, 16004.92it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 140/140 [00:00<00:00, 9462.16it/s]


In [157]:
korquad_train, korquad_test = train_test_split(korquad_train, test_size = 0.1, random_state=42, shuffle=True)

In [158]:
for name,data in zip(['train','dev','test'],[korquad_train, korquad_test, korquad_dev]):
    dpr = []
    for i in data:
        if i['label']==1:
            dpr.append(dict(question=i['question'], answer = i['answer'], positive_ctxs=[dict(title=i['title'], context=' '.join(i['context'].split()))]))            
    save_jsonl('../../data/dpr/korquad',dpr,name)

100%|█████████████████████████████████████████████████████████████████████████| 54366/54366 [00:00<00:00, 72518.31it/s]
100%|███████████████████████████████████████████████████████████████████████████| 6041/6041 [00:00<00:00, 48123.77it/s]
100%|███████████████████████████████████████████████████████████████████████████| 5774/5774 [00:00<00:00, 76530.46it/s]


## rerank

In [197]:
train_data = annotation([korquad_train])
dev_data = annotation([korquad_dev])
test_data = annotation([korquad_test])

make_context: 100%|██████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.06it/s]
attach: 100%|█████████████████████████████████████████████████████████████████| 54366/54366 [00:01<00:00, 48800.80it/s]


positive 개수 : 54366, negative 개수 : 54366, is_impossible neagtive 개수 : 0, total negative 개수 : 54366


make_context: 100%|██████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 12.82it/s]
attach: 100%|███████████████████████████████████████████████████████████████████| 5774/5774 [00:00<00:00, 54847.99it/s]


positive 개수 : 5774, negative 개수 : 5774, is_impossible neagtive 개수 : 0, total negative 개수 : 5774


make_context: 100%|██████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 12.53it/s]
attach: 100%|███████████████████████████████████████████████████████████████████| 6041/6041 [00:00<00:00, 57883.99it/s]

positive 개수 : 6041, negative 개수 : 6041, is_impossible neagtive 개수 : 0, total negative 개수 : 6041





In [198]:
save_jsonl('../../data/rerank/korquad',train_data,'train')
save_jsonl('../../data/rerank/korquad',test_data,'dev')
save_jsonl('../../data/rerank/korquad',dev_data,'test')

100%|███████████████████████████████████████████████████████████████████████| 108732/108732 [00:01<00:00, 64412.26it/s]
100%|█████████████████████████████████████████████████████████████████████████| 12082/12082 [00:00<00:00, 66260.35it/s]
100%|█████████████████████████████████████████████████████████████████████████| 11548/11548 [00:00<00:00, 62308.58it/s]


# 기계독해 - dev 존재 x

In [161]:
mrc_train_1 = json.load(open('../../data/MRC_data/기계독해/기계독해분야/01.Normal/ko_nia_normal_squad_all.json','r',encoding='utf-8'))
mrc_train_2 = json.load(open('../../data/MRC_data/기계독해/기계독해분야/02.NoAnswer/ko_nia_noanswer_squad_all.json','r',encoding='utf-8')) # no answer
mrc_train_3 = json.load(open('../../data/MRC_data/기계독해/기계독해분야/03.Clue_/ko_nia_clue0529_squad_all.json','r',encoding='utf-8'))

In [162]:
mrc_train_1 = make_instance(mrc_train_1['data'])
mrc_train_2 = no_answer_make_instance(mrc_train_2['data'])
mrc_train_3 = make_instance(mrc_train_3['data'])

100%|█████████████████████████████████████████████████████████████████████████| 47314/47314 [00:04<00:00, 11193.22it/s]
100%|████████████████████████████████████████████████████████████████████████| 20030/20030 [00:00<00:00, 143817.10it/s]
100%|████████████████████████████████████████████████████████████████████████| 34500/34500 [00:00<00:00, 130272.78it/s]


In [163]:
mrc_train_1, mrc_test_1 = train_test_split(mrc_train_1,test_size = 0.1,random_state=42, shuffle=True)
mrc_train_1, mrc_dev_1 = train_test_split(mrc_train_1,test_size = 0.1,random_state=42, shuffle=True)
mrc_train_2, mrc_test_2 = train_test_split(mrc_train_2,test_size = 0.1,random_state=42, shuffle=True)
mrc_train_2, mrc_dev_2 = train_test_split(mrc_train_2,test_size = 0.1,random_state=42, shuffle=True)
mrc_train_3, mrc_test_3 = train_test_split(mrc_train_3,test_size = 0.1,random_state=42, shuffle=True)
mrc_train_3, mrc_dev_3 = train_test_split(mrc_train_3,test_size = 0.1,random_state=42, shuffle=True)

## save for dpr

In [164]:
for name,data in zip(['train','dev','test'],[mrc_train_1+mrc_train_3, mrc_dev_1+mrc_dev_3, mrc_test_1+mrc_test_3]):
    dpr = []
    for i in data:
        if i['label']==1:
            dpr.append(dict(question=i['question'], answer = i['answer'], positive_ctxs=[dict(title=i['title'], context=' '.join(i['context'].split()))]))            
    save_jsonl('../../data/dpr/mrc',dpr,name)

100%|███████████████████████████████████████████████████████████████████████| 275469/275469 [00:07<00:00, 37904.52it/s]
100%|█████████████████████████████████████████████████████████████████████████| 30609/30609 [00:00<00:00, 36877.52it/s]
100%|█████████████████████████████████████████████████████████████████████████| 34010/34010 [00:00<00:00, 37150.25it/s]


## rerank

In [199]:
train_data = annotation([mrc_train_1,mrc_train_2,mrc_train_3])
dev_data = annotation([mrc_dev_1,mrc_dev_2,mrc_dev_3])
test_data = annotation([mrc_test_1,mrc_test_2,mrc_test_3])

make_context: 100%|██████████████████████████████████████████████████████████████████████| 3/3 [00:08<00:00,  2.76s/it]
attach: 100%|███████████████████████████████████████████████████████████████| 197173/197173 [00:05<00:00, 37763.73it/s]
attach: 100%|████████████████████████████████████████████████████████████████| 81197/81197 [00:00<00:00, 413660.84it/s]
attach: 100%|█████████████████████████████████████████████████████████████████| 78296/78296 [00:01<00:00, 43811.95it/s]


positive 개수 : 275469, negative 개수 : 275469, is_impossible neagtive 개수 : 81197, total negative 개수 : 356666


make_context: 100%|██████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  3.45it/s]
attach: 100%|█████████████████████████████████████████████████████████████████| 21909/21909 [00:00<00:00, 34562.07it/s]
attach: 100%|██████████████████████████████████████████████████████████████████| 9022/9022 [00:00<00:00, 271830.72it/s]
attach: 100%|███████████████████████████████████████████████████████████████████| 8700/8700 [00:00<00:00, 49471.46it/s]


positive 개수 : 30609, negative 개수 : 30609, is_impossible neagtive 개수 : 9022, total negative 개수 : 39631


make_context: 100%|██████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00,  3.15it/s]
attach: 100%|█████████████████████████████████████████████████████████████████| 24343/24343 [00:00<00:00, 31084.23it/s]
attach: 100%|████████████████████████████████████████████████████████████████| 10025/10025 [00:00<00:00, 213172.74it/s]
attach: 100%|███████████████████████████████████████████████████████████████████| 9667/9667 [00:00<00:00, 36709.20it/s]

positive 개수 : 34010, negative 개수 : 34010, is_impossible neagtive 개수 : 10025, total negative 개수 : 44035





In [200]:
save_jsonl('../../data/rerank/mrc',train_data,'train')
save_jsonl('../../data/rerank/mrc',dev_data,'dev')
save_jsonl('../../data/rerank/mrc',test_data,'test')

100%|███████████████████████████████████████████████████████████████████████| 632135/632135 [00:14<00:00, 44520.97it/s]
100%|█████████████████████████████████████████████████████████████████████████| 70240/70240 [00:01<00:00, 43392.64it/s]
100%|█████████████████████████████████████████████████████████████████████████| 78045/78045 [00:01<00:00, 45472.20it/s]


# 도서자료 기계독해 - dev 존재

In [167]:
book_mrc_train = json.load(open('../../data/MRC_data/도서자료 기계독해/Training/도서_train/도서_220419_add/도서_220419_add.json','r',encoding='utf-8'))
book_mrc_dev = json.load(open('../../data/MRC_data/도서자료 기계독해/Validation/도서_valid/도서.json','r',encoding='utf-8'))

In [168]:
book_mrc_train = make_instance(book_mrc_train['data'])
book_mrc_dev = make_instance(book_mrc_dev['data'])

100%|████████████████████████████████████████████████████████████████████████████| 5368/5368 [00:04<00:00, 1153.91it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1994/1994 [00:02<00:00, 969.10it/s]


In [169]:
book_mrc_train, book_mrc_test = train_test_split(book_mrc_train,test_size = 0.05,random_state=42, shuffle=True)

In [170]:
for name,data in zip(['train','dev','test'],[book_mrc_train, book_mrc_test, book_mrc_dev]):
    dpr = []
    for i in data:
        if i['label']==1:
            dpr.append(dict(question=i['question'], answer = i['answer'], positive_ctxs=[dict(title=i['title'], context=' '.join(i['context'].split()))]))            
    save_jsonl('../../data/dpr/book',dpr,name)

100%|███████████████████████████████████████████████████████████████████████| 598504/598504 [00:08<00:00, 74054.62it/s]
100%|█████████████████████████████████████████████████████████████████████████| 31496/31496 [00:00<00:00, 77213.09it/s]
100%|█████████████████████████████████████████████████████████████████████████| 35000/35000 [00:00<00:00, 82350.55it/s]


## rerank

In [201]:
train_data = annotation([book_mrc_train])
dev_data = annotation([book_mrc_test])
test_data = annotation([book_mrc_dev])

make_context: 100%|██████████████████████████████████████████████████████████████████████| 1/1 [00:15<00:00, 15.77s/it]
attach: 100%|███████████████████████████████████████████████████████████████| 855000/855000 [00:23<00:00, 36425.75it/s]


positive 개수 : 598504, negative 개수 : 598504, is_impossible neagtive 개수 : 256496, total negative 개수 : 855000


make_context: 100%|██████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.35it/s]
attach: 100%|█████████████████████████████████████████████████████████████████| 45000/45000 [00:00<00:00, 67871.44it/s]


positive 개수 : 31496, negative 개수 : 31496, is_impossible neagtive 개수 : 13504, total negative 개수 : 45000


make_context: 100%|██████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.83it/s]
attach: 100%|█████████████████████████████████████████████████████████████████| 50000/50000 [00:00<00:00, 99673.25it/s]


positive 개수 : 35000, negative 개수 : 35000, is_impossible neagtive 개수 : 15000, total negative 개수 : 50000


In [202]:
save_jsonl('../../data/rerank/book',train_data, 'train')
save_jsonl('../../data/rerank/book',dev_data, 'dev')
save_jsonl('../../data/rerank/book',test_data, 'test')

100%|█████████████████████████████████████████████████████████████████████| 1453504/1453504 [00:20<00:00, 71816.57it/s]
100%|█████████████████████████████████████████████████████████████████████████| 76496/76496 [00:01<00:00, 70673.82it/s]
100%|█████████████████████████████████████████████████████████████████████████| 85000/85000 [00:01<00:00, 73231.50it/s]


# 행정문서 기계독해

In [174]:
ad_train_1 = json.load(open('../../data/MRC_data/행정 문서 대상 기계독해/01.데이터/1.Training/라벨링데이터/TL_multiple_choice/TL_multiple_choice.json','r',encoding='utf-8'))
ad_train_2 = json.load(open('../../data/MRC_data/행정 문서 대상 기계독해/01.데이터/1.Training/라벨링데이터/TL_span_extraction/TL_span_extraction.json','r',encoding='utf-8'))
ad_train_3 = json.load(open('../../data/MRC_data/행정 문서 대상 기계독해/01.데이터/1.Training/라벨링데이터/TL_span_extraction_how/TL_span_extraction_how.json','r',encoding='utf-8'))
ad_train_4 = json.load(open('../../data/MRC_data/행정 문서 대상 기계독해/01.데이터/1.Training/라벨링데이터/TL_unanswerable/TL_unanswerable.json','r',encoding='utf-8')) # NO
ad_train_5 = json.load(open('../../data/MRC_data/행정 문서 대상 기계독해/01.데이터/1.Training/라벨링데이터/TL_text_entailment/TL_text_entailment.json','r',encoding='utf-8'))

ad_dev_1 = json.load(open('../../data/MRC_data/행정 문서 대상 기계독해/01.데이터/2.Validation/라벨링데이터/VL_multiple_choice/VL_multiple_choice.json','r',encoding='utf-8'))
ad_dev_2 = json.load(open('../../data/MRC_data/행정 문서 대상 기계독해/01.데이터/2.Validation/라벨링데이터/VL_span_extraction/VL_span_extraction.json','r',encoding='utf-8'))
ad_dev_3 = json.load(open('../../data/MRC_data/행정 문서 대상 기계독해/01.데이터/2.Validation/라벨링데이터/VL_span_extraction_how/VL_span_extraction_how.json','r',encoding='utf-8'))
# NO
ad_dev_4 = json.load(open('../../data/MRC_data/행정 문서 대상 기계독해/01.데이터/2.Validation/라벨링데이터/VL_unanswerable/VL_unanswerable.json','r',encoding='utf-8'))
ad_dev_5 = json.load(open('../../data/MRC_data/행정 문서 대상 기계독해/01.데이터/2.Validation/라벨링데이터/VL_text_entailment/VL_text_entailment.json','r',encoding='utf-8'))

In [175]:
ad_train_1 =make_instance(ad_train_1['data'])
ad_train_2 =make_instance(ad_train_2['data'])
ad_train_3 =make_instance(ad_train_3['data'])
ad_train_4 =no_answer_make_instance(ad_train_4['data'])
ad_train_5 =make_instance(ad_train_5['data'])

ad_dev_1 = make_instance(ad_dev_1['data'])
ad_dev_2 = make_instance(ad_dev_2['data'])
ad_dev_3 = make_instance(ad_dev_3['data'])
ad_dev_4 = no_answer_make_instance(ad_dev_4['data'])
ad_dev_5 = make_instance(ad_dev_5['data'])

100%|████████████████████████████████████████████████████████████████████████| 15085/15085 [00:00<00:00, 280244.48it/s]
100%|████████████████████████████████████████████████████████████████████████| 63932/63932 [00:00<00:00, 398514.79it/s]
100%|████████████████████████████████████████████████████████████████████████| 29074/29074 [00:00<00:00, 420931.76it/s]
100%|██████████████████████████████████████████████████████████████████████████| 9828/9828 [00:00<00:00, 306075.38it/s]
100%|████████████████████████████████████████████████████████████████████████| 16872/16872 [00:00<00:00, 299386.55it/s]
100%|██████████████████████████████████████████████████████████████████████████| 2813/2813 [00:00<00:00, 279646.78it/s]
100%|████████████████████████████████████████████████████████████████████████| 11985/11985 [00:00<00:00, 466012.18it/s]
100%|██████████████████████████████████████████████████████████████████████████| 5458/5458 [00:00<00:00, 640260.42it/s]
100%|███████████████████████████████████

In [176]:
ad_train_1,ad_test_1 = train_test_split(ad_train_1,test_size = 0.1,random_state=42, shuffle=True)
ad_train_2,ad_test_2 = train_test_split(ad_train_2,test_size = 0.1,random_state=42, shuffle=True)
ad_train_3, ad_test_3 = train_test_split(ad_train_3,test_size = 0.1,random_state=42, shuffle=True)
ad_train_4, ad_test_4 = train_test_split(ad_train_4,test_size = 0.1,random_state=42, shuffle=True)
ad_train_5, ad_test_5 = train_test_split(ad_train_5,test_size = 0.1,random_state=42, shuffle=True)

In [177]:
ad_train = ad_train_1+ad_train_2+ad_train_3+ad_train_5
ad_dev = ad_dev_1+ad_dev_2+ad_dev_3+ad_dev_5
ad_test = ad_test_1+ad_test_2+ad_test_3+ad_test_5

In [178]:
for name,data in zip(['train','dev','test'],[ad_train, ad_test, ad_dev]):
    dpr = []
    for i in data:
        if i['label']==1:
            dpr.append(dict(question=i['question'], answer = i['answer'], positive_ctxs=[dict(title=i['title'], context=' '.join(i['context'].split()))]))            
    path = '../../data/dpr/ad'
    os.makedirs(path, exist_ok=True)
    save_jsonl(path,dpr,name)

100%|███████████████████████████████████████████████████████████████████████| 187391/187391 [00:02<00:00, 80435.29it/s]
100%|█████████████████████████████████████████████████████████████████████████| 20822/20822 [00:00<00:00, 76783.85it/s]
100%|█████████████████████████████████████████████████████████████████████████| 26026/26026 [00:00<00:00, 82950.57it/s]


In [203]:
train_data = annotation([ad_train, ad_train_4])
dev_data = annotation([ad_test, ad_test_4])
test_data = annotation([ad_dev, ad_dev_4])

make_context: 100%|██████████████████████████████████████████████████████████████████████| 2/2 [00:04<00:00,  2.13s/it]
attach: 100%|███████████████████████████████████████████████████████████████| 187391/187391 [00:03<00:00, 49140.85it/s]
attach: 100%|████████████████████████████████████████████████████████████████| 14760/14760 [00:00<00:00, 521071.02it/s]


positive 개수 : 187391, negative 개수 : 187391, is_impossible neagtive 개수 : 14760, total negative 개수 : 202151


make_context: 100%|██████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  5.30it/s]
attach: 100%|█████████████████████████████████████████████████████████████████| 20822/20822 [00:00<00:00, 53794.19it/s]
attach: 100%|██████████████████████████████████████████████████████████████████████████████| 1640/1640 [00:00<?, ?it/s]


positive 개수 : 20822, negative 개수 : 20822, is_impossible neagtive 개수 : 1640, total negative 개수 : 22462


make_context: 100%|██████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  2.98it/s]
attach: 100%|█████████████████████████████████████████████████████████████████| 26026/26026 [00:00<00:00, 57265.06it/s]
attach: 100%|██████████████████████████████████████████████████████████████████████████████| 2050/2050 [00:00<?, ?it/s]

positive 개수 : 26026, negative 개수 : 26026, is_impossible neagtive 개수 : 2050, total negative 개수 : 28076





In [204]:
save_jsonl('../../data/rerank/ad',train_data, 'train')
save_jsonl('../../data/rerank/ad',dev_data, 'dev')
save_jsonl('../../data/rerank/ad',test_data, 'test')

100%|███████████████████████████████████████████████████████████████████████| 389542/389542 [00:06<00:00, 63476.39it/s]
100%|█████████████████████████████████████████████████████████████████████████| 43284/43284 [00:00<00:00, 62666.66it/s]
100%|█████████████████████████████████████████████████████████████████████████| 54102/54102 [00:00<00:00, 61542.66it/s]


# 뉴스 기사 기계독해

In [181]:
news_mrc_train_1 = json.load(open('../../data/MRC_data/뉴스 기사 기계독해/01.데이터/1.Training/라벨링데이터/TL_text_entailment/TL_text_entailment.json','r',encoding='utf-8'))
news_mrc_train_2 = json.load(open('../../data/MRC_data/뉴스 기사 기계독해/01.데이터/1.Training/라벨링데이터/TL_span_extraction/TL_span_extraction.json','r',encoding='utf-8'))
news_mrc_train_3 = json.load(open('../../data/MRC_data/뉴스 기사 기계독해/01.데이터/1.Training/라벨링데이터_221115_add/TL_span_inference/TL_span_inference.json','r',encoding='utf-8'))
news_mrc_train_4 = json.load(open('../../data//MRC_data/뉴스 기사 기계독해/01.데이터/1.Training/라벨링데이터/TL_unanswerable/TL_unanswerable.json','r',encoding='utf-8'))
news_mrc_dev_1 = json.load(open('../../data/MRC_data/뉴스 기사 기계독해/01.데이터/2.Validation/라벨링데이터/VL_span_extraction/VL_span_extraction.json','r',encoding='utf-8'))
news_mrc_dev_2 = json.load(open('../../data/MRC_data/뉴스 기사 기계독해/01.데이터/2.Validation/라벨링데이터/VL_span_inference/VL_span_inference.json','r',encoding='utf-8'))
news_mrc_dev_3 = json.load(open('../../data/MRC_data/뉴스 기사 기계독해/01.데이터/2.Validation/라벨링데이터/VL_text_entailment/VL_text_entailment.json','r',encoding='utf-8'))
news_mrc_dev_4 = json.load(open('../../data//MRC_data/뉴스 기사 기계독해/01.데이터/2.Validation/라벨링데이터/VL_unanswerable/VL_unanswerable.json','r',encoding='utf-8'))

In [182]:
news_mrc_train_1 = make_instance(news_mrc_train_1['data'])
news_mrc_train_2 = make_instance(news_mrc_train_2['data'])
news_mrc_train_3 = make_instance(news_mrc_train_3['data'])
news_mrc_train_4 = no_answer_make_instance(news_mrc_train_4['data'])
news_mrc_dev_1 = make_instance(news_mrc_dev_1['data'])
news_mrc_dev_2 = make_instance(news_mrc_dev_2['data'])
news_mrc_dev_3 = make_instance(news_mrc_dev_3['data'])
news_mrc_dev_4 = no_answer_make_instance(news_mrc_dev_4['data'])

100%|████████████████████████████████████████████████████████████████████████| 24009/24009 [00:00<00:00, 297910.05it/s]
100%|██████████████████████████████████████████████████████████████████████| 111967/111967 [00:00<00:00, 339304.56it/s]
100%|████████████████████████████████████████████████████████████████████████| 15992/15992 [00:00<00:00, 368600.34it/s]
100%|██████████████████████████████████████████████████████████████████████████| 8000/8000 [00:00<00:00, 397145.57it/s]
100%|████████████████████████████████████████████████████████████████████████| 13997/13997 [00:00<00:00, 314432.40it/s]
100%|██████████████████████████████████████████████████████████████████████████| 1999/1999 [00:00<00:00, 333071.69it/s]
100%|██████████████████████████████████████████████████████████████████████████| 3001/3001 [00:00<00:00, 261833.18it/s]
100%|██████████████████████████████████████████████████████████████████████████| 1000/1000 [00:00<00:00, 333278.03it/s]


In [183]:
news_mrc_train_1, news_mrc_test_1 = train_test_split(news_mrc_train_1,test_size = 0.1,random_state=42, shuffle=True)
news_mrc_train_2, news_mrc_test_2 = train_test_split(news_mrc_train_2,test_size = 0.1,random_state=42, shuffle=True)
news_mrc_train_3, news_mrc_test_3 = train_test_split(news_mrc_train_3,test_size = 0.1,random_state=42, shuffle=True)

In [184]:
news_mrc_train_4, news_mrc_test_4 = train_test_split(news_mrc_train_4,test_size = 0.1,random_state=42, shuffle=True)

In [205]:
news_train = news_mrc_train_1+news_mrc_train_2+news_mrc_train_3
news_dev = news_mrc_dev_1+news_mrc_dev_2+news_mrc_dev_3
news_test = news_mrc_test_1+news_mrc_test_2+news_mrc_test_3

In [186]:
for name,data in zip(['train','dev','test'],[news_train, news_test, news_dev]):
    dpr = []
    for i in data:
        if i['label']==1:
            dpr.append(dict(question=i['question'], answer = i['answer'], positive_ctxs=[dict(title=i['title'], context=' '.join(i['context'].split()))]))            
    path = '../../data/dpr/news'
    os.makedirs(path, exist_ok=True)
    save_jsonl(path,dpr,name)

100%|███████████████████████████████████████████████████████████████████████| 273543/273543 [00:04<00:00, 62682.90it/s]
100%|█████████████████████████████████████████████████████████████████████████| 30395/30395 [00:00<00:00, 60679.41it/s]
100%|█████████████████████████████████████████████████████████████████████████| 37996/37996 [00:00<00:00, 67096.74it/s]


In [206]:
train_data = annotation([news_train, news_mrc_train_4])
dev_data = annotation([news_test, news_mrc_test_4])
test_data = annotation([news_dev, news_mrc_dev_4])

make_context: 100%|██████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.50s/it]
attach: 100%|███████████████████████████████████████████████████████████████| 273543/273543 [00:10<00:00, 26254.30it/s]
attach: 100%|████████████████████████████████████████████████████████████████| 14400/14400 [00:00<00:00, 453802.81it/s]


positive 개수 : 273543, negative 개수 : 273543, is_impossible neagtive 개수 : 14400, total negative 개수 : 287943


make_context: 100%|██████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00,  2.97it/s]
attach: 100%|█████████████████████████████████████████████████████████████████| 30395/30395 [00:00<00:00, 43033.19it/s]
attach: 100%|██████████████████████████████████████████████████████████████████████████████| 1600/1600 [00:00<?, ?it/s]


positive 개수 : 30395, negative 개수 : 30395, is_impossible neagtive 개수 : 1600, total negative 개수 : 31995


make_context: 100%|██████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.70it/s]
attach: 100%|█████████████████████████████████████████████████████████████████| 37996/37996 [00:00<00:00, 40330.66it/s]
attach: 100%|██████████████████████████████████████████████████████████████████████████████| 2000/2000 [00:00<?, ?it/s]

positive 개수 : 37996, negative 개수 : 37996, is_impossible neagtive 개수 : 2000, total negative 개수 : 39996





In [207]:
save_jsonl('../../data/rerank/news',train_data, 'train')
save_jsonl('../../data/rerank/news',dev_data, 'dev')
save_jsonl('../../data/rerank/news',test_data, 'test')

100%|███████████████████████████████████████████████████████████████████████| 561486/561486 [00:10<00:00, 54358.41it/s]
100%|█████████████████████████████████████████████████████████████████████████| 62390/62390 [00:01<00:00, 52483.35it/s]
100%|█████████████████████████████████████████████████████████████████████████| 77992/77992 [00:01<00:00, 49064.32it/s]


# KLUE MRC

In [189]:
def klue_make_instance(data:List):
    output = []
    for article in tqdm(data):
        title = article['title']
        context = article['context']
        question = article['question']
        answer = article['answers']['text']
        if article['is_impossible']==False:
            output.append(dict(title=title, context=context, question=question, answer=answer, label=1))
        else:
            output.append(dict(title=title, context=context, question=question, answer=answer, label=0))
    return output

In [210]:
from datasets import load_dataset
dataset = load_dataset('klue', 'mrc')	# klue dataset 중에 sts를 가져옴

Reusing dataset klue (C:\Users\User\.cache\huggingface\datasets\klue\mrc\1.0.0\e0fc3bc3de3eb03be2c92d72fd04a60ecc71903f821619cb28ca0e1e29e4233e)


  0%|          | 0/2 [00:00<?, ?it/s]

In [191]:
klue_mrc_train = klue_make_instance(dataset['train'])
klue_mrc_dev = klue_make_instance(dataset['validation'])

100%|█████████████████████████████████████████████████████████████████████████| 17554/17554 [00:01<00:00, 11366.41it/s]
100%|███████████████████████████████████████████████████████████████████████████| 5841/5841 [00:00<00:00, 11423.31it/s]


In [192]:
klue_mrc_train, klue_mrc_test = train_test_split(klue_mrc_train,test_size = 0.2, random_state=42, shuffle=True)

In [193]:
for name,data in zip(['train','dev','test'],[klue_mrc_train, klue_mrc_test, klue_mrc_dev]):
    dpr = []
    for i in data:
        if i['label']==1:
            dpr.append(dict(question=i['question'], answer = i['answer'], positive_ctxs=[dict(title=i['title'], context=' '.join(i['context'].split()))]))            
    path = '../../data/dpr/klue'
    os.makedirs(path, exist_ok=True)
    save_jsonl(path,dpr,name)

100%|███████████████████████████████████████████████████████████████████████████| 9654/9654 [00:00<00:00, 62255.54it/s]
100%|███████████████████████████████████████████████████████████████████████████| 2383/2383 [00:00<00:00, 77779.89it/s]
100%|███████████████████████████████████████████████████████████████████████████| 4008/4008 [00:00<00:00, 62706.63it/s]


In [208]:
train_data = annotation([klue_mrc_train])
dev_data = annotation([klue_mrc_test])
test_data = annotation([klue_mrc_dev])

make_context: 100%|██████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.92it/s]
attach: 100%|█████████████████████████████████████████████████████████████████| 14043/14043 [00:00<00:00, 47670.18it/s]


positive 개수 : 9654, negative 개수 : 9654, is_impossible neagtive 개수 : 4389, total negative 개수 : 14043


make_context: 100%|██████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 13.50it/s]
attach: 100%|███████████████████████████████████████████████████████████████████| 3511/3511 [00:00<00:00, 41292.78it/s]


positive 개수 : 2383, negative 개수 : 2383, is_impossible neagtive 개수 : 1128, total negative 개수 : 3511


make_context: 100%|██████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  6.85it/s]
attach: 100%|███████████████████████████████████████████████████████████████████| 5841/5841 [00:00<00:00, 54961.76it/s]


positive 개수 : 4008, negative 개수 : 4008, is_impossible neagtive 개수 : 1833, total negative 개수 : 5841


In [209]:
save_jsonl('../../data/rerank/klue',train_data,'train')
save_jsonl('../../data/rerank/klue',dev_data,'dev')
save_jsonl('../../data/rerank/klue',test_data,'test')

100%|█████████████████████████████████████████████████████████████████████████| 23697/23697 [00:00<00:00, 50089.97it/s]
100%|███████████████████████████████████████████████████████████████████████████| 5894/5894 [00:00<00:00, 41771.67it/s]
100%|███████████████████████████████████████████████████████████████████████████| 9849/9849 [00:00<00:00, 39121.00it/s]
