In [3]:
import json
import torch
from torch.utils.data import Dataset, DataLoader
from collections import defaultdict

In [18]:
model = torch.load('base_model_3.pt', map_location='cuda:0').eval()

In [19]:
class InferDataset(Dataset):
    def __init__(self, candidates, texts, questions):
        self.candidates = candidates
        self.texts = texts
        self.questions = questions

    def __len__(self):
        return len(self.candidates)

    def __getitem__(self, item):
        question, context, label = self.candidates[item]
        return {'question': self.questions[question], 'context': self.texts[context], 'labels': torch.FloatTensor([label]),
                'question_id': question, 'context_id': context}

In [31]:
def data_load(args):
    with open(args.data_path + '/paragraph_context.json', 'r', encoding='utf-8') as f:
        texts = json.load(f)

    with open(args.data_path + '/question_context.json', 'r', encoding='utf-8') as f:
        questions = json.load(f)

    with open(args.data_path + '/test_labels.json', 'r', encoding='utf-8') as f:
        labels_dummy = json.load(f)
        labels = defaultdict(str)

        for i in labels_dummy.keys():
            for qu in labels_dummy[i]:
                labels[qu] = i

    with open(args.data_path + '/bm25_space_result.json', 'r', encoding='utf-8') as f:
        bm25_result = json.load(f)

    candidates = []
    for i in bm25_result.keys():
        check = False
        for j in bm25_result[i]:
            if labels[i] == j:
                label = 1
            else:
                label = 0
            candidates.append([i, j, label])

    infer_dataset = InferDataset(candidates, texts, questions)
    infer_loader = DataLoader(infer_dataset, batch_size=args.batch_size, shuffle=False)
    return infer_loader

In [35]:
import easydict
from tqdm import tqdm
args = easydict.EasyDict({
    'data_path': 'dataset',
    'batch_size': 32
})

In [33]:
infer_loader = data_load(args)

In [48]:
reranking_answer = defaultdict(list)
for feature in tqdm(infer_loader):
    question_id = feature['question_id']
    context_id = feature['context_id']
    value = list(model(feature).cpu().detach().numpy())
    for q, c, v in zip(question_id, context_id, value):
        reranking_answer[q].append([c, v])

100%|████████████████████████████████████████████████████████████████████████| 218865/218865 [6:55:09<00:00,  8.79it/s]


In [4]:
context_corpus = json.load(open('dataset/paragraph_context.json', 'r', encoding='utf8')) 
question_corpus = json.load(open('dataset/question_context.json', 'r', encoding='utf8'))
train_labels_json = json.load(open('dataset/train_labels.json', 'r', encoding='utf8'))
test_labels_json = json.load(open('dataset/test_labels.json', 'r', encoding='utf8'))

In [53]:
test_label_clean = {}
for test_label in test_labels_json.keys():
    for test in test_labels_json[test_label]:
        test_label_clean[test] = test_label

In [55]:
mrr = 0

for clean in test_label_clean.keys():
    try:
        mrr += 1 / [key for key, value in sorted(reranking_answer[clean], key=lambda x:x[1])].index(test_label_clean[clean]) + 1
    except:
        pass
    
print(mrr / len(test_label_clean))

0.9199192613086765


In [9]:
train_labels_json[list(train_labels_json.keys())[1]]

['QUES_ryqQyXGVTP']

In [11]:
list(train_labels_json.keys())[1]

'PARS_Z6eNWajOWi'

In [12]:
context_corpus['PARS_Z6eNWajOWi']

'[1] 성질 또는 특성 등에 의해 물(物)을 특정하려고 하는 기재를 포함하는 특허발명과, 이와 다른 성질 또는 특성 등에 의해 물을 특정하고 있는 인용발명을 대비할 때, 특허발명의 특허청구범위에 기재된 성질 또는 특성이 다른 정의(定義) 또는 시험ㆍ측정방법에 의한 것으로 환산이 가능하여 환산해 본 결과 인용발명의 대응되는 것과 동일ㆍ유사하거나 또는 특허발명의 명세서의 상세한 설명에 기재된 실시 형태와 인용발명의 구체적 실시형태가 동일ㆍ유사한 경우에는, 달리 특별한 사정이 없는 한, 양 발명은 발명에 대한 기술적인 표현만 달리할 뿐 실질적으로는 동일 ㆍ유사한 것으로 보아야 할 것이므로, 이러한 특허발명은 신규성 및 진보성을 인정 하기 어렵다(대법원 2002. 6. 28. 선고 2001후2658 판결).'

In [10]:
question_corpus['QUES_ryqQyXGVTP']

'성질 또는 특성 등에 의해 사물을 특정하려고 하는 기재를 포함하는 발명은 무슨 발명이야'