In [1]:
# import
import numpy as np
from tqdm import tqdm
from pprint import pprint
import pickle

import torch
import torch.nn.functional as F
from datasets import load_from_disk
from transformers import AutoTokenizer, TrainingArguments

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# 0 ~ 1.0 사이 값으로 scaling
def min_max_scaling(scores):
    min_score = torch.min(scores)
    max_score = torch.max(scores)
    scaled_scores = (scores - min_score) / (max_score - min_score)
    return scaled_scores

In [7]:
# top-k 확인
def get_relevant_doc(
        tokenizer,
        query,
        passage,
        ground_truth,
        p_name,
        q_name,
        k=1,
        args=None
    ): # 유사도 높은 context 및 ground-truth context와의 유사도 추출
    
    with open("../code/dense_encoder/" + p_name,  "rb") as f:
        p_encoder = pickle.load(f)
    with open("../code/dense_encoder/" + q_name, "rb") as f:
        q_encoder = pickle.load(f)

    with torch.no_grad():
        p_encoder.eval()
        q_encoder.eval()
        q_seps = tokenizer([query], padding="max_length", truncation=True, return_tensors="pt").to("cuda")
        q_emb = q_encoder(**q_seps).to("cpu") # (num_query, emb_dim)

        ground_truth = tokenizer(ground_truth, padding="max_length", truncation=True, return_tensors="pt").to("cuda")
        g_emb = p_encoder(**ground_truth).to("cpu")

        p_embs = []
        for p in passage:
            p = tokenizer(p, padding="max_length", truncation=True, return_tensors="pt").to("cuda")
            p_emb = p_encoder(**p).to("cpu").numpy()
            p_embs.append(p_emb)
    
    p_embs = torch.Tensor(p_embs).squeeze()  # (num_passage, emb_dim)
    dot_prod_scores = torch.matmul(q_emb, torch.transpose(p_embs, 0, 1)) # question과의 유사도
    rank = torch.argsort(dot_prod_scores, dim=1, descending=True).squeeze()

    # ground_truth와 passages의 유사도
    p_embs = F.normalize(p_embs, dim=-1)
    g_emb = F.normalize(g_emb, dim=-1)
    dot_prod_scores = torch.matmul(
        g_emb, torch.transpose(p_embs, 0, 1)).squeeze() # 각 문서간의 유사도
    # softmax = F.softmax(dot_prod_scores, dim=1).squeeze() # (num_passage,) → ground-truth 문서에 대한 전체 유사도
    dot_prod_scores = min_max_scaling(dot_prod_scores)

    return dot_prod_scores, rank[:k]

In [8]:
# document search
def search_doc(tokenizer, query, contexts, p_name, q_name): # query가 여럿일 경우 순서대로 검색
    context_score = []

    # for q in query
    for i, q in tqdm(enumerate(query), total=len(query), desc="Searching", unit="query"):
        score, indices = get_relevant_doc(
            tokenizer=tokenizer, query=q, passage=contexts, ground_truth=contexts[i], p_name=p_name, q_name=q_name, k=5)

        # print(f"[Search Query] {q}")
        # print(f'score : {scores}')

        arr = [[contexts[idx], score[idx]] for idx in indices] 
        context_score.append(arr) # [context, score]

    return context_score # (num_query, k, 2)  query마다 top-k개의 context와 score로 구성된 리스트 반환

        # top-k 문서 및 유사도 확인
        # for rank, idx in enumerate(indices):
        #     print(f"Top-{rank + 1}th Passage (Index {idx})")
        #     # pprint(retriever.passage['context'][idx])
        #     print(f"유사도 : {score[idx]}")
        #     pprint(contexts[idx])

In [None]:
# wikipedia 불러오기
# with open("../data/wikipedia_documents.json", "r", encoding="utf-8") as f:
#     wiki = json.load(f)
# contexts = list(dict.fromkeys([
#             value["text"] for value in wiki.values()
#         ]))

model_checkpoint = "klue/bert-base"
p_name = "p_klue_bert_base_3.bin"
q_name = "q_klue_bert_base_3.bin"

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

dataset = load_from_disk("../../../data/train_dataset")
val_dataset = dataset["validation"]["question"]
contexts = dataset["validation"]["context"]

# query와 비교하여 문서 찾기
query = val_dataset

context_score = search_doc(tokenizer, query, contexts, p_name, q_name)

Searching:   0%|          | 1/240 [00:04<16:06,  4.04s/query]

[Search Query] 처음으로 부실 경영인에 대한 보상 선고를 받은 회사는?


Searching:   1%|          | 2/240 [00:08<15:52,  4.00s/query]

[Search Query] 스카버러 남쪽과 코보콘그 마을의 철도 노선이 처음 연장된 연도는?


Searching:   1%|▏         | 3/240 [00:11<15:40,  3.97s/query]

[Search Query] 촌락에서 운영 위원 후보자 이름을 쓰기위해 사용된 것은?


Searching:   2%|▏         | 4/240 [00:15<15:31,  3.95s/query]

[Search Query] 로타이르가 백조를 구하기 위해 사용한 것은?


Searching:   2%|▏         | 5/240 [00:19<15:25,  3.94s/query]

[Search Query] 의견을 자유롭게 나누는 것은 조직 내 어떤 관계에서 가능한가?


Searching:   2%|▎         | 6/240 [00:23<15:31,  3.98s/query]

[Search Query] 1945년 쇼와천황의 항복 선언이 발표된 라디오 방송은?


Searching:   3%|▎         | 7/240 [00:27<15:39,  4.03s/query]

[Search Query] 징금수는 서양 자수의 어떤 기법과 같은 기술을 사용하는가?


Searching:   3%|▎         | 8/240 [00:31<15:33,  4.02s/query]

[Search Query] 다른 과 의사들은 감염내과 전문의들로부터 어떤 것에 대해 조언을 받는가?


Searching:   4%|▍         | 9/240 [00:36<15:37,  4.06s/query]

[Search Query] 루이 14세의 왕비 마리아 테래사는 어느 나라 공주인가?


Searching:   4%|▍         | 10/240 [00:40<15:37,  4.08s/query]

[Search Query] 헤자즈 왕국이 실존했던 것은 언제까지인가?


Searching:   5%|▍         | 11/240 [00:44<15:26,  4.05s/query]

[Search Query] 버드 교장이 5월의 여왕의 대안으로 제시한 것은?


Searching:   5%|▌         | 12/240 [00:48<15:21,  4.04s/query]

[Search Query] 인형사'를 만들어낸 것으로 추측되는 사업의 이름은?


Searching:   5%|▌         | 13/240 [00:52<15:18,  4.05s/query]

[Search Query] 멘데스가 요원들을 구하기 위해 간 도시는 어디인가?


Searching:   6%|▌         | 14/240 [00:56<15:08,  4.02s/query]

[Search Query] 교과부의 행동에 화가나 여러명이 사직한 기구의 이름은?


Searching:   6%|▋         | 15/240 [01:00<14:58,  4.00s/query]

[Search Query] 반대동맹이 공산당과 갈라서겠다고 얘기한 날은 언제인가?


Searching:   7%|▋         | 16/240 [01:04<14:51,  3.98s/query]

[Search Query] 피어슨이 다시 의회를 해산했던 년도는?


Searching:   7%|▋         | 17/240 [01:08<14:50,  3.99s/query]

[Search Query] 몽케가 죽은 뒤 쿠릴타이에서 대칸의 지위를 얻은 사람의 이름은?


Searching:   8%|▊         | 18/240 [01:12<14:47,  4.00s/query]

[Search Query] 이흥구의 사법시험 이야기를 기사로 작성한 곳은?


Searching:   8%|▊         | 19/240 [01:16<14:40,  3.98s/query]

[Search Query] 남북조 시대에서 이이 씨가 전쟁이 발생했을 때, 생활했던 장소는?


Searching:   8%|▊         | 20/240 [01:20<14:44,  4.02s/query]

[Search Query] 박지훈은 1라운드에서 몇 순위를 차지했는가?


Searching:   9%|▉         | 21/240 [01:24<14:45,  4.04s/query]

[Search Query] 데메카론에는 무엇을 풍자하는 이야기가 들어있나요?


Searching:   9%|▉         | 22/240 [01:28<14:39,  4.03s/query]

[Search Query] 병에 걸려 죽을 확률이 약 25~50%에 달하는 유형의 질병은?


Searching:  10%|▉         | 23/240 [01:32<14:43,  4.07s/query]

[Search Query] 설리반이 불만을 표시한 대상은 누구인가?


Searching:  10%|█         | 24/240 [01:36<14:42,  4.09s/query]

[Search Query] 베소스는 어디서 추방당했는가?


Searching:  10%|█         | 25/240 [01:40<14:41,  4.10s/query]

[Search Query] 진전사의 명칭이 드러나는 데 영향을 준 물건은?


Searching:  11%|█         | 26/240 [01:45<14:52,  4.17s/query]

[Search Query] 자신의 이상적인 국가관이 스파르타와 닮아 있다고 생각하는 플라톤의 저서는?


Searching:  11%|█▏        | 27/240 [01:49<14:45,  4.16s/query]

[Search Query] 박제된 북극곰이 사망한 날짜는?


Searching:  12%|█▏        | 28/240 [01:53<14:40,  4.15s/query]

[Search Query] 문법 측면에서 더 보수적인 포르투갈어 표준은?


Searching:  12%|█▏        | 29/240 [01:57<14:28,  4.12s/query]

[Search Query] 로스 수장이 살해한 사람은 어느 당 회원인가?


Searching:  12%|█▎        | 30/240 [02:01<14:13,  4.07s/query]

[Search Query] 조경숙왕의 아들인 요자의 친어머니는 누구인가?


Searching:  13%|█▎        | 31/240 [02:05<14:01,  4.02s/query]

[Search Query] 오래플린과 부스의 마지막 계획에 따르면 그들은 어디서 링컨을 납치하려고 했는가?


Searching:  13%|█▎        | 32/240 [02:09<13:56,  4.02s/query]

[Search Query] 김득황이 친일파로 취급되었던 것은 무슨 경력 때문인가?


Searching:  14%|█▍        | 33/240 [02:13<13:45,  3.99s/query]

[Search Query] 레닌이 출간한 책 중 농민의 자발적 참여에 대한 내용이 포함되어있는 것은?


Searching:  14%|█▍        | 34/240 [02:17<13:51,  4.04s/query]

[Search Query] 신란의 동반자가 죽었다고 전해지는 지역은?


Searching:  15%|█▍        | 35/240 [02:21<13:51,  4.06s/query]

[Search Query] 칭자오의 머리가 엄청난 위력을 발휘할 수 없게 된 것은 누구 때문인가?


Searching:  15%|█▌        | 36/240 [02:25<13:39,  4.02s/query]

[Search Query] 해초나 조류 표면에서 자라는 유기체 중 가장 비율이 높은 것은?


Searching:  15%|█▌        | 37/240 [02:29<13:35,  4.02s/query]

[Search Query] 류한욱이 두 번째 뇌출혈로 쓰러진 공간은?


Searching:  16%|█▌        | 38/240 [02:33<13:45,  4.09s/query]

[Search Query] 로마의 공성무기에 대한 기록을 남긴 사람은?


Searching:  16%|█▋        | 39/240 [02:37<13:42,  4.09s/query]

[Search Query] 동반자 등록제를 최초로 실시한 중국의 도시는?


Searching:  17%|█▋        | 40/240 [02:41<13:43,  4.12s/query]

[Search Query] 장대호가 사용한 흉기는?


Searching:  17%|█▋        | 41/240 [02:46<13:37,  4.11s/query]

[Search Query] 스뮈츠에게 학비를 지원해 준 사람은?


Searching:  18%|█▊        | 42/240 [02:50<13:32,  4.10s/query]

[Search Query] 브루투스가 세운도시의 현재 이름은?


Searching:  18%|█▊        | 43/240 [02:54<13:29,  4.11s/query]

[Search Query] 일본의 대학 입시는 며칠간 진행되는가?


Searching:  18%|█▊        | 44/240 [02:58<13:29,  4.13s/query]

[Search Query] 국내 화엄종의 선구자는 누구인가?


Searching:  19%|█▉        | 45/240 [03:02<13:31,  4.16s/query]

[Search Query] 다케다 노부히로가 통치한 지역은 어디인가?


Searching:  19%|█▉        | 46/240 [03:06<13:32,  4.19s/query]

[Search Query] 둥근 해자를 건너는 다리 난간에는 어떤 신화의 내용이 새겨져 있나?


Searching:  20%|█▉        | 47/240 [03:11<13:29,  4.19s/query]

[Search Query] 우나동의 주요 식재료는?


Searching:  20%|██        | 48/240 [03:15<13:20,  4.17s/query]

[Search Query] 제2차 세계 대전 이후 동부 갈리치아 지방은 누구에게 지배를 받았는가?


Searching:  20%|██        | 49/240 [03:19<13:12,  4.15s/query]

[Search Query] 치환과 결합되어 파이스텔 암호 사용을 가능케 하는 것은?


Searching:  21%|██        | 50/240 [03:23<13:01,  4.11s/query]

[Search Query] 적색육을 지칭하는 또 다른 이름은?


Searching:  21%|██▏       | 51/240 [03:27<12:52,  4.09s/query]

[Search Query] 정민과 이별한 이후 옥림의 매력에 마음을 빼앗겨버린 인물은?


Searching:  22%|██▏       | 52/240 [03:31<12:53,  4.12s/query]

[Search Query] 슈트레제만이 이끌었던 당은 무엇인가?


Searching:  22%|██▏       | 53/240 [03:35<12:49,  4.12s/query]

[Search Query] 닛폰 제지 시라오이 공장과 가까운 역은?


Searching:  22%|██▎       | 54/240 [03:39<12:39,  4.08s/query]

[Search Query] 벽에 천녀를 그리기 전에 하는 밑작업은?


Searching:  23%|██▎       | 55/240 [03:43<12:29,  4.05s/query]

[Search Query] 합천에서 나루터 역할을 대신하고 있는 것은?


Searching:  23%|██▎       | 56/240 [03:47<12:27,  4.06s/query]

[Search Query] 독일의 취업자들이 주로 기술을 습득한 방법은?


In [None]:
# (num_query, k, 2)  query마다 top-k개의 context와 score로 구성된 array
context_score = np.array(context_score)

# 유사도(score) 0.99 이상으로 정답 확인 or ground truth 직접 비교로 확인
# 이 부분은 시간이 없어서 업로드만 하고 PR
for con_sco in context_score:
    for context, score in con_sco:
        print(context)
        print(score.item())