# 5강) BERT를 활용한 Dense Passage Retrieval 실습

### Requirements

In [None]:
!pip install datasets
!pip install transformers



## 데이터셋 로딩


KorQuAD train 데이터셋을 학습 데이터로 활용

In [1]:
from datasets import load_dataset

dataset = load_dataset("squad_kor_v1")

Reusing dataset squad_kor_v1 (/opt/ml/.cache/huggingface/datasets/squad_kor_v1/squad_kor_v1/1.0.0/31982418accc53b059af090befa81e68880acc667ca5405d30ce6fa7910950a7)


## 토크나이저 준비 - Huggingface 제공 tokenizer 이용

BERT를 encoder로 사용하므로, hugginface에서 제공하는 "bert-base-multilingual-cased" tokenizer를 활용

In [2]:
from transformers import AutoTokenizer
import numpy as np

model_checkpoint = "bert-base-multilingual-cased"

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)


In [3]:
tokenizer

PreTrainedTokenizerFast(name_or_path='bert-base-multilingual-cased', vocab_size=119547, model_max_len=512, is_fast=True, padding_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})

In [4]:
tokenized_input = tokenizer(dataset['train'][0]['context'], padding="max_length", truncation=True)
tokenizer.decode(tokenized_input['input_ids'])

'[CLS] 1839년 바그너는 괴테의 파우스트을 처음 읽고 그 내용에 마음이 끌려 이를 소재로 해서 하나의 교향곡을 쓰려는 뜻을 갖는다. 이 시기 바그너는 1838년에 빛 독촉으로 산전수전을 다 [UNK] 상황이라 좌절과 실망에 가득했으며 메피스토펠레스를 만나는 파우스트의 심경에 공감했다고 한다. 또한 파리에서 아브네크의 지휘로 파리 음악원 관현악단이 연주하는 베토벤의 교향곡 9번을 듣고 깊은 감명을 받았는데, 이것이 이듬해 1월에 파우스트의 서곡으로 쓰여진 이 작품에 조금이라도 영향을 끼쳤으리라는 것은 의심할 여지가 없다. 여기의 라단조 조성의 경우에도 그의 전기에 적혀 있는 것처럼 단순한 정신적 피로나 실의가 반영된 것이 아니라 베토벤의 합창교향곡 조성의 영향을 받은 것을 볼 수 있다. 그렇게 교향곡 작곡을 1839년부터 40년에 걸쳐 파리에서 착수했으나 1악장을 쓴 뒤에 중단했다. 또한 작품의 완성과 동시에 그는 이 서곡 ( 1악장 ) 을 파리 음악원의 연주회에서 연주할 파트보까지 준비하였으나, 실제로는 이루어지지는 않았다. 결국 초연은 4년 반이 지난 후에 드레스덴에서 연주되었고 재연도 이루어졌지만, 이후에 그대로 방치되고 말았다. 그 사이에 그는 리엔치와 방황하는 네덜란드인을 완성하고 탄호이저에도 착수하는 등 분주한 시간을 보냈는데, 그런 바쁜 생활이 이 곡을 잊게 한 것이 아닌가 하는 의견도 있다. [SEP] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] 

## Dense encoder (BERT) 학습 시키기

HuggingFace BERT를 활용하여 question encoder, passage encoder 학습

In [5]:
from tqdm import tqdm, trange
import argparse
import random
import torch
import torch.nn.functional as F
from transformers import BertModel, BertPreTrainedModel, AdamW, TrainingArguments, get_linear_schedule_with_warmup

torch.manual_seed(2021)
torch.cuda.manual_seed(2021)
np.random.seed(2021)
random.seed(2021)

1) Training Dataset 준비하기 (question, passage pairs)

---



In [6]:
# Use subset (128 example) of original training dataset 
sample_idx = np.random.choice(range(len(dataset['train'])), 128)
training_dataset = dataset['train'][sample_idx]

In [7]:
from torch.utils.data import (DataLoader, RandomSampler, TensorDataset)

q_seqs = tokenizer(training_dataset['question'], padding="max_length", truncation=True, return_tensors='pt')
p_seqs = tokenizer(training_dataset['context'], padding="max_length", truncation=True, return_tensors='pt')


In [8]:
train_dataset = TensorDataset(p_seqs['input_ids'], p_seqs['attention_mask'], p_seqs['token_type_ids'], 
                        q_seqs['input_ids'], q_seqs['attention_mask'], q_seqs['token_type_ids'])

2) BERT encoder 학습시키기

BertEncoder 모델 정의 후, question encoder, passage encoder에 pre-trained weight 불러오기

In [9]:
class BertEncoder(BertPreTrainedModel):
  def __init__(self, config):
    super(BertEncoder, self).__init__(config)

    self.bert = BertModel(config)
    self.init_weights()
      
  def forward(self, input_ids, 
              attention_mask=None, token_type_ids=None): 
  
      outputs = self.bert(input_ids,
                          attention_mask=attention_mask,
                          token_type_ids=token_type_ids)
      
      pooled_output = outputs[1]

      return pooled_output


In [10]:
# load pre-trained model on cuda (if available)
p_encoder = BertEncoder.from_pretrained(model_checkpoint)
q_encoder = BertEncoder.from_pretrained(model_checkpoint)

if torch.cuda.is_available():
  p_encoder.cuda()
  q_encoder.cuda()

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertEncoder: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias']
- This IS expected if you are initializing BertEncoder from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertEncoder from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertEncoder: ['cls.predictions.bias',

Train function 정의 후, 두개의 encoder fine-tuning 하기 (In-batch negative 활용) 


In [15]:
def train(args, dataset, p_model, q_model):
  
  # Dataloader
  train_sampler = RandomSampler(dataset)
  train_dataloader = DataLoader(dataset, sampler=train_sampler, batch_size=args.per_device_train_batch_size)
  # Optimizer
  no_decay = ['bias', 'LayerNorm.weight']
  optimizer_grouped_parameters = [
        {'params': [p for n, p in p_model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': args.weight_decay},
        {'params': [p for n, p in p_model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0},
        {'params': [p for n, p in q_model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': args.weight_decay},
        {'params': [p for n, p in q_model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0}
        ]
  optimizer = AdamW(optimizer_grouped_parameters, lr=args.learning_rate, eps=args.adam_epsilon)
  t_total = len(train_dataloader) // args.gradient_accumulation_steps * args.num_train_epochs
  scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=args.warmup_steps, num_training_steps=t_total)

  # Start training!
  global_step = 0
  
  p_model.zero_grad()
  q_model.zero_grad()
  torch.cuda.empty_cache()
  
  train_iterator = trange(int(args.num_train_epochs), desc="Epoch")

  for _ in train_iterator:
    epoch_iterator = tqdm(train_dataloader, desc="Iteration")

    for step, batch in enumerate(epoch_iterator):
      q_encoder.train()
      p_encoder.train()
      
      if torch.cuda.is_available():
        batch = tuple(t.cuda() for t in batch)

      p_inputs = {'input_ids': batch[0],
                  'attention_mask': batch[1],
                  'token_type_ids': batch[2]
                  }
      
      q_inputs = {'input_ids': batch[3],
                  'attention_mask': batch[4],
                  'token_type_ids': batch[5]}
      
      p_outputs = p_model(**p_inputs)  # (batch_size, emb_dim)
      q_outputs = q_model(**q_inputs)  # (batch_size, emb_dim)


      # Calculate similarity score & loss
      sim_scores = torch.matmul(q_outputs, torch.transpose(p_outputs, 0, 1))  # (batch_size, emb_dim) x (emb_dim, batch_size) = (batch_size, batch_size)

      # target: position of positive samples = diagonal element 
      targets = torch.arange(0, args.per_device_train_batch_size).long()
      if torch.cuda.is_available():
        targets = targets.to('cuda')

      sim_scores = F.log_softmax(sim_scores, dim=1)

      loss = F.nll_loss(sim_scores, targets)
      print(loss)

      loss.backward()
      optimizer.step()
      scheduler.step()
      q_model.zero_grad()
      p_model.zero_grad()
      global_step += 1
      
      torch.cuda.empty_cache()


    
  return p_model, q_model




In [16]:
args = TrainingArguments(
    output_dir="dense_retireval",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    num_train_epochs=2,
    weight_decay=0.01
)


In [17]:
p_encoder, q_encoder = train(args, train_dataset, p_encoder, q_encoder)

Epoch:   0%|          | 0/2 [00:00<?, ?it/s]
Iteration:   0%|          | 0/32 [00:00<?, ?it/s][A

tensor(36.3758, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:   3%|▎         | 1/32 [00:00<00:23,  1.33it/s][A

tensor(5.1233, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:   6%|▋         | 2/32 [00:01<00:19,  1.53it/s][A

tensor(4.7227, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:   9%|▉         | 3/32 [00:01<00:17,  1.69it/s][A

tensor(3.3973, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  12%|█▎        | 4/32 [00:02<00:15,  1.81it/s][A

tensor(3.9491, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  16%|█▌        | 5/32 [00:02<00:14,  1.91it/s][A

tensor(1.0764, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  19%|█▉        | 6/32 [00:02<00:13,  1.99it/s][A

tensor(9.6485, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  22%|██▏       | 7/32 [00:03<00:12,  2.05it/s][A

tensor(1.5138, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  25%|██▌       | 8/32 [00:03<00:11,  2.09it/s][A

tensor(1.3123, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  28%|██▊       | 9/32 [00:04<00:10,  2.12it/s][A

tensor(1.9669, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  31%|███▏      | 10/32 [00:04<00:10,  2.14it/s][A

tensor(1.0710, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  34%|███▍      | 11/32 [00:05<00:09,  2.16it/s][A

tensor(1.2386, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  38%|███▊      | 12/32 [00:05<00:09,  2.18it/s][A

tensor(1.9032, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  41%|████      | 13/32 [00:06<00:08,  2.19it/s][A

tensor(1.6794, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  44%|████▍     | 14/32 [00:06<00:08,  2.19it/s][A

tensor(2.8576, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  47%|████▋     | 15/32 [00:07<00:07,  2.20it/s][A

tensor(1.5955, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  50%|█████     | 16/32 [00:07<00:07,  2.20it/s][A

tensor(1.2744, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  53%|█████▎    | 17/32 [00:07<00:06,  2.20it/s][A

tensor(1.9967, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  56%|█████▋    | 18/32 [00:08<00:06,  2.20it/s][A

tensor(1.7768, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  59%|█████▉    | 19/32 [00:08<00:05,  2.20it/s][A

tensor(1.3870, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  62%|██████▎   | 20/32 [00:09<00:05,  2.20it/s][A

tensor(1.1945, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  66%|██████▌   | 21/32 [00:09<00:04,  2.20it/s][A

tensor(2.4130, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  69%|██████▉   | 22/32 [00:10<00:04,  2.20it/s][A

tensor(1.2898, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  72%|███████▏  | 23/32 [00:10<00:04,  2.20it/s][A

tensor(1.4308, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  75%|███████▌  | 24/32 [00:11<00:03,  2.21it/s][A

tensor(1.7065, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  78%|███████▊  | 25/32 [00:11<00:03,  2.21it/s][A

tensor(1.2701, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  81%|████████▏ | 26/32 [00:12<00:02,  2.21it/s][A

tensor(1.9724, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  84%|████████▍ | 27/32 [00:12<00:02,  2.21it/s][A

tensor(1.3594, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  88%|████████▊ | 28/32 [00:12<00:01,  2.21it/s][A

tensor(1.5620, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  91%|█████████ | 29/32 [00:13<00:01,  2.21it/s][A

tensor(1.8734, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  94%|█████████▍| 30/32 [00:13<00:00,  2.21it/s][A

tensor(1.6862, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  97%|█████████▋| 31/32 [00:14<00:00,  2.21it/s][A

tensor(1.6285, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration: 100%|██████████| 32/32 [00:14<00:00,  2.16it/s][A
Epoch:  50%|█████     | 1/2 [00:14<00:14, 14.79s/it]
Iteration:   0%|          | 0/32 [00:00<?, ?it/s][A

tensor(1.6249, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:   3%|▎         | 1/32 [00:00<00:13,  2.22it/s][A

tensor(1.5919, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:   6%|▋         | 2/32 [00:00<00:13,  2.22it/s][A

tensor(0.9737, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:   9%|▉         | 3/32 [00:01<00:13,  2.22it/s][A

tensor(1.5355, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  12%|█▎        | 4/32 [00:01<00:12,  2.21it/s][A

tensor(1.4509, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  16%|█▌        | 5/32 [00:02<00:12,  2.21it/s][A

tensor(1.3122, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  19%|█▉        | 6/32 [00:02<00:11,  2.21it/s][A

tensor(1.8671, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  22%|██▏       | 7/32 [00:03<00:11,  2.21it/s][A

tensor(2.1419, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  25%|██▌       | 8/32 [00:03<00:10,  2.21it/s][A

tensor(2.0462, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  28%|██▊       | 9/32 [00:04<00:10,  2.21it/s][A

tensor(1.5728, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  31%|███▏      | 10/32 [00:04<00:09,  2.21it/s][A

tensor(1.6302, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  34%|███▍      | 11/32 [00:04<00:09,  2.21it/s][A

tensor(1.2228, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  38%|███▊      | 12/32 [00:05<00:09,  2.21it/s][A

tensor(1.2857, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  41%|████      | 13/32 [00:05<00:08,  2.21it/s][A

tensor(1.3765, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  44%|████▍     | 14/32 [00:06<00:08,  2.21it/s][A

tensor(1.6350, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  47%|████▋     | 15/32 [00:06<00:07,  2.21it/s][A

tensor(1.2761, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  50%|█████     | 16/32 [00:07<00:07,  2.21it/s][A

tensor(1.3234, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  53%|█████▎    | 17/32 [00:07<00:06,  2.21it/s][A

tensor(1.3141, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  56%|█████▋    | 18/32 [00:08<00:06,  2.21it/s][A

tensor(1.2745, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  59%|█████▉    | 19/32 [00:08<00:05,  2.21it/s][A

tensor(1.2133, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  62%|██████▎   | 20/32 [00:09<00:05,  2.20it/s][A

tensor(1.4389, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  66%|██████▌   | 21/32 [00:09<00:05,  2.19it/s][A

tensor(1.2595, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  69%|██████▉   | 22/32 [00:09<00:04,  2.19it/s][A

tensor(1.5933, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  72%|███████▏  | 23/32 [00:10<00:04,  2.20it/s][A

tensor(1.4147, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  75%|███████▌  | 24/32 [00:10<00:03,  2.20it/s][A

tensor(1.5431, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  78%|███████▊  | 25/32 [00:11<00:03,  2.20it/s][A

tensor(1.2423, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  81%|████████▏ | 26/32 [00:11<00:02,  2.20it/s][A

tensor(1.1076, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  84%|████████▍ | 27/32 [00:12<00:02,  2.20it/s][A

tensor(1.2541, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  88%|████████▊ | 28/32 [00:12<00:01,  2.20it/s][A

tensor(1.2703, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  91%|█████████ | 29/32 [00:13<00:01,  2.20it/s][A

tensor(2.3130, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  94%|█████████▍| 30/32 [00:13<00:00,  2.20it/s][A

tensor(1.0360, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration:  97%|█████████▋| 31/32 [00:14<00:00,  2.20it/s][A

tensor(1.6442, device='cuda:0', grad_fn=<NllLossBackward>)



Iteration: 100%|██████████| 32/32 [00:14<00:00,  2.20it/s][A
Epoch: 100%|██████████| 2/2 [00:29<00:00, 14.66s/it]


## Dense Embedding을 활용하여 passage retrieval 실습해보기

In [18]:

valid_corpus = list(set([example['context'] for example in dataset['validation']]))[:10]
sample_idx = random.choice(range(len(dataset['validation'])))
query = dataset['validation'][sample_idx]['question']
ground_truth = dataset['validation'][sample_idx]['context']

if not ground_truth in valid_corpus:
  valid_corpus.append(ground_truth)

print(query)
print(ground_truth, '\n\n')

# valid_corpus

유아인에게 타고난 배우라고 말한 드라마 밀회의 감독은?
화보 촬영을 위해 미국에 있을 때, 김희애의 연락을 통해 JTBC 드라마 《밀회》의 캐스팅을 제안받았다. 당시 영화 《베테랑》에 이미 캐스팅된 상태였으나, 유아인은 류승완 감독과 제작사의 양해를 얻어 《밀회》에 출연한다. 천재 피아니스트 ‘이선재’ 역할을 위해 피아니스트들의 영상을 보고 곡의 스피드와 건반 위치 등을 외워 실제 타건을 하며 촬영했다. 피아노 울림판을 수건으로 막고 타건을 하면, 그 후 대역 피아니스트의 소리를 덧입히는 방식이었다. 《밀회》는 작품성을 인정받고 숱한 화제를 낳으며 당시 종편으로서는 높은 시청률을 기록했다. 유아인은 섬세한 연기력을 선보여 순수함으로 시청자들을 매료시켰다는 호평을 얻었고, 특히 피아노 연주에 있어서 클래식 종사자들에게 인정을 받았다. 연출을 맡은 안판석 감독은 유아인에 대해 “느낌으로만 연기를 하는 게 아니고 감성을 지적으로 통제해 가면서 연기한다. 그 나이에”라며 “타고난 배우”라고 말했다. 유아인은 《밀회》를 통해 예술적인 면모를 구체화할 수 있어서 만족감을 느꼈다고 밝혔으며, 종영 후 자신의 페이스북 계정에 긴 소감글을 남겼다. 특히 ‘이선재’ 캐릭터를 배우 유아인이 가진 소년성의 엑기스로 생각하며, 2015년 10월 부산국제영화제 오픈토크에서는 본인이 가장 좋아하는 캐릭터로 꼽았다. 




앞서 학습한 passage encoder, question encoder을 이용해 dense embedding 생성

In [19]:
def to_cuda(batch):
  return tuple(t.cuda() for t in batch)

In [20]:
with torch.no_grad():
  p_encoder.eval()
  q_encoder.eval()

  q_seqs_val = tokenizer([query], padding="max_length", truncation=True, return_tensors='pt').to('cuda')
  q_emb = q_encoder(**q_seqs_val).to('cpu')  #(num_query, emb_dim)

  p_embs = []
  for p in valid_corpus:
    p = tokenizer(p, padding="max_length", truncation=True, return_tensors='pt').to('cuda')
    p_emb = p_encoder(**p).to('cpu').numpy()
    p_embs.append(p_emb)

p_embs = torch.Tensor(p_embs).squeeze()  # (num_passage, emb_dim)

print(p_embs.size(), q_emb.size())

torch.Size([11, 768]) torch.Size([1, 768])


생성된 embedding에 dot product를 수행 => Document들의 similarity ranking을 구함

In [21]:
dot_prod_scores = torch.matmul(q_emb, torch.transpose(p_embs, 0, 1))
print(dot_prod_scores.size())

rank = torch.argsort(dot_prod_scores, dim=1, descending=True).squeeze()
print(dot_prod_scores)
print(rank)

torch.Size([1, 11])
tensor([[25.6038, 25.1940, 26.1106, 26.1657, 25.8253, 25.7297, 25.8827, 25.8922,
         25.7354, 26.0937, 26.1060]])
tensor([ 3,  2, 10,  9,  7,  6,  4,  8,  5,  0,  1])


Top-5개의 passage를 retrieve 하고 ground truth와 비교하기

In [22]:
k = 5
print("[Search query]\n", query, "\n")
print("[Ground truth passage]")
print(ground_truth, "\n")

for i in range(k):
  print("Top-%d passage with score %.4f" % (i+1, dot_prod_scores.squeeze()[rank[i]]))
  print(valid_corpus[rank[i]])

[Search query]
 유아인에게 타고난 배우라고 말한 드라마 밀회의 감독은? 

[Ground truth passage]
화보 촬영을 위해 미국에 있을 때, 김희애의 연락을 통해 JTBC 드라마 《밀회》의 캐스팅을 제안받았다. 당시 영화 《베테랑》에 이미 캐스팅된 상태였으나, 유아인은 류승완 감독과 제작사의 양해를 얻어 《밀회》에 출연한다. 천재 피아니스트 ‘이선재’ 역할을 위해 피아니스트들의 영상을 보고 곡의 스피드와 건반 위치 등을 외워 실제 타건을 하며 촬영했다. 피아노 울림판을 수건으로 막고 타건을 하면, 그 후 대역 피아니스트의 소리를 덧입히는 방식이었다. 《밀회》는 작품성을 인정받고 숱한 화제를 낳으며 당시 종편으로서는 높은 시청률을 기록했다. 유아인은 섬세한 연기력을 선보여 순수함으로 시청자들을 매료시켰다는 호평을 얻었고, 특히 피아노 연주에 있어서 클래식 종사자들에게 인정을 받았다. 연출을 맡은 안판석 감독은 유아인에 대해 “느낌으로만 연기를 하는 게 아니고 감성을 지적으로 통제해 가면서 연기한다. 그 나이에”라며 “타고난 배우”라고 말했다. 유아인은 《밀회》를 통해 예술적인 면모를 구체화할 수 있어서 만족감을 느꼈다고 밝혔으며, 종영 후 자신의 페이스북 계정에 긴 소감글을 남겼다. 특히 ‘이선재’ 캐릭터를 배우 유아인이 가진 소년성의 엑기스로 생각하며, 2015년 10월 부산국제영화제 오픈토크에서는 본인이 가장 좋아하는 캐릭터로 꼽았다. 

Top-1 passage with score 26.1657
방탄소년단은 4월 29일 세 번째 미니 앨범 《화양연화 pt.1》를 발매하며 전환점을 마련했다. 이 앨범은 방탄소년단 전 멤버가 작사, 작곡에 참여했으며, 방탄소년단의 청춘 3부작의 시작점으로 청춘이 느끼는 고민과 고뇌, 갈등, 고통 등을 담아냈다. 타이틀 곡 "I NEED U"는 청춘을 이야기할 때 빠질 수 없는 사랑에 대한 노래며, 끝나가는 사랑을 붙잡으려는 애타는 마음이 담겨있다. 방탄소년단은 데뷔 이래 처음으로 각종 음악 방송 및 차트