# 5강) BERT를 활용한 Dense Passage Retrieval 실습

### Requirements

In [1]:
# !pip install datasets
# !pip install transformers

## 데이터셋 로딩


KorQuAD train 데이터셋을 search corpus 및 학습 데이터로 활용

In [2]:
from datasets import load_dataset

dataset = load_dataset("squad_kor_v1")

Reusing dataset squad_kor_v1 (/opt/ml/.cache/huggingface/datasets/squad_kor_v1/squad_kor_v1/1.0.0/31982418accc53b059af090befa81e68880acc667ca5405d30ce6fa7910950a7)


In [3]:
corpus = list(set([example['context'] for example in dataset['train']]))
len(corpus)

9606

## 토크나이저 준비 - Huggingface 제공 tokenizer 이용

BERT를 encoder로 사용하므로, hugginface에서 제공하는 "bert-base-multilingual-cased" tokenizer를 활용

In [4]:
from transformers import AutoTokenizer
import numpy as np

model_checkpoint = "bert-base-multilingual-cased"

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)


In [5]:
tokenizer

PreTrainedTokenizerFast(name_or_path='bert-base-multilingual-cased', vocab_size=119547, model_max_len=512, is_fast=True, padding_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})

In [6]:
print(corpus[0])
tokenized_input = tokenizer(corpus[0], padding="max_length", truncation=True)
tokenizer.decode(tokenized_input['input_ids'])

2008년 4월 28일 캐피털을 통해 《One of the Boys》의 리드 싱글이자 첫 번째 싱글 〈I Kissed a Girl〉이 발매되었다. 노래는 빌보드 핫 100 1위에 올랐다. 6월 17일에는 두 번째 정규 앨범 《One of the Boys》가 발매되었는데, 평론가들로부터 호불호가 갈리는 평을 받았고 빌보드 200 9위까지 올랐다. 9월에는 두 번째 싱글 〈Hot n Cold〉가 발매되었다. 노래는 미국에서 9위, 독일, 캐나다, 네덜란드, 오스트리아 에서는 정상에 올랐다. 2009년에는 후속 싱글 〈Thinking of You〉와 〈Waking Up in Vegas〉가 발매되었다. 이 싱글들은 핫 100 30위권에 진입했다. 2004년 더 매트릭스와 녹음해뒀던 데뷔 앨범은 페리의 성공으로 2009년 1월 27일 아이튠스를 통해 발매되었다.


'[CLS] 2008년 4월 28일 캐피털을 통해 《 One of the Boys 》 의 리드 싱글이자 첫 번째 싱글 〈 I Kissed a Girl 〉 이 발매되었다. 노래는 빌보드 핫 100 1위에 올랐다. 6월 17일에는 두 번째 정규 앨범 《 One of the Boys 》 가 발매되었는데, 평론가들로부터 호불호가 갈리는 평을 받았고 빌보드 200 9위까지 올랐다. 9월에는 두 번째 싱글 〈 Hot n Cold 〉 가 발매되었다. 노래는 미국에서 9위, 독일, 캐나다, 네덜란드, 오스트리아 에서는 정상에 올랐다. 2009년에는 후속 싱글 〈 Thinking of You 〉 와 〈 Waking Up in Vegas 〉 가 발매되었다. 이 싱글들은 핫 100 30위권에 진입했다. 2004년 더 매트릭스와 녹음해뒀던 데뷔 앨범은 페리의 성공으로 2009년 1월 27일 아이튠스를 통해 발매되었다. [SEP] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [P

## Dense encoder (BERT) 학습 시키기

HuggingFace BERT를 활용하여 question encoder, passage encoder 학습

In [7]:
from tqdm import tqdm, trange
import argparse
import random
import torch
import torch.nn.functional as F
from transformers import BertModel, BertPreTrainedModel, AdamW, TrainingArguments, get_linear_schedule_with_warmup

torch.manual_seed(3532812018032770127)
torch.cuda.manual_seed(3532812018032770127)
np.random.seed(324)
random.seed(2021)

1) Training Dataset 준비하기 (question, passage pairs)

---



In [8]:
# Use subset (10 example) of original training dataset 
sample_idx = np.random.choice(range(len(dataset['train'])), 20)
training_dataset = dataset['train'][sample_idx]

Negative sampling을 위한 negative sample들을 샘플링

In [9]:
# set number of neagative sample
num_neg = 3

corpus = np.array(corpus)
p_with_neg = []

for c in training_dataset['context']:
  while True:
    neg_idxs = np.random.randint(len(corpus), size=num_neg)

    if not c in corpus[neg_idxs]:
      p_neg = corpus[neg_idxs]

      p_with_neg.append(c)
      p_with_neg.extend(p_neg)
      break


In [10]:
print('[Positive context]')
print(p_with_neg[0], '\n')
print('[Negative context]')
print(p_with_neg[1], '\n', p_with_neg[2])

[Positive context]
하지만 지속적으로 문제되었던 이른바 '줬다 뺏는 기초연금' 문제는 여전히 시정되지 못했다. 이는 노인 단독가구의 소득이 하위 70%에 속하지만 생계급여를 받는 경우에는 그 차이만큼 삭감되기 때문에 나온 말인데, 생계급여를 받지 못하는 차상위계층의 노인들만 사실상 기초연금을 받아가는 문제가 발생하는 것이다. 보건복지부는 생계급여를 받는 노인이 기초연금까지 받으면 기초생활보장 수급자에서 탈락한 노인들보다 오히려 소득이 높아질 수 있기 때문이라며, 현행 제도를 고수하겠다는 뜻을 나타냈지만 시민단체에서는 정부가 보충성의 원리를 너무 경직되게 적용한다고 주장하고 있다. 하지만 재정 부담이 크게 늘어날 것이라는 우려도 있다. 정부 계획대로 기초연금이 인상된다면 국민 1인당 추가 조세 부담액은 2018년 3만 원, 2030년 15만 원으로 급증할 것으로 분석됐다. 필요한 예산액도 내년 12조 7536억 원, 2030년 43조 6000억 원이 되어 마찬가지로 급증하게 된다. 

[Negative context]
맨체스터에 가까운 설포드에서 조부 때부터 양조업을 하는 집에서 태어났다. 16세 때부터 수 년간, 화학자 존 돌턴에게 배웠으나 그밖에는 독학하였다. 20세부터 집에서 실험연구를 시작, 전기에 의한 동력의 능률 문제를 통하여 전류의 발열 작용에 관한 법칙(줄의 법칙)을 발견하였다(1840). 그로부터 열과 일과의 관계를 깊이 연구하였고, 열의 일당량을 측정하는 실험을 면밀하게 또 여러 가지 방법으로 실행하여(1843-1849), 에너지 보존 법칙의 확립에 큰 기여를 하였다. 그러나, 그 업적이 세상에 알려지게 된 것은 1847년 학회에서 윌리엄 톰슨이 줄의 발표에 대하여 흥미를 보인 데서부터였다. 두 사람은 그 후 오래도록 협력하여 연구를 진전시켰다. 공동 성과 중에는 줄-톰슨 효과의 발견(논문은 1852년)이 유명하다. 
 전파 통신의 상공파 모드는 이온권을 통과할 때 굴절하는 전파 (전자기파)의 의해 발생한다. 태양 주기의 “절정”

In [11]:
from torch.utils.data import (DataLoader, RandomSampler, TensorDataset)

q_seqs = tokenizer(training_dataset['question'], padding="max_length", truncation=True, return_tensors='pt')
p_seqs = tokenizer(p_with_neg, padding="max_length", truncation=True, return_tensors='pt')


In [12]:
max_len = p_seqs['input_ids'].size(-1)
p_seqs['input_ids'] = p_seqs['input_ids'].view(-1, num_neg+1, max_len)
p_seqs['attention_mask'] = p_seqs['attention_mask'].view(-1, num_neg+1, max_len)
p_seqs['token_type_ids'] = p_seqs['token_type_ids'].view(-1, num_neg+1, max_len)

print(p_seqs['input_ids'].size())  #(num_example, pos + neg, max_len)

torch.Size([20, 4, 512])


In [13]:
train_dataset = TensorDataset(p_seqs['input_ids'], p_seqs['attention_mask'], p_seqs['token_type_ids'], 
                        q_seqs['input_ids'], q_seqs['attention_mask'], q_seqs['token_type_ids'])

2) BERT encoder 학습시키기

BertEncoder 모델 정의 후, question encoder, passage encoder에 pre-trained weight 불러오기

In [14]:
class BertEncoder(BertPreTrainedModel):
  def __init__(self, config):
    super(BertEncoder, self).__init__(config)

    self.bert = BertModel(config)
    self.init_weights()
      
  def forward(self, input_ids, 
              attention_mask=None, token_type_ids=None): 
  
      outputs = self.bert(input_ids,
                          attention_mask=attention_mask,
                          token_type_ids=token_type_ids)
      
      pooled_output = outputs[1]

      return pooled_output


In [15]:
# load pre-trained model on cuda (if available)
p_encoder = BertEncoder.from_pretrained(model_checkpoint)
q_encoder = BertEncoder.from_pretrained(model_checkpoint)

if torch.cuda.is_available():
  p_encoder.cuda()
  q_encoder.cuda()

Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertEncoder: ['cls.predictions.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.seq_relationship.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias']
- This IS expected if you are initializing BertEncoder from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertEncoder from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of the model checkpoint at bert-base-multilingual-cased were not used when initializing BertEncoder: ['cls.predictions.bias',

Train function 정의 후, 두개의 encoder fine-tuning 하기


In [16]:
def train(args, num_neg, dataset, p_model, q_model):
  
  # Dataloader
  train_sampler = RandomSampler(dataset)
  train_dataloader = DataLoader(dataset, sampler=train_sampler, batch_size=args.per_device_train_batch_size)

  # Optimizer
  no_decay = ['bias', 'LayerNorm.weight']
  optimizer_grouped_parameters = [
        {'params': [p for n, p in p_model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': args.weight_decay},
        {'params': [p for n, p in p_model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0},
        {'params': [p for n, p in q_model.named_parameters() if not any(nd in n for nd in no_decay)], 'weight_decay': args.weight_decay},
        {'params': [p for n, p in q_model.named_parameters() if any(nd in n for nd in no_decay)], 'weight_decay': 0.0}
        ]
  optimizer = AdamW(optimizer_grouped_parameters, lr=args.learning_rate, eps=args.adam_epsilon)
  t_total = len(train_dataloader) // args.gradient_accumulation_steps * args.num_train_epochs
  scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=args.warmup_steps, num_training_steps=t_total)

  # Start training!
  global_step = 0
  
  p_model.zero_grad()
  q_model.zero_grad()
  torch.cuda.empty_cache()
  
  train_iterator = trange(int(args.num_train_epochs), desc="Epoch")

  for _ in train_iterator:
    epoch_iterator = tqdm(train_dataloader, desc="Iteration")

    for step, batch in enumerate(epoch_iterator):
      q_encoder.train()
      p_encoder.train()
      
      targets = torch.zeros(args.per_device_train_batch_size).long()
      if torch.cuda.is_available():
        batch = tuple(t.cuda() for t in batch)
        targets = targets.cuda()

      p_inputs = {'input_ids': batch[0].view(
                                    args.per_device_train_batch_size*(num_neg+1), -1),
                  'attention_mask': batch[1].view(
                                    args.per_device_train_batch_size*(num_neg+1), -1),
                  'token_type_ids': batch[2].view(
                                    args.per_device_train_batch_size*(num_neg+1), -1)
                  }
      
      q_inputs = {'input_ids': batch[3],
                  'attention_mask': batch[4],
                  'token_type_ids': batch[5]}
      
      p_outputs = p_model(**p_inputs)  #(batch_size*(num_neg+1), emb_dim)
      q_outputs = q_model(**q_inputs)  #(batch_size*, emb_dim)

      # Calculate similarity score & loss
      p_outputs = p_outputs.view(args.per_device_train_batch_size, -1, num_neg+1)
      q_outputs = q_outputs.view(args.per_device_train_batch_size, 1, -1)

      sim_scores = torch.bmm(q_outputs, p_outputs).squeeze()  #(batch_size, num_neg+1)
      sim_scores = sim_scores.view(args.per_device_train_batch_size, -1)
      sim_scores = F.log_softmax(sim_scores, dim=1)

      loss = F.nll_loss(sim_scores, targets)
      print(loss)

      loss.backward()
      optimizer.step()
      scheduler.step()
      q_model.zero_grad()
      p_model.zero_grad()
      global_step += 1
      
      torch.cuda.empty_cache()


    
  return p_model, q_model




In [17]:
args = TrainingArguments(
    output_dir="dense_retireval",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    num_train_epochs=2,
    weight_decay=0.01
)


In [18]:
p_encoder, q_encoder = train(args, num_neg, train_dataset, p_encoder, q_encoder)

Epoch:   0%|          | 0/2 [00:00<?, ?it/s]

tensor(5.2691, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(1.8371, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(0.2808, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(0.1304, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(0.0011, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(8.7911e-05, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(5.9781e-05, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(2.3484e-05, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward>)


Iteration: 100%|██████████| 10/10 [00:05<00:00,  1.75it/s]
Epoch:  50%|█████     | 1/2 [00:05<00:05,  5.72s/it]

tensor(0.0055, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(0.0002, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(1.2517e-05, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(2.3842e-07, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(1.0073e-05, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(0.0001, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(0.0003, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(5.1019e-05, device='cuda:0', grad_fn=<NllLossBackward>)




tensor(1.7285e-06, device='cuda:0', grad_fn=<NllLossBackward>)


Iteration: 100%|██████████| 10/10 [00:05<00:00,  1.84it/s]
Epoch: 100%|██████████| 2/2 [00:11<00:00,  5.58s/it]


## Dense Embedding을 활용하여 passage retrieval 실습해보기

In [19]:

valid_corpus = list(set([example['context'] for example in dataset['validation']]))[:10]
sample_idx = random.choice(range(len(dataset['validation'])))
query = dataset['validation'][sample_idx]['question']
ground_truth = dataset['validation'][sample_idx]['context']

if not ground_truth in valid_corpus:
  valid_corpus.append(ground_truth)

print(query)
print(ground_truth, '\n\n')

# valid_corpus

유아인에게 타고난 배우라고 말한 드라마 밀회의 감독은?
화보 촬영을 위해 미국에 있을 때, 김희애의 연락을 통해 JTBC 드라마 《밀회》의 캐스팅을 제안받았다. 당시 영화 《베테랑》에 이미 캐스팅된 상태였으나, 유아인은 류승완 감독과 제작사의 양해를 얻어 《밀회》에 출연한다. 천재 피아니스트 ‘이선재’ 역할을 위해 피아니스트들의 영상을 보고 곡의 스피드와 건반 위치 등을 외워 실제 타건을 하며 촬영했다. 피아노 울림판을 수건으로 막고 타건을 하면, 그 후 대역 피아니스트의 소리를 덧입히는 방식이었다. 《밀회》는 작품성을 인정받고 숱한 화제를 낳으며 당시 종편으로서는 높은 시청률을 기록했다. 유아인은 섬세한 연기력을 선보여 순수함으로 시청자들을 매료시켰다는 호평을 얻었고, 특히 피아노 연주에 있어서 클래식 종사자들에게 인정을 받았다. 연출을 맡은 안판석 감독은 유아인에 대해 “느낌으로만 연기를 하는 게 아니고 감성을 지적으로 통제해 가면서 연기한다. 그 나이에”라며 “타고난 배우”라고 말했다. 유아인은 《밀회》를 통해 예술적인 면모를 구체화할 수 있어서 만족감을 느꼈다고 밝혔으며, 종영 후 자신의 페이스북 계정에 긴 소감글을 남겼다. 특히 ‘이선재’ 캐릭터를 배우 유아인이 가진 소년성의 엑기스로 생각하며, 2015년 10월 부산국제영화제 오픈토크에서는 본인이 가장 좋아하는 캐릭터로 꼽았다. 




앞서 학습한 passage encoder, question encoder을 이용해 dense embedding 생성

In [20]:
def to_cuda(batch):
  return tuple(t.cuda() for t in batch)

In [21]:
with torch.no_grad():
  p_encoder.eval()
  q_encoder.eval()

  q_seqs_val = tokenizer([query], padding="max_length", truncation=True, return_tensors='pt').to('cuda')
  q_emb = q_encoder(**q_seqs_val).to('cpu')  #(num_query, emb_dim)

  p_embs = []
  for p in valid_corpus:
    p = tokenizer(p, padding="max_length", truncation=True, return_tensors='pt').to('cuda')
    p_emb = p_encoder(**p).to('cpu').numpy()
    p_embs.append(p_emb)

p_embs = torch.Tensor(p_embs).squeeze()  # (num_passage, emb_dim)

print(p_embs.size(), q_emb.size())

torch.Size([11, 768]) torch.Size([1, 768])


생성된 embedding에 dot product를 수행 => Document들의 similarity ranking을 구함

In [22]:
dot_prod_scores = torch.matmul(q_emb, torch.transpose(p_embs, 0, 1))
print(dot_prod_scores.size())

rank = torch.argsort(dot_prod_scores, dim=1, descending=True).squeeze()
print(dot_prod_scores)
print(rank)

torch.Size([1, 11])
tensor([[15.3381, 15.6942, 15.6215, 14.9902, 15.5055, 15.3048, 15.7075, 14.8004,
         15.9110, 15.7829, 15.5685]])
tensor([ 8,  9,  6,  1,  2, 10,  4,  0,  5,  3,  7])


Top-5개의 passage를 retrieve 하고 ground truth와 비교하기

In [23]:
k = 5
print("[Search query]\n", query, "\n")
print("[Ground truth passage]")
print(ground_truth, "\n")

for i in range(k):
  print("Top-%d passage with score %.4f" % (i+1, dot_prod_scores.squeeze()[rank[i]]))
  print(valid_corpus[rank[i]])

[Search query]
 유아인에게 타고난 배우라고 말한 드라마 밀회의 감독은? 

[Ground truth passage]
화보 촬영을 위해 미국에 있을 때, 김희애의 연락을 통해 JTBC 드라마 《밀회》의 캐스팅을 제안받았다. 당시 영화 《베테랑》에 이미 캐스팅된 상태였으나, 유아인은 류승완 감독과 제작사의 양해를 얻어 《밀회》에 출연한다. 천재 피아니스트 ‘이선재’ 역할을 위해 피아니스트들의 영상을 보고 곡의 스피드와 건반 위치 등을 외워 실제 타건을 하며 촬영했다. 피아노 울림판을 수건으로 막고 타건을 하면, 그 후 대역 피아니스트의 소리를 덧입히는 방식이었다. 《밀회》는 작품성을 인정받고 숱한 화제를 낳으며 당시 종편으로서는 높은 시청률을 기록했다. 유아인은 섬세한 연기력을 선보여 순수함으로 시청자들을 매료시켰다는 호평을 얻었고, 특히 피아노 연주에 있어서 클래식 종사자들에게 인정을 받았다. 연출을 맡은 안판석 감독은 유아인에 대해 “느낌으로만 연기를 하는 게 아니고 감성을 지적으로 통제해 가면서 연기한다. 그 나이에”라며 “타고난 배우”라고 말했다. 유아인은 《밀회》를 통해 예술적인 면모를 구체화할 수 있어서 만족감을 느꼈다고 밝혔으며, 종영 후 자신의 페이스북 계정에 긴 소감글을 남겼다. 특히 ‘이선재’ 캐릭터를 배우 유아인이 가진 소년성의 엑기스로 생각하며, 2015년 10월 부산국제영화제 오픈토크에서는 본인이 가장 좋아하는 캐릭터로 꼽았다. 

Top-1 passage with score 15.9110
천사장(archangel)에 해당하는 영어 단어의 접두사(arch)는 “수석” 혹은 “우두머리”를 뜻하는 것으로 천사장 즉 수석 천사가 하나뿐임을 시사한다. 성경에서 “천사장”이 복수 형태로 나오는 경우는 결코 없다. 데살로니가 첫째 4:16에서는 천사장의 탁월함과 그 직무의 권위에 대해 말하면서 부활되신 주 예수 그리스도를 그런 식으로 부른다. “주께서 친히 호령과 천사장의 음성과 하느님의 나팔과 함께 하늘에서 내려오실 것이며, 그리스도와 