# Interpreting BERT Models (Part 1)

In [1]:
from transformers import ElectraTokenizer, ElectraForQuestionAnswering#, pipelines
from pprint import pprint

# tokenizer = ElectraTokenizer.from_pretrained("monologg/koelectra-small-v2-distilled-korquad-384")
# model = ElectraForQuestionAnswering.from_pretrained("monologg/koelectra-small-v2-distilled-korquad-384")

# qa = pipelines("question-answering", tokenizer=tokenizer, model=model)

# pprint(qa({
#     "question": "한국의 대통령은 누구인가?",
#     "context": "문재인 대통령은 28일 서울 코엑스에서 열린 ‘데뷰 (Deview) 2019’ 행사에 참석해 젊은 개발자들을 격려하면서 우리 정부의 인공지능 기본구상을 내놓았다.",
# }))


In this notebook we demonstrate how to interpret Bert models using  `Captum` library. In this particular case study we focus on a fine-tuned Question Answering model on SQUAD dataset using transformers library from Hugging Face: https://huggingface.co/transformers/

We show how to use interpretation hooks to examine and better understand embeddings, sub-embeddings, bert, and attention layers. 

Note: Before running this tutorial, please install `seaborn`, `pandas` and `matplotlib`, `transformers`(from hugging face) python packages.

In [2]:
import os
import sys

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

import torch
import torch.nn as nn

from transformers import BertTokenizer, BertForQuestionAnswering, BertConfig
from transformers import ElectraModel, ElectraTokenizer
from captum.attr import visualization as viz
from captum.attr import IntegratedGradients, LayerConductance, LayerIntegratedGradients
from captum.attr import configure_interpretable_embedding_layer, remove_interpretable_embedding_layer

In [3]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
device

device(type='cpu')

The first step is to fine-tune BERT model on SQUAD dataset. This can be easiy accomplished by following the steps described in hugging face's official web site: https://github.com/huggingface/transformers#run_squadpy-fine-tuning-on-squad-for-question-answering 

Note that the fine-tuning is done on a `bert-base-uncased` pre-trained model.

After we pretrain the model, we can load the tokenizer and pre-trained BERT model using the commands described below. 

In [4]:
# replace <PATH-TO-SAVED-MODEL> with the real path of the saved model

model_path = 'bert-base-uncased'

# load model
#model = BertForQuestionAnswering.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad')
#model.to(device)
#model.eval()
#model.zero_grad()




# load tokenizer
#tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

tokenizer = ElectraTokenizer.from_pretrained("monologg/koelectra-small-v2-distilled-korquad-384")
model = ElectraForQuestionAnswering.from_pretrained("monologg/koelectra-small-v2-distilled-korquad-384")
model.to(device)
model.eval()
model.zero_grad()

In [5]:
model.electra.embeddings

ElectraEmbeddings(
  (word_embeddings): Embedding(32200, 128, padding_idx=0)
  (position_embeddings): Embedding(512, 128)
  (token_type_embeddings): Embedding(2, 128)
  (LayerNorm): LayerNorm((128,), eps=1e-12, elementwise_affine=True)
  (dropout): Dropout(p=0.1, inplace=False)
)

A helper function to perform forward pass of the model and make predictions.

In [6]:
def predict(inputs, token_type_ids=None, position_ids=None, attention_mask=None):
    return model(inputs, token_type_ids=token_type_ids,
                 position_ids=position_ids, attention_mask=attention_mask, )

Defining a custom forward function that will allow us to access the start and end postitions of our prediction using `position` input argument.

In [7]:
def squad_pos_forward_func(inputs, token_type_ids=None, position_ids=None, attention_mask=None, position=0):
    pred = predict(inputs,
                   token_type_ids=token_type_ids,
                   position_ids=position_ids,
                   attention_mask=attention_mask)
    pred = pred[position]
    return pred.max(1).values

Let's compute attributions with respect to the `BertEmbeddings` layer.

To do so, we need to define baselines / references, numericalize both the baselines and the inputs. We will define helper functions to achieve that.

The cell below defines numericalized special tokens that will be later used for constructing inputs and corresponding baselines/references.

In [8]:
ref_token_id = tokenizer.pad_token_id # A token used for generating token reference
sep_token_id = tokenizer.sep_token_id # A token used as a separator between question and text and it is also added to the end of the text.
cls_token_id = tokenizer.cls_token_id # A token used for prepending to the concatenated question-text word sequence

In [9]:
cls_token_id 

2

Below we define a set of helper function for constructing references / baselines for word tokens, token types and position ids. We also provide separate helper functions that allow to construct the sub-embeddings and corresponding baselines / references for all sub-embeddings of `BertEmbeddings` layer.

In [10]:
def construct_input_ref_pair(question, text, ref_token_id, sep_token_id, cls_token_id):
    question_ids = tokenizer.encode(question, add_special_tokens=False)
    text_ids = tokenizer.encode(text, add_special_tokens=False)

    # construct input token ids
    input_ids = [cls_token_id] + question_ids + [sep_token_id] + text_ids + [sep_token_id]

    # construct reference token ids 
    ref_input_ids = [cls_token_id] + [ref_token_id] * len(question_ids) + [sep_token_id] + \
        [ref_token_id] * len(text_ids) + [sep_token_id]

    return torch.tensor([input_ids], device=device), torch.tensor([ref_input_ids], device=device), len(question_ids)

def construct_input_ref_token_type_pair(input_ids, sep_ind=0):
    seq_len = input_ids.size(1)
    token_type_ids = torch.tensor([[0 if i <= sep_ind else 1 for i in range(seq_len)]], device=device)
    ref_token_type_ids = torch.zeros_like(token_type_ids, device=device)# * -1
    return token_type_ids, ref_token_type_ids

def construct_input_ref_pos_id_pair(input_ids):
    seq_length = input_ids.size(1)
    position_ids = torch.arange(seq_length, dtype=torch.long, device=device)
    # we could potentially also use random permutation with `torch.randperm(seq_length, device=device)`
    ref_position_ids = torch.zeros(seq_length, dtype=torch.long, device=device)

    position_ids = position_ids.unsqueeze(0).expand_as(input_ids)
    ref_position_ids = ref_position_ids.unsqueeze(0).expand_as(input_ids)
    return position_ids, ref_position_ids
    
def construct_attention_mask(input_ids):
    return torch.ones_like(input_ids)

def construct_bert_sub_embedding(input_ids, ref_input_ids,
                                   token_type_ids, ref_token_type_ids,
                                   position_ids, ref_position_ids):
    input_embeddings = interpretable_embedding1.indices_to_embeddings(input_ids)
    ref_input_embeddings = interpretable_embedding1.indices_to_embeddings(ref_input_ids)

    input_embeddings_token_type = interpretable_embedding2.indices_to_embeddings(token_type_ids)
    ref_input_embeddings_token_type = interpretable_embedding2.indices_to_embeddings(ref_token_type_ids)

    input_embeddings_position_ids = interpretable_embedding3.indices_to_embeddings(position_ids)
    ref_input_embeddings_position_ids = interpretable_embedding3.indices_to_embeddings(ref_position_ids)
    
    return (input_embeddings, ref_input_embeddings), \
           (input_embeddings_token_type, ref_input_embeddings_token_type), \
           (input_embeddings_position_ids, ref_input_embeddings_position_ids)
    
def construct_whole_bert_embeddings(input_ids, ref_input_ids, \
                                    token_type_ids=None, ref_token_type_ids=None, \
                                    position_ids=None, ref_position_ids=None):
    input_embeddings = interpretable_embedding.indices_to_embeddings(input_ids, token_type_ids=token_type_ids, position_ids=position_ids)
    ref_input_embeddings = interpretable_embedding.indices_to_embeddings(ref_input_ids, token_type_ids=token_type_ids, position_ids=position_ids)
    
    return input_embeddings, ref_input_embeddings


Let's define the `question - text` pair that we'd like to use as an input for our Bert model and interpret what the model was forcusing on when predicting an answer to the question from given input text 

In [11]:
# question, text = "What is important to us?", "It is important to us to include, empower and support humans of all kinds."

question= "로저는 어디에서 태어났습니까?"

text= "로제 (Rosanne Park, 1997년 2월 11일 ~ )은 한국에 거주하는 한국의 뉴질랜드 가수이자 댄서이다. 뉴질랜드에서 태어나 호주에서 성장한 로제는 2012년 오디션을 보고 한국 음반사 YG엔터테인먼트와 계약해 4년 간의 훈련을 받았다. 2016년 8월 걸그룹 블랙핑크의 리드보컬 겸 리드댄서로 데뷔한 그는 2021년 3월 싱글 앨범 R로 데뷔했다. 빌보드 글로벌 200은 솔로이자 그룹의 멤버이자 K팝 솔로이스트가 24시간 동안 가장 많이 본 유튜브 뮤직비디오이다."

Let's numericalize the question, the input text and generate corresponding baselines / references for all three sub-embeddings (word, token type and position embeddings) types using our helper functions defined above.

In [12]:
input_ids, ref_input_ids, sep_id = construct_input_ref_pair(question, text, ref_token_id, sep_token_id, cls_token_id)
token_type_ids, ref_token_type_ids = construct_input_ref_token_type_pair(input_ids, sep_id)
position_ids, ref_position_ids = construct_input_ref_pos_id_pair(input_ids)
attention_mask = construct_attention_mask(input_ids)

indices = input_ids[0].detach().tolist()
all_tokens = tokenizer.convert_ids_to_tokens(indices)

In [13]:
tokenizer.decode(input_ids[0])

"[CLS] 프랑스 오리지널 내한팀은 어떤 치킨을 가장 맛있는 메뉴로 선정했는가? [SEP] [ 서울 = 뉴시스 ] 김동현 기자 = 제너시스 BBQ는 레미제라블 프랑스 오리지널 내한팀을 치킨대학에 초청했다고 11일 밝혔다. BBQ 치킨대학에 방문한 프랑스 오리지널 내한팀은 평소 한국치킨을 자주 즐겼고, BBQ치킨을'최애치킨'이라고 방송에서 밝힌 바 있다. 소식을 접한 BBQ가 레미제라블 내한팀을 치킨대학에 초청하면서 의미있는 만남이 성사됐다. 레미제라블 내한팀은 제너시스BBQ 치킨대학에서 치킨을 직접 조리하고 다양한 종류의 치킨을 맛보는 시간을 가졌다. 또 치킨과 가장 잘 어울리는 BBQ 수제맥주를 함께 즐기며 한국의'치맥문화'를 경험했다. 내한팀은 BBQ의 다양한 메뉴를 시식한 후, 투표를 통해 가장 맛있는 메뉴로 황금올리브 치킨을 꼽았다. BBQ 관계자는'세계적인 내한팀인 레미제라블 프랑스 오리지널 팀원들이 직접 조리하고 먹어보며 즐거워하는 모습을 보며 함께 즐길 수 있는 시간을 가졌다'고 말했다. [SEP]"

Also, let's define the ground truth for prediction's start and end positions.

In [14]:
ground_truth = "뉴질랜드"#"문재인 대통령"'to include, empower and support humans of all kinds'

ground_truth_tokens = tokenizer.encode(ground_truth, add_special_tokens=False)
print(ground_truth_tokens)
ground_truth_end_ind = indices.index(ground_truth_tokens[-1])
ground_truth_start_ind = ground_truth_end_ind - len(ground_truth_tokens) + 1

[9759, 30755, 19972]


In [15]:
tokenizer.decode([3372,308])

'문재인 대통령'

Now let's make predictions using input, token type, position id and a default attention mask.

In [16]:
#start_scores, end_scores = predict(input_ids, \
#                                   token_type_ids=token_type_ids, \
#                                   position_ids=position_ids, \
#                                   attention_mask=attention_mask)
#print(all_tokens)
a=predict(input_ids,token_type_ids=token_type_ids,position_ids=position_ids,attention_mask=attention_mask)
#print(a.loss)
start_scores=a.start_logits
end_scores=a.end_logits


print('Question: ', question)
print('Predicted Answer: ', ' '.join(all_tokens[torch.argmax(start_scores) : torch.argmax(end_scores)+1]))

Question:  프랑스 오리지널 내한팀은 어떤 치킨을 가장 맛있는 메뉴로 선정했는가?
Predicted Answer:  황금 ##올리 ##브 치킨


There are two different ways of computing the attributions for `BertEmbeddings` layer. One option is to use `LayerIntegratedGradients` and compute the attributions with respect to that layer. The second option is to pre-compute the embeddings and wrap the actual embeddings with `InterpretableEmbeddingBase`. The pre-computation of embeddings for the second option is necessary because integrated gradients scales the inputs and that won't be meaningful on the level of word / token indices.

Since using `LayerIntegratedGradients` is simpler, let's use it here.

In [17]:
lig = LayerIntegratedGradients(squad_pos_forward_func, model.electra.embeddings)

attributions_start, delta_start = lig.attribute(inputs=input_ids,
                                  baselines=ref_input_ids,
                                  additional_forward_args=(token_type_ids, position_ids, attention_mask, 0),
                                  return_convergence_delta=True)
attributions_end, delta_end = lig.attribute(inputs=input_ids, baselines=ref_input_ids,
                                additional_forward_args=(token_type_ids, position_ids, attention_mask, 1),
                                return_convergence_delta=True)

A helper function to summarize attributions for each word token in the sequence.

In [18]:
def summarize_attributions(attributions):
    attributions = attributions.sum(dim=-1).squeeze(0)
    attributions = attributions / torch.norm(attributions)
    return attributions

In [19]:
attributions_start_sum = summarize_attributions(attributions_start)
attributions_end_sum = summarize_attributions(attributions_end)

In [20]:
# storing couple samples in an array for visualization purposes
start_position_vis = viz.VisualizationDataRecord(
                        attributions_start_sum,
                        torch.max(torch.softmax(start_scores[0], dim=0)),
                        torch.argmax(start_scores),
                        torch.argmax(start_scores),
                        str(ground_truth_start_ind),
                        attributions_start_sum.sum(),       
                        all_tokens,
                        delta_start)

end_position_vis = viz.VisualizationDataRecord(
                        attributions_end_sum,
                        torch.max(torch.softmax(end_scores[0], dim=0)),
                        torch.argmax(end_scores),
                        torch.argmax(end_scores),
                        str(ground_truth_end_ind),
                        attributions_end_sum.sum(),       
                        all_tokens,
                        delta_end)

print('\033[1m', 'Visualizations For Start Position', '\033[0m')
viz.visualize_text([start_position_vis])

print('\033[1m', 'Visualizations For End Position', '\033[0m')
viz.visualize_text([end_position_vis])

[1m Visualizations For Start Position [0m


True Label,Predicted Label,Attribution Label,Attribution Score,Word Importance
203.0,203 (1.00),65.0,4.47,"[CLS] 프랑스 오리지널 내한 ##팀 ##은 어떤 치킨 ##을 가장 맛있 ##는 메뉴 ##로 선정 ##했 ##는 ##가 ? [SEP] [ 서울 = 뉴시스 ] 김동현 기자 = 제너 ##시스 BB ##Q ##는 레미 ##제 ##라 ##블 프랑스 오리지널 내한 ##팀 ##을 치킨 ##대학 ##에 초청 ##했 ##다고 11 ##일 밝혔 ##다 . BB ##Q 치킨 ##대학 ##에 방문 ##한 프랑스 오리지널 내한 ##팀 ##은 평소 한국 ##치킨 ##을 자주 즐겼 ##고 , BB ##Q ##치킨 ##을 ' 최 ##애 ##치킨 ' 이라고 방송 ##에 ##서 밝힌 바 있 ##다 . 소식 ##을 접한 BB ##Q ##가 레미 ##제 ##라 ##블 내한 ##팀 ##을 치킨 ##대학 ##에 초청 ##하면 ##서 의미 ##있 ##는 만남 ##이 성사 ##됐 ##다 . 레미 ##제 ##라 ##블 내한 ##팀 ##은 제너 ##시스 ##B ##B ##Q 치킨 ##대학 ##에 ##서 치킨 ##을 직접 조리 ##하 ##고 다양 ##한 종류 ##의 치킨 ##을 맛보 ##는 시간 ##을 가졌 ##다 . 또 치킨 ##과 가장 잘 어울리 ##는 BB ##Q 수제 ##맥주 ##를 함께 즐기 ##며 한국 ##의 ' 치 ##맥 ##문화 ' 를 경험 ##했 ##다 . 내한 ##팀 ##은 BB ##Q ##의 다양 ##한 메뉴 ##를 시식 ##한 후 , 투표 ##를 통해 가장 맛있 ##는 메뉴 ##로 황금 ##올리 ##브 치킨 ##을 꼽 ##았 ##다 . BB ##Q 관계자 ##는 ' 세계 ##적 ##인 내한 ##팀 ##인 레미 ##제 ##라 ##블 프랑스 오리지널 팀원 ##들이 직접 조리 ##하 ##고 먹 ##어 ##보 ##며 즐거워 ##하 ##는 모습 ##을 보 ##며 함께 즐길 수 있 ##는 시간 ##을 가졌 ##다 ' 고 말 ##했 ##다 . [SEP]"
,,,,


[1m Visualizations For End Position [0m


True Label,Predicted Label,Attribution Label,Attribution Score,Word Importance
206.0,206 (1.00),67.0,4.46,"[CLS] 프랑스 오리지널 내한 ##팀 ##은 어떤 치킨 ##을 가장 맛있 ##는 메뉴 ##로 선정 ##했 ##는 ##가 ? [SEP] [ 서울 = 뉴시스 ] 김동현 기자 = 제너 ##시스 BB ##Q ##는 레미 ##제 ##라 ##블 프랑스 오리지널 내한 ##팀 ##을 치킨 ##대학 ##에 초청 ##했 ##다고 11 ##일 밝혔 ##다 . BB ##Q 치킨 ##대학 ##에 방문 ##한 프랑스 오리지널 내한 ##팀 ##은 평소 한국 ##치킨 ##을 자주 즐겼 ##고 , BB ##Q ##치킨 ##을 ' 최 ##애 ##치킨 ' 이라고 방송 ##에 ##서 밝힌 바 있 ##다 . 소식 ##을 접한 BB ##Q ##가 레미 ##제 ##라 ##블 내한 ##팀 ##을 치킨 ##대학 ##에 초청 ##하면 ##서 의미 ##있 ##는 만남 ##이 성사 ##됐 ##다 . 레미 ##제 ##라 ##블 내한 ##팀 ##은 제너 ##시스 ##B ##B ##Q 치킨 ##대학 ##에 ##서 치킨 ##을 직접 조리 ##하 ##고 다양 ##한 종류 ##의 치킨 ##을 맛보 ##는 시간 ##을 가졌 ##다 . 또 치킨 ##과 가장 잘 어울리 ##는 BB ##Q 수제 ##맥주 ##를 함께 즐기 ##며 한국 ##의 ' 치 ##맥 ##문화 ' 를 경험 ##했 ##다 . 내한 ##팀 ##은 BB ##Q ##의 다양 ##한 메뉴 ##를 시식 ##한 후 , 투표 ##를 통해 가장 맛있 ##는 메뉴 ##로 황금 ##올리 ##브 치킨 ##을 꼽 ##았 ##다 . BB ##Q 관계자 ##는 ' 세계 ##적 ##인 내한 ##팀 ##인 레미 ##제 ##라 ##블 프랑스 오리지널 팀원 ##들이 직접 조리 ##하 ##고 먹 ##어 ##보 ##며 즐거워 ##하 ##는 모습 ##을 보 ##며 함께 즐길 수 있 ##는 시간 ##을 가졌 ##다 ' 고 말 ##했 ##다 . [SEP]"
,,,,


True Label,Predicted Label,Attribution Label,Attribution Score,Word Importance
206.0,206 (1.00),67.0,4.46,"[CLS] 프랑스 오리지널 내한 ##팀 ##은 어떤 치킨 ##을 가장 맛있 ##는 메뉴 ##로 선정 ##했 ##는 ##가 ? [SEP] [ 서울 = 뉴시스 ] 김동현 기자 = 제너 ##시스 BB ##Q ##는 레미 ##제 ##라 ##블 프랑스 오리지널 내한 ##팀 ##을 치킨 ##대학 ##에 초청 ##했 ##다고 11 ##일 밝혔 ##다 . BB ##Q 치킨 ##대학 ##에 방문 ##한 프랑스 오리지널 내한 ##팀 ##은 평소 한국 ##치킨 ##을 자주 즐겼 ##고 , BB ##Q ##치킨 ##을 ' 최 ##애 ##치킨 ' 이라고 방송 ##에 ##서 밝힌 바 있 ##다 . 소식 ##을 접한 BB ##Q ##가 레미 ##제 ##라 ##블 내한 ##팀 ##을 치킨 ##대학 ##에 초청 ##하면 ##서 의미 ##있 ##는 만남 ##이 성사 ##됐 ##다 . 레미 ##제 ##라 ##블 내한 ##팀 ##은 제너 ##시스 ##B ##B ##Q 치킨 ##대학 ##에 ##서 치킨 ##을 직접 조리 ##하 ##고 다양 ##한 종류 ##의 치킨 ##을 맛보 ##는 시간 ##을 가졌 ##다 . 또 치킨 ##과 가장 잘 어울리 ##는 BB ##Q 수제 ##맥주 ##를 함께 즐기 ##며 한국 ##의 ' 치 ##맥 ##문화 ' 를 경험 ##했 ##다 . 내한 ##팀 ##은 BB ##Q ##의 다양 ##한 메뉴 ##를 시식 ##한 후 , 투표 ##를 통해 가장 맛있 ##는 메뉴 ##로 황금 ##올리 ##브 치킨 ##을 꼽 ##았 ##다 . BB ##Q 관계자 ##는 ' 세계 ##적 ##인 내한 ##팀 ##인 레미 ##제 ##라 ##블 프랑스 오리지널 팀원 ##들이 직접 조리 ##하 ##고 먹 ##어 ##보 ##며 즐거워 ##하 ##는 모습 ##을 보 ##며 함께 즐길 수 있 ##는 시간 ##을 가졌 ##다 ' 고 말 ##했 ##다 . [SEP]"
,,,,
