In [1]:
import torch
import gluonnlp as nlp     # GluonNLP는 버트를 간단하게 로딩하는 인터페이스를 제공하는 API 임
import numpy as np
from transformers import DistilBertTokenizerFast, DistilBertModel

import sys
sys.path.append("..")
from myutils import seed_everything, GPU_info, pytorch_cos_sim

logfilepath:bwdataset_2022-03-18.log
logfilepath:qnadataset_2022-03-18.log


In [2]:

model_path = '../model/distilbert/distilbert-0318-1/'
vocab_path = '../model/distilbert/distilbert-0318-1/'

# True로 해야, hidden_states 가 출력됨
output_hidden_states = True

#False로 지정하는 경우 일반적인 tuple을 리턴, True인 경우는 transformers.file_utils.ModelOutput 으로 리턴
return_dict = False

seed = 111

In [3]:
cuda = GPU_info()
print(cuda)

#seed 설정
seed_everything(seed)

True
device: cuda:0
cuda index: 0
gpu 개수: 1
graphic name: NVIDIA A30
cuda:0


In [4]:
# tokenize 설정
tokenizer = DistilBertTokenizerFast.from_pretrained(vocab_path)

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
The class this function is called from is 'DistilBertTokenizerFast'.


In [5]:
# model 불러옴
model = DistilBertModel.from_pretrained(model_path, 
                                  output_hidden_states=output_hidden_states,
                                  return_dict=return_dict)
model.eval()


DistilBertModel(
  (embeddings): Embeddings(
    (word_embeddings): Embedding(143772, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (transformer): Transformer(
    (layer): ModuleList(
      (0): TransformerBlock(
        (attention): MultiHeadSelfAttention(
          (dropout): Dropout(p=0.1, inplace=False)
          (q_lin): Linear(in_features=768, out_features=768, bias=True)
          (k_lin): Linear(in_features=768, out_features=768, bias=True)
          (v_lin): Linear(in_features=768, out_features=768, bias=True)
          (out_lin): Linear(in_features=768, out_features=768, bias=True)
        )
        (sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
        (ffn): FFN(
          (dropout): Dropout(p=0.1, inplace=False)
          (lin1): Linear(in_features=768, out_features=3072, bias=True)
          (lin2): Linear(

In [6]:
print('prameters:{}'.format(model.num_parameters()))

prameters:153338880


In [7]:
input_sentence = ['오늘은 오후 부터 춥고 비가 올것 같다.']


classification_sentence = [['오늘은 가끔 흐리고, 눈이 올수 있다'],
                 ['여기 식당은 파스타가 맛있다'],
                 ['오늘 증시는 내림으로 마감 하였다'],
                 ['내일은 오전에는 흐리지만, 오후에는 날씨가 좋겠다']]

In [8]:
# 입력 문장을 불러와서 출력값들을 구함
tokenized_input = tokenizer(input_sentence, return_tensors="pt")
token_str = [[tokenizer.convert_ids_to_tokens(s) for s in tokenized_input['input_ids'].tolist()[0]]]
print(token_str)
print(tokenized_input)
in_outputs = model(**tokenized_input)

print('===0====')
print(type(in_outputs))
print(len(in_outputs))
print(in_outputs[0].shape)

# return_dict=True 면 0번째 배열을 아래처럼 가져올수 있음
#last_hidden_states = in_outputs.last_hidden_state
#print(type(last_hidden_states))
#print(last_hidden_states.shape)

# out_hidden_states = True인 경우에만 hidden_states가 출력됨
if len(in_outputs) > 2:
    print('===1====')
    hidden_states = in_outputs[1]
    print(type(hidden_states))
    print(f'layer:{len(hidden_states)}')
    print(f'batch:{len(hidden_states[0])}')
    print(f'token:{len(hidden_states[0][0])}')
    print(f'hidden:{len(hidden_states[0][0][0])}')



# 분류 문장을 불러와서, tokenize 한 다음, 모델에 넣고 출력값을 얻어옴
sequence_out_list = []
#pooled_out_list = []  # distilbert에는 pooled_out 없음
hidden_states_list = []

for idx in range(len(classification_sentence)):
    sentence = classification_sentence[idx][0]
    tokenized_input = tokenizer(sentence, return_tensors="pt")
    token_str = [[tokenizer.convert_ids_to_tokens(s) for s in tokenized_input['input_ids'].tolist()[0]]]
    print(token_str)
    print(tokenized_input)
    outputs = model(**tokenized_input)

    sequence_out_list.append(outputs[0])
    #pooled_out_list.append(outputs[1])   # distilbert에는 pooled_out 없음
    hidden_states_list.append(outputs[1])

[['[CLS]', '오늘', '##은', '오후', '부터', '[UNK]', '비', '##가', '올', '##것', '같다', '.', '[SEP]']]
{'input_ids': tensor([[   101, 120059,  10892, 120647, 119569,    100,   9379,  11287,   9583,
         118627,  53354,    119,    102]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}
===0====
<class 'tuple'>
2
torch.Size([1, 13, 768])
[['[CLS]', '오늘', '##은', '가', '##끔', '흐리', '##고', ',', '눈', '##이', '올', '##수', '있다', '[SEP]']]
{'input_ids': tensor([[   101, 120059,  10892,   8843, 118707, 141713,  11664,    117,   9034,
          10739,   9583,  15891,  11506,    102]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}
[['[CLS]', '여기', '식당', '##은', '파스타', '##가', '맛있', '##다', '[SEP]']]
{'input_ids': tensor([[   101, 119777, 123966,  10892, 140366,  11287, 130646,  11903,    102]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1]])}
[['[CLS]', '오늘', '증', '##시', '##는', '내림', '##으로', '마감', '하였다', '[SEP]']]
{'input_ids': tensor([[   101, 120059,   9

In [9]:
# case 1) sequence_output 평균값으로 유사도 측정

print(len(sequence_out_list))
print(sequence_out_list[0].shape)

4
torch.Size([1, 14, 768])


In [10]:
in_mean_sequence = torch.mean(in_outputs[0], dim=1)
#print(in_mean_sequence.shape)
out_dict = {}

for idx in range(len(sequence_out_list)):
    out_mean_sequence = torch.mean(sequence_out_list[idx], dim=1)
    simul_score = pytorch_cos_sim(in_mean_sequence, out_mean_sequence)
    #print("input vs {:d} 유사도:{}".format(idx, simul_score))
    
     # 사전 key로 순번으로 하고, 유사도를 저장함
    key = str(idx)
    out_dict[key] = simul_score
    #print("input vs {:d} 유사도:{}".format(idx, simul_score))
    
#print(out_dict)

# 사전 정렬(value(유사도)로 reverse=True 하여 내림차순으로 정렬함)
sorted_dict = sorted(out_dict.items(), key = lambda item: item[1], reverse = True)
#print(sorted_dict)

# 내립차순으로 정렬된 사전출력 
print(f'query:{input_sentence}\n')
for count in (sorted_dict):
    value = count[1].tolist() # count[1]은 2차원 tensor이므로 이를 list로 변환
    idx = int(count[0])
    print(f'{classification_sentence[idx]}, 유사도:{value[0][0]}')

    

query:['오늘은 오후 부터 춥고 비가 올것 같다.']

['오늘은 가끔 흐리고, 눈이 올수 있다'], 유사도:0.8336136341094971
['오늘 증시는 내림으로 마감 하였다'], 유사도:0.8296330571174622
['내일은 오전에는 흐리지만, 오후에는 날씨가 좋겠다'], 유사도:0.7992400527000427
['여기 식당은 파스타가 맛있다'], 유사도:0.7883613109588623


In [11]:
# case 2) hidden_state 마지막 2번째 레이어의 평균값으로 유사도 측정
out_dict = {}
ebd = torch.stack(list(in_outputs[1]), dim=0)
# 마지막 2번째(-2) 레이어에 평균을 구한다. 
in_hidden = torch.mean(ebd[-2][0], dim=0)
  
for idx,embedding in enumerate(hidden_states_list): # enumerate는 index, value 값이 리턴됨
    #print('index: {:d}, type: {}'.format(idx, type(embedding)))
    
    # hidden_state_list[0]은 tuple 이므로 이를 tensor로 변환 하면서, dim=0 하여 레이어를 결합해서 큰 텐서[13,1,128,768] 를 만든다.
    ebd = torch.stack(list(embedding), dim=0)
    
    # 마지막 2번째(-2) 레이어에 평균을 구한다. 
    out_hidden = torch.mean(ebd[-2][0], dim=0)
    simul_score = pytorch_cos_sim(in_hidden, out_hidden)
    #print("input vs {:d} 유사도:{}".format(idx, simul_score))
    
     # 사전 key로 순번으로 하고, 유사도를 저장함
    key = str(idx)
    out_dict[key] = simul_score
    #print("input vs {:d} 유사도:{}".format(idx, simul_score))
    
#print(out_dict)

# 사전 정렬(value(유사도)로 reverse=True 하여 내림차순으로 정렬함)
sorted_dict = sorted(out_dict.items(), key = lambda item: item[1], reverse = True)
#print(sorted_dict)

# 내립차순으로 정렬된 사전출력 
print(f'query:{input_sentence}\n')
for count in (sorted_dict):
    value = count[1].tolist() # count[1]은 2차원 tensor이므로 이를 list로 변환
    idx = int(count[0])
    print(f'{classification_sentence[idx]}, 유사도:{value[0][0]}')

query:['오늘은 오후 부터 춥고 비가 올것 같다.']

['오늘은 가끔 흐리고, 눈이 올수 있다'], 유사도:0.8078755140304565
['내일은 오전에는 흐리지만, 오후에는 날씨가 좋겠다'], 유사도:0.7914364337921143
['오늘 증시는 내림으로 마감 하였다'], 유사도:0.7912730574607849
['여기 식당은 파스타가 맛있다'], 유사도:0.7589171528816223
