In [1]:
import torch
import gluonnlp as nlp     # GluonNLP는 버트를 간단하게 로딩하는 인터페이스를 제공하는 API 임
import numpy as np
from transformers import BertTokenizer, BertTokenizerFast, BertModel
from utils import seed_everything, GPU_info, pytorch_cos_sim

In [2]:
'''
#config.json, pytorch_model.bin 같이 있는 폴더 지정
model_path = 'model/bert-multilingual-cased_furter_pt_model_0216' 

# voab.txt, special_tokens_map.json, tokenizer_config.json,added_tokens.json 폴더 경로 지정
vocab_path = "model/bert-multilingual-cased_furter_pt_model_0216/vocab"

model_path = 'model/bert-multilingual-cased' 
vocab_path = "model/bert-multilingual-cased/vocab"

model_path = 'model/my-model_kowikitext_0207' 
vocab_path = "model/my-model_kowikitext_0207/vocab"
'''

model_path = 'model/classification/bmc-ft-nsmc-cfmodel' 
vocab_path = "model/classification/bmc-ft-nsmc-cfmodel/vocab"

# True로 해야, hidden_states 가 출력됨
output_hidden_states = True
#False로 지정하는 경우 일반적인 tuple을 리턴, True인 경우는 transformers.file_utils.ModelOutput 으로 리턴
return_dict = False

seed = 111

In [3]:
cuda = GPU_info()
print(cuda)

#seed 설정
seed_everything(seed)

True
device: cuda:0
cuda index: 0
gpu 개수: 1
graphic name: NVIDIA A30
cuda:0


In [4]:
# tokenize 설정
tokenizer = BertTokenizerFast.from_pretrained(vocab_path)

In [5]:
# model 불러옴
model = BertModel.from_pretrained(model_path, 
                                  output_hidden_states=output_hidden_states,
                                  return_dict=return_dict)
model.eval()


BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(8002, 768, padding_idx=1)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0): BertLayer(
        (attention): BertAttention(
          (self): BertSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )

In [6]:
print('prameters:{}'.format(model.num_parameters()))

prameters:92186880


In [7]:
input_sentence = ['오늘은 오후 부터 춥고 비가 올것 같다.']


classification_sentence = [['오늘은 가끔 흐리고, 눈이 올수 있다'],
                 ['여기 식당은 파스타가 맛있다'],
                 ['오늘 증시는 내림으로 마감 하였다'],
                 ['내일은 오전에는 흐리지만, 오후에는 날씨가 좋겠다']]

In [8]:
# 입력 문장을 불러와서 출력값들을 구함
tokenized_input = tokenizer(input_sentence, return_tensors="pt")
token_str = [[tokenizer.convert_ids_to_tokens(s) for s in tokenized_input['input_ids'].tolist()[0]]]
print(token_str)
print(tokenized_input)
in_outputs = model(**tokenized_input)
    
# 분류 문장을 불러와서, tokenize 한 다음, 모델에 넣고 출력값을 얻어옴
sequence_out_list = []
pooled_out_list = []
hidden_states_list = []

for idx in range(len(classification_sentence)):
    sentence = classification_sentence[idx][0]
    tokenized_input = tokenizer(sentence, return_tensors="pt")
    token_str = [[tokenizer.convert_ids_to_tokens(s) for s in tokenized_input['input_ids'].tolist()[0]]]
    print(token_str)
    print(tokenized_input)
    outputs = model(**tokenized_input)
    sequence_out_list.append(outputs[0])
    pooled_out_list.append(outputs[1])
    hidden_states_list.append(outputs[2])

[['[CLS]', '오늘', '##은', '오후', '부', '##터', '[UNK]', '비가', '올', '##것', '같다', '[UNK]', '[SEP]']]
{'input_ids': tensor([[   2, 3419, 7086, 3434, 2423, 7609,    0, 2515, 3439, 5398,  831,    0,
            3]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}
[['[CLS]', '오늘', '##은', '[UNK]', '흐', '##리', '##고', '[UNK]', '눈', '##이', '올', '##수', '있다', '[SEP]']]
{'input_ids': tensor([[   2, 3419, 7086,    0, 5196, 6122, 5439,    0, 1535, 7096, 3439, 6629,
         3862,    3]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}
[['[CLS]', '여기', '식당', '##은', '파', '##스타', '##가', '맛', '##있다', '[SEP]']]
{'input_ids': tensor([[   2, 3301, 3007, 7086, 4799, 6684, 5330, 1967, 7143,    3]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}
[['[CLS]', '

In [9]:
print(len(pooled_out_list))
print(pooled_out_list[0].shape)
print(in_outputs[1].shape)

4
torch.Size([1, 768])
torch.Size([1, 768])


In [10]:
# case1) pooled_out 값으로 유사도 측정
in_list = in_outputs[1].tolist()
out_dict = {}

for idx in range(len(pooled_out_list)):
    out_list = pooled_out_list[idx][0].tolist()
    simul_score = pytorch_cos_sim(in_list, out_list)
    
    # 사전 key로 순번으로 하고, 유사도를 저장함
    key = str(idx+1)
    out_dict[key] = simul_score
    #print("input vs {:d} 유사도:{}".format(idx, simul_score))
    
#print(out_dict)

# 사전 정렬(value(유사도)로 reverse=True 하여 내림차순으로 정렬함)
sorted_dict = sorted(out_dict.items(), key = lambda item: item[1], reverse = True)
#print(sorted_dict)

# 내립차순으로 정렬된 사전출력 
for count in (sorted_dict):
    value = count[1].tolist() # count[1]은 2차원 tensor이므로 이를 list로 변환
    print(f'순번:{count[0]}, 유사도:{value[0][0]}')

input vs 0 유사도:tensor([[0.0127]])
input vs 1 유사도:tensor([[0.4771]])
input vs 2 유사도:tensor([[0.0577]])
input vs 3 유사도:tensor([[0.5098]])


In [11]:
# case 2) sequence_output 평균값으로 유사도 측정

print(len(sequence_out_list))
print(sequence_out_list[0].shape)

4
torch.Size([1, 14, 768])


In [12]:
in_mean_sequence = torch.mean(in_outputs[0], dim=1)
print(in_mean_sequence.shape)
out_dict = {}

for idx in range(len(sequence_out_list)):
    out_mean_sequence = torch.mean(sequence_out_list[idx], dim=1)
    simul_score = pytorch_cos_sim(in_mean_sequence, out_mean_sequence)
    #print("input vs {:d} 유사도:{}".format(idx, simul_score))
    
     # 사전 key로 순번으로 하고, 유사도를 저장함
    key = str(idx+1)
    out_dict[key] = simul_score
    #print("input vs {:d} 유사도:{}".format(idx, simul_score))
    
#print(out_dict)

# 사전 정렬(value(유사도)로 reverse=True 하여 내림차순으로 정렬함)
sorted_dict = sorted(out_dict.items(), key = lambda item: item[1], reverse = True)
#print(sorted_dict)

# 내립차순으로 정렬된 사전출력 
for count in (sorted_dict):
    value = count[1].tolist() # count[1]은 2차원 tensor이므로 이를 list로 변환
    print(f'순번:{count[0]}, 유사도:{value[0][0]}')

    

torch.Size([1, 768])
input vs 0 유사도:tensor([[0.8128]], grad_fn=<MmBackward0>)
input vs 1 유사도:tensor([[0.6102]], grad_fn=<MmBackward0>)
input vs 2 유사도:tensor([[0.6673]], grad_fn=<MmBackward0>)
input vs 3 유사도:tensor([[0.8393]], grad_fn=<MmBackward0>)


In [13]:
# case 3) hidden_state 마지막 2번째 레이어의 평균값으로 유사도 측정
out_dict = {}
ebd = torch.stack(list(in_outputs[2]), dim=0)
# 마지막 2번째(-2) 레이어에 평균을 구한다. 
in_hidden = torch.mean(ebd[-2][0], dim=0)
  
for idx,embedding in enumerate(hidden_states_list): # enumerate는 index, value 값이 리턴됨
    #print('index: {:d}, type: {}'.format(idx, type(embedding)))
    
    # hidden_state_list[0]은 tuple 이므로 이를 tensor로 변환 하면서, dim=0 하여 레이어를 결합해서 큰 텐서[13,1,128,768] 를 만든다.
    ebd = torch.stack(list(embedding), dim=0)
    
    # 마지막 2번째(-2) 레이어에 평균을 구한다. 
    out_hidden = torch.mean(ebd[-2][0], dim=0)
    simul_score = pytorch_cos_sim(in_hidden, out_hidden)
    #print("input vs {:d} 유사도:{}".format(idx, simul_score))
    
     # 사전 key로 순번으로 하고, 유사도를 저장함
    key = str(idx+1)
    out_dict[key] = simul_score
    #print("input vs {:d} 유사도:{}".format(idx, simul_score))
    
#print(out_dict)

# 사전 정렬(value(유사도)로 reverse=True 하여 내림차순으로 정렬함)
sorted_dict = sorted(out_dict.items(), key = lambda item: item[1], reverse = True)
#print(sorted_dict)

# 내립차순으로 정렬된 사전출력 
for count in (sorted_dict):
    value = count[1].tolist() # count[1]은 2차원 tensor이므로 이를 list로 변환
    print(f'순번:{count[0]}, 유사도:{value[0][0]}')

input vs 0 유사도:tensor([[0.8753]], grad_fn=<MmBackward0>)
input vs 1 유사도:tensor([[0.7472]], grad_fn=<MmBackward0>)
input vs 2 유사도:tensor([[0.7922]], grad_fn=<MmBackward0>)
input vs 3 유사도:tensor([[0.8801]], grad_fn=<MmBackward0>)
