In [1]:
# Question & Answer 테스트 예제
#
# => input_ids : [CLS]질문[SEP]지문[SEP]
# => attention_mask : 1111111111(질문, 지문 모두 1)
# => token_type_ids : 0000000(질문)1111111(지문)
# => start_positions : 45 (질문에 대한 지문에서의 답변 시작 위치)
# => end_positions : 60 (질문에 대한 지문에서의 답변 끝 위치)

import numpy as np
import pandas as pd
import torch
import torch.nn.functional as F
import os
import sys
from transformers import DistilBertTokenizer, DistilBertForQuestionAnswering
from tqdm.notebook import tqdm

sys.path.append('..')
from myutils import seed_everything, GPU_info, mlogging, QADataset

logger = mlogging(loggername="bertQAtest", logfilname="bertQAtest")
device = GPU_info()
seed_everything(111)

logfilepath:bwdataset_2022-03-16.log
logfilepath:qnadataset_2022-03-16.log
logfilepath:bertQAtest_2022-03-16.log
True
device: cuda:0
cuda index: 0
gpu 개수: 1
graphic name: NVIDIA A30


In [2]:
#############################################################################################
# 변수들 설정
# - model_path : from_pretrained() 로 호출하는 경우에는 모델파일이 있는 폴더 경로나 
#          huggingface에 등록된 모델명(예:'bert-base-multilingual-cased')
#          torch.load(model)로 로딩하는 경우에는 모델 파일 풀 경로
#
# - vocab_path : from_pretrained() 호출하는 경우에는 모델파일이 있는 폴더 경로나
#          huggingface에 등록된 모델명(예:'bert-base-multilingual-cased')   
#          BertTokenizer() 로 호출하는 경우에는 vocab.txt 파일 풀 경로,
#
# - OUTPATH : 출력 모델, vocab 저장할 폴더 경로
#############################################################################################

model_path = '../model/distilbert/distilbert-fpt-wiki_20190620-mecab-model-0313-QA-0315'
vocab_path = '../model/distilbert/distilbert-fpt-wiki_20190620-mecab-model-0313-QA-0315'

# tokeniaer 및 model 설정
#tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

# strip_accents=False : True로 하면, 가자 => ㄱ ㅏ ㅈ ㅏ 식으로 토큰화 되어 버림(*따라서 한국어에서는 반드시 False)
# do_lower_case=False : # 소문자 입력 사용 안함(한국어에서는 반드시 False)
tokenizer = DistilBertTokenizer.from_pretrained(vocab_path, strip_accents=False, do_lower_case=False) 
   
model = DistilBertForQuestionAnswering.from_pretrained(model_path)
model.eval()

DistilBertForQuestionAnswering(
  (distilbert): DistilBertModel(
    (embeddings): Embeddings(
      (word_embeddings): Embedding(143772, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (transformer): Transformer(
      (layer): ModuleList(
        (0): TransformerBlock(
          (attention): MultiHeadSelfAttention(
            (dropout): Dropout(p=0.1, inplace=False)
            (q_lin): Linear(in_features=768, out_features=768, bias=True)
            (k_lin): Linear(in_features=768, out_features=768, bias=True)
            (v_lin): Linear(in_features=768, out_features=768, bias=True)
            (out_lin): Linear(in_features=768, out_features=768, bias=True)
          )
          (sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
          (ffn): FFN(
            (dropout): Dropout(p=0.1, inplace=False)
           

In [3]:
model.num_parameters()

153340418

In [4]:
# tokenier 테스트
print(len(tokenizer))
print(tokenizer.encode("눈에 보이는 반전이었지만 영화의 흡인력은 사라지지 않았다", "정말 재미있다"))
print(tokenizer.convert_ids_to_tokens(131027))
print(tokenizer.convert_tokens_to_ids('정말'))

143772
[101, 9034, 10530, 119728, 11018, 128441, 10739, 69708, 42428, 10459, 10020, 12030, 28143, 10892, 124227, 12508, 49137, 102, 122108, 131027, 11903, 102]
재미있
122108


In [45]:
text = """서울특별시는 대한민국의 수도이자 최대 도시이다. 
삼국시대 백제의 첫 수도인 위례성이었고, 고려의 남경이었으며, 조선의 수도가 된 이후로 현재까지 대한민국 정치·경제·사회·문화의 중심지이다. 
중앙으로 한강이 흐르고, 이를 기준으로 강북과 강남 지역으로 구분한다. 
북한산, 관악산, 도봉산, 불암산, 인릉산, 청계산, 아차산 등의 여러 산들로 둘러싸인 분지 지형의 도시이다.
서울의 면적은 605.2 km2로 대한민국 면적의 0.6%이고, 인구는 약 950만 명으로 대한민국 인구의 17%를 차지한다. 
시청 소재지는 중구이며, 25개의 자치구가 있다. 1986년 아시안 게임, 1988년 하계 올림픽, 2010년 서울 G20 정상회의 등을 개최하였다. 
2018년 서울의 지역내총생산은 422조원이었다.'
"서울" 어원에 관해 여러 가지 설이 존재하나, 학계에서는 일반적으로 수도를 뜻하는 신라 계통의 고유어인 서라벌에서 유래했다는 설을 유력하게 받아들이고 있다.
이때 한자 가차 표기인 서라벌 원래 의미에 관해서도 여러 학설이 존재한다."""

#query='서울의 인구수는?'
#query = '서울에는 몇명이 살고 있을까?'
query ='서울은 어느나라 수도인가?'

print(len(text))
print(len(query))

527
14


In [46]:
max_length = 502
tokenized_input = tokenizer(query, text, return_tensors='pt',
                   max_length=max_length, truncation=True, padding='max_length')

In [47]:
token_str = [[tokenizer.convert_ids_to_tokens(s) for s in tokenized_input['input_ids'].tolist()[0]]]
print(token_str)
print(tokenized_input)

[['[CLS]', '서울', '##은', '어느', '##나라', '수도', '##인', '##가', '?', '[SEP]', '서울특별시', '##는', '대한민국의', '수도', '##이자', '최대', '도시', '##이다', '.', '삼국', '##시대', '백제', '##의', '첫', '수도', '##인', '위례', '##성이', '##었고', ',', '고려', '##의', '남경', '##이', '##었으며', ',', '조선', '##의', '수도', '##가', '된', '이후', '##로', '현재', '##까지', '대한민국', '정치', '·', '경제', '·', '사회', '·', '문화', '##의', '중심지', '##이다', '.', '중앙', '##으로', '한강', '##이', '흐르', '##고', ',', '이를', '기준으로', '강북', '##과', '강남', '지역', '##으로', '구분', '##한다', '.', '북한', '##산', ',', '관악', '##산', ',', '도봉', '##산', ',', '불', '##암', '##산', ',', '인', '##릉', '##산', ',', '청계', '##산', ',', '아', '##차', '##산', '등의', '여러', '산', '##들', '##로', '둘러싸인', '분지', '지형', '##의', '도시', '##이다', '.', '서울', '##의', '면적은', '605', '.', '2', 'km2', '##로', '대한민국', '면적', '##의', '0', '.', '6', '%', '이고', ',', '인구는', '약', '950', '##만', '명', '##으로', '대한민국', '인구', '##의', '17', '%', '를', '차지', '##한다', '.', '시청', '소재지', '##는', '중구', '##이며', ',', '25', '##개의', '자치구', '##가', '있다', '.', '1986년', '아시안', '

In [48]:

outputs = model(**tokenized_input)

start_scores = outputs.start_logits
end_scores = outputs.end_logits
#print(start_scores)
#print(end_scores)

start_pred = torch.argmax(start_scores, dim=1)
end_pred = torch.argmax(end_scores, dim=1)
    
print(f'*시작 token idx:{start_pred}, 끝 token idx:{end_pred}')

# 시작 토큰 inddex과 끝 토큰 index+1 위치에 토큰 id 값을 토큰으로 변환하여 출력함
start_token = int(start_pred)
end_token = int(end_pred)+1

token_str = [tokenizer.convert_ids_to_tokens(s) for s in tokenized_input['input_ids'].tolist()[0][start_token:end_token]]
print('===결과===')
print(token_str)
        

*시작 token idx:tensor([12]), 끝 token idx:tensor([12])
===결과===
['대한민국의']
