In [1]:
# Question & Answer 훈련 예제
#
# => input_ids : [CLS]질문[SEP]지문[SEP]
# => attention_mask : 1111111111(질문, 지문 모두 1)
# => token_type_ids : 0000000(질문)1111111(지문)
# => start_positions : 45 (질문에 대한 지문에서의 답변 시작 위치)
# => end_positions : 60 (질문에 대한 지문에서의 답변 끝 위치)

import numpy as np
import pandas as pd
import torch
import torch.nn.functional as F
import os
import sys
from transformers import DistilBertTokenizer, DistilBertForQuestionAnswering, AdamW, get_linear_schedule_with_warmup
from tqdm.notebook import tqdm

sys.path.append('..')
from myutils import seed_everything, GPU_info, mlogging, QADataset

logger = mlogging(loggername="bertQAtrain", logfilname="bertQAtrain")
device = GPU_info()
seed_everything(111)

logfilepath:bwdataset_2022-03-15.log
logfilepath:qnadataset_2022-03-15.log
logfilepath:bertQAtrain_2022-03-15.log
True
device: cuda:0
cuda index: 0
gpu 개수: 1
graphic name: NVIDIA A30


In [2]:
#############################################################################################
# 변수들 설정
# - model_path : from_pretrained() 로 호출하는 경우에는 모델파일이 있는 폴더 경로나 
#          huggingface에 등록된 모델명(예:'bert-base-multilingual-cased')
#          torch.load(model)로 로딩하는 경우에는 모델 파일 풀 경로
#
# - vocab_path : from_pretrained() 호출하는 경우에는 모델파일이 있는 폴더 경로나
#          huggingface에 등록된 모델명(예:'bert-base-multilingual-cased')   
#          BertTokenizer() 로 호출하는 경우에는 vocab.txt 파일 풀 경로,
#
# - OUTPATH : 출력 모델, vocab 저장할 폴더 경로
#############################################################################################

model_path = '../model/distilbert/distilbert-fpt-wiki_20190620-mecab-model-0313'
vocab_path = '../model/distilbert/distilbert-fpt-wiki_20190620-mecab-model-0313'
OUTPATH = '../model/distibert/distilbert-fpt-wiki_20190620-mecab-model-0313-QA-0315/'

# tokeniaer 및 model 설정
#tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

# strip_accents=False : True로 하면, 가자 => ㄱ ㅏ ㅈ ㅏ 식으로 토큰화 되어 버림(*따라서 한국어에서는 반드시 False)
# do_lower_case=False : # 소문자 입력 사용 안함(한국어에서는 반드시 False)
tokenizer = DistilBertTokenizer.from_pretrained(vocab_path, strip_accents=False, do_lower_case=False) 
   
model = DistilBertForQuestionAnswering.from_pretrained(model_path)

model.to(device)

Some weights of the model checkpoint at ../model/distilbert/distilbert-fpt-wiki_20190620-mecab-model-0313 were not used when initializing DistilBertForQuestionAnswering: ['vocab_layer_norm.bias', 'vocab_projector.bias', 'vocab_layer_norm.weight', 'vocab_transform.bias', 'vocab_transform.weight', 'vocab_projector.weight']
- This IS expected if you are initializing DistilBertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing DistilBertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of DistilBertForQuestionAnswering were not initialized from the model checkpoint at ../model/distilbert/distilbert-fpt-wiki_20190620-mecab-model-0313 and are newly initi

DistilBertForQuestionAnswering(
  (distilbert): DistilBertModel(
    (embeddings): Embeddings(
      (word_embeddings): Embedding(143772, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (transformer): Transformer(
      (layer): ModuleList(
        (0): TransformerBlock(
          (attention): MultiHeadSelfAttention(
            (dropout): Dropout(p=0.1, inplace=False)
            (q_lin): Linear(in_features=768, out_features=768, bias=True)
            (k_lin): Linear(in_features=768, out_features=768, bias=True)
            (v_lin): Linear(in_features=768, out_features=768, bias=True)
            (out_lin): Linear(in_features=768, out_features=768, bias=True)
          )
          (sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
          (ffn): FFN(
            (dropout): Dropout(p=0.1, inplace=False)
           

In [3]:
model.num_parameters()

153340418

In [6]:
# 학습 data loader 생성
sys.path.append('..')
from myutils import KorQuADCorpus, QADataset, data_collator
from torch.utils.data import DataLoader, RandomSampler

#############################################################################
# 변수 설정
#############################################################################
max_seq_len = 128   # 질문 + 지문 최대 크기
max_query_length = 32  # 질문 최대 크기
doc_stride = 64     # 지문이 128을 넘을 경우, 얼만큼씩 다음 지문으로 대체할지

batch_size = 32        # 배치 사이즈(64면 GUP Memory 오류 나므로, 32 이하로 설정할것=>max_seq_length 를 줄이면, 64도 가능함)
cache = True   # 캐쉬파일 생성할거면 True로 
#############################################################################

# corpus 파일 설정
corpus = KorQuADCorpus()


# 학습 dataset 생성
print('create train_loader===========================================================')
train_file_fpath = '../korpora/korQuAD/KorQuAD_v1.0_train.json'
train_dataset = QADataset(file_fpath=train_file_fpath, tokenizer=tokenizer, corpus=corpus, max_seq_length=max_seq_len, max_query_length = max_query_length, doc_stride= doc_stride, overwrite_cache=cache)


# 학습 dataloader 생성
train_loader = DataLoader(train_dataset, 
                          batch_size=batch_size, 
                          #shuffle=True, # dataset을 섞음
                          sampler=RandomSampler(dataset, replacement=False), #dataset을 랜덤하게 샘플링함
                          collate_fn=data_collator, # dataset을 tensor로 변환(예시 {'input_ids':tensor[0,1,2,3,1,], 'token_type_id:tensor[0,0,0,0,0], 'attention_mask:tensor[1,1,1,1,1], 'labels':tensor[5]}
                          num_workers=4)

print('end train_loader===========================================================')

print('create eval_loader===========================================================')
eval_file_fpath = '../korpora/korQuAD/KorQuAD_v1.0_dev.json'
eval_dataset = QADataset(file_fpath=eval_file_fpath, tokenizer=tokenizer, corpus=corpus, max_seq_length=max_seq_len, max_query_length = max_query_length, doc_stride= doc_stride, overwrite_cache=cache)


# 평가 dataloader 생성
eval_loader = DataLoader(eval_dataset, 
                          batch_size=batch_size, 
                          #shuffle=True, # dataset을 섞음
                          sampler=RandomSampler(dataset, replacement=False), #dataset을 랜덤하게 샘플링함
                          collate_fn=data_collator, # dataset을 tensor로 변환(예시 {'input_ids':tensor[0,1,2,3,1,], 'token_type_id:tensor[0,0,0,0,0], 'attention_mask:tensor[1,1,1,1,1], 'labels':tensor[5]}
                          num_workers=4)
print('end eval_loader===========================================================')

print('train_loader_len: {}, eval_loader_len: {}'.format(len(train_loader), len(eval_loader)))

2022-03-15 16:53:23,431 - qnadataset - INFO - Creating features from dataset file at ../korpora/korQuAD/KorQuAD_v1.0_train.json




100%|████████████████████████████████████| 1420/1420 [00:00<00:00, 21295.83it/s]
convert squad examples to features: 100%|█| 57688/57688 [01:09<00:00, 828.12it/s
2022-03-15 16:54:34,777 - qnadataset - INFO - *** Example ***
2022-03-15 16:54:34,780 - qnadataset - INFO - question & context: [CLS] 바그너 ##는 괴테 ##의 파우스트 ##를 읽 ##고 무엇 ##을 쓰 ##고 ##자 했 ##는 ##가 ? [SEP] 1839 ##년 바그너 ##는 괴테 ##의 파우스트 ##을 처음 읽 ##고 그 내용 ##에 마음 ##이 끌려 이를 소재 ##로 해서 하나의 교향곡 ##을 쓰 ##려 ##는 뜻 ##을 갖 ##는다 . 이 시기 바그너 ##는 1838 ##년에 빛 독 ##촉 ##으로 산전 ##수 ##전을 다 [UNK] 상황 ##이 ##라 좌절 ##과 실망 ##에 가득 ##했으며 메 ##피스 ##토 ##펠 ##레스 ##를 만나 ##는 파우스트 ##의 심경 ##에 공감 ##했다 ##고 한다 . 또한 파리 ##에서 아브 ##네 ##크 ##의 지휘 ##로 파리 음악원 관현악단 ##이 연주 ##하는 베토벤 ##의 교향곡 9 ##번 ##을 듣 ##고 깊 ##은 감명 ##을 받 ##았 ##는데 , 이것 ##이 이듬해 1월 [SEP]
2022-03-15 16:54:34,781 - qnadataset - INFO - answer: 교향곡
2022-03-15 16:54:34,782 - qnadataset - INFO - features: QAFeatures(input_ids=[101, 131787, 11018, 143664, 10459, 141463, 11513, 9642, 11664, 120950, 10622, 9511, 11664, 13764, 9965, 110



100%|██████████████████████████████████████| 140/140 [00:00<00:00, 15665.84it/s]
convert squad examples to features: 100%|██| 5533/5533 [00:06<00:00, 821.29it/s]
2022-03-15 16:54:57,805 - qnadataset - INFO - *** Example ***
2022-03-15 16:54:57,808 - qnadataset - INFO - question & context: [CLS] 1989년 6월 30일 평양 ##축 ##전에 대표 ##로 파견 된 인물 ##은 ? [SEP] 1989년 2월 15일 여의도 농민 폭력 시위 ##를 주도 ##한 혐의 ( 폭력 ##행위 ##등 ##처 ##벌 ##에 ##관 ##한 ##법 ##률 ##위 ##반 ) 으로 지명 ##수 ##배 ##되었다 . 1989년 3월 12일 서울 ##지 ##방 ##검 ##찰청 공안 ##부는 임종 ##석 ##의 사전 ##구 ##속 ##영 ##장을 발부 ##받 ##았다 . 같은 해 6월 30일 평양 ##축 ##전에 임수 ##경 ##을 대표 ##로 파견 ##하여 국가 ##보 ##안 ##법 ##위 ##반 혐의 ##가 추가 ##되었다 . 경찰 ##은 12월 18일 ~ 20일 사이 서울 경희대 ##학교 ##에서 임종 ##석 ##이 성명 발표 ##를 추진 ##하고 있다는 첩보 ##를 입수 ##했고 , 12월 18일 오전 7 ##시 40 ##분 경 가스 [SEP]
2022-03-15 16:54:57,810 - qnadataset - INFO - answer: 임수 ##경
2022-03-15 16:54:57,811 - qnadataset - INFO - features: QAFeatures(input_ids=[101, 76485, 17253, 40636, 121340, 70122, 68767, 119597, 11261, 120811, 9099, 119664, 10892, 136,

train_loader_len: 653, eval_loader_len: 653


In [26]:
# tokenier 테스트
print(len(tokenizer))
print(tokenizer.encode("눈에 보이는 반전이었지만 영화의 흡인력은 사라지지 않았다", "정말 재미있다"))
print(tokenizer.convert_ids_to_tokens(131027))
print(tokenizer.convert_tokens_to_ids('정말'))

143772
[101, 9034, 10530, 119728, 11018, 128441, 10739, 69708, 42428, 10459, 10020, 12030, 28143, 10892, 124227, 12508, 49137, 102, 122108, 131027, 11903, 102]
재미있
122108


In [25]:
# 학습 시작

##################################################
# 변수 설정
##################################################
epochs = 10            # epochs
learning_rate = 2e-5  # 학습률
p_itr = 200           # 손실률 보여줄 step 수
##################################################

# optimizer 적용
optimizer = AdamW(model.parameters(), 
                 lr=learning_rate, 
                 eps=1e-8) # 0으로 나누는 것을 방지하기 위한 epsilon 값(10^-6 ~ 10^-8 사이 이값 입력합)

# 총 훈련과정에서 반복할 스탭
total_steps = len(train_loader)*epochs

warmup_steps = total_steps * 0.1 #10% of train data for warm-up

print(f'total_steps:{total_steps}, warmup_steps: {warmup_steps}')

# 스캐줄러 생성
scheduler = get_linear_schedule_with_warmup(optimizer, 
                                            num_warmup_steps=warmup_steps, 
                                            num_training_steps=total_steps)

itr = 1
total_loss = 0
total_len = 0
total_correct = 0
list_training_loss = []
list_acc_loss = []
list_validation_acc_loss = []


model.zero_grad()# 그래디언트 초기화
for epoch in tqdm(range(epochs)):

    count1 = 0
    model.train() # 훈련모드로 변환
    for data in tqdm(train_loader):
    
        #optimizer.zero_grad()
        model.zero_grad()# 그래디언트 초기화
        
        # 입력 값 설정
        input_ids = data['input_ids'].to(device)
        attention_mask = data['attention_mask'].to(device)
        #token_type_ids = data['token_type_ids'].to(device)  # distilbert에는 token_type_id가 없음
        start_positions = data['start_positions'].to(device)
        end_positions = data['end_positions'].to(device)
        
        # 모델 실행
        outputs = model(input_ids=input_ids, 
                        attention_mask=attention_mask,
                        #token_type_id=token_type_id,      # distilbert에는 token_type_id가 없음
                        start_positions=start_positions,
                        end_positions=end_positions)
        
        # 출력값 loss,logits를 outputs에서 얻어옴
        loss = outputs.loss
        start_scores = outputs.start_logits
        end_scores = outputs.end_logits
        
        # optimizer 과 scheduler 업데이트 시킴
        loss.backward()   # backward 구함
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)   # 그래디언트 클리핑 (gradient vanishing이나 gradient exploding 방지하기 위한 기법)
        optimizer.step()  # 가중치 파라미터 업데이트(optimizer 이동)
        scheduler.step()  # 학습률 감소
        
        # 정확도와 손실률 계산하는 부분은 no_grade 시켜서, 계산량을 줄임.
        # => torch.no_grad()는 gradient을 계산하는 autograd engine를 비활성화 하여 
        # 필요한 메모리를 줄이고, 연산속도를 증가시키는 역활을 함
        with torch.no_grad():
           
            # 정확도와 총 손실률 계산
            
            # start 포지션 정확도 구함
            # argmax = 최대 인덱스값 리턴함
            start_pred = torch.argmax(F.softmax(start_scores), dim=1)
            start_correct = start_pred.eq(start_positions)
            
            # end 포지션 정확도 구함
            end_pred = torch.argmax(F.softmax(end_scores), dim=1)
            end_correct = start_pred.eq(end_positions)
            
            # start 포지션과 end 포지션 정확도를 더하고 2로 나줌
            total_correct += (start_correct.sum().item() + end_correct.sum().item()) / 2
                
            total_len += len(start_positions)    
            total_loss += loss.item()
            #print('pred:{}, correct:{}'.format(pred, correct))

            # 주기마다 test(validataion) 데이터로 평가하여 손실류 계산함.
            if itr % p_itr == 0:

                logger.info('[Epoch {}/{}] Iteration {} -> Train Loss: {:.4f}, Train Accuracy: {:.3f}'.format(epoch+1, epochs, itr, total_loss/p_itr, total_correct/total_len))

                list_training_loss.append(total_loss/p_itr)
                list_acc_loss.append(total_correct/total_len)

                total_loss = 0
                total_len = 0
                total_correct = 0

        itr+=1
        
        #if itr > 5:
        #    break

    ####################################################################
    # 1epochs 마다 실제 test(validattion)데이터로 평가 해봄
    # 평가 시작
    model.eval()
    
    total_test_correct = 0
    total_test_len = 0
    
    for data in tqdm(eval_loader):
        # 입력 값 설정
        input_ids = data['input_ids'].to(device)
        attention_mask = data['attention_mask'].to(device)
        #token_type_ids = data['token_type_ids'].to(device)  
        start_positions = data['start_positions'].to(device)
        end_positions = data['end_positions'].to(device)
    
        # 손실률 계산하는 부분은 no_grade 시켜서, 계산량을 줄임.
        # => torch.no_grad()는 gradient을 계산하는 autograd engine를 비활성화 하여 
        # 필요한 메모리를 줄이고, 연산속도를 증가시키는 역활을 함
        with torch.no_grad():
            # 모델 실행
            outputs = model(input_ids=input_ids, 
                            attention_mask=attention_mask,
                            #token_type_id=token_type_id,      # distilbert에는 token_type_id가 없음
                            start_positions=start_positions,
                            end_positions=end_positions)
    
            # 출력값 loss,logits를 outputs에서 얻어옴
            loss = outputs.loss
            start_scores = outputs.start_logits
            end_scores = outputs.end_logits
    
            # 총 손실류 구함
            # start 포지션 정확도 구함
            start_pred = torch.argmax(F.softmax(start_scores), dim=1)
            start_correct = start_pred.eq(start_positions)
            
            # end 포지션 정확도 구함
            end_pred = torch.argmax(F.softmax(end_scores), dim=1)
            end_correct = start_pred.eq(end_positions)
            
            # start 포지션과 end 포지션 정확도를 더하고 2로 나줌
            total_test_correct += (start_correct.sum().item() + end_correct.sum().item()) / 2
            total_test_len += len(start_positions)
    
    list_validation_acc_loss.append(total_test_correct/total_test_len)
    logger.info("[Epoch {}/{}] Validatation Accuracy:{}".format(epoch+1, epochs, total_test_correct / total_test_len))
    
    ####################################################################
    

total_steps:6530, warmup_steps: 653.0


  0%|          | 0/10 [00:00<?, ?it/s]

  0%|          | 0/653 [00:00<?, ?it/s]

  start_pred = torch.argmax(F.softmax(start_scores), dim=1)
  end_pred = torch.argmax(F.softmax(end_scores), dim=1)
2022-03-15 17:57:33,590 - bertQAtrain - INFO - [Epoch 1/10] Iteration 200 -> Train Loss: 3.3384, Train Accuracy: 0.542
2022-03-15 17:57:49,247 - bertQAtrain - INFO - [Epoch 1/10] Iteration 400 -> Train Loss: 1.8241, Train Accuracy: 0.613
2022-03-15 17:58:04,899 - bertQAtrain - INFO - [Epoch 1/10] Iteration 600 -> Train Loss: 1.2214, Train Accuracy: 0.650


  0%|          | 0/653 [00:00<?, ?it/s]

KeyError: 'labels'

In [None]:
# 그래프로 loss 표기
#!pip install matplotlib
import matplotlib.pyplot as plt

plt.plot(list_training_loss, label='Train Loss')
plt.plot(list_acc_loss, label='Train Accuracy')
plt.legend()
plt.show()

In [None]:
# train loss와 Validatiaon acc 출력
plt.plot(list_training_loss, label='Train Loss')
plt.plot(list_validation_acc_loss, label='Validatiaon Accuracy')
plt.legend()
plt.show()

In [None]:
### 전체모델 저장
os.makedirs(OUTPATH)
#torch.save(model, OUTPATH + 'pytorch_model.bin') 
model.save_pretrained(OUTPATH)  # save_pretrained 로 저장하면 config.json, pytorch_model.bin 2개의 파일이 생성됨

# tokeinizer 파일 저장(vocab)
VOCAB_PATH = OUTPATH
os.makedirs(VOCAB_PATH)
tokenizer.save_pretrained(VOCAB_PATH)