In [None]:
#==================================================================================
# Distillation 예제(증류)2
#
#: 교사 모델(BertModel:12개 hiddenlayer) -> 학생모델(BertModel:6개 hiddenlayer) 로 distillation 하는 예시임
# 여기서는 교사모델의 12개 hiddenlayer를 6개의 hiddenlayer로 추출한 후, 학생모델을 만들어, 증류하는 예시이다.
# * 중요:교사모델이 더 잘 학습되어 있어야 하며, 교사/학생 모델이 tokenizer는 동일해야 한다.
#
# 자료 참고 
# https://towardsdatascience.com/distillation-of-bert-like-models-the-theory-32e19a02641f
# https://towardsdatascience.com/distillation-of-bert-like-models-the-code-73c31e8c2b0a
#
# [증류 과정]
# 1. 교사모델 구조->학생모델 생성
# => 교사모델이 bert-base 이면, 12개 hiddenlayer에서 6개 hiddenlayer를 추출하여, 학생모델을 만듬
#
# 2. 교사모델, 학생모델 fine-tuning 사전준비
# => 각 교사, 학생모델을 classifcation이나 maksedlm 모델로 파인튜닝함
# (*Huggingface transformers 모델이용하면 쉬움
#
# 3. loss 함수 정의
# => loss 함수는 학생모델이 loss(1), 교사와 학생모델간 cross-entropy loss(2), 교사와 학생모델간 cosine-loss(3) 
# 3가지 인데, 이때 (2)와 (3) loss는 torch.nn.KLDivLoss 함수로 보통 대체 된다.
# 즉 증류 손실함수 = alpha*학생모델이 loss + (1-alpah)*교사/학생모델간 torch.nn.KLDivLoss 함수
#
# 이때 KLDivLoss 함수는 교사와 학생간 Dark Knowledge(어둠지식)도 학습되도록 교사loss/Temperture와 학생loss/Temperture 식으로,
# Temperture를 지정하는데, 보통 학습할때는 2~10으로 하고, 평가시에는 반드시 1로 해야 한다.
# (Temperture==1 이면, softmax와 동일, 1보다 크면 확률이 평활화 되어서, 어둠 지식 습득이 많이됨)
# 그리고 학생모델loss는 전체 loss에 0.1이 되도록 alpha값은 0.1이 좋다고 한다.
#
# 4. 학습
# => 교사모델은 평가(eval)만 하고, 학생모델만 학습(train)한다.
#
#==================================================================================
'''
# 교사모델의 구조를 트리형태로 한번 출력해봄
from os import sys
sys.path.append('..')
from myutils import visualize_bertmodel_tree
from transformers import AutoModelForMaskedLM

bert = AutoModelForMaskedLM.from_pretrained('../model/bert/bmc-fpt-wiki_20190620_mecab_false_0311-0321')

visualize_bertmodel_tree(bert)
'''

In [1]:
#========================================================================================================
# 1.교사 모델 설정
#========================================================================================================
from transformers import BertForSequenceClassification, DistilBertForSequenceClassification, BertTokenizer

tearch_model_path='../model/bert/bmc-fpt-wiki_20190620_mecab_false_0311-0321'
#tearch_model = BertForMaskedLM.from_pretrained(tearch_model_path, output_hidden_states=True)
tearch_model = BertForSequenceClassification.from_pretrained(tearch_model_path, output_hidden_states=True, num_labels=2)

tokenizer = BertTokenizer.from_pretrained(tearch_model_path, do_lower_case=False, max_len=128)

Some weights of the model checkpoint at ../model/bert/bmc-fpt-wiki_20190620_mecab_false_0311-0321 were not used when initializing BertForSequenceClassification: ['cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.decoder.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model c

In [6]:
# 교사모델의 configuration을 출력해 봄
configuration = tearch_model.config.to_dict()
print(configuration)

{'return_dict': True, 'output_hidden_states': True, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float32', 'use_bfloat16': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'chunk_size_feed_forward': 0, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'architectures': ['BertForMaskedLM'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LAB

In [2]:
#========================================================================================================
# 2.distil 학생 모델 생성
#========================================================================================================

from os import sys
sys.path.append('..')
from myutils import bertdistillation

# 교사모델에서 12개의 hiddenlayer를 추출하여 6개의 hideenlayer를 가지는 학생모델 만듬
distilbert = bertdistillation(tearch_model)
student_model = distilbert.make_studentbert()

print(student_model)

logfilepath:bwdataset_2022-03-22.log
logfilepath:qnadataset_2022-03-22.log


In [4]:
# 만들어진 학생모델과 교사모델이 동일한 state_dict을 가지는지 한번 확인해 봄
from os import sys
sys.path.append('..')
from myutils import pytorch_cos_sim

# 학생모델이 교사 모델과 임베딩 값 복사가 제대로 되었는지 확인 
print(f'tearch_model: {tearch_model_path}\n')

tearch_state_dict = tearch_model.state_dict()
print(tearch_state_dict.keys())
print('-------------------------------------------------------------------')

tearch_embedding = tearch_state_dict['bert.embeddings.word_embeddings.weight']
print(tearch_embedding)

print('-------------------------------------------------------------------')
print(f'student_model')
student_state_dict = student_model.state_dict()
#print(student_state_dict.keys())
student_embedding = student_state_dict['bert.embeddings.word_embeddings.weight']
print(student_embedding)

# 코사인 유사도로 확인 
simility = pytorch_cos_sim(tearch_embedding[100], student_embedding[100])
print(f'\n==유사도 : {simility}==')

tearch_model: ../model/bert/bmc-fpt-wiki_20190620_mecab_false_0311-0321

odict_keys(['bert.embeddings.position_ids', 'bert.embeddings.word_embeddings.weight', 'bert.embeddings.position_embeddings.weight', 'bert.embeddings.token_type_embeddings.weight', 'bert.embeddings.LayerNorm.weight', 'bert.embeddings.LayerNorm.bias', 'bert.encoder.layer.0.attention.self.query.weight', 'bert.encoder.layer.0.attention.self.query.bias', 'bert.encoder.layer.0.attention.self.key.weight', 'bert.encoder.layer.0.attention.self.key.bias', 'bert.encoder.layer.0.attention.self.value.weight', 'bert.encoder.layer.0.attention.self.value.bias', 'bert.encoder.layer.0.attention.output.dense.weight', 'bert.encoder.layer.0.attention.output.dense.bias', 'bert.encoder.layer.0.attention.output.LayerNorm.weight', 'bert.encoder.layer.0.attention.output.LayerNorm.bias', 'bert.encoder.layer.0.intermediate.dense.weight', 'bert.encoder.layer.0.intermediate.dense.bias', 'bert.encoder.layer.0.output.dense.weight', 'bert.encoder

In [None]:
# 학습할 mskedlm 데이터 로더 생성.
#
from torch.utils.data import DataLoader, RandomSampler
from transformers import BertTokenizer
import sys
sys.path.append('..')
from myutils import MLMDataset

batch_size = 16           # batch=32로 하면 CUDA MEMORY 오류 발생함
token_max_len = 128

input_corpus = '../korpora/kowiki_20190620/wiki_20190620_small.txt'

# 각 스페셜 tokenid를 구함
CLStokenid = tokenizer.convert_tokens_to_ids('[CLS]')
SEPtokenid = tokenizer.convert_tokens_to_ids('[SEP]')
UNKtokenid = tokenizer.convert_tokens_to_ids('[UNK]')
PADtokenid = tokenizer.convert_tokens_to_ids('[PAD]')
MASKtokenid = tokenizer.convert_tokens_to_ids('[MASK]')
print('CLSid:{}, SEPid:{}, UNKid:{}, PADid:{}, MASKid:{}'.format(CLStokenid, SEPtokenid, UNKtokenid, PADtokenid, MASKtokenid))


train_dataset = MLMDataset(corpus_path = input_corpus,
                           tokenizer = tokenizer, 
                           CLStokeinid = CLStokenid ,   # [CLS] 토큰 id
                           SEPtokenid = SEPtokenid ,    # [SEP] 토큰 id
                           UNKtokenid = UNKtokenid ,    # [UNK] 토큰 id
                           PADtokenid = PADtokenid,    # [PAD] 토큰 id
                           Masktokenid = MASKtokenid,   # [MASK] 토큰 id
                           max_sequence_len=token_max_len,  # max_sequence_len)
                           mlm_probability=0.15,
                           overwrite_cache=True
                          )


# 학습 dataloader 생성
# => tenosor로 만듬
train_loader = DataLoader(train_dataset, 
                          batch_size=batch_size, 
                          #shuffle=True, # dataset을 섞음
                          sampler=RandomSampler(train_dataset, replacement=False), #dataset을 랜덤하게 샘플링함
                          num_workers=3
                         )

print(train_dataset[0])

In [None]:
# ====================================================================
# 4. 학습
# => 교사모델은 평가(eval)만 하고, 학생모델만 학습(train)한다.
# ====================================================================
import torch
import torch.nn as nn
import torch.nn.functional as F

from transformers import AdamW, get_linear_schedule_with_warmup
from tqdm.notebook import tqdm
sys.path.append('..')
from myutils import knowledge_distillation_loss1

# 훈련 시작
# 학생만 훈련시킴. 교사는 eval()
##################################################
epochs = 5            # epochs
learning_rate = 2e-5  # 학습률
p_itr = 300           # 손실률 보여줄 step 수
#save_steps = 10000     # 50000 step마다 모델 저장

# ==증류(distillation)과 연관된 변수 ==

# 0.1이면 학생손실은 10%반영하고 Kld 손실(distillationloss)은 90% 반영하겠다는 의미
alpha = 0.1           
# 1이면 softmax 확률이고, 1보다 크면 softmax 확률이 평할화 되면서, ghkr어둠지식(Dark Knowledge)을 보다 많이 습득하게됨
Temperture = 10   
##################################################

# optimizer 적용=> 학생모델
optimizer = AdamW(student_model.parameters(), 
                 lr=learning_rate, 
                 eps=1e-8) # 0으로 나누는 것을 방지하기 위한 epsilon 값(10^-6 ~ 10^-8 사이 이값 입력합)

# 총 훈련과정에서 반복할 스탭
total_steps = len(train_loader)*epochs
warmup_steps = total_steps * 0.1 #10% of train data for warm-up

# 스캐줄러 생성
scheduler = get_linear_schedule_with_warmup(optimizer, 
                                            num_warmup_steps=warmup_steps, 
                                            num_training_steps=total_steps)

student_model.to(device)
tearch_model.to(device)

student_model.zero_grad()# 학생모델 초기화
tearch_model.eval() # 교사모델은 평가모델로 설정.

itr = 1
total_loss = 0
total_len = 0
total_correct = 0
list_training_loss = []
list_acc_loss = []
list_validation_acc_loss = []

for epoch in tqdm(range(epochs)):
    
    student_model.train() # 학생모델은 훈련모드로 변환
    
    for data in tqdm(train_loader):
        
        #optimizer.zero_grad()
        student_model.zero_grad()# 그래디언트 초기화
        
        # 입력 값 설정
        '''
        input_ids = data['input_ids']
        attention_mask = data['attention_mask']
        token_type_ids = data['token_type_ids']      
        labels = data['labels']
        '''
        input_ids = data['input_ids'].to(device)
        attention_mask = data['attention_mask'].to(device)
        token_type_ids = data['token_type_ids'].to(device)       
        labels = data['labels'].to(device)
     
        # 교사모델 실행
        tearch_outputs = tearch_model(input_ids=input_ids,
                                    attention_mask=attention_mask,
                                    token_type_ids=token_type_ids,
                                    labels=labels)
        tearch_loss = tearch_outputs.loss
        tearch_logits = tearch_outputs.logits
        
        # 학생모델 실행
        student_outputs = student_model(input_ids=input_ids, 
                        attention_mask=attention_mask,
                        labels=labels)
        
        # 출력값 loss,logits를 outputs에서 얻어옴
        student_loss = student_outputs.loss
        student_logits = student_outputs.logits
        
        # 총 손실 구함.
        loss = knowledge_distillation_loss1(student_loss = student_loss, 
                                 student_logits = student_logits, 
                                 teacher_logits = tearch_logits, 
                                 alpha = alpha, 
                                 Temperture = Temperture)

        # optimizer 과 scheduler 업데이트 시킴
        loss.backward()   # backward 구함
        # 그래디언트 클리핑 (gradient vanishing이나 gradient exploding 방지하기 위한 기법)
        torch.nn.utils.clip_grad_norm_(student_model.parameters(), 1.0)   
        optimizer.step()  # 가중치 파라미터 업데이트(optimizer 이동)
        scheduler.step()  # 학습률 감소
        
          # => torch.no_grad()는 gradient을 계산하는 autograd engine를 비활성화 하여 
        # 필요한 메모리를 줄이고, 연산속도를 증가시키는 역활을 함
        with torch.no_grad():
            # 정확도 계산 
            total_loss += loss.item()

            # 주기마다 test(validataion) 데이터로 평가하여 손실류 계산함.
            if itr % p_itr == 0:
                logger.info('[Epoch {}/{}] Iteration {} -> Train Loss: {:.4f}'.format(epoch+1, epochs, itr, total_loss/p_itr))

                list_training_loss.append(total_loss/p_itr)

                total_loss = 0
                total_len = 0
                total_correct = 0

        itr+=1
        

In [None]:
# student 모델 저장
import os
OUTPATH = '../model/bert/bmc-fpt-wiki_20190620_mecab_false_0311-0321-student'
os.makedirs(OUTPATH, exist_ok=True)
#torch.save(model, OUTPATH + 'pytorch_model.bin') 
# save_pretrained 로 저장하면 config.json, pytorch_model.bin 2개의 파일이 생성됨
student_model.save_pretrained(OUTPATH)

# tokeinizer 파일 저장(vocab)
VOCAB_PATH = OUTPATH
tokenizer.save_pretrained(VOCAB_PATH)