In [None]:
# 참고 사이트 
# 참고소스1 : transformers huggingface mlm 사전 학습 예제
#   - https://github.com/huggingface/transformers/blob/master/examples/pytorch/language-modeling/run_mlm.py
#
# 참고소스2  : bert를 가지고 중국어 corpus로 추가학습시킨 예제
#    - https://github.com/zhusleep/pytorch_chinese_lm_pretrain 에 run_language_model_bert.py 
#      https://www.fatalerrors.org/a/further-pre-training-of-chinese-language-model-bert-roberta.html

import transformers
import numpy as np
import torch

from myutils import seed_everything, TextDatasetForNextSentencePrediction, GPU_info, mlogging, MyTextDataset
from transformers import BertTokenizer, BertModel, BertTokenizerFast, BertConfig, AutoModelWithLMHead, BertForMaskedLM
from transformers import DataCollatorForLanguageModeling

In [None]:
device = GPU_info()
print(device)

#device = torch.device('cpu')

#seed 설정
seed_everything(111)

#logging 설정
logger=mlogging(loggername="bertperplexityeval", logfilname="bertperplexityeval")

In [None]:
# 변수들 설정
#input_corpus = "Korpora/kowikitext/kowikitext_20200920.test"
input_corpus = "Korpora/nsmc/ratings_test.txt"


input_model_path = "model/kobertmodel"
vocab_file="model/kobertmodel/vocab/vocab.txt"
ouput_model_dir = "model/kobertmodel"

'''
input_model_path = "model/bert-multilingual-cased"
vocab_file="model/bert-multilingual-cased/vocab/vocab.txt"
ouput_model_dir = "model/bert-multilingual-cased"
'''
'''
input_model_path = "model/bert-multilingual-cased_furter_pt_model_0216"
vocab_file="model/bert-multilingual-cased_furter_pt_model_0216/vocab/vocab.txt"
ouput_model_dir = "model/bert-multilingual-cased_furter_pt_model_0216"
'''
# 토큰활 할때 최대 길이 
token_max_len = 126

# 훈련용 변수
batch_size = 8   # 128로 하면, GPU Out of memory 발생함(=>**따라서 64로 진행)
train_epochs = 10
 # embedding size 최대 몇 token까지 input으로 사용할 것인지 지정(기본:512) 512, 1024, 2048 식으로 지정함, 엄청난 장문을 다룰경우 10124까지
max_position_embeddings = 256 
logging_steps = 1  # 훈련시, 로깅할 step 수 (크면 10000번 정도하고, 작으면 100번정도)
save_steps = 1     # 10000 step마다 모델 저장
save_total_limit = 1 # 마지막 3개 모델 빼고 과거 모델은 삭제(100000번째마다 모델 저장하는데, 마지감 3개 빼고 나머지는 삭제)


In [None]:
# tokenizer 생성
# => BertTokenizer, BertTokenizerFast 둘중 사용하면됨
tokenizer = BertTokenizer(vocab_file=vocab_file, 
                          max_len=token_max_len, 
                          do_lower_case=False)

'''
#tokenizer = BertTokenizerFast(vocab_speical_path)
tokenizer = BertTokenizerFast(
    vocab_file=vocab_file,
    max_len=token_max_len,
    do_lower_case=False,
    )
'''    

# speical 토큰 계수 + vocab 계수 - 이미 vocab에 포함된 speical 토큰 계수(5)
vocab_size = len(tokenizer.all_special_tokens) + tokenizer.vocab_size - 5 + 1
#vocab_size = len(tokenizer.all_special_tokens) + tokenizer.vocab_size - 5
print('special_token_size: {}, tokenizer.vocab_size: {}'.format(len(tokenizer.all_special_tokens), tokenizer.vocab_size))
print('vocab_size: {}'.format(vocab_size))
print('tokenizer_len: {}'.format(len(tokenizer)))

In [None]:
#output_hidden_states = False # 기본은 False=>output 2개 출력됨, True로 지정하면 output이 3개 출력됨
#return_dict = True   #False로 지정하는 경우 일반적인 tuple을 리턴, True인 경우는 transformers.file_utils.ModelOutput(ouput.logisc) 으로 리턴
#model = BertModel.from_pretrained(input_model_path, output_hidden_states = output_hidden_states, return_dict = return_dict)


# AutoModelForMaskedLM, BertForMaskedLM 
# further pre-training 인 경우 (기존 거에 추가적으로 하는 경우)
config = BertConfig.from_pretrained(input_model_path)
model = BertForMaskedLM.from_pretrained(input_model_path, from_tf=bool(".ckpt" in input_model_path), config=config)

# 모델 embedding 사이즈를 tokenizer +1 크기 만큼 재 설정함.
# => 원래 크기를 tokenizer 사이즈 만큼만 설정하면되는데, kobert는 8002로 평가하면, 오류발생하므로 +1 정도 크게 설정함
model.resize_token_embeddings(len(tokenizer) + 1)
model.eval().to(device)

In [None]:
model.num_parameters()

In [None]:
eval_dataset = MyTextDataset(tokenizer=tokenizer, 
                            file_path=input_corpus, 
                            block_size=token_max_len, 
                            overwrite_cache=False,
                            show_num=3)

#혹은
#eval_dataset = MyLineByLineTextDataset(tokenizer=tokenizer, file_path=input_corpus, block_size=token_max_len, show_format_dict=False,show_num=3)

In [None]:
# MLM 만들기
data_collator = DataCollatorForLanguageModeling(    # [MASK] 를 씌우는 것은 저희가 구현하지 않아도 됩니다! :-)
    tokenizer=tokenizer, mlm=True, mlm_probability=0.15
)

# MLM 출력 해보기
print(data_collator(eval_dataset.examples[0:2]))

In [None]:
# load_metric 사용을 위해서는 datasets, sklearn 패키지 설치해야함
#!pip install datasets
#!pip install sklearn

# 참고 소스 : https://github.com/huggingface/transformers/blob/master/examples/pytorch/language-modeling/run_mlm.py

import datasets
from datasets import load_dataset, load_metric

def preprocess_logits_for_metrics1(logits, labels):
    return logits.argmax(dim=-1)

metric = load_metric("accuracy")

def compute_metrics(eval_preds):
    preds, labels = eval_preds
    # preds have the same shape as the labels, after the argmax(-1) has been calculated
    # by preprocess_logits_for_metrics
    labels = labels.reshape(-1)
    preds = preds.reshape(-1)
    mask = labels != -100
    labels = labels[mask]
    preds = preds[mask]
    return metric.compute(predictions=preds, references=labels)

In [None]:
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir=ouput_model_dir,
    per_device_eval_batch_size=batch_size
    #per_gpu_eval_batch_size=batch_size
)

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,  #data
    eval_dataset=eval_dataset,
    compute_metrics=compute_metrics
    #preprocess_logits_for_metrics=preprocess_logits_for_metrics1
)

In [None]:
###################################################################
# 펄플렉서티(Perplexity, PPL) 로 성능 평가함 
# => PPL은 선택할 수 있는 가능한 경우의 수를 의미하는 분기계수(branching factor)입니다. 
#   PPL은 이 언어 모델이 특정 시점에서 평균적으로 몇 개의 선택지를 가지고 고민하고 있는지를 의미합니다. 
#  가령, 언어 모델에 어떤 테스트 데이터을 주고 측정했더니 PPL이 10이 나왔다고 해봅시다. 
#  그렇다면 해당 언어 모델은 테스트 데이터에 대해서 다음 단어를 예측하는 모든 시점(time step)마다 
#  평균 10개의 단어를 가지고 어떤 것이 정답인지 고민하고 있다고 볼 수 있습니다. 
#  같은 테스트 데이터에 대해서 두 언어 모델의 PPL을 각각 계산 후에 PPL의 값을 비교하면, 
#  두 언어 모델 중 PPL이 더 낮은 언어 모델의 성능이 더 좋다고 볼 수 있습니다.
###################################################################
eval_output = trainer.evaluate()

In [None]:
import math
import os
# Evaluation
results = {}

perplexity = math.exp(eval_output["eval_loss"])
result = {"perplexity": perplexity}

output_eval_file = os.path.join(ouput_model_dir, "eval_results_lm.txt")
with open(output_eval_file, "w") as writer:
    logger.info("***** Eval results *****")
    for key in sorted(result.keys()):
        logger.info("%s:  %s = %s", input_model_path, key, str(result[key]))
        writer.write("%s = %s\n" % (key, str(result[key])))

results.update(result)


In [1]:
# OUT OF MEMORY 에러면 GPU 사용량 체크
!nvidia-smi

Thu Feb 17 17:59:59 2022       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.82.01    Driver Version: 470.82.01    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  NVIDIA A30          Off  | 00000000:3B:00.0 Off |                    0 |
| N/A   33C    P0    29W / 165W |      0MiB / 24258MiB |     14%      Default |
|                               |                      |             Disabled |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces