In [None]:
# 참고 사이트 
# 참고소스1 : transformers huggingface mlm 사전 학습 예제
#   - https://github.com/huggingface/transformers/blob/master/examples/pytorch/language-modeling/run_mlm.py
#
# 참고소스2  : bert를 가지고 중국어 corpus로 추가학습시킨 예제
#    - https://github.com/zhusleep/pytorch_chinese_lm_pretrain 에 run_language_model_bert.py 
#      https://www.fatalerrors.org/a/further-pre-training-of-chinese-language-model-bert-roberta.html

import transformers
import numpy as np
import torch

import os
from os import sys
sys.path.append('..')
from myutils import seed_everything, TextDatasetForNextSentencePrediction, GPU_info, mlogging, MyTextDataset
from transformers import BertTokenizer, BertModel, BertTokenizerFast, BertConfig, AutoModelWithLMHead, BertForMaskedLM
from transformers import AutoTokenizer, DistilBertTokenizerFast, DistilBertForMaskedLM
from transformers import DataCollatorForLanguageModeling

In [None]:
# wand 비활성화 
# => trainer 로 훈련시키면 기본이 wandb 활성화이므로, 비활성화 시킴
os.environ["WANDB_DISABLED"] = "true"

device = GPU_info()
print(device)

#seed 설정
seed_everything(111)

#logging 설정
logger=mlogging(loggername="bertperplexityeval", logfilename="bertperplexityeval")

In [None]:
# 변수들 설정
#input_corpus = "Korpora/kowikitext/kowikitext_20200920.test"
input_corpus = "../../data11/my_corpus/bong_eval.txt"


input_model_path = "../../data11/model/distilbert/mdistilbertV2.0"
vocab_file="../../data11/model/distilbert/mdistilbertV2.0/vocab.txt"
ouput_model_dir = "../../data11/model/distilbert/mdistilbertV2.0-1"

'''
input_model_path = "model/bert-multilingual-cased"
vocab_file="model/bert-multilingual-cased/vocab/vocab.txt"
ouput_model_dir = "model/bert-multilingual-cased"
'''
'''
input_model_path = "model/bert-multilingual-cased_furter_pt_model_0216"
vocab_file="model/bert-multilingual-cased_furter_pt_model_0216/vocab/vocab.txt"
ouput_model_dir = "model/bert-multilingual-cased_furter_pt_model_0216"
'''
# 토큰활 할때 최대 길이 
token_max_len = 128

# 훈련용 변수
batch_size = 32   # 128로 하면, GPU Out of memory 발생함(=>**따라서 32로 진행)
 # embedding size 최대 몇 token까지 input으로 사용할 것인지 지정(기본:512) 512, 1024, 2048 식으로 지정함, 엄청난 장문을 다룰경우 10124까지
max_position_embeddings = 128 
logging_steps = 1  # 훈련시, 로깅할 step 수 (크면 10000번 정도하고, 작으면 100번정도)
save_steps = 1     # 10000 step마다 모델 저장
save_total_limit = 1 # 마지막 3개 모델 빼고 과거 모델은 삭제(100000번째마다 모델 저장하는데, 마지감 3개 빼고 나머지는 삭제)


In [None]:
# tokenizer 생성
# => BertTokenizer, BertTokenizerFast 둘중 사용하면됨
'''
tokenizer = BertTokenizer(vocab_file=vocab_file, 
                          max_len=token_max_len, 
                          do_lower_case=False)
'''
'''
#tokenizer = BertTokenizerFast(vocab_speical_path)
tokenizer = BertTokenizerFast(
    vocab_file=vocab_file,
    max_len=token_max_len,
    do_lower_case=False,
    )
'''    
tokenizer = DistilBertTokenizerFast(
    vocab_file=vocab_file,
    max_len=token_max_len,
    do_lower_case=False,
    )

# fast 토크너나이즈인지 확인
print(f'{vocab_file} is_fast:{tokenizer.is_fast}')

# speical 토큰 계수 + vocab 계수 - 이미 vocab에 포함된 speical 토큰 계수(5)
vocab_size = len(tokenizer.all_special_tokens) + tokenizer.vocab_size - 5 + 1
#vocab_size = len(tokenizer.all_special_tokens) + tokenizer.vocab_size - 5
print('special_token_size: {}, tokenizer.vocab_size: {}'.format(len(tokenizer.all_special_tokens), tokenizer.vocab_size))
print('vocab_size: {}'.format(vocab_size))
print('tokenizer_len: {}'.format(len(tokenizer)))

In [None]:
#output_hidden_states = False # 기본은 False=>output 2개 출력됨, True로 지정하면 output이 3개 출력됨
#return_dict = True   #False로 지정하는 경우 일반적인 tuple을 리턴, True인 경우는 transformers.file_utils.ModelOutput(ouput.logisc) 으로 리턴
#model = BertModel.from_pretrained(input_model_path, output_hidden_states = output_hidden_states, return_dict = return_dict)


# AutoModelForMaskedLM, BertForMaskedLM 
# further pre-training 인 경우 (기존 거에 추가적으로 하는 경우)
config = BertConfig.from_pretrained(input_model_path)
#model = BertForMaskedLM.from_pretrained(input_model_path, from_tf=bool(".ckpt" in input_model_path), config=config)
model = DistilBertForMaskedLM.from_pretrained(input_model_path, from_tf=bool(".ckpt" in input_model_path), config=config)

# 모델 embedding 사이즈를 tokenizer +1 크기 만큼 재 설정함.
# => 원래 크기를 tokenizer 사이즈 만큼만 설정하면되는데, kobert는 8002로 평가하면, 오류발생하므로 +1 정도 크게 설정함
model.resize_token_embeddings(len(tokenizer) + 1)
model.eval().to(device)

In [None]:
model.num_parameters()

In [None]:
#==================================================================================================
# load_dataset을 이용하여, 훈련/평가 dataset 로딩.
#
# [로컬 데이터 파일 로딩]
# => dataset = load_dataset("text", data_files='로컬.txt')       # text 로컬 파일 로딩
# => dataset = load_dataset("csv", data_files='로컬.csv')        # csv 로컬 파일 로딩
# => dataset = load_dataset("csv", data_files='로컬.tsv', delimiter="\t")  # tsv 로컬 파일 로딩
# => dataset = load_dataset("json", data_files='로컬.json')      # json 로컬 파일 로딩
# => dataset = load_dataset("pandas", data_files='로컬.pkl')     # pickled dataframe 로컬 파일 로딩
#
# [원격 데이터 파일 로딩]
# url = "https://github.com/crux82/squad-it/raw/master/"
# data_files = {
#    "train": url + "SQuAD_it-train.json.gz",
#    "test": url + "SQuAD_it-test.json.gz",
# }
# squad_it_dataset = load_dataset("json", data_files=data_files, field="data")
#
# 출처 : https://wikidocs.net/166816
#==================================================================================================

from datasets import load_dataset

# 평가 말뭉치 로딩
#train_dataset = load_dataset(input_corpus)
eval_dataset = load_dataset("text", data_files=input_corpus, split="train") # text 로컬 파일 로딩

# eval_dataset 출력해봄
print(f"eval_dataset========================================")
print(eval_dataset)

In [None]:
# eval_dataset 출력해봄
print(f"eval_dataset========================================")
print(eval_dataset)
print(eval_dataset['text'][0:3])

In [None]:
# tokenizer 처리
def tokenizer_function(examples):
    result =  tokenizer(examples['text'], truncation=True, max_length=token_max_len, return_overflowing_tokens=True)
    
    # 신규 인덱스와 이전 인덱스와의 매핑 추출
    sample_map = result.pop("overflow_to_sample_mapping")
    for key, values in examples.items():
        result[key] = [values[i] for i in sample_map]
    return result


# batched=True 하면 빠른 tokenizer 이용(Rust)
%time eval_dataset_fast = eval_dataset.map(tokenizer_function, batched=True)

'''
%time tokenized_dataset = text_dataset.map(tokenizer_function, batched=False)
print(tokenized_dataset_fast['train']['text'][0:2])
'''

In [None]:
print(f"eval_dataset_fast=======================================")
print(eval_dataset_fast)
print(f'*fast_len:{len(eval_dataset_fast)}, len:{len(eval_dataset)}')  # fast_dataset과 dataset 길이를 비교함
print(eval_dataset_fast[0:2])

In [None]:
# MLM을 위한 DataCollatorForLangunageModeling 호출
from transformers import DataCollatorForLanguageModeling

# input_ids에 대해 MLM 만들기
data_collator = DataCollatorForLanguageModeling(    # [MASK] 를 씌우는 것은 저희가 구현하지 않아도 됩니다! :-)
    tokenizer=tokenizer, mlm=True, mlm_probability=0.15
)

# input_ids MLM 만들고 출력 해봄
mlm_eval_sample = data_collator(eval_dataset_fast['input_ids'][0:2])

print(f"eval_dataset_fast(MLM)=======================================")
print(mlm_eval_sample['input_ids'][0])
print(eval_dataset_fast[0])

In [None]:
# load_metric 사용을 위해서는 datasets, sklearn 패키지 설치해야함
#!pip install datasets
#!pip install sklearn

# 참고 소스 : https://github.com/huggingface/transformers/blob/master/examples/pytorch/language-modeling/run_mlm.py

import datasets
from datasets import load_dataset, load_metric

def preprocess_logits_for_metrics1(logits, labels):
    return logits.argmax(dim=-1)

metric = load_metric("accuracy")

def compute_metrics(eval_preds):
    preds, labels = eval_preds
    # preds have the same shape as the labels, after the argmax(-1) has been calculated
    # by preprocess_logits_for_metrics
    labels = labels.reshape(-1)
    preds = preds.reshape(-1)
    mask = labels != -100
    labels = labels[mask]
    preds = preds[mask]
    return metric.compute(predictions=preds, references=labels)

In [None]:
from transformers import Trainer, TrainingArguments

# cpu 사용이면 'no_cuda = True' 설정함.
no_cuda = False
if device == 'cpu':
    no_cuda = True
print(f'*no_cuda: {no_cuda}')

training_args = TrainingArguments(
    no_cuda = no_cuda,                      # GPU 사용  안함
    output_dir=ouput_model_dir,
    per_device_eval_batch_size=batch_size
    #per_gpu_eval_batch_size=batch_size
)


eval_dataset_fast_input_ids = eval_dataset_fast['input_ids']

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,  #data
    eval_dataset=eval_dataset_fast_input_ids,
    compute_metrics=compute_metrics,
    preprocess_logits_for_metrics=preprocess_logits_for_metrics1
)

In [None]:
###################################################################
# 펄플렉서티(Perplexity, PPL) 로 성능 평가함 
# => PPL은 선택할 수 있는 가능한 경우의 수를 의미하는 분기계수(branching factor)입니다. 
#   PPL은 이 언어 모델이 특정 시점에서 평균적으로 몇 개의 선택지를 가지고 고민하고 있는지를 의미합니다. 
#  가령, 언어 모델에 어떤 테스트 데이터을 주고 측정했더니 PPL이 10이 나왔다고 해봅시다. 
#  그렇다면 해당 언어 모델은 테스트 데이터에 대해서 다음 단어를 예측하는 모든 시점(time step)마다 
#  평균 10개의 단어를 가지고 어떤 것이 정답인지 고민하고 있다고 볼 수 있습니다. 
#  같은 테스트 데이터에 대해서 두 언어 모델의 PPL을 각각 계산 후에 PPL의 값을 비교하면, 
#  두 언어 모델 중 PPL이 더 낮은 언어 모델의 성능이 더 좋다고 볼 수 있습니다.
###################################################################
eval_output = trainer.evaluate()

In [None]:
import math
import os
# Evaluation
results = {}

perplexity = math.exp(eval_output["eval_loss"])
result = {"perplexity": perplexity}

output_eval_file = os.path.join(ouput_model_dir, "eval_results_lm.txt")
with open(output_eval_file, "w") as writer:
    logger.info("***** Eval results *****")
    for key in sorted(result.keys()):
        logger.info("%s:  %s = %s", input_model_path, key, str(result[key]))
        writer.write("%s = %s\n" % (key, str(result[key])))

results.update(result)


In [None]:
# OUT OF MEMORY 에러면 GPU 사용량 체크
#!nvidia-smi