In [11]:
import transformers
import numpy as np
import torch
import copy
from torch.utils.data import Dataset

from myutils import seed_everything, TextDatasetForNextSentencePrediction, GPU_info, mlogging
from transformers import BertTokenizer, BertModel, BertTokenizerFast, BertConfig, AutoModelWithLMHead
from transformers import DataCollatorForLanguageModeling, TextDataset
import tokenizers
from tokenizers import (ByteLevelBPETokenizer,
                        CharBPETokenizer,
                        SentencePieceBPETokenizer,
                        BertWordPieceTokenizer)


In [12]:
input_corpus = "my_data/문서중앙화.txt"
input_model_path = "model/kobertmodel" 
vocab_file="Tokenizer/kobert/kobert_new_0208_1.model"

ouput_model_dir = "model/model_0210_1"

# 훈련용 변수
batch_size = 64   # 128로 하면, GPU Out of memory 발생함(=>**따라서 64로 진행)
train_epochs = 10
 # embedding size 최대 몇 token까지 input으로 사용할 것인지 지정(기본:512) 512, 1024, 2048 식으로 지정함, 엄청난 장문을 다룰경우 10124까지
max_position_embeddings = 256 
logging_steps = 1  # 훈련시, 로깅할 step 수 (크면 10000번 정도하고, 작으면 100번정도)
save_steps = 1     # 10000 step마다 모델 저장
save_total_limit = 1 # 마지막 3개 모델 빼고 과거 모델은 삭제(100000번째마다 모델 저장하는데, 마지감 3개 빼고 나머지는 삭제)

# NSP 관련 변수
NSP_block_size = 140


In [13]:
cuda = GPU_info()
print(cuda)

#seed 설정
seed_everything(111)

#logging 설정
logger = mlogging(loggername="senfpt", logfilname="senfpt")

True
device: cuda:0
cuda index: 0
gpu 개수: 1
graphic name: NVIDIA A30
cuda:0


In [26]:
sentencepiece_tokenizer = SentencePieceBPETokenizer(add_prefix_space = True,)  #add_prefix_space = True이면 문장 맨 앞 단어에도 공배 부여함
sentencepiece_tokenizer.train(files = input_corpus, 
                             vocab_size = 50,
                             min_frequency = 1,
                             )

vocab = sentencepiece_tokenizer.get_vocab()
sorted(vocab, key=lambda x: vocab[x])

out_dir = 'Tokenizer'
out_name = 'testsp'
sentencepiece_tokenizer.save_model(out_dir, out_name)








In [34]:
json_file = 'Tokenizer/testsp-vocab.json'
#json_file = 'Tokenizer/kobert/kobert_news_wiki_ko_cased-ae5711deb3.spiece'

merge_file = 'Tokenizer/testsp-merges.txt'

spload = SentencePieceBPETokenizer(vocab = json_file, merges = merge_file)

spload.encode('안녕하세요..반갑습니다').tokens

['▁', '안', '<unk>', '하', '세', '요', '.', '.', '<unk>', '<unk>', '습', '니', '다']

In [35]:
train_dataset = TextDataset(tokenizer=spload, file_path=input_corpus, block_size=128, overwrite_cache=False)



TypeError: num_special_tokens_to_add() got an unexpected keyword argument 'pair'

In [None]:
if input_model_path:
    # further pre-training 인 경우 (기존 거에 추가적으로 하는 경우)
    config = BertConfig.from_pretrained(input_model_path)
    model = AutoModelWithLMHead.from_pretrained(input_model_path,
                                                from_tf=bool(".ckpt" in input_model_path),
                                                config=config)
else:
    # Training new model from scratch 인 경우 (완전 새롭게 모델을 만드는 경우)
    model = AutoModelWithLMHead.from_config(config)
    
model.num_parameters()


In [None]:
vocab = nlp.vocab.BERTVocab.from_sentencepiece(vocab_file, padding_token="[PAD]")
tokenizer = nlp.data.BERTSPTokenizer(vocab_file, vocab, lower=False)

In [None]:
from tqdm.notebook import tqdm

file_path="my_data/문서중앙화.txt"
datalist = []

# [bong] total_line 수를 구함
with open(file_path, encoding="utf-8") as f:
    total_line = len(f.readlines())
    # [bong] 총 라인수 출력
    print('*total_line: {}'.format(total_line))
    
with open(file_path, encoding="utf-8") as f:
    for idx in tqdm(range(total_line)): 
        line = f.readline()
        if not line:
            # [bong] 총 라인수 읽기 끝
            print('*readline=>count: {} End!'.format(scount))
            break
        line = line.strip() # 필수!!!!
        datalist.append([line]) #2차원으로 묶어야 함
        
print(datalist[0:35])

In [None]:

class MyDataset(Dataset):
    def __init__(self, dataset, sent_idx, bert_tokenizer, max_len, pad, pair, Masktokenids=0):
        
        self.mydatalist = []
        
        transform = nlp.data.BERTSentenceTransform(bert_tokenizer, max_seq_length=max_len, pad=pad, pair=pair)
       
        #self.sentences = [transform([i[sent_idx]]) for i in dataset]  #기존 코드
        for i in dataset:
            # transformedat 리턴값 으로는 token_ids, valid_length, token_type_id(segments_ids) 3개가 리턴됨
            transformdata = transform([i[sent_idx]]) 
            #print(transformdata[0])
            
            # tokeni_ids, token_type_id, attentison_mask, label 등을 얻어오고, tensor로 변환
            token_ids = transformdata[0]
            valid_length = transformdata[1]
            token_type_id = transformdata[2]
            labels = copy.deepcopy(transformdata[0]) # *[bong] label를 token_ids 값을 deepcopy하여, 생성
            
            # token_ids 에 대해 MLM 생성
            if Masktokenids != 0:
                
                #token_ids에 15% 확률로 [MASK] 붙임  
                rand = torch.rand(token_ids.shape)
                # 0,1,2,3 은 각각 특수 토큰이므로, 특수 토큰에는 [MASK]를 하지 않음
                mask_arr = (rand < 0.15)*(token_ids != 0)*(token_ids != 1)*(token_ids != 2)*(token_ids != 3)
                #print(mask_arr)

                # MASK 붙일 위치를 배열로 변환
                selection = torch.flatten((mask_arr).nonzero()).tolist()
                #print('MASK Position: {}'.format(selection))

                # [MASK] 토큰(4) 으로 변경
                token_ids[selection] = Masktokenids
            
              
            token_ids_tensor = torch.Tensor([token_ids])
            token_type_id_tensor = torch.Tensor([token_type_id])
            labels_tensor = torch.Tensor([labels])
            attention_mask_tensor = self.gen_attention_mask(token_ids_tensor, [valid_length])# attention_mask 설정
            
           
            # dict 로 만듬.
            mydict = {'inputs_ids':token_ids_tensor, 'token_type_ids':token_type_id_tensor, 'attention_mask':attention_mask_tensor, 'labels':labels_tensor} 
            #mydict = {'inputs_ids':token_ids_tensor, 'token_type_ids':token_type_id_tensor, 'attention_mask':attention_mask_tensor} 
            # list에 추가 
            self.mydatalist.append(mydict)
            
    # attenton_mask 생성 함수
    def gen_attention_mask(self, token_ids, valid_length):
        attention_mask = torch.zeros_like(token_ids)
        for i, v in enumerate(valid_length):
              attention_mask[i][:v] = 1
        return attention_mask.float()


    def __getitem__(self, i):
        return (self.mydatalist[i] )

    def __len__(self):
        return (len(self.mydatalist))  

In [None]:
class MyTokenidsDataset(Dataset):
    def __init__(self, dataset, sent_idx, bert_tokenizer, max_len, pad, pair, Masktokenids=0):
        
        self.mydatalist = []
        
        transform = nlp.data.BERTSentenceTransform(bert_tokenizer, max_seq_length=max_len, pad=pad, pair=pair)
       
        #self.sentences = [transform([i[sent_idx]]) for i in dataset]  #기존 코드
        for i in dataset:
            # transformedat 리턴값 으로는 token_ids, valid_length, token_type_id(segments_ids) 3개가 리턴됨
            transformdata = transform([i[sent_idx]]) 
            #print(transformdata[0])
            
            # tokeni_ids, token_type_id, attentison_mask, label 등을 얻어오고, tensor로 변환
            token_ids = transformdata[0]
            labels = copy.deepcopy(transformdata[0]) # *[bong] label를 token_ids 값을 deepcopy하여, 생성   
              
            # token_ids 에 대해 MLM 생성
            if Masktokenids != 0:
                
                #token_ids에 15% 확률로 [MASK] 붙임  
                rand = torch.rand(token_ids.shape)
                # 0,1,2,3 은 각각 특수 토큰이므로, 특수 토큰에는 [MASK]를 하지 않음
                mask_arr = (rand < 0.15)*(token_ids != 0)*(token_ids != 1)*(token_ids != 2)*(token_ids != 3)
                #print(mask_arr)

                # MASK 붙일 위치를 배열로 변환
                selection = torch.flatten((mask_arr).nonzero()).tolist()
                #print('MASK Position: {}'.format(selection))

                # [MASK] 토큰(4) 으로 변경
                token_ids[selection] = Masktokenids
                
            token_ids_tensor = torch.Tensor([token_ids])
            labels_tensor = torch.Tensor([labels])
                
            # dict 로 만듬.
            mydict = {'inputs_ids':token_ids_tensor, 'labels':labels_tensor} 
            # list에 추가 
            self.mydatalist.append(mydict)
            
    # attenton_mask 생성 함수
    def gen_attention_mask(self, token_ids, valid_length):
        attention_mask = torch.zeros_like(token_ids)
        for i, v in enumerate(valid_length):
              attention_mask[i][:v] = 1
        return attention_mask.float()


    def __getitem__(self, i):
        return (self.mydatalist[i] )

    def __len__(self):
        return (len(self.mydatalist))  

In [None]:
max_len=128
datalen = len(datalist)
#print(datalen)

transform_data = MyTokenidsDataset(datalist[0:datalen], 0, tokenizer, max_len, True, False, 3) # 맨뒤에 3는 [MASK]토큰 id임
#print(len(transform_data))


In [None]:
#train_dataset = MyTokenidsDataset(datalist[0:datalen], 0, tokenizer, max_len, True, False) # 맨뒤에 3는 [MASK]토큰 id임

train_dataset = TextDataset(tokenizer=tokenizer, file_path=input_corpus, block_size=128, overwrite_cache=False)

In [None]:
'''
import copy
for i in range(len(transform_data)):
    token_ids = transform_data[i][0]
    print(token_ids)
    label = copy.deepcopy(token_ids)
#    valid_length = transform_data[i][1]
#    segment_ids = transform_data[i][2]
    #label = trainsform_data[i][0]
    #print(token_ids)
'''    

In [None]:
print(transform_data[0:2])

In [None]:
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir=ouput_model_dir,
    overwrite_output_dir=True,
    num_train_epochs=train_epochs,
    per_gpu_train_batch_size=batch_size,
    save_steps=save_steps,    # step 수마다 모델을 저장
    save_total_limit=save_total_limit, # 마지막 두 모델 빼고 과거 모델은 삭제
    logging_steps=logging_steps
)

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=transform_data,  #MLM(Masked Language Model)
    train_dataset=train_dataset   #NSP(Next Setence Predictions)
)

In [None]:
trainer.train()