# TAPT-Pretraining 

### 외부 데이터셋을 활용하여 나만의 conversationBERT를 만들어보세요 ! 🤗

Pretrained BERT + 추가 데이터를 활용한 Pretraining 

* 본 코드는 Huggingface와 BERT 저자 코드를 기반으로 작성되었습니다

In [113]:
!pip install transformers==4.5.1

Collecting transformers==4.5.1
  Downloading transformers-4.5.1-py3-none-any.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 1.9 MB/s eta 0:00:01
Collecting tokenizers<0.11,>=0.10.1
  Downloading tokenizers-0.10.2-cp37-cp37m-manylinux2010_x86_64.whl (3.3 MB)
[K     |████████████████████████████████| 3.3 MB 7.7 MB/s eta 0:00:01
Installing collected packages: tokenizers, transformers
  Attempting uninstall: tokenizers
    Found existing installation: tokenizers 0.9.3
    Uninstalling tokenizers-0.9.3:
      Successfully uninstalled tokenizers-0.9.3
  Attempting uninstall: transformers
    Found existing installation: transformers 3.5.1
    Uninstalling transformers-3.5.1:
      Successfully uninstalled transformers-3.5.1
Successfully installed tokenizers-0.10.2 transformers-4.5.1


In [1]:
import os
import time
import random
import pickle
import numpy as np
from tqdm import tqdm
from filelock import FileLock

import json
import pandas as pd
import numpy as np
from korean_preprocessor import *

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import Dataset

from transformers import BertTokenizer, BertConfig, BertForPreTraining
from transformers import DataCollatorForLanguageModeling
from transformers.utils import logging

from transformers import Trainer, TrainingArguments
from transformers import EarlyStoppingCallback # transformers 4.5.1에서 가능


logger = logging.get_logger(__name__)

In [2]:
# set seed 
# reference : https://hoya012.github.io/blog/reproducible_pytorch/
def set_seed(random_seed):
    torch.manual_seed(random_seed)
    torch.cuda.manual_seed(random_seed)
    torch.cuda.manual_seed_all(random_seed)  # for multi-GPU
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
    np.random.seed(random_seed)
    random.seed(random_seed)
    
set_seed(42) 

### ♻ Raw data preprocessing
1. tweeter_dialogue : xlsx
2. speech : trn
3. office_dialogue : json
4. KETI_dialogue : txt

txt로 전처리

In [8]:
#띄어쓰기 검사
#!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-s5sjiqew
  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-s5sjiqew
Collecting tensorflow==2.4.0
  Downloading tensorflow-2.4.0-cp37-cp37m-manylinux2010_x86_64.whl (394.7 MB)
[K     |████████████████████████████████| 394.7 MB 16 kB/s s eta 0:00:01    |█▌                              | 19.0 MB 17.4 MB/s eta 0:00:22     |█▉                              | 22.3 MB 17.4 MB/s eta 0:00:22     |██                              | 24.5 MB 17.4 MB/s eta 0:00:22     |██▎                             | 28.5 MB 17.4 MB/s eta 0:00:22     |██▍                             | 29.6 MB 17.4 MB/s eta 0:00:21     |██▌                             | 30.7 MB 20.5 MB/s eta 0:00:18     |███▋                            | 44.2 MB 20.5 MB/s eta 0:00:18     |█████                           | 63.0 MB 97.1 MB/s eta 0:00:04     |████████▍ 

In [117]:
#맞춤법 검사
#!pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-3g5n5a1y
  Running command git clone -q https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-3g5n5a1y
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25ldone
[?25h  Created wheel for py-hanspell: filename=py_hanspell-1.1-py3-none-any.whl size=4853 sha256=79283f5035d9fd97653d2c2b110b27e88fa4ef76aacdc80b08f41ba21cf799bf
  Stored in directory: /tmp/pip-ephem-wheel-cache-pdq13hh4/wheels/ab/f5/7b/d4124bb329c905301baed80e2ae45aa14e824f62ebc3ec2cc4
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1


In [9]:
# `!pip install opnpyxl
url = '/opt/ml/input/data/bert_dataset/raw/'
file_name = ['tweeter_dialogue.xlsx', 'KETI_dialogue_daily.txt', 'KETI_dialogue_emergency.txt', 'output_ daily_1st.json', 'output_daily_2nd.json', 'output_daily_3rd.json', 'output_task.json', 'speech_dev.trn', 'speech_eval_clean.trn', 'speech_eval_other.trn', 'speech_train.trn']
for name in tqdm(file_name[1:3]):
    text = []
    #1. tweeter_dialogue
    if 'tweeter' in name:
        text = pd.read_excel(url + name, header=None)
    #2. KETI
    elif 'KETI' in name:
        with open(url + name, 'r') as texts:
            for t in texts:
                text.append(t)
    #3.output
    elif 'output' in name:
        with open(url + name, 'r') as t:
            json_text = json.load(t)
            print(len(json_text))
            for i in json_text:
                if i['user_utterance'] != "null":
                    text.append(i['user_utterance'])
                if i['system_utterance'] != "null":
                    text.append(i['system_utterance'])
    else:
        with open(url + name, 'r') as t:
            for i in t:
                #print(i, type(i))
                text.append(i.split('::')[1])
text = pd.DataFrame(text)
text

100%|██████████| 2/2 [00:00<00:00, 140.62it/s]


Unnamed: 0,0
0,﻿1\t﻿아빠가 숨을 잘 못쉬어요.\n
1,2\t그래요. 주소가 어떻게 되나요?\n
2,3\t한남동 123번지 고마스빌딩이예요.\n
3,4\t가슴에 통증이 있는지 물어봐줄래요?\n
4,5\t있다고 해요. 이런경우는 처음이래요.\n
...,...
4970,2\t네 말씀하세요. \n
4971,3\t버스 안에서 할머니 한분이 쓰러졌어요. \n
4972,4\t지금 학생 상태가 어떤가요?\n
4973,5\t숨을 안쉬고 있어서 어떤 분이 CPR을 하고 계세요. \n


In [80]:
train_data_file = "/opt/ml/input/data/train_dataset/train_dials.json"
dev_data_file = "/opt/ml/input/data/eval_dataset/eval_dials.json"

def load_WOS(url):
    with open(url, 'r') as t:
        json_text = json.load(t)
        text = []
        for turn in json_text:
            for dialogue in turn['dialogue']:
                text.append(dialogue['text'])
    return text

text = load_WOS(dev_data_file) + load_WOS(train_data_file)
len(text)

132032

In [82]:
a = delete_nan(text)

AttributeError: 'list' object has no attribute 'fillna'

In [83]:
b = split_text(text)
b

['안녕하세요.',
 '적당한 가격대의 스파가 가능한 호텔을 찾아주세요.',
 '안녕하세요.',
 '원하시는 지역이 있으세요?',
 '지역 상관없이 찾아주세요.',
 '4곳이 검색되었습니다.',
 '그중 평점이 가장 높은 행복 호텔을 추천드리는데 어떠세요?',
 '좋아요.',
 '화요일에 2일동안 4명 예약될까요?',
 '네 가능합니다.',
 '예약 도와드릴까요?',
 '예약해 주세요.',
 '예약번호는 IDUJ3입니다.',
 '같은 지역에 관광지도 있을까요?',
 '선호하시는 관광 종류가 있으신가요?',
 '종류는 상관없습니다.',
 '8곳이 검색되었습니다.',
 '역에서도 가까운 롯데월드 아쿠아리움을 추천드리는데 어떠세요?',
 '좋네요.',
 '그곳의 입장 비용은 얼마인가요?',
 '4000원입니다.',
 '궁금증이 다 해결되셨나요?',
 '네 감사합니다.',
 '네 감사합니다.',
 '즐거운 하루 보내세요.',
 '친구들이랑 갈 일식당 예약 좀 할게요.',
 '서울 중앙쪽에 가격은 상관없으니까 맛있는 곳으로 부탁드려요.',
 '안녕하세요?',
 '규동이 대표 메뉴로 평가도 좋은 곳입니다.',
 '네 예약할게요.',
 '월요일 12시 34분에 10명이거든요.',
 '가능한가요?',
 '원하시는대로 예약되셨습니다.',
 '더 필요한 건 없으세요?',
 '인터넷되고 비싼 호텔로 찾아주세요.',
 '죄송하지만 식당에 주차는 불가로 확인됩니다.',
 '그 중 명동역에서 가깝고 평점도 높은 프리미어 호텔은 어떠세요?',
 '네 거기로 할게요.',
 '식당 예약한 날부터 4일이구요.',
 '인원도 같은데 예약되나요?',
 '네 가능합니다.',
 '말씀주신대로 진행해드렸습니다.',
 '질문 있으세요?',
 '아 걸어서 갈 수 있는지랑 흡연 가능한지도 확인 부탁드려요.',
 '네 도보 가능합니다.',
 '흡연은 불가로 확인되네요.',
 '알겠습니다.',
 '그 담에 서울 북쪽에 아무거나 문화와 예술관련해서 괜찮은 곳 좀 찾아주세요.',
 '안국역쪽의 국립현대미술관 서울

In [90]:
c = remove_repeated_space(b)
c

['안녕하세요.',
 '적당한 가격대의 스파가 가능한 호텔을 찾아주세요.',
 '안녕하세요.',
 '원하시는 지역이 있으세요?',
 '지역 상관없이 찾아주세요.',
 '4곳이 검색되었습니다.',
 '그중 평점이 가장 높은 행복 호텔을 추천드리는데 어떠세요?',
 '좋아요.',
 '화요일에 2일동안 4명 예약될까요?',
 '네 가능합니다.',
 '예약 도와드릴까요?',
 '예약해 주세요.',
 '예약번호는 IDUJ3입니다.',
 '같은 지역에 관광지도 있을까요?',
 '선호하시는 관광 종류가 있으신가요?',
 '종류는 상관없습니다.',
 '8곳이 검색되었습니다.',
 '역에서도 가까운 롯데월드 아쿠아리움을 추천드리는데 어떠세요?',
 '좋네요.',
 '그곳의 입장 비용은 얼마인가요?',
 '4000원입니다.',
 '궁금증이 다 해결되셨나요?',
 '네 감사합니다.',
 '네 감사합니다.',
 '즐거운 하루 보내세요.',
 '친구들이랑 갈 일식당 예약 좀 할게요.',
 '서울 중앙쪽에 가격은 상관없으니까 맛있는 곳으로 부탁드려요.',
 '안녕하세요?',
 '규동이 대표 메뉴로 평가도 좋은 곳입니다.',
 '네 예약할게요.',
 '월요일 12시 34분에 10명이거든요.',
 '가능한가요?',
 '원하시는대로 예약되셨습니다.',
 '더 필요한 건 없으세요?',
 '인터넷되고 비싼 호텔로 찾아주세요.',
 '죄송하지만 식당에 주차는 불가로 확인됩니다.',
 '그 중 명동역에서 가깝고 평점도 높은 프리미어 호텔은 어떠세요?',
 '네 거기로 할게요.',
 '식당 예약한 날부터 4일이구요.',
 '인원도 같은데 예약되나요?',
 '네 가능합니다.',
 '말씀주신대로 진행해드렸습니다.',
 '질문 있으세요?',
 '아 걸어서 갈 수 있는지랑 흡연 가능한지도 확인 부탁드려요.',
 '네 도보 가능합니다.',
 '흡연은 불가로 확인되네요.',
 '알겠습니다.',
 '그 담에 서울 북쪽에 아무거나 문화와 예술관련해서 괜찮은 곳 좀 찾아주세요.',
 '안국역쪽의 국립현대미술관 서울

In [91]:
d = remove_dup_sent(c)

In [86]:
e = spacing_sent(d)

  0%|          | 102/120705 [00:05<1:49:59, 18.28it/s]


KeyboardInterrupt: 

In [87]:
f = spell_check_sent(e)
f

NameError: name 'texts' is not defined

In [92]:
#최소 길이 지정
g = minimize_text(d, 3)
g

['안녕하세요.',
 '적당한 가격대의 스파가 가능한 호텔을 찾아주세요.',
 '원하시는 지역이 있으세요?',
 '지역 상관없이 찾아주세요.',
 '4곳이 검색되었습니다.',
 '그중 평점이 가장 높은 행복 호텔을 추천드리는데 어떠세요?',
 '좋아요.',
 '화요일에 2일동안 4명 예약될까요?',
 '네 가능합니다.',
 '예약 도와드릴까요?',
 '예약해 주세요.',
 '예약번호는 IDUJ3입니다.',
 '같은 지역에 관광지도 있을까요?',
 '선호하시는 관광 종류가 있으신가요?',
 '종류는 상관없습니다.',
 '8곳이 검색되었습니다.',
 '역에서도 가까운 롯데월드 아쿠아리움을 추천드리는데 어떠세요?',
 '좋네요.',
 '그곳의 입장 비용은 얼마인가요?',
 '4000원입니다.',
 '궁금증이 다 해결되셨나요?',
 '네 감사합니다.',
 '즐거운 하루 보내세요.',
 '친구들이랑 갈 일식당 예약 좀 할게요.',
 '서울 중앙쪽에 가격은 상관없으니까 맛있는 곳으로 부탁드려요.',
 '안녕하세요?',
 '규동이 대표 메뉴로 평가도 좋은 곳입니다.',
 '네 예약할게요.',
 '월요일 12시 34분에 10명이거든요.',
 '가능한가요?',
 '원하시는대로 예약되셨습니다.',
 '더 필요한 건 없으세요?',
 '인터넷되고 비싼 호텔로 찾아주세요.',
 '죄송하지만 식당에 주차는 불가로 확인됩니다.',
 '그 중 명동역에서 가깝고 평점도 높은 프리미어 호텔은 어떠세요?',
 '네 거기로 할게요.',
 '식당 예약한 날부터 4일이구요.',
 '인원도 같은데 예약되나요?',
 '말씀주신대로 진행해드렸습니다.',
 '질문 있으세요?',
 '아 걸어서 갈 수 있는지랑 흡연 가능한지도 확인 부탁드려요.',
 '네 도보 가능합니다.',
 '흡연은 불가로 확인되네요.',
 '알겠습니다.',
 '그 담에 서울 북쪽에 아무거나 문화와 예술관련해서 괜찮은 곳 좀 찾아주세요.',
 '안국역쪽의 국립현대미술관 서울관 확인됩니다.',
 '네 좋아요.',
 '여긴 주차 여부랑 평점 

In [93]:
h = open("/opt/ml/input/data/bert_dataset/"+ 'WOS_dataset' +'.txt', 'w') #file_name[1].split('_')[0]
for ele in g:
    h.write(ele+'\n')
h.close()

### ✅ 사용한 데이터셋들 
KETI, output, speech, tweeter dataset, WOS dataset

총 837914개 중복되지 않은 3글자이상의 데이터

In [3]:
#여러분이 사용하실 적절한 데이터셋을 불러오셔야합니다 !
from glob import glob
import random
import pandas as pd
random.seed(42)
def korean_data_loader(urls):
    ret = []
    for url in urls:
        df = pd.read_csv(url, header=None)
        for sent in df[0].values:
            ret.append(sent)
        ret.append('$$$')
    return ret

def train_dev_split(data):
    train, dev = [], []
    ret = []
    for sent in data:
        ret.append(sent + ' \n')
        if sent == '$$$':
            random.shuffle(ret)
            train += ret + ['\n']
            dev += ret[:len(ret)//10] + ['\n']
            ret = []
    return train[:-1], dev[:-1]

urls = glob('/opt/ml/input/data/bert_dataset/*.txt')
dataset = korean_data_loader(urls)
train_data, dev_data = train_dev_split(dataset)

# with open('/opt/ml/input/data/bert_dataset/preprocessed/train_data.pickle', 'wb') as f:
#     pickle.dump(train_data, f, pickle.HIGHEST_PROTOCOL)
# with open('/opt/ml/input/data/bert_dataset/preprocessed/dev_data.pickle', 'wb') as f:
#     pickle.dump(dev_data, f, pickle.HIGHEST_PROTOCOL)
# with open('/opt/ml/input/data/bert_dataset/preprocessed/train_data.txt', 'w') as f:
#     for i, ele in enumerate(train_data):
#         if ele == '\n':
#         f.write(ele)
with open('/opt/ml/input/data/bert_dataset/preprocessed/dev_data.txt', 'w') as f:
    for i,ele in enumerate(dev_data):
        if ele == '\n':
            print(i)
        f.write(ele)
with open('/opt/ml/input/data/bert_dataset/preprocessed/train_data.txt', 'w') as f:
    for i,ele in enumerate(train_data):
        if ele == '\n':
            print(i)
        f.write(ele)
print(len(dev_data))
print(len(train_data))

323
2226
14282
81336
3237
22267
142823
813359
83961
839608


In [4]:
######### dataset 추가
train_data_file = "/opt/ml/input/data/bert_dataset/preprocessed/train_data.txt"
dev_data_file = "/opt/ml/input/data/bert_dataset/preprocessed/dev_data.txt"

## Pretraining Dataset

Pretraining을 위한 Dataset을 정의합니다.

1. 본 데이터셋은 Document 데이터셋을 기준으로 정의되어 있습니다. (각 문장 사이는 \n으로, document 사이는 \n\n으로 구분되어 있습니다) 해당 데이터셋 클래스를 구한 데이터셋에 맞춰 변경해주세요. 
    👉🏻 예시 : `data = ['sentence1 \n', 'sentence2 \n', 'setence3 \n' ,'\n' , 'sentence4 \n', 'sentence5 \n', 'sentence6 \n', '\n' ....]`


2. 현재 데이터셋은 Next Sentence Prediction을 위한 전처리 과정도 포함되어 있습니다. MLM만을 이용하여 pretraining을 진행할 경우 해당 부분을 제거하고 사용하시면 됩니다.


In [5]:
class TextDatasetForNextSentencePrediction(Dataset):
    def __init__(
        self,
        tokenizer,
        file_path,
        block_size,
        overwrite_cache=False,
        short_seq_probability=0.1,
        nsp_probability=0.5,
    ):
        assert os.path.isfile(file_path), f"Input file path {file_path} not found"

        self.block_size = block_size - tokenizer.num_special_tokens_to_add(pair=True)
        self.short_seq_probability = short_seq_probability
        self.nsp_probability = nsp_probability

        directory, filename = os.path.split(file_path)
        cached_features_file = os.path.join(
            directory,
            "cached_nsp_{}_{}_{}".format(
                tokenizer.__class__.__name__,
                str(block_size),
                filename,
            ),
        )

        self.tokenizer = tokenizer

        lock_path = cached_features_file + ".lock"

        # Input file format:
        # (1) One sentence per line. These should ideally be actual sentences, not
        # entire paragraphs or arbitrary spans of text. (Because we use the
        # sentence boundaries for the "next sentence prediction" task).
        # (2) Blank lines between documents. Document boundaries are needed so
        # that the "next sentence prediction" task doesn't span between documents.
        #
        # Example:
        # I am very happy.
        # Here is the second sentence.
        #
        # A new document.
        
        
        # ✅ 캐시 형태로 파일을 저장합니다 
        with FileLock(lock_path):
            print('캐시 형태로 파일을 저장합니다')
            if os.path.exists(cached_features_file) and not overwrite_cache:
                start = time.time()
                with open(cached_features_file, "rb") as handle:
                    self.examples = pickle.load(handle)
                logger.info(
                    f"Loading features from cached file {cached_features_file} [took %.3f s]",
                    time.time() - start,
                )
            else:
                print(f"Creating features from dataset file at {directory}")
                logger.info(f"Creating features from dataset file at {directory}")
                # Make dataset
                self.documents = [[]]

                # ✅ 기존 코드엔 progress bar가 없어서 추가하였습니다 : 공식코드는 TQDM이 없음 -> pbar로 걸어주자
                cnt = 0
                count_data = len(open(file_path, "r", errors="ignore").readlines())

                pbar = tqdm(total=count_data)
                with open(file_path, encoding="utf-8") as f:
                    while True:  
                        line = f.readline()
                        if not line:
                            break
                        line = line.strip()
                        if not line and len(self.documents[-1]) != 0:
                            self.documents.append([])
                        tokens = tokenizer.tokenize(line)
                        tokens = tokenizer.convert_tokens_to_ids(tokens)
                        if tokens:
                            self.documents[-1].append(tokens)
                        pbar.update(1)
                pbar.close()

                logger.info(f"Creating examples from {len(self.documents)} documents.")
                print("document length : ", len(self.documents))
                self.examples = []

                for doc_index, document in enumerate(tqdm(self.documents)):
                    self.create_examples_from_document(document, doc_index)  

                start = time.time()
                with open(cached_features_file, "wb") as handle:
                    pickle.dump(self.examples, handle, protocol=pickle.HIGHEST_PROTOCOL)
                logger.info(
                    "Saving features into cached file %s [took %.3f s]",
                    cached_features_file,
                    time.time() - start,
                )

    def create_examples_from_document(self, document, doc_index):
        """Creates examples for a single document."""
        max_num_tokens = self.block_size - self.tokenizer.num_special_tokens_to_add(
            pair=True
        )

        # We *usually* want to fill up the entire sequence since we are padding
        # to `block_size` anyways, so short sequences are generally wasted
        # computation. However, we *sometimes*
        # (i.e., short_seq_prob == 0.1 == 10% of the time) want to use shorter
        # sequences to minimize the mismatch between pretraining and fine-tuning.
        # The `target_seq_length` is just a rough target however, whereas
        # `block_size` is a hard limit.

        target_seq_length = max_num_tokens
        if random.random() < self.short_seq_probability:
            target_seq_length = random.randint(2, max_num_tokens)

        current_chunk = []  # a buffer stored current working segments
        current_length = 0
        i = 0
        
        # ✅ NSP를 위한 Preprocessing : NSP가 필요없다면, 이 부분을 제외해주세요 
        while i < len(document):
            segment = document[i]
            current_chunk.append(segment)
            current_length += len(segment)
            if i == len(document) - 1 or current_length >= target_seq_length:
                if current_chunk:
                    # `a_end` is how many segments from `current_chunk` go into the `A`
                    # (first) sentence.
                    a_end = 1
                    if len(current_chunk) >= 2:
                        a_end = random.randint(1, len(current_chunk) - 1)
                    tokens_a = []
                    for j in range(a_end):
                        tokens_a.extend(current_chunk[j])
                    tokens_b = []
                    if (
                        len(current_chunk) == 1
                        or random.random() < self.nsp_probability
                    ):
                        is_random_next = True
                        target_b_length = target_seq_length - len(tokens_a)

                        # This should rarely go for more than one iteration for large
                        # corpora. However, just to be careful, we try to make sure that
                        # the random document is not the same as the document
                        # we're processing.
                        for _ in range(10):
                            random_document_index = random.randint(
                                0, len(self.documents) - 1
                            )
                            if random_document_index != doc_index:
                                break
                        random_document = self.documents[random_document_index]
                        random_start = random.randint(0, len(random_document) - 1)
                        for j in range(random_start, len(random_document)):
                            tokens_b.extend(random_document[j])
                            if len(tokens_b) >= target_b_length:
                                break
                        # We didn't actually use these segments so we "put them back" so
                        # they don't go to waste.
                        num_unused_segments = len(current_chunk) - a_end
                        i -= num_unused_segments
                    else:
                        is_random_next = False
                        for j in range(a_end, len(current_chunk)):
                            tokens_b.extend(current_chunk[j])

                    def truncate_seq_pair(tokens_a, tokens_b, max_num_tokens):
                        """Truncates a pair of sequences to a maximum sequence length."""
                        while True:
                            total_length = len(tokens_a) + len(tokens_b)
                            if total_length <= max_num_tokens:
                                break
                            trunc_tokens = (
                                tokens_a if len(tokens_a) > len(tokens_b) else tokens_b
                            )
                            assert len(trunc_tokens) >= 1
                            # We want to sometimes truncate from the front and sometimes from the
                            # back to add more randomness and avoid biases.
                            if random.random() < 0.5:
                                del trunc_tokens[0]
                            else:
                                trunc_tokens.pop()

                    truncate_seq_pair(tokens_a, tokens_b, max_num_tokens)

                    assert len(tokens_a) >= 1
                    assert len(tokens_b) >= 1

                    # add special tokens
                    input_ids = self.tokenizer.build_inputs_with_special_tokens(
                        tokens_a, tokens_b
                    )
                    # add token type ids, 0 for sentence a, 1 for sentence b
                    token_type_ids = (
                        self.tokenizer.create_token_type_ids_from_sequences(
                            tokens_a, tokens_b
                        )
                    )
                    
                    # ✅ 데이터가 저장되는 형태     
                    example = {
                        "input_ids": torch.tensor(input_ids, dtype=torch.long),
                        "token_type_ids": torch.tensor(
                            token_type_ids, dtype=torch.long
                        ),
                        "next_sentence_label": torch.tensor(
                            1 if is_random_next else 0, dtype=torch.long
                        ),
                    }

                    # ✅ 주의 : 이렇게 append 하는 방식은 대용량 corpus에서 메모리 이슈를 불러올 수 있습니다 ! 
                    self.examples.append(example)

                current_chunk = []
                current_length = 0

            i += 1

    def __len__(self):
        return len(self.examples)

    def __getitem__(self, i):
        return self.examples[i]

## Dataset

In [11]:
tokenizer = BertTokenizer.from_pretrained('kykim/bert-kor-base')

# for dataset
train_dataset = TextDatasetForNextSentencePrediction(
    tokenizer=tokenizer,
    file_path=train_data_file,
    block_size=256,
    overwrite_cache=False,
    short_seq_probability=0.1,
    nsp_probability=0.5,
)

dev_dataset = TextDatasetForNextSentencePrediction(
    tokenizer=tokenizer,
    file_path=dev_data_file,
    block_size=256,
    overwrite_cache=False,
    short_seq_probability=0.1,
    nsp_probability=0.5,
)

캐시 형태로 파일을 저장합니다
캐시 형태로 파일을 저장합니다


In [12]:
print(len(train_dataset))
print(len(dev_dataset))

35434
3549


In [14]:
tokenizer.decode(train_dataset[0].get('input_ids'))

'[CLS] 911 입니다. [SEP] 군인 한 명이 황소를 잡으려다 다리 안쪽을 심하게 찔렸어요. 지금 숨쉬기를 너무 힘들어 하세요. 악어가 사람을 물었어요. 옷도 지저분한 사람이 서울 방향을 물었어요. 배수로 작업 중에 기 차가 들어와 작업인부를 쳤습니다. 5살이요. 서빙고 초등학교 뒤쪽이요. 시체를 발견하셨다고요? 조금만 기 다려주세요. 2 cu 매장이요. 윗집에서 이상한 냄새가 나요. 어떤 사람이 절 죽이려고 해요. 강도가 몇 명이였나요? 버스에 노인 2명이 치였거든요? 트럭이 사람들을 향해 돌진하고 있어요. 혹시 나이가 어떻게 되세요? 10년 전에 납치가 되셨다고 하셨죠? 지금 남성은 어디로 갔나요? 어떻게 유출이 됬나요? 어떻게 당하셨나요? 연기 때문에 앞을 볼 수가 없어요. 지금 119 출동했습니다. 검은색 옷을 입은 남자가 떠 있는 것을 발견했어요. 사고난 위치 좀 알수 있을까요? 국민은행 위치가 어디신데요? 목을 심하게 다치신 것 같아요. 현장 실습 중이던 학생이 떨어졌어요. 사람을 치었거든요. 임산부 한 명이 크레인에 깔렸어요. mt 게임을 하다가 초코파이가 목에 막혀서 쓰러졌어요. 어떻게 올라가고 있나요? 집에서 친구가 자살을 했어요. 배가 침몰하고 있어요. 네 집 안에서 보고 있습니다. 어디로 보내면 될까요? [SEP]'

# Pretraining Model

## 모델 및 데이터 Collator 정의

In [15]:
config = BertConfig.from_pretrained('kykim/bert-kor-base')
config.model_name_or_path = 'kykim/bert-kor-base'
##gaet == 5 
config.n_gate = 5
config.proj_dim = None

model = BertForPreTraining(config=config)

In [16]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# ✅ [MASK] 과정은 Huggingface collator 따름
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer, mlm=True, mlm_probability=0.15
)

## Trainer 정의

In [17]:
n_epochs = 10

training_args = TrainingArguments(
    output_dir='./checkpoints',
    learning_rate=4e-4,
    overwrite_output_dir=True,
    num_train_epochs=n_epochs,
    per_gpu_train_batch_size=30, # 서버에 맞게 설정
    save_steps=2000,
    save_total_limit=10, # 메모리 생각해서 알아서 조절 !
    logging_steps=2000,
    load_best_model_at_end=True,
    evaluation_strategy="epoch",  # `epoch`: Evaluate every end of epoch. / mlm평가는 loss로 하는게 편함 
)

early_stopping = EarlyStoppingCallback(
    early_stopping_patience=20, early_stopping_threshold=0.0001
)
trainer = Trainer(
    callbacks=[early_stopping], # callback사용을 위해 필요한 argument
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
    eval_dataset=dev_dataset,
)

## Pretraining

In [18]:
trainer.train()

trainer.save_model("./checkpoints/final_bert_model")

Using deprecated `--per_gpu_train_batch_size` argument which will be removed in a future version. Using `--per_device_train_batch_size` is preferred.
Using deprecated `--per_gpu_train_batch_size` argument which will be removed in a future version. Using `--per_device_train_batch_size` is preferred.
Using deprecated `--per_gpu_train_batch_size` argument which will be removed in a future version. Using `--per_device_train_batch_size` is preferred.
Using deprecated `--per_gpu_train_batch_size` argument which will be removed in a future version. Using `--per_device_train_batch_size` is preferred.
[34m[1mwandb[0m: Currently logged in as: [33mbongjinkim[0m (use `wandb login --relogin` to force relogin)


Epoch,Training Loss,Validation Loss,Runtime,Samples Per Second
1,No log,8.242788,24.6249,144.122
2,8.288700,8.231514,24.3593,145.694
3,8.288700,8.220776,24.3436,145.788
4,8.230100,8.206586,24.138,147.03
5,8.230100,8.24976,24.1787,146.782
6,8.220600,8.214318,24.1847,146.745
7,8.212600,8.219191,24.1411,147.011
8,8.212600,8.204929,24.1543,146.931
9,8.207200,8.21984,24.0286,147.699
10,8.207200,8.200818,24.1623,146.882


In [20]:
glob('/opt/ml/code/checkpoints/final_bert_model/*')

['/opt/ml/code/checkpoints/final_bert_model/training_args.bin',
 '/opt/ml/code/checkpoints/final_bert_model/config.json',
 '/opt/ml/code/checkpoints/final_bert_model/pytorch_model.bin']

In [21]:
#config 확인
with open('/opt/ml/code/checkpoints/final_bert_model/config.json') as f:
    conf = json.load(f)
conf

{'_name_or_path': './checkpoints/checkpoint-11820',
 'architectures': ['BertForPreTraining'],
 'attention_probs_dropout_prob': 0.1,
 'directionality': 'bidi',
 'embedding_size': 768,
 'gradient_checkpointing': False,
 'hidden_act': 'gelu',
 'hidden_dropout_prob': 0.1,
 'hidden_size': 768,
 'initializer_range': 0.02,
 'intermediate_size': 3072,
 'layer_norm_eps': 1e-12,
 'max_position_embeddings': 512,
 'model_name_or_path': 'kykim/bert-kor-base',
 'model_type': 'bert',
 'n_gate': 5,
 'num_attention_heads': 12,
 'num_hidden_layers': 12,
 'pad_token_id': 0,
 'pooler_fc_size': 768,
 'pooler_num_attention_heads': 12,
 'pooler_num_fc_layers': 3,
 'pooler_size_per_head': 128,
 'pooler_type': 'first_token_transform',
 'position_embedding_type': 'absolute',
 'proj_dim': None,
 'transformers_version': '4.5.1',
 'type_vocab_size': 2,
 'use_cache': True,
 'vocab_size': 42000}

In [22]:
!mv /opt/ml/code/checkpoints/final_bert_model/* /opt/ml/code/dst_kor_bert

In [23]:
from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("BonjinKim/dst_kor_bert")
model = AutoModel.from_pretrained("BonjinKim/dst_kor_bert")

HBox(children=(FloatProgress(value=0.0, description='Downloading', max=919.0, style=ProgressStyle(description_…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=344259.0, style=ProgressStyle(descripti…




HBox(children=(FloatProgress(value=0.0, description='Downloading', max=475823670.0, style=ProgressStyle(descri…




Exception: WordPiece error: Missing [UNK] token from the vocabulary