In [1]:
#==============================================================================================
# 기존 bert vocab에 새로운 도메인 vocab만들어서 추가하기
#
# =>기존 pre-trained bert vocab에는 전문단어 domain이 없다(예:문서중앙화, COVID 등)  
# 따라서 전문 domain을 기존 bert vocab에 추가해야 한다.
# => 따라서 여기서는 mecab(한국어 형태로 분석기)를 이용하여, 추가 vocab을 만들고, 
# bert wordpiecetokenzer에 추가하는 방법에 대해 설명한다
# 
# 참고 자료 
# https://github.com/piegu/language-models/blob/master/nlp_how_to_add_a_domain_specific_vocabulary_new_tokens_to_a_subword_tokenizer_already_trained_like_BERT_WordPiece.ipynb
# https://medium.com/@pierre_guillou/nlp-how-to-add-a-domain-specific-vocabulary-new-tokens-to-a-subword-tokenizer-already-trained-33ab15613a41
# https://wikidocs.net/64517
#
# [과정]
# 1) 도메인 말뭉치(예:kowiki.txt)에서 mecab을 이용하여 형태소 분석하여 단어들을 추출함.
#   => mecab으로 형태소 혹은 명사만 분할하면서, subword 앞에는 '##' prefix 추가함(**ertwordpiece subword와 동일하게)
# 2) NLTK 빈도수 계산하는 FreqDist()를 이용하여, 단어들이 빈도수 계산
# 3) 상위 빈도수(예:30000)를 가지는 단어들만 add_vocab.txt 로 만듬
# 4) 기존 bert vocab.txt 파일에 직접, add_vocab.txt 토큰들 추가(*이때 중복 제거함)
# 5) 추가한 vocab을 가지고, tokenizer 생성하고, special 토큰 추가 후, 저장
#
# **원래 참고자료에는 tokenizer.add_tokens() 으로 추가하면, added_tokens.json 파일에 추가되는데, 
# 이때 BertTokenizer.from_pretrained() 함수로 호출할때, 호출이 안됨(**이유 모름:엄청 느려지는것 같음)
# => 따라서 직접 vocab.txt에 추가하는 방법을 사용함
#==============================================================================================
import konlpy
from konlpy.tag import Mecab
from tqdm.notebook import tqdm
from nltk import FreqDist
import numpy as np
import torch
from transformers import BertTokenizer

In [2]:
# wiki_20190620.txt 말뭉치 불러옴.
corpus = '../korpora/kowiki_20190620/wiki_20190620.txt'
#corpus = '../korpora/kowiki_20190620/wiki_20190620_small.txt'

with open(corpus, 'r', encoding='utf-8') as f:
    data = f.read().split(' ') # 공백으로 구분해서 단어들을 추출함

print(data[:3])
print(len(data))

['제임스', '얼', '"지미"']
43783339


In [3]:
# mecab 형태소 분석기를 이용하여, 읽어온 말뭉치를 단어,조사등으로 분리함
# => 불용어는 제거함
# => mecab으로 형태소 분할하면서, subword 앞에는 prefix '##' 추가함

# Mecab 선언
mecab = Mecab()

# 불용어 정의
stopwords=['이','가','께서','에서','이다','의','을','를','에','에게','께','와','에서', 
           '라고', '과','은', '는', '부터','.',',', '_']

# Ture = nouns(명사)만 추출, False=형태소 추출
nouns = True

In [4]:
'''
total_morph=[]
for sentence in tqdm(data):
    temp = mecab.morphs(sentence)
    temp = [word for word in temp if not word in stopwords] # 불용어 제거
    total_morph.append(temp)
'''
# mecab으로 형태소 혹은 명사만 분할할때, subword 앞에는 prefix '##' 추가함
total_words=[]

# 명사만 추출하는 경우
if nouns == True:
    for words in tqdm(data):
        count=0

        for word in mecab.nouns(words):
            if not word in stopwords:
                tmp = word

                if count > 0:
                    tmp = "##" + tmp  ## subword 앞에는 prefix '##' 추가함
                    total_words.append(tmp)  
                else:
                    total_words.append(tmp)  
                    count += 1
# 형태소도 포함하여 추출하는 경우
else:
    
    for words in tqdm(data):
        count=0

        for word in mecab.morphs(words):
            if not word in stopwords:
                tmp = word

                if count > 0:
                    tmp = "##" + tmp  ## subword 앞에는 prefix '##' 추가함
                    total_words.append(tmp)  
                else:
                    total_words.append(tmp)  
                    count += 1
                
print(total_words[:20])
print(f'총 단어 수: {len(total_words)}')

  0%|          | 0/43783339 [00:00<?, ?it/s]

['제임스', '얼', '지미', '카터', '주니어', '민주당', '출신', '미국', '번', '대통령', '지미', '카터', '조지아주', '섬터', '카운티', '플', '##레인스', '마을', '공과', '##대학교']
총 단어 수: 40479100


In [5]:
# FreqDist를 이용하여 빈도수 계산(*오래걸림)
vocab = FreqDist(np.hstack(total_words))

print('단어 집합의 크기 : {}'.format(len(vocab)))

# 최대 빈도수 가장높은 500개만 뽑아봄
print(vocab.most_common(500))

# 특정 단어의 빈도수를 뽑아봄
#print(vocab['미국'])


단어 집합의 크기 : 367039
[('년', 785772), ('월', 399363), ('것', 371028), ('일', 361400), ('수', 241798), ('##년', 237837), ('그', 155094), ('등', 152632), ('때', 126433), ('중', 116365), ('사용', 114881), ('후', 109502), ('이후', 95227), ('개', 93090), ('말', 91918), ('번', 88053), ('때문', 87041), ('시작', 82608), ('미국', 81315), ('사람', 76305), ('세', 74809), ('경우', 72749), ('지역', 70527), ('일본', 67279), ('명', 67069), ('기록', 65720), ('위', 64338), ('전', 62406), ('경기', 61580), ('다음', 60499), ('이름', 60194), ('시', 59094), ('세계', 57161), ('하나', 54882), ('당시', 53746), ('뒤', 52992), ('국가', 52477), ('만', 51251), ('대한민국', 50991), ('차', 48779), ('활동', 48687), ('선수', 47477), ('사이', 46564), ('조선', 46177), ('팀', 43399), ('포함', 43278), ('위치', 43067), ('시즌', 42418), ('한국', 42147), ('현재', 40753), ('모두', 40648), ('가능', 40579), ('신의', 40451), ('영국', 40361), ('등의', 39763), ('내', 39171), ('정부', 38319), ('주장', 38290), ('처음', 38055), ('존재', 37586), ('중국', 37549), ('대', 37219), ('점', 36434), ('정도', 36423), ('리그', 36326), ('전쟁', 36248), 

In [6]:
# 상위 10000 개만 보존
vocab_size = 50000
vocab1 = vocab.most_common(vocab_size)

vocab_len = len(vocab1)
print('*단어 집합의 크기 : {}'.format(vocab_len))
print('*마지막 단어 정보 : {}'.format(vocab1[vocab_len-1]))

*단어 집합의 크기 : 50000
*마지막 단어 정보 : ('음악당', 50)


In [None]:

'''
import seaborn as sns
import pandas as pd
vocab2 = vocab.most_common(10)

all_fdist = pd.Series(dict(vocab2))
fig, ax = plt.subplots(figsize=(10,10))
## Seaborn plotting using Pandas attributes + xtick rotation for ease of viewing
all_plot = sns.barplot(x=all_fdist.index, y=all_fdist.values, ax=ax)
plt.xticks(rotation=30);
'''

In [7]:
# vocab을 list로 만듬
new_vocab = []
for index, word in tqdm(enumerate(vocab1)):
    new_vocab.append(word[0])  # fword[0] 하면 단어만 추출
    
# 리스트 출력해봄
print(new_vocab[50:70])
#print(vocab['음악당'])


0it [00:00, ?it/s]

['모두', '가능', '신의', '영국', '등의', '내', '정부', '주장', '처음', '존재', '중국', '대', '점', '정도', '리그', '전쟁', '독일', '##군', '호', '데']


In [8]:
# new_vocab을 파일로 저장함
new_vocab_out = 'new_vocab.txt'
with open(new_vocab_out, 'w', encoding='utf-8') as f:
    for word in tqdm(new_vocab):
        f.write(word+'\n')

  0%|          | 0/50000 [00:00<?, ?it/s]

In [9]:
# new_vocab 파일을 불러옴.
new_vocab_out = 'new_vocab.txt'

# 2차 불용어 정의
stopwords=['##다', '##하', '있', '##고', '##로', '##한', '##적', '##되', '##었', '##_']

new_vocab = []
with open(new_vocab_out, 'r', encoding='utf-8') as f:
    data = f.read().split('\n')

for word in tqdm(data):
    if not word in stopwords:  # 2차 불용어는 제외
        new_vocab.append(word)
        
print(new_vocab[0:10])

  0%|          | 0/50001 [00:00<?, ?it/s]

['년', '월', '것', '일', '수', '##년', '그', '등', '때', '중']


In [10]:
# 원래 vocab 리스트로 읽어옴
org_vocab_out = '../model/bert/bert-multilingual-cased/vocab/vocab.txt'
org_vocab = []

with open(org_vocab_out, 'r', encoding='utf-8') as f:
    data = f.read().split('\n')
    
for vocab in tqdm(data):
     org_vocab.append(vocab)

print(len(org_vocab))
print(org_vocab[1111:1115])

  0%|          | 0/119547 [00:00<?, ?it/s]

119547
['વ', 'શ', 'ષ', 'સ']


In [11]:
# 신규 vocab 리스트에서 원본 vocab 리스트 중복값을 제거
#temp = list(set(new_vocab) - set(org_vocab)) #순서 보존이 안됨
    
#또는

s = set(org_vocab)
temp = [x for x in new_vocab if x not in s] #순서 보존됨    

vocablist = org_vocab + temp  #원본 리스트 + 중복제가한 신규리스트 2개의 리스트를 합침

print(len(vocablist))
print(vocablist[1111:1115])

167538
['વ', 'શ', 'ષ', 'સ']


In [14]:
# 리스트를 파일로 저장
outfilepath = 'add_new_vocab.txt'
with open(outfilepath, 'w') as f:
    f.write('\n'.join(vocablist))
    
print('vocab 파일"{}" 추가 성공!. 출력 vocab 파일 : "{}"'.format(new_vocab_out, outfilepath))

vocab 파일"new_vocab.txt" 추가 성공!. 출력 vocab 파일 : "add_new_vocab.txt"


In [15]:
# 저장된 add_new_vocab.txt를 불러와서 special 토큰 추가함
tokenizer = BertTokenizer(vocab_file=outfilepath, 
                          strip_accents=False, 
                          do_lower_case=False)

special_tokens=['[BOS]', '[EOS]', '[UNK0]', '[UNK1]', '[UNK2]', '[UNK3]', '[UNK4]', '[UNK5]', '[UNK6]', '[UNK7]', '[UNK8]', '[UNK9]',
                '[unused0]', '[unused1]', '[unused2]', '[unused3]', '[unused4]', '[unused5]', '[unused6]', '[unused7]', '[unused8]', '[unused9]',]

special_tokens_dict = {'additional_special_tokens': special_tokens}
tokenizer.add_special_tokens(special_tokens_dict)

# special token 체크
print(tokenizer.all_special_tokens)

['[UNK]', '[SEP]', '[PAD]', '[CLS]', '[MASK]', '[BOS]', '[EOS]', '[UNK0]', '[UNK1]', '[UNK2]', '[UNK3]', '[UNK4]', '[UNK5]', '[UNK6]', '[UNK7]', '[UNK8]', '[UNK9]', '[unused0]', '[unused1]', '[unused2]', '[unused3]', '[unused4]', '[unused5]', '[unused6]', '[unused7]', '[unused8]', '[unused9]']


In [16]:
# special token 추가한 special vocab을 저장함
import os
OUT_PATH = 'new_vocab_nouns'
os.makedirs(OUT_PATH, exist_ok=True)
tokenizer.save_pretrained(OUT_PATH)

('new_vocab_nouns/tokenizer_config.json',
 'new_vocab_nouns/special_tokens_map.json',
 'new_vocab_nouns/vocab.txt',
 'new_vocab_nouns/added_tokens.json')

In [None]:
'''
#=============================================================================================
# add_tokens으로 추가하면, BertTokenizer.from_pretrained() 함수로 호출할때, 호출이 안됨(**이유 모름)
# => 따라서 직접 vocab.txt에 추가하는 방법을 사용함
#=============================================================================================

# 기존 bert tokenizer 로딩
vocab_path = '../model/bert/bert-multilingual-cased/vocab'
tokenizer = BertTokenizer.from_pretrained(vocab_path)
print(f'*기존 vocab 수: {len(tokenizer)}')

# 기존 bert tokenizer에 신규 vocab 추가함 
new_token_num = tokenizer.add_tokens(new_vocab)
print(f'*신규 vocab 수: {len(tokenizer)}')
print(f'*추가된 vocab: {new_token_num}')

# 추가된 tokenizer 저장
# => 추가된 token들은 added_tokens.json에 저장된다.
import os
OUT_PATH = 'new_vocab_nouns'
os.makedirs(OUT_PATH, exist_ok=True)
tokenizer.save_pretrained(OUT_PATH)
'''