# 038. Hugging Face Tokenizer Training from Scratch

## 0. 단어 사전 기반 한국어 tokenizer

In [33]:
# !pip install KoNLPy

In [38]:
from konlpy.tag import Okt

okt = Okt()
sentences = [
    "코로나가 심하다",
    "코비드-19가 심하다",
    '아버지가방에들어가신다',
    '아버지가 방에 들어가신다'
]

for sent in sentences:
    print(okt.morphs(sent))

['코로나', '가', '심하다']
['코', '비드', '-', '19', '가', '심하다']
['아버지', '가방', '에', '들어가신다']
['아버지', '가', '방', '에', '들어가신다']


- Okt 사전에 미등록된 단어의 경우 정확한 tokenizing 이 안된다.

In [17]:
okt.pos('너무너무너무는 나카무라세이코가 불러 크게 히트한 노래입니다')

[('너무', 'Adverb'),
 ('너무', 'Adverb'),
 ('너', 'Modifier'),
 ('무', 'Noun'),
 ('는', 'Josa'),
 ('나카무라', 'Noun'),
 ('세이', 'Noun'),
 ('코', 'Noun'),
 ('가', 'Josa'),
 ('불러', 'Verb'),
 ('크게', 'Noun'),
 ('히트', 'Noun'),
 ('한', 'Josa'),
 ('노래', 'Noun'),
 ('입니다', 'Adjective')]

예를 들어 `너무너무너무`와 `나카무라세이코`는 하나의 단어이지만, okt 사전에 등록되어 있지 않아 여러 개의 복합단어로 나뉘어집니다. 이러한 문제를 해결하기 위하여 형태소 분석기와 품사 판별기들은 사용자 사전 추가 기능을 제공합니다. 사용자 사전을 추가하여 모델의 vocabulary 를 풍부하게 만드는 것은 사용자의 몫입니다.

1. okt 공식 문서를 참고해서 사용사 사전을 추가.
2. okt를 패키징하고, konlpy에서 사용할 수 있도록 konlpy/java 경로에 jar 파일을 복사.
3. 기존에 참고하고 있던 okt.jar 대신 새로운 okt.jar를 사용하도록 설정.
4. konlpy 소스 경로를 import 해서 형태소 분석.

# 1. Keras Tokenizer - rule-based
- 공백 또는 구둣점으로 분리

In [18]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

tokenizer = Tokenizer(num_words=100, oov_token='<OOV>')  # 빈도수 상위 100 개로 구성

sentences = [
    'I love my dog',
    'I love my cat',
    'You love my dog!',
    'I was born in Korea and graduaged University in USA.',
    '너무너무너무는 나카무라세이코가 불러 크게 히트한 노래입니다'
]

In [19]:
tokenizer.fit_on_texts(sentences)           
word_index = tokenizer.word_index
print(word_index)

{'<OOV>': 1, 'i': 2, 'love': 3, 'my': 4, 'dog': 5, 'in': 6, 'cat': 7, 'you': 8, 'was': 9, 'born': 10, 'korea': 11, 'and': 12, 'graduaged': 13, 'university': 14, 'usa': 15, '너무너무너무는': 16, '나카무라세이코가': 17, '불러': 18, '크게': 19, '히트한': 20, '노래입니다': 21}


# 2. Hugging Face tokenizers 

- 네 가지 토크나이저(Byte-level BPE, Character-level BPE, SentencePiece, Bert Tokenizer) 모두 BaseTokenizer 를 상속하며, 아래의 기능이 구현되어 있다.

    • get_vocab()  
    • add_tokens(), add_special_tokens()  
    • decode() / decode_batch()  
    • save() / save_model()   

### 2-1. WordPiece Tokenizer

In [49]:
from tokenizers import BertWordPieceTokenizer, SentencePieceBPETokenizer

In [50]:
with open("very_small_corpus.txt", "w") as f:
    f.write("ABCDE ABC AC ABD\n")
    f.write("DE AB ABC AF")

In [51]:
bert_wordpiece_tokenizer = BertWordPieceTokenizer(lowercase=True)

bert_wordpiece_tokenizer.train(
    files = ["very_small_corpus.txt"],
    vocab_size = 10,           #만드려는 vocab의 size (보통 32000)
    min_frequency = 1,         #merge를 수행할 최소 빈도수
    limit_alphabet = 1000,     #merge 수행 전 initial token에 유지되는 숫자 제한 ([UNK]를 줄이기 위해 큰 숫자 지정)
    initial_alphabet = ['g'],     #반드시 포함하고 싶은 alphabet
    special_tokens = ["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"],
    show_progress = True,
    wordpieces_prefix = "##"
)

In [52]:
vocab = bert_wordpiece_tokenizer.get_vocab()
print(vocab)

{'[MASK]': 4, 'a': 5, 'b': 6, '##f': 13, 'c': 7, 'd': 8, 'g': 11, '##b': 14, '##c': 15, '[PAD]': 0, '[SEP]': 3, 'e': 9, '[UNK]': 1, 'f': 10, '##e': 12, '[CLS]': 2, '##d': 16}


In [53]:
print(sorted(vocab, key=lambda x: vocab[x]))

['[PAD]', '[UNK]', '[CLS]', '[SEP]', '[MASK]', 'a', 'b', 'c', 'd', 'e', 'f', 'g', '##e', '##f', '##b', '##c', '##d']


### tokenize() 의 기능이 없고 대신 encode() 를 이용

In [54]:
encoding = bert_wordpiece_tokenizer.encode('ABCDE')

print(encoding.tokens)
print(encoding.ids)

['a', '##b', '##c', '##d', '##e']
[5, 14, 15, 16, 12]


### encode_batch 는 list of str 을 입력받아 list of Encoding 을 return

In [55]:
encoding = bert_wordpiece_tokenizer.encode_batch(['ABCDE', 'abcd'])

print([encoding[i].tokens for i in range(len(encoding))])
print([encoding[i].ids for i in range(len(encoding))])

[['a', '##b', '##c', '##d', '##e'], ['a', '##b', '##c', '##d']]
[[5, 14, 15, 16, 12], [5, 14, 15, 16]]


### save_model 을 이용하여 {directory}/{name}-vocab.txt 파일로 vocab 을 저장

In [56]:
bert_wordpiece_tokenizer.save_model(
    directory = './',
    prefix = 'very_small_bert_wordpiece'
)

['./very_small_bert_wordpiece-vocab.txt']

### pre-train 된 vocab 을 불러와 사용

In [57]:
bert_wordpiece_tokenizer = BertWordPieceTokenizer(
    vocab = 'very_small_bert_wordpiece-vocab.txt'
)

print(bert_wordpiece_tokenizer.encode('ABCD').tokens)
print(bert_wordpiece_tokenizer.encode('ABCD', add_special_tokens=False).tokens)

['[CLS]', 'a', '##b', '##c', '##d', '[SEP]']
['a', '##b', '##c', '##d']


### BERT 는 두 문장을 [SEP] 으로 구분하며 학습하기 때문에 pair 기능을 제공

In [58]:
encoding = bert_wordpiece_tokenizer.encode(
    sequence = 'abcde',
    pair = 'abcd'
)

print(encoding.tokens)
print(encoding.ids)

['[CLS]', 'a', '##b', '##c', '##d', '##e', '[SEP]', 'a', '##b', '##c', '##d', '[SEP]']
[2, 5, 14, 15, 16, 12, 3, 5, 14, 15, 16, 3]


### 2-2. SentencePieceBPE Tokenizer 

- SentencePiece 는 공백 뒤에 등장하는 단어 앞에 ▁ 를 붙여 실제 공백과 subwords 의 경계를 구분합니다.  


- add_prefix_space=True 이면 문장의 맨 앞 단어에도 공백을 부여, False 이면 공백없이 시작하는 단어에는 ▁ 를 붙이지 않습니다.

In [11]:
sentencepiece_tokenizer = SentencePieceBPETokenizer(add_prefix_space=True)

sentencepiece_tokenizer.train(
    files = ["very_small_corpus.txt"],
    vocab_size = 20,           
    min_frequency = 1,         
    special_tokens = ['[PAD]', '[UNK]', '[CLS]', '[SEP]', '[MASK]']
)

In [12]:
vocab = sentencepiece_tokenizer.get_vocab()
print(sorted(vocab, key=lambda x: vocab[x]))

['[PAD]', '[UNK]', '[CLS]', '[SEP]', '[MASK]', '\n', 'A', 'B', 'C', 'D', 'E', 'F', '▁', '▁A', '▁AB', '▁ABC', 'DE', 'D\n', '▁DE', '▁AC']


BPE 를 이용하는 토크나이저들은 `vocab.json` 과 `merges.txt` 두 개의 파일을 저장합니다.

학습된 토크나이저를 이용할 때에도 두 개의 파일을 모두 입력해야 합니다.

In [13]:
sentencepiece_tokenizer.save_model(
    directory = './',
    prefix = 'very_small_sentencepiece'
)

['./very_small_sentencepiece-vocab.json',
 './very_small_sentencepiece-merges.txt']

# 3. Google SentencePiece Tokenizer

- NAVER Movie rating data 를 이용한 sentencepiece tokenizer training

In [23]:
# !pip install -U sentencepiece

In [24]:
import tensorflow as tf
import pandas as pd
import sentencepiece as spm

DATA_TRAIN_PATH = tf.keras.utils.get_file("ratings_train.txt", 
        "https://github.com/ironmanciti/NLP_lecture/raw/master/data/naver_movie/ratings_train.txt")

- pandas.read_csv에서 quoting = 3으로 설정해주면 인용구(따옴표)를 무시

In [25]:
data = pd.read_csv(DATA_TRAIN_PATH, sep='\t', quoting=3)

print(data.shape)
data.head()

(150000, 3)


Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [26]:
data.isnull().sum()

id          0
document    5
label       0
dtype: int64

In [27]:
data.dropna(inplace=True)

data.shape

(149995, 3)

## 학습을 위해 text 를 따로 저장

In [28]:
with open('./nsmc_text.txt', 'w', encoding='utf-8') as f:
    for line in data.document.values:
        try:
            f.write(line + '\n')
        except:
            print("write error ---> ", line)

In [29]:
#write 가 잘 되었는지 확인
with open('./nsmc_text.txt', 'r', encoding='utf-8') as f:
    nsmc_txt = f.read().split('\n')
    
print(len(nsmc_txt))
print(nsmc_txt[0])

149996
아 더빙.. 진짜 짜증나네요 목소리


In [30]:
input_file = './nsmc_text.txt'
vocab_size = 30000
prefix = './nsmc_sentencepiece/nsmc'

templates = '--input={} --model_prefix={} --vocab_size={}'
cmd = templates.format(input_file, prefix, vocab_size)
cmd

'--input=./nsmc_text.txt --model_prefix=./nsmc_sentencepiece/nsmc --vocab_size=30000'

### sentencepiece tokenizer training

In [31]:
%%time
spm.SentencePieceTrainer.Train(cmd)

CPU times: user 1min 8s, sys: 806 ms, total: 1min 9s
Wall time: 15.4 s


In [32]:
sp = spm.SentencePieceProcessor()
sp.Load('{}.model'.format(prefix))

True

In [39]:
for t in data.document.values[:3]:
    print(t)
    print(sp.encode_as_pieces(t))
    print(sp.encode_as_ids(t), '\n') 

아 더빙.. 진짜 짜증나네요 목소리
['▁아', '▁더빙', '..', '▁진짜', '▁짜증나네요', '▁목소리']
[52, 752, 5, 25, 16031, 1401] 

흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나
['▁흠', '...', '포스터보고', '▁초딩영화', '줄', '....', '오버', '연기', '조차', '▁가볍지', '▁않', '구나']
[1243, 6, 12798, 18636, 406, 47, 18166, 397, 1131, 6426, 1079, 411] 

너무재밓었다그래서보는것을추천한다
['▁너무', '재', '밓', '었다', '그래서', '보는것', '을', '추천', '한다']
[17, 600, 21563, 629, 2751, 10753, 14, 2317, 295] 



In [41]:
lines = [
  "겨울이 되어서 날씨가 무척 추워요.",
  "이번 성탄절은 화이트 크리스마스가 될까요?",
  '아버지가방에들어가신다',
  '아버지가 방에 들어가신다'
]
for line in lines:
  pieces = sp.encode_as_pieces(line)
  ids = sp.encode_as_ids(line)
  print(line)
  print(pieces)
  print(ids)
  print()

겨울이 되어서 날씨가 무척 추워요.
['▁겨울', '이', '▁되어서', '▁날씨', '가', '▁무척', '▁추', '워', '요', '.']
[5441, 10, 7683, 23623, 12, 2404, 2450, 814, 67, 3]

이번 성탄절은 화이트 크리스마스가 될까요?
['▁이번', '▁성', '탄', '절', '은', '▁화이트', '▁크리스마스', '가', '▁될까', '요', '?']
[1623, 1119, 936, 1417, 18, 15787, 3080, 12, 10720, 67, 15]

아버지가방에들어가신다
['▁아버지가', '방', '에', '들어가', '신', '다']
[6165, 628, 16, 13129, 271, 23]

아버지가 방에 들어가신다
['▁아버지가', '▁방', '에', '▁들어가', '신', '다']
[6165, 1565, 16, 3875, 271, 23]

