# 140.  각 tokenization algorithm 파악

## Huggin Face Tokenizers

- transformers에서는 tokenizer 학습 기능을 제공 않고, 모든 tokenizer는 pre-trained tokenizer라고 가정하므로 별도로 Hugging Face의 tokenizers를 이용하여 tokenizer를 학습해야 한다.

In [1]:
import tokenizers
tokenizers.__version__

'0.10.2'

# Hugging Face 가 제공하는 tokenizers

In [2]:
# print(dir(tokenizers))

In [3]:
# print(dir(tokenizers.BertWordPieceTokenizer))

## Byte-level BPE(Byte Pair Encoding) Tokenizer

- OpenAI GPT2에 사용된 tokenizer  

- 사전 토큰화 후 고유한 단어 세트가 생성되고 훈련 데이터에서 발생하는 각 단어의 빈도가 결정됩니다. 다음으로 BPE는 고유한 단어 집합에서 발생하는 모든 기호로 구성된 기본 어휘를 만들고 기본 어휘의 두 기호에서 새로운 기호를 형성하는 병합 규칙을 학습합니다. 어휘가 원하는 어휘 크기에 도달할 때까지 그렇게 합니다. 원하는 어휘 크기는 토크나이저를 훈련하기 전에 정의할 하이퍼파라미터입니다.

- Byte-level BPE 는 글자가 아닌 byte 기준으로 BPE 를 적용하기 때문에 1 byte 로 표현되는 글자 (알파벳, 숫자, 기호)만 형태가 보존됩니다.

- 모든 유니코드 문자는 기본 문자로 간주됩니다. 더 나은 기본 어휘를 갖기 위해 GPT-2는 바이트를 기본 어휘로 사용합니다. 이는 기본 어휘를 256 크기로 강제하면서 모든 기본 문자가 어휘에 포함되도록 하는 영리한 트릭입니다. 

- 구두점을 처리하기 위한 몇 가지 추가 규칙으로 GPT2의 토크나이저는 `<unk>` 기호 없이 모든 텍스트를 토큰화할 수 있습니다.


- GPT-2의 어휘 크기는 50,257이며, 이는 256바이트 기본 토큰, special end-of-text 토큰 및 50,000개의 병합으로 학습된 기호에 해당합니다.


- 띄어쓰기로 시작하는 단어 앞에 Ġ 를 prefix 로 부착합니다.

In [6]:
small_corpus = './data/very_small_alphabet_corpus.txt'
f = open('./data/very_small_alphabet_corpus.txt', 'r')
f.read()

'ABCDE ABC AC ABD\nDE AB ABC AF'

In [9]:
from tokenizers import ByteLevelBPETokenizer

bytebpe_tokenizer = ByteLevelBPETokenizer(add_prefix_space=True)

bytebpe_tokenizer.train(files = [small_corpus],
    vocab_size = 1000, min_frequency = 1)

vocab = bytebpe_tokenizer.get_vocab()
print(sorted(vocab, key=lambda x: vocab[x]))

['!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', '<', '=', '>', '?', '@', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '[', '\\', ']', '^', '_', '`', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '{', '|', '}', '~', '¡', '¢', '£', '¤', '¥', '¦', '§', '¨', '©', 'ª', '«', '¬', '®', '¯', '°', '±', '²', '³', '´', 'µ', '¶', '·', '¸', '¹', 'º', '»', '¼', '½', '¾', '¿', 'À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Æ', 'Ç', 'È', 'É', 'Ê', 'Ë', 'Ì', 'Í', 'Î', 'Ï', 'Ð', 'Ñ', 'Ò', 'Ó', 'Ô', 'Õ', 'Ö', '×', 'Ø', 'Ù', 'Ú', 'Û', 'Ü', 'Ý', 'Þ', 'ß', 'à', 'á', 'â', 'ã', 'ä', 'å', 'æ', 'ç', 'è', 'é', 'ê', 'ë', 'ì', 'í', 'î', 'ï', 'ð', 'ñ', 'ò', 'ó', 'ô', 'õ', 'ö', '÷', 'ø', 'ù', 'ú', 'û', 'ü', 'ý', 'þ', 'ÿ', 'Ā', 'ā', 'Ă', 'ă', 'Ą', 'ą', 'Ć', 'ć', 'Ĉ', 'ĉ', 'Ċ', 'ċ'

In [11]:
len(vocab)

265

In [10]:
bytebpe_tokenizer.encode('ABCDE ABC').tokens

['ĠABCDE', 'ĠABC']

## Bert WordPiece Tokenizer  

- BERT 에 사용된 tokenization 알고리즘  

- 일본어, 한국어등에도 적용 가능  

- WordPiece는 먼저 학습 데이터에 있는 모든 문자를 포함하도록 어휘를 초기화하고, 주어진 수의 병합 규칙을 점진적으로 학습합니다. BPE와 달리 WordPiece는 가장 빈번한 기호 쌍을 선택하지 않고 일단 어휘에 추가된 훈련 데이터의 가능성을 최대화하는 기호 쌍을 선택합니다.

Huggingface의 Tokenizer trainer는 학습시 다음과 같은 인자를 갖는다

min_frequency : merge를 수행할 최소 빈도수, 5로 설정 시 5회 이상 등장한 pair만 수행한다  
vocab_size: 만들고자 하는 vocab의 size, 보통 '32000' 정도가 좋다고 알려져 있다  
show_progress : 학습 진행과정 show  
special_tokens : Tokenizer에 추가하고 싶은 special token 지정  
limit_alphabet : merge 수행 전 initial tokens이 유지되는 숫자 제한  
initial_alphabet : 꼭 포함됐으면 하는 initial alphabet, 이곳에 설정한 token은 학습되지 않고 그대로 포함되도록 설정된다.

In [12]:
from tokenizers import BertWordPieceTokenizer

bert_wordpiece_tokenizer = BertWordPieceTokenizer()
# train tokenizer
bert_wordpiece_tokenizer.train(
    files = [small_corpus],
    vocab_size = 10,
    min_frequency = 1,
    limit_alphabet = 1000,
    initial_alphabet = [],
    special_tokens = ["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"],
    show_progress = True,
    wordpieces_prefix = "##",
)

vocab = bert_wordpiece_tokenizer.get_vocab()

print(vocab)
print()
print(sorted(vocab, key=lambda x: vocab[x]))

{'a': 5, 'e': 9, '##b': 11, 'd': 8, '##d': 12, '[MASK]': 4, '[PAD]': 0, '##c': 13, '[SEP]': 3, 'c': 7, '##f': 15, '[UNK]': 1, '[CLS]': 2, 'b': 6, 'f': 10, '##e': 14}

['[PAD]', '[UNK]', '[CLS]', '[SEP]', '[MASK]', 'a', 'b', 'c', 'd', 'e', 'f', '##b', '##d', '##c', '##e', '##f']


- encode() method를 이용하여 sentence를 tokenize

In [14]:
encoding = bert_wordpiece_tokenizer.encode('ABCDE ABC')
print(encoding.tokens)
print(encoding.ids)

['a', '##b', '##c', '##d', '##e', 'a', '##b', '##c']
[5, 11, 13, 12, 14, 5, 11, 13]


### 대문자 그대로 tokenize

- lowercase = False

In [15]:
bert_wordpiece_tokenizer = BertWordPieceTokenizer(lowercase = False)

bert_wordpiece_tokenizer.train(files=[small_corpus], vocab_size=10)

encoding = bert_wordpiece_tokenizer.encode('ABCDE')
print(encoding.tokens)
print(encoding.ids)

['A', '##B', '##C', '##D', '##E']
[5, 11, 12, 13, 14]


### vocab size 를 키우면 더 많은 subword 가 vocab으로 학습된다.

In [16]:
bert_wordpiece_tokenizer = BertWordPieceTokenizer()

bert_wordpiece_tokenizer.train(
    files = [small_corpus],
    vocab_size = 20,
    min_frequency = 1,
    initial_alphabet = ['g'],
)
vocab = bert_wordpiece_tokenizer.get_vocab()
print(sorted(vocab, key=lambda x: vocab[x]))

['[PAD]', '[UNK]', '[CLS]', '[SEP]', '[MASK]', 'a', 'b', 'c', 'd', 'e', 'f', 'g', '##c', '##f', '##b', '##d', '##e', 'ab', 'abc', 'ac']


### sentence 를 list 로 입력 받아 batch encoding

In [17]:
encodings = bert_wordpiece_tokenizer.encode_batch(['ABCDE', 'abcd'])

print(encodings[0].tokens)
print(encodings[1].tokens)

['abc', '##d', '##e']
['abc', '##d']


In [18]:
bert_wordpiece_tokenizer.save_model(
    directory = './huggingface_output',
    prefix='very_small_bertwordpiece'
)

['./huggingface_output/very_small_bertwordpiece-vocab.txt']

In [19]:
bert_wordpiece_tokenizer.encode('ABCDE ABC').tokens

['abc', '##d', '##e', 'abc']

### 저장했던 tokenizer 를 load 하여 사용

In [22]:
bert_wordpiece_tokenizer = BertWordPieceTokenizer(
    vocab = './huggingface_output/very_small_bertwordpiece-vocab.txt'
)

bert_wordpiece_tokenizer.encode('ABCDE ABC', add_special_tokens=True).tokens

['[CLS]', 'abc', '##d', '##e', 'abc', '[SEP]']

In [23]:
bert_wordpiece_tokenizer.encode('ABCDE ABC', add_special_tokens=False).tokens

['abc', '##d', '##e', 'abc']

### BertWordPieceTokenizer 는 두개의 문장을 pair 하는 기능 제공

- BERT 의 next sentence prediction 용도로 사용

In [25]:
bert_wordpiece_tokenizer.encode(
    sequence='abcde',
    pair = 'abcd'
).tokens

['[CLS]', 'abc', '##d', '##e', '[SEP]', 'abc', '##d', '[SEP]']

## SentencePiece BPE(Byte Pair Encoding) Tokenizer

- 지금까지 설명한 모든 토큰화 알고리즘에는 동일한 문제가 있습니다. 입력 텍스트가 공백을 사용하여 단어를 구분한다고 가정합니다. 그러나 모든 언어에서 공백을 사용하여 단어를 구분하는 것은 아닙니다. 중국어, 한국어, 일본어 및 태국어는 dictionary 형태의 형태소 분리기를 사용하여 문제를 해결합니다. 

- 이 문제를 보다 일반적으로 해결하기 위해 SentencePiece 는 입력을 원시 입력 스트림으로 처리하므로 사용할 문자 집합에 공백을 포함합니다. 그런 다음 BPE 알고리즘을 사용하여 적절한 어휘를 구성합니다.


- add_prefix_space=True 이면 문장의 맨 앞 단어에도 공백을 부여, False 이면 공백없이 시작하는 단어에는 ▁ 를 붙이지 않습니다.

In [27]:
from tokenizers import SentencePieceBPETokenizer

sentencepiece_tokenizer = SentencePieceBPETokenizer(add_prefix_space = True)
# tokenizer train
sentencepiece_tokenizer.train(
    files = [small_corpus],
    vocab_size = 20,
    min_frequency = 1,
    special_tokens = ['<unk>'],)

vocab = sentencepiece_tokenizer.get_vocab()

print(sorted(vocab, key=lambda x: vocab[x]))

['<unk>', '\n', 'A', 'B', 'C', 'D', 'E', 'F', '▁', '▁A', '▁AB', '▁ABC', 'DE', 'D\n', '▁DE', '▁AC', '▁AF', '▁ABD\n', '▁ABCDE']


In [28]:
sentencepiece_tokenizer = SentencePieceBPETokenizer(add_prefix_space = False)

sentencepiece_tokenizer.train(
    files = [small_corpus],
    vocab_size = 20,
    min_frequency = 1,
    special_tokens = ['<unk>'],)

vocab = sentencepiece_tokenizer.get_vocab()

print(sorted(vocab, key=lambda x: vocab[x]))

['<unk>', '\n', 'A', 'B', 'C', 'D', 'E', 'F', '▁', '▁A', '▁AB', 'DE', '▁ABC', 'AB', 'CDE', 'D\n', '▁AC', '▁AF', '▁ABD\n', 'ABCDE']


## Tokenizer alogorithm 별 결과 비교

- 동일한 코로나19 관련 뉴스를 학습하여 tokenizer 별 결과 비교

In [32]:
from tokenizers import (ByteLevelBPETokenizer,
                        SentencePieceBPETokenizer,
                        BertWordPieceTokenizer)

corpus_path = './data/2020-07-29_covid_news_sents.txt'
vocab_size = 3000

In [35]:
byte_level_bpe_tokenizer = ByteLevelBPETokenizer()
byte_level_bpe_tokenizer.train(files=[corpus_path], vocab_size=vocab_size)
byte_level_bpe_tokenizer.save_model(directory='./huggingface_output', prefix='ByteLevelBPETokenizer-covid')

['./huggingface_output/ByteLevelBPETokenizer-covid-vocab.json',
 './huggingface_output/ByteLevelBPETokenizer-covid-merges.txt']

In [36]:
sentencepiece_bpe_tokenizer = SentencePieceBPETokenizer()
sentencepiece_bpe_tokenizer.train(files=[corpus_path], vocab_size=vocab_size)
sentencepiece_bpe_tokenizer.save_model(directory='./huggingface_output', prefix='SentencePieceBPETokenizer-covid')

['./huggingface_output/SentencePieceBPETokenizer-covid-vocab.json',
 './huggingface_output/SentencePieceBPETokenizer-covid-merges.txt']

In [37]:
bert_wordpiece_tokenizer = BertWordPieceTokenizer()
bert_wordpiece_tokenizer.train(
    files=[corpus_path], vocab_size=vocab_size)
bert_wordpiece_tokenizer.save_model(
    directory='./huggingface_output', prefix='BertWordPieceTokenizer-covid')

['./huggingface_output/BertWordPieceTokenizer-covid-vocab.txt']

In [38]:
sent_ko = '신종 코로나바이러스 감염증(코로나19) 사태가 심각합니다'
tokenizers = [bert_wordpiece_tokenizer,
              sentencepiece_bpe_tokenizer,
              byte_level_bpe_tokenizer]

for tokenizer in tokenizers:
    encode_single = tokenizer.encode(sent_ko)
    print(f'\n{tokenizer.__class__.__name__}')
    print(f'tokens = {encode_single.tokens}')


BertWordPieceTokenizer
tokens = ['신종', '코로나바이러스', '감염증', '(', '코로나19', ')', '사태', '##가', '심', '##각', '##합니다']

SentencePieceBPETokenizer
tokens = ['▁신종', '▁코로나바이러스', '▁감염증(코로나19)', '▁사태', '가', '▁심', '각', '합', '니다']

ByteLevelBPETokenizer
tokens = ['ìĭłì¢ħ', 'Ġì½Ķë¡ľëĤĺë°ĶìĿ´ëŁ¬ìĬ¤', 'Ġê°ĲìĹ¼ì¦Ŀ', '(', 'ì½Ķë¡ľëĤĺ', '19', ')', 'ĠìĤ¬íĥľ', 'ê°Ģ', 'Ġìĭ¬', 'ê°ģ', 'íķ©ëĭĪëĭ¤']


## 학습한 토크나이저를 transformers 에서 이용

- transformers 라이브러리는 BertTokenizer 와 GPT2Tokenizer 를 별도로 제공  

- BertTokenizer 는 BertWordPieceTokenizer 와 동일  

- GPT2Tokenizer 는 ByteLevelBPETokenizer 와 동일

- 이를 확인하기 위해, 위에서 train 한 bert_wordpiece_tokenizer 및 byte_level_bpe_tokenizer 에 코로나 19 뉴스로 학습하여 저장한 vocab file을 load한 tokenizer의 tokenization 결과가 동일함을 확인

In [40]:
from transformers import BertTokenizer, GPT2Tokenizer
# train 된 tokenizer model load
transformers_bert_tokenizer = BertTokenizer(
    vocab_file = './huggingface_output/BertWordPieceTokenizer-covid-vocab.txt'
)
print(f'tokenizers  : {bert_wordpiece_tokenizer.encode(sent_ko).tokens}')
print(f'transformers: {transformers_bert_tokenizer.tokenize(sent_ko)}')

tokenizers  : ['신종', '코로나바이러스', '감염증', '(', '코로나19', ')', '사태', '##가', '심', '##각', '##합니다']
transformers: ['신종', '코로나바이러스', '감염증', '(', '코로나19', ')', '사태', '##가', '심', '##각', '##합니다']


In [45]:
transformers_gpt2_tokenizer = GPT2Tokenizer(
    vocab_file = './huggingface_output/ByteLevelBPETokenizer-covid-vocab.json',
    merges_file = './huggingface_output/ByteLevelBPETokenizer-covid-merges.txt'
)
print(f'tokenizers  : {byte_level_bpe_tokenizer.encode(sent_ko).tokens}')
print(f'transformers: {transformers_gpt2_tokenizer.tokenize(sent_ko)}')

tokenizers  : ['ìĭłì¢ħ', 'Ġì½Ķë¡ľëĤĺë°ĶìĿ´ëŁ¬ìĬ¤', 'Ġê°ĲìĹ¼ì¦Ŀ', '(', 'ì½Ķë¡ľëĤĺ', '19', ')', 'ĠìĤ¬íĥľ', 'ê°Ģ', 'Ġìĭ¬', 'ê°ģ', 'íķ©ëĭĪëĭ¤']
transformers: ['ìĭłì¢ħ', 'Ġì½Ķë¡ľëĤĺë°ĶìĿ´ëŁ¬ìĬ¤', 'Ġê°ĲìĹ¼ì¦Ŀ', '(', 'ì½Ķë¡ľëĤĺ', '19', ')', 'ĠìĤ¬íĥľ', 'ê°Ģ', 'Ġìĭ¬', 'ê°ģ', 'íķ©ëĭĪëĭ¤']


### 참고) 한글 처리

- 화면에서 한글로 보이지만 실제로는 자/모 분해가 된 글자입니다. length 를 print 해 봅니다.

In [42]:
for token in bert_wordpiece_tokenizer.encode(sent_ko).tokens[:3]:
    print(f'len({token}) = {len(token)}')

len(신종) = 6
len(코로나바이러스) = 14
len(감염증) = 9


### unicodedata.normalize  

- ‘NFKD’ 는 한글의 자/모를 분해, ‘NFKC’ 는 자/모를 한글로 조합합니다. 보이는 것과 글자 길이가 같아집니다.

In [43]:
from unicodedata import normalize

print(normalize('NFKD', '가감'))  # 출력 시 글자를 재조합해서 보여줌
print(len(normalize('NFKD', '가감')))

print(normalize('NFKC', normalize('NFKD', '가감')))
print(len(normalize('NFKC', normalize('NFKD', '가감'))))

가감
5
가감
2


매번 NFKC 로 후처리를 반복해야 한다면 간단한 함수를 만들어 두는 것이 편리합니다.

In [44]:
from unicodedata import normalize

def compose(tokens):
    return [normalize('NFKC', token) for token in tokens]

print(f'tokenizers  : {compose(bert_wordpiece_tokenizer.encode(sent_ko).tokens)}')
print(f'transformers: {compose(transformers_bert_tokenizer.tokenize(sent_ko))}')

tokenizers  : ['신종', '코로나바이러스', '감염증', '(', '코로나19', ')', '사태', '##가', '심', '##각', '##합니다']
transformers: ['신종', '코로나바이러스', '감염증', '(', '코로나19', ')', '사태', '##가', '심', '##각', '##합니다']
