# Tokenizers

`charBPE`, `Byte-level-BPE`, `SentencePiece's BPE`, `Sentencepiece's Unigram`, `Wordpiece`에 대해 테스트

BPE 계열은 기본적으로 vocab.json과 merges.txt를 생성하며, unigram과 wordpiece는 vocab.json만 생성한다.

각 방법에 대해 간단히 소개하자면,

- Byte-Pair encoding
빈도 기반으로 vocab을 구성한다.  
기본 캐릭터를 통해 서브 워드를 만들어 가는 방식.  
vocab의 크기는 기본 단어 개수 + 합쳐진 서브 워드 개수로 구성된다.  
따라서 vocab.json과 merges.txt가 결과물로 나온다.   

- Byte-level Byte-Pair encoding
BPE와 동일하나, 사전의 기본 단위를 바이트로 사용.  
따라서 기본 단어 개수가 256개가 되고 나머지는 서브워드로 구성된다.  
마찬가지로 vocab.json과 merges.txt가 결과물로 나온다.  

- SentencePiece BPE
기존 BPE와 동일, 다만 space 개념이 추가된듯 하다.  
공백을 나타내는  “▁” 이 사용된다.  
마찬가지로 vocab.json과 merges.txt가 결과물로 나온다. 


- Unigram
BPE와 달리 빈도기반이 아닌, 학습 / 확률 기반으로 진행된다.  
또한, BPE와 반대로 pre-tokenized와 서브워드에서 시작하여 점차 사전을 줄여나가는 방식으로 진행된다.  
Unigram의 경우 vocab.json만 결과로 나오는데, 각 토큰과 토큰에 대한 확률값도 함께 저장된다.  


- Wordpiece
BPE와 마찬가지로 캐릭터로 부터 서브워드를 만들어 가는 방식.  
단지 빈도 기반이 아닌, merge되었을때, likelihood가 가장 높은 쌍을 병합한다.  
Unigram과 마찬가지로 vocab.json만 결과로 나오지만, 각 토큰만 저장된다.  


In [1]:
from tokenizers import (CharBPETokenizer,
                        ByteLevelBPETokenizer,
                        SentencePieceBPETokenizer,
                        SentencePieceUnigramTokenizer,
                        BertWordPieceTokenizer)

In [2]:
dataset = "./data/counting_stars.txt"

## CharBPETokenizer

In [3]:
tokenizer = CharBPETokenizer(
        vocab = None,
        merges = None,
        unk_token = "[unk]",
        suffix = "[/w]",
        dropout = None,
        lowercase = False,
        unicode_normalizer = None,
        bert_normalizer = True,
        split_on_whitespace_only = False,
)

In [4]:
tokenizer.train(
        [dataset],
        vocab_size = 30000,
        min_frequency = 1,
        special_tokens = ["[unk]"],
        limit_alphabet = 1000,
        initial_alphabet = [],
        suffix = "[/w]",
        show_progress = True,
)

In [5]:
encoded = tokenizer.encode("별 헤는 밤")

In [6]:
encoded

Encoding(num_tokens=3, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])

In [7]:
print(encoded.ids)
print(encoded.type_ids)
print(encoded.tokens)
print(encoded.offsets)
print(encoded.attention_mask)
print(encoded.special_tokens_mask)
print(encoded.overflowing)

[242, 407, 172]
[0, 0, 0]
['별[/w]', '헤는[/w]', '밤[/w]']
[(0, 1), (2, 4), (5, 6)]
[1, 1, 1]
[0, 0, 0]
[]


In [8]:
tokenizer.decode([281, 583, 389])

'강아인지'

In [9]:
tokenizer

Tokenizer(vocabulary_size=449, model=BPE, unk_token=[unk], suffix=[/w], dropout=None, lowercase=False, unicode_normalizer=None, bert_normalizer=True, split_on_whitespace_only=False)

In [10]:
tokenizer.get_vocab_size()

449

In [11]:
tokenizer.get_vocab()

{'억': 109,
 '새워[/w]': 355,
 '이': 131,
 '나의[/w]': 257,
 '끄': 21,
 '로': 60,
 '벌': 78,
 "'": 1,
 '주[/w]': 183,
 '별[/w]': 242,
 '이국[/w]': 385,
 '나[/w]': 211,
 '동경과[/w]': 310,
 '책상을[/w]': 393,
 '당신은[/w]': 427,
 '하나에[/w]': 248,
 '파': 155,
 '밤이[/w]': 336,
 '있': 135,
 '나에[/w]': 247,
 '네': 28,
 '너무': 298,
 '강아': 281,
 '면': 72,
 '운': 121,
 '면[/w]': 236,
 '덤': 40,
 '소학': 357,
 '봄': 81,
 '랑과[/w]': 322,
 '무성할[/w]': 430,
 '듯합': 313,
 '하는[/w]': 401,
 '엇': 112,
 '거외다[/w]': 418,
 '의': 130,
 '이요[/w]': 266,
 '네들': 299,
 '쉬이[/w]': 361,
 '그': 18,
 '가난한[/w]': 415,
 '퍼': 157,
 '이름자[/w]': 409,
 '루': 61,
 '억과[/w]': 377,
 '북': 84,
 '에': 114,
 '멀듯이[/w]': 331,
 '별빛이[/w]': 433,
 '는밤[/w]': 303,
 '한마디씩[/w]': 404,
 '딴은[/w]': 316,
 '말': 69,
 '름': 63,
 '라이너[/w]': 429,
 '남은[/w]': 295,
 '지[/w]': 176,
 '거외': 283,
 '딴': 50,
 '입': 134,
 '언덕[/w]': 262,
 ',[/w]': 222,
 '패': 156,
 '학': 162,
 '린': 65,
 '.': 3,
 '패[/w]': 238,
 '말[/w]': 218,
 '겨': 11,
 '했던[/w]': 406,
 '하늘에는[/w]': 448,
 '까닭이요[/w]': 272,
 '끼[/w]': 244,
 '때': 51,
 '

In [12]:
tokenizer.save("charBPE/BPE_Tokenizer.json", pretty=True)
tokenizer.save_model(directory="charBPE", name=None)

['charBPE/vocab.json', 'charBPE/merges.txt']

## ByteLevelBPETokenizer

In [13]:
tokenizer = ByteLevelBPETokenizer(
        vocab = None,
        merges = None,
        add_prefix_space = False,
        lowercase = False,
        dropout = None,
        unicode_normalizer = None,
        continuing_subword_prefix = None,
        end_of_word_suffix = None,
        trim_offsets = False,
)

In [14]:
tokenizer.train(
        [dataset],
        vocab_size = 30000,
        min_frequency = 1,
        show_progress = True,
        special_tokens = [],
)

In [15]:
encoded = tokenizer.encode("별헤는밤")

In [16]:
encoded

Encoding(num_tokens=1, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])

In [17]:
print(encoded.ids)
print(encoded.type_ids)
print(encoded.tokens)
print(encoded.offsets)
print(encoded.attention_mask)
print(encoded.special_tokens_mask)
print(encoded.overflowing)

[741]
[0]
['ë³ĦíĹ¤ëĬĶë°¤']
[(0, 4)]
[1]
[0]
[]


In [18]:
tokenizer.decode([281, 583, 389])

'별 헤는 밤'

In [19]:
tokenizer

Tokenizer(vocabulary_size=774, model=ByteLevelBPE, add_prefix_space=False, lowercase=False, dropout=None, unicode_normalizer=None, continuing_subword_prefix=None, end_of_word_suffix=None, trim_offsets=False)

In [20]:
tokenizer.get_vocab_size()

774

In [21]:
tokenizer.get_vocab()

{'ę': 213,
 'ĠëĤĺëĬĶ': 661,
 'ê²': 362,
 'ĠìĿ´ëŁ°': 422,
 'J': 41,
 'ĠëĤĺ': 351,
 'ĴĢìĿ´': 527,
 'ĠíĮ¨': 687,
 '#': 2,
 '±': 109,
 'ê³Ħ': 474,
 'ì£¼': 488,
 'Ė': 210,
 '"': 1,
 ';': 26,
 'Ġê²ĥìĿĢ': 657,
 'íĿĻìľ': 714,
 'ëĭĺ': 396,
 '¸°': 358,
 'Ł': 253,
 'ü': 184,
 'ê·¸': 364,
 'ëıĦ': 348,
 '¯': 107,
 'ë³ĦíĹ¤ëĬĶ': 603,
 '°Ģ': 287,
 'Ġì°¨': 570,
 'ô': 176,
 'l': 75,
 'ć': 195,
 'Ġëĭ¤íķĺ': 662,
 'Ġë¶ģê°Ħ': 648,
 'Ġë¬´': 388,
 '´ë¦': 455,
 'ĠìĨĮë': 628,
 'ê³': 273,
 '¶Ķì': 460,
 'Ġë³Ħë¹ĽìĿ´': 744,
 'Ļìľ': 547,
 '¯íķ': 444,
 'Ļì£¼': 548,
 'D': 35,
 'ìĭľìĬ¤': 749,
 'ĠíĶ¼ìĸ´': 586,
 'Ġëħ': 387,
 'ó': 175,
 'ĠíĮĮëŀ': 688,
 'ĠìĿ´ìĽ': 596,
 'ì¼Ģ': 492,
 'Á': 125,
 'ìĹĲ': 268,
 'Ġë§Īë¦¬ìķĦ': 751,
 'ķìķĦ': 537,
 'R': 49,
 'G': 38,
 'è': 164,
 'ìį¨': 487,
 'Ã': 127,
 'Ġê¹ĮëĭŃ': 322,
 "Ġ'": 375,
 'ĠìĬ¬í': 574,
 'Ġë°¤ìĿĦ': 680,
 'ĠëĦĪ': 563,
 '>': 29,
 '%': 4,
 'ë¦Ħëĭ¤ìļ´': 601,
 '±ìł': 451,
 '¼ìĿ´': 361,
 'ëĦĪ': 670,
 'Ġìĺ¤ë©´': 755,
 'ë¬´ëį¤': 636,
 '®': 106,
 'ìĽ': 331,
 'Ġë¬»íŀĮ': 720,
 'Ġë©Ģë¦¬

In [22]:
tokenizer.save("BBPE/BBPE_Tokenizer.json", pretty=True)
tokenizer.save_model(directory="BBPE", name=None)

['BBPE/vocab.json', 'BBPE/merges.txt']

## SentencePieceBPETokenizer

In [23]:
tokenizer = SentencePieceBPETokenizer(
        vocab = None,
        merges = None,
        unk_token = "<unk>",
        replacement = "▁",
        add_prefix_space = True,
        dropout = None,
)

In [24]:
tokenizer.train(
        [dataset],
        vocab_size = 30000,
        min_frequency = 1,
        show_progress = True,
        special_tokens = [],
        limit_alphabet = 1000,
        initial_alphabet = [],
)

In [25]:
encoded = tokenizer.encode("별헤는밤")

In [26]:
encoded

Encoding(num_tokens=2, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])

In [27]:
print(encoded.ids)
print(encoded.type_ids)
print(encoded.tokens)
print(encoded.offsets)
print(encoded.attention_mask)
print(encoded.special_tokens_mask)
print(encoded.overflowing)

[373, 77]
[0, 0]
['▁별헤는', '밤']
[(0, 3), (3, 4)]
[1, 1]
[0, 0]
[]


In [28]:
tokenizer.decode([373, 77])

'별헤는밤'

In [29]:
tokenizer

Tokenizer(vocabulary_size=497, model=SentencePieceBPE, unk_token=<unk>, replacement=▁, add_prefix_space=True, dropout=None)

In [30]:
tokenizer.get_vocab_size()

497

In [33]:
tokenizer.get_vocab()

{'름': 64,
 '▁가득': 386,
 '같': 8,
 '도': 43,
 '우': 121,
 '토': 155,
 '절이': 357,
 '너': 28,
 '▁덮': 254,
 '습니다.\n': 202,
 '▁것': 248,
 '신은': 338,
 '덮': 42,
 '계': 14,
 '슬': 97,
 '추': 151,
 '스': 96,
 "▁'라이": 404,
 '▁책상을': 469,
 '▁쓸': 276,
 '▁위': 201,
 '▁하늘에': 378,
 '한': 164,
 '▁자랑처': 466,
 '억과\n': 344,
 '빛이': 333,
 '▁어머니,\n': 401,
 '들의': 193,
 '▁토끼,': 472,
 '소': 93,
 '레': 60,
 '웃': 124,
 '▁그리고': 430,
 '퍼': 158,
 '▁딴은': 447,
 '▁노새,': 407,
 '워\n': 350,
 '▁써': 275,
 '자': 137,
 '▁한': 294,
 '▁하나에': 183,
 '.': 3,
 '슴': 98,
 '▁오면\n': 425,
 '▁까닭입니다.\n': 235,
 '씩': 105,
 '루': 62,
 '▁이름을': 229,
 '난': 25,
 '님': 35,
 '침': 153,
 '무': 75,
 '걱': 10,
 '애': 108,
 '침이': 361,
 '▁다하지': 395,
 '부': 84,
 '정도': 358,
 '가는': 299,
 '프': 160,
 '▁북간도': 456,
 '▁거외다.': 436,
 '▁슬퍼하는': 492,
 '랑': 56,
 '던': 40,
 '▁부끄러운': 490,
 '기': 20,
 '▁걱': 247,
 '▁무': 200,
 '노': 31,
 '때': 52,
 '직': 145,
 "케'": 362,
 '▁오': 218,
 '▁그': 197,
 '성할': 336,
 '▁벌': 209,
 '린': 66,
 '▁별을\n': 377,
 '▁못': 265,
 '▁아무': 380,
 '▁언': 217,
 '나듯이': 307,
 '▁노루,

In [34]:
tokenizer.save("sentencepieceBPE/Tokenizer.json", pretty=True)
tokenizer.save_model(directory="sentencepieceBPE", name=None)

['sentencepieceBPE/vocab.json', 'sentencepieceBPE/merges.txt']

## SentencePieceUnigramTokenizer

In [36]:
tokenizer = SentencePieceUnigramTokenizer(
        vocab = None,
        replacement = "▁",
        add_prefix_space = True,
)

In [37]:
tokenizer.train(
        [dataset],
        vocab_size = 30000,
        show_progress = True,
        special_tokens = [],
)

In [38]:
encoded = tokenizer.encode("별헤는밤")

In [39]:
encoded

Encoding(num_tokens=3, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])

In [40]:
print(encoded.ids)
print(encoded.type_ids)
print(encoded.tokens)
print(encoded.offsets)
print(encoded.attention_mask)
print(encoded.special_tokens_mask)
print(encoded.overflowing)

[4, 68, 87]
[0, 0, 0]
['▁별', '헤는', '밤']
[(0, 1), (1, 3), (3, 4)]
[1, 1, 1]
[0, 0, 0]
[]


In [41]:
tokenizer.decode([4, 68, 87])

'별헤는밤'

In [42]:
tokenizer

Tokenizer(vocabulary_size=208, model=SentencePieceUnigram, replacement=▁, add_prefix_space=True)

In [43]:
tokenizer.get_vocab_size()

208

In [44]:
tokenizer.get_vocab()

{'▁하': 206,
 '파': 113,
 '에': 6,
 '울': 171,
 '헤': 190,
 '함': 144,
 '끄': 132,
 '▁무': 35,
 '한': 43,
 '청': 189,
 '언': 59,
 '네': 96,
 '은': 13,
 '란': 111,
 "▁'": 84,
 '덤': 103,
 '<unk>': 0,
 '십': 104,
 '릴': 128,
 '늘': 129,
 '않': 178,
 '라이': 69,
 '▁이': 18,
 '상': 123,
 '슬': 173,
 '었': 125,
 '경': 65,
 '엇': 185,
 '힌': 186,
 '▁까닭': 22,
 '▁오': 72,
 '득': 157,
 '▁아': 14,
 '습': 27,
 '헬': 106,
 '끼': 114,
 '일': 164,
 '남': 179,
 '▁시': 83,
 '요': 56,
 '머': 198,
 '▁하나': 12,
 '어': 42,
 '없': 141,
 '비': 101,
 '덮': 152,
 '까': 202,
 '멀': 203,
 '신': 155,
 '보': 109,
 '쓸': 46,
 '간': 99,
 '쉬': 187,
 '스': 62,
 '외': 156,
 '봅': 60,
 '북': 97,
 '거': 153,
 '하': 37,
 '새': 86,
 '으': 127,
 '책': 135,
 '▁나': 26,
 '▁가': 34,
 '▁밤': 81,
 '토': 116,
 '합': 93,
 '빛': 170,
 '과': 11,
 '위': 200,
 '추': 107,
 '름': 90,
 '억': 119,
 '침': 166,
 '람': 94,
 '벌': 207,
 '▁어머니': 33,
 '님': 49,
 '▁이름자': 78,
 '녀': 95,
 '▁벌': 70,
 '애': 145,
 '별': 195,
 '의': 10,
 '을': 15,
 '옥': 181,
 '리': 21,
 '시': 88,
 '퍼': 131,
 '입': 58,
 '할': 136,
 '써': 51,
 '풀': 14

In [45]:
tokenizer.save("sentencepieceUnigram/Tokenizer.json", pretty=True)
tokenizer.save_model(directory="sentencepieceUnigram", name=None)

['sentencepieceUnigram/unigram.json']

## BertWordPieceTokenizer

In [46]:
tokenizer = BertWordPieceTokenizer(
        vocab = None,
        unk_token = "[UNK]",
        sep_token = "[SEP]",
        cls_token = "[CLS]",
        pad_token = "[PAD]",
        mask_token = "[MASK]",
        clean_text = True,
        handle_chinese_chars = True,
        strip_accents = None,
        lowercase = True,
        wordpieces_prefix = "##",
)

In [47]:
tokenizer.train(
        [dataset],
        vocab_size = 30000,
        limit_alphabet = 1000,
        initial_alphabet = [],
        special_tokens = [
            "[PAD]",
            "[UNK]",
            "[CLS]",
            "[SEP]",
            "[MASK]",
        ],
        show_progress = True,
        wordpieces_prefix = "##",
)

In [48]:
encoded = tokenizer.encode("별헤는밤")

In [49]:
encoded

Encoding(num_tokens=5, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])

In [50]:
print(encoded.ids)
print(encoded.type_ids)
print(encoded.tokens)
print(encoded.offsets)
print(encoded.attention_mask)
print(encoded.special_tokens_mask)
print(encoded.overflowing)

[113, 86, 174, 91, 128]
[0, 0, 0, 0, 0]
['별', '##ᄒ', '##ᅦ는', '##ᄇ', '##ᅡᆷ']
[(0, 1), (1, 2), (1, 3), (3, 4), (3, 4)]
[1, 1, 1, 1, 1]
[0, 0, 0, 0, 0]
[]


In [53]:
tokenizer.decode([113, 86, 174, 91, 128])

'별헤는밤'

In [54]:
tokenizer

Tokenizer(vocabulary_size=223, model=BertWordPiece, unk_token=[UNK], sep_token=[SEP], cls_token=[CLS], pad_token=[PAD], mask_token=[MASK], clean_text=True, handle_chinese_chars=True, strip_accents=None, lowercase=True, wordpieces_prefix=##)

In [55]:
tokenizer.get_vocab()

{'##ᅳᆫ': 106,
 'ᆾ': 54,
 '어머니': 145,
 '##ᆸ니': 117,
 'ᄀ': 8,
 '##ᄂ': 74,
 '##어': 138,
 'ᅵ': 41,
 '##ᄃ': 68,
 'ᅬ': 33,
 '##ᅦ': 77,
 '그ᄅ': 162,
 'ᄒ': 24,
 '어머님': 211,
 '##ᅡᄅ': 134,
 '##ᅱ': 71,
 'ᅮ': 35,
 '##ᇀ': 94,
 'ᄊ': 17,
 '사ᄅ': 188,
 'ᅡ': 25,
 'ᄐ': 22,
 '내': 147,
 'ᄆ': 14,
 '##ᆭ': 95,
 'ᆷ': 48,
 '##ᅳ': 60,
 '##ᅭ': 93,
 'ᆫ': 43,
 '지': 189,
 '언덕': 222,
 '##ᆾ': 92,
 '나는': 163,
 '벼': 112,
 '##ᄆ': 82,
 '다': 164,
 '##ᆸ': 73,
 '##ᅡ는': 144,
 '##ᆰ이': 153,
 'ᄄ': 12,
 'ᅯ': 36,
 '##지': 137,
 '##ᄉ': 81,
 '##겨': 193,
 '##ᅲ': 102,
 'ᅪ': 32,
 'ᄏ': 21,
 '##ᆯ': 58,
 '##ᅳᆯ': 105,
 '##ᅥ': 61,
 '##ᆻ': 80,
 '##ᅳᆺ': 169,
 'ᄉ': 16,
 '어': 119,
 '[SEP]': 3,
 '불': 186,
 '[PAD]': 0,
 '멀리': 216,
 '##듯이': 221,
 '거': 160,
 '##ᅥᆫ': 191,
 '##ᅬ': 98,
 'ᆯ': 46,
 'ᄌ': 19,
 '이름을': 207,
 '##ᄏ': 103,
 '##ᆫ더': 198,
 'ᆻ': 52,
 '##ᅵᄋ': 172,
 '벌': 185,
 '##ᅡᄂ': 108,
 '##니': 111,
 '봅니다': 212,
 '지나': 220,
 '가': 132,
 '##ᅮᆯ': 136,
 '까닭이요': 215,
 '##을': 122,
 '까닭이': 1

In [56]:
tokenizer.save("wordpiece/Tokenizer.json", pretty=True)
tokenizer.save_model(directory="wordpiece", name=None)

['wordpiece/vocab.txt']