In [1]:
import os

from tokenizers import ByteLevelBPETokenizer
from transformers import (
    T5TokenizerFast,
    AutoTokenizer,
)

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
train_files = [
    "./data/ratings_train.tsv",
]
vocab_size = 48000
min_frequency = 2

output_name = f"nsmc_bbpe_{vocab_size}"
output_dir = "./tokenizers"

In [3]:
unused_tokens = [f"<unused_{i}>" for i in range(100)]

In [4]:
tokenizer = ByteLevelBPETokenizer()
tokenizer.train(
    files=train_files,
    vocab_size=vocab_size,
    min_frequency=min_frequency,
    special_tokens=[
        "<pad>",  # padding
        "<s>",    # start of sentence
        "</s>",   # end of sentence
        "<unk>",  # unknown
    ] + unused_tokens,
)
tokenizer.bos_token = "<s>"
tokenizer.eos_token = "</s>"
tokenizer.pad_token = "<pad>"

os.makedirs(os.path.join(output_dir, output_name), exist_ok=True)
tokenizer.save(os.path.join(output_dir, output_name, "tokenizer.json"))






In [5]:
def test_tokenizer(tokenizer, skip_special_tokens=True):
    ko_sentence = "<s>이것은 테스트 문장입니다. <unused_0>어떻게 보이나요?<unused_1> 고유명사 \"파이썬 파이토치 허깅페이스\"는 어떻게 되나요?</s>"
    en_sentence = "<s>This is a test sentence. <unused_0>How does it look?<unused_1> Proper nouns \"Python PyTorch HuggingFace\" how does it go?</s>"

    print(ko_sentence)
    if isinstance(tokenizer, ByteLevelBPETokenizer):
        print(">>>", tokenizer.encode(ko_sentence).tokens)
        print(">>>", tokenizer.decode(tokenizer.encode(ko_sentence).ids, skip_special_tokens=skip_special_tokens))
    else:
        print(">>>", tokenizer.tokenize(ko_sentence))
        print(">>>", tokenizer.decode(tokenizer.encode(ko_sentence), skip_special_tokens=skip_special_tokens))
    print(en_sentence)
    if isinstance(tokenizer, ByteLevelBPETokenizer):
        print(">>>", tokenizer.encode(en_sentence).tokens)
        print(">>>", tokenizer.decode(tokenizer.encode(en_sentence).ids, skip_special_tokens=skip_special_tokens))
    else:
        print(">>>", tokenizer.tokenize(en_sentence))
        print(">>>", tokenizer.decode(tokenizer.encode(en_sentence), skip_special_tokens=skip_special_tokens))

In [6]:
test_tokenizer(tokenizer, skip_special_tokens=True)

<s>이것은 테스트 문장입니다. <unused_0>어떻게 보이나요?<unused_1> 고유명사 "파이썬 파이토치 허깅페이스"는 어떻게 되나요?</s>
>>> ['<s>', 'ìĿ´ê²ĥìĿĢ', 'ĠíħĮìĬ¤íĬ¸', 'Ġë¬¸', 'ìŀ¥', 'ìŀħëĭĪëĭ¤', '.', 'Ġ', '<unused_0>', 'ìĸ´ëĸ»ê²Į', 'Ġë³´ìĿ´ëĤĺ', 'ìļĶ', '?', '<unused_1>', 'Ġê³ł', 'ìľłëªħ', 'ìĤ¬', 'Ġ', '"', 'íĮĮìĿ´', 'ìį¬', 'ĠíĮĮìĿ´', 'íĨł', 'ì¹ĺ', 'ĠíĹĪ', 'ê¹', 'ħ', 'íİĺìĿ´ìĬ¤', '"', 'ëĬĶ', 'Ġìĸ´ëĸ»ê²Į', 'ĠëĲĺëĤĺìļĶ', '?', '</s>']
>>> 이것은 테스트 문장입니다. 어떻게 보이나요? 고유명사 "파이썬 파이토치 허깅페이스"는 어떻게 되나요?
<s>This is a test sentence. <unused_0>How does it look?<unused_1> Proper nouns "Python PyTorch HuggingFace" how does it go?</s>
>>> ['<s>', 'This', 'Ġis', 'Ġa', 'Ġt', 'est', 'Ġs', 'ent', 'en', 'ce', '.', 'Ġ', '<unused_0>', 'H', 'ow', 'Ġdo', 'es', 'Ġit', 'Ġl', 'ook', '?', '<unused_1>', 'ĠP', 'r', 'op', 'er', 'Ġn', 'ou', 'n', 's', 'Ġ', '"', 'P', 'y', 'th', 'on', 'ĠP', 'y', 'T', 'or', 'ch', 'ĠH', 'u', 'gg', 'ing', 'F', 'ace', '"', 'Ġh', 'ow', 'Ġdo', 'es', 'Ġit', 'Ġgo', '?', '</s>']
>>> This is a test sentence. How does it look? Proper nouns "Pyth

In [7]:
test_tokenizer(tokenizer, skip_special_tokens=False)

<s>이것은 테스트 문장입니다. <unused_0>어떻게 보이나요?<unused_1> 고유명사 "파이썬 파이토치 허깅페이스"는 어떻게 되나요?</s>
>>> ['<s>', 'ìĿ´ê²ĥìĿĢ', 'ĠíħĮìĬ¤íĬ¸', 'Ġë¬¸', 'ìŀ¥', 'ìŀħëĭĪëĭ¤', '.', 'Ġ', '<unused_0>', 'ìĸ´ëĸ»ê²Į', 'Ġë³´ìĿ´ëĤĺ', 'ìļĶ', '?', '<unused_1>', 'Ġê³ł', 'ìľłëªħ', 'ìĤ¬', 'Ġ', '"', 'íĮĮìĿ´', 'ìį¬', 'ĠíĮĮìĿ´', 'íĨł', 'ì¹ĺ', 'ĠíĹĪ', 'ê¹', 'ħ', 'íİĺìĿ´ìĬ¤', '"', 'ëĬĶ', 'Ġìĸ´ëĸ»ê²Į', 'ĠëĲĺëĤĺìļĶ', '?', '</s>']
>>> <s>이것은 테스트 문장입니다. <unused_0>어떻게 보이나요?<unused_1> 고유명사 "파이썬 파이토치 허깅페이스"는 어떻게 되나요?</s>
<s>This is a test sentence. <unused_0>How does it look?<unused_1> Proper nouns "Python PyTorch HuggingFace" how does it go?</s>
>>> ['<s>', 'This', 'Ġis', 'Ġa', 'Ġt', 'est', 'Ġs', 'ent', 'en', 'ce', '.', 'Ġ', '<unused_0>', 'H', 'ow', 'Ġdo', 'es', 'Ġit', 'Ġl', 'ook', '?', '<unused_1>', 'ĠP', 'r', 'op', 'er', 'Ġn', 'ou', 'n', 's', 'Ġ', '"', 'P', 'y', 'th', 'on', 'ĠP', 'y', 'T', 'or', 'ch', 'ĠH', 'u', 'gg', 'ing', 'F', 'ace', '"', 'Ġh', 'ow', 'Ġdo', 'es', 'Ġit', 'Ġgo', '?', '</s>']
>>> <s>This is a test sentence. <unuse

In [8]:
tokenizer = T5TokenizerFast.from_pretrained(os.path.join(output_dir, output_name))

test_tokenizer(tokenizer)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


<s>이것은 테스트 문장입니다. <unused_0>어떻게 보이나요?<unused_1> 고유명사 "파이썬 파이토치 허깅페이스"는 어떻게 되나요?</s>
>>> ['<s>', 'ìĿ´ê²ĥìĿĢ', 'ĠíħĮìĬ¤íĬ¸', 'Ġë¬¸', 'ìŀ¥', 'ìŀħëĭĪëĭ¤', '.', 'Ġ', '<unused_0>', 'ìĸ´ëĸ»ê²Į', 'Ġë³´ìĿ´ëĤĺ', 'ìļĶ', '?', '<unused_1>', 'Ġê³ł', 'ìľłëªħ', 'ìĤ¬', 'Ġ', '"', 'íĮĮìĿ´', 'ìį¬', 'ĠíĮĮìĿ´', 'íĨł', 'ì¹ĺ', 'ĠíĹĪ', 'ê¹', 'ħ', 'íİĺìĿ´ìĬ¤', '"', 'ëĬĶ', 'Ġìĸ´ëĸ»ê²Į', 'ĠëĲĺëĤĺìļĶ', '?', '</s>']
>>> 이것은 테스트 문장입니다. 어떻게 보이나요? 고유명사 "파이썬 파이토치 허깅페이스"는 어떻게 되나요?
<s>This is a test sentence. <unused_0>How does it look?<unused_1> Proper nouns "Python PyTorch HuggingFace" how does it go?</s>
>>> ['<s>', 'This', 'Ġis', 'Ġa', 'Ġt', 'est', 'Ġs', 'ent', 'en', 'ce', '.', 'Ġ', '<unused_0>', 'H', 'ow', 'Ġdo', 'es', 'Ġit', 'Ġl', 'ook', '?', '<unused_1>', 'ĠP', 'r', 'op', 'er', 'Ġn', 'ou', 'n', 's', 'Ġ', '"', 'P', 'y', 'th', 'on', 'ĠP', 'y', 'T', 'or', 'ch', 'ĠH', 'u', 'gg', 'ing', 'F', 'ace', '"', 'Ġh', 'ow', 'Ġdo', 'es', 'Ġit', 'Ġgo', '?', '</s>']
>>> This is a test sentence. How does it look? Proper nouns "Pyth

In [9]:
!head -n 300 ./tokenizers/nsmc_bbpe_48000/tokenizer.json

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
{
  "version": "1.0",
  "truncation": null,
  "padding": null,
  "added_tokens": [
    {
      "id": 0,
      "content": "<pad>",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": false,
      "special": true
    },
    {
      "id": 1,
      "content": "<s>",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": false,
      "special": true
    },
    {
      "id": 2,
      "content": "</s>",
      "single_word": false,
      "lstrip": false,
      "rstrip": false,
      "normalized": false,
      "special": true
    },
    {
      "id": 3,
      "content": "<unk>",
      "single_word": false,
      "lstrip": false,
      "r

In [10]:
plm_name = "klue/bert-base"
tokenizer = AutoTokenizer.from_pretrained(plm_name)

test_tokenizer(tokenizer)

<s>이것은 테스트 문장입니다. <unused_0>어떻게 보이나요?<unused_1> 고유명사 "파이썬 파이토치 허깅페이스"는 어떻게 되나요?</s>
>>> ['<', 's', '>', '이것', '##은', '테스트', '문장', '##입니다', '.', '<', 'un', '##us', '##ed', '_', '0', '>', '어떻게', '보이', '##나', '##요', '?', '<', 'un', '##us', '##ed', '_', '1', '>', '고유', '##명', '##사', '"', '파이', '##썬', '파이', '##토', '##치', '허', '##깅', '##페이스', '"', '는', '어떻게', '되', '##나', '##요', '?', '<', '/', 's', '>']
>>> < s > 이것은 테스트 문장입니다. < unused _ 0 > 어떻게 보이나요? < unused _ 1 > 고유명사 " 파이썬 파이토치 허깅페이스 " 는 어떻게 되나요? < / s >
<s>This is a test sentence. <unused_0>How does it look?<unused_1> Proper nouns "Python PyTorch HuggingFace" how does it go?</s>
>>> ['<', 's', '>', 'Th', '##is', 'is', 'a', 't', '##est', 'se', '##nt', '##ence', '.', '<', 'un', '##us', '##ed', '_', '0', '>', 'How', 'do', '##es', 'it', 'l', '##ook', '?', '<', 'un', '##us', '##ed', '_', '1', '>', 'Pro', '##per', 'no', '##un', '##s', '"', 'P', '##y', '##th', '##on', 'P', '##y', '##T', '##or', '##ch', 'H', '##ug', '##g', '##ing', '##F', '##ac

You can check the configuration of tokenizer at:
https://huggingface.co/klue/bert-base/tree/main