## __transformer.tokenizerの使い方__

### __準備__

In [1]:
!pip install transformers[ja] | tail -n 1

Successfully installed fugashi-1.3.0 huggingface-hub-0.17.3 ipadic-1.0.0 plac-1.4.0 rhoknp-1.3.0 safetensors-0.4.0 sudachidict-core-20230927 sudachipy-0.6.7 tokenizers-0.14.1 transformers-4.34.1 unidic-1.1.0 unidic-lite-1.0.8 wasabi-0.10.1


In [2]:
# インポート
from pprint import pprint
from transformers import AutoTokenizer

### __tokenizer__

In [3]:
# トークナイザのload
# AutoTokenizerを使えば、指定したモデル名で自動的にTokenizerを読み込んでくれる

model_name = 'cl-tohoku/bert-base-japanese-whole-word-masking'
tokenizer = AutoTokenizer.from_pretrained(model_name)

Downloading (…)okenizer_config.json:   0%|          | 0.00/110 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/479 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/258k [00:00<?, ?B/s]

In [4]:
# BertJapaneseTokenizerで読み込んでも同じ
tokenizer.__class__.__mro__

(transformers.models.bert_japanese.tokenization_bert_japanese.BertJapaneseTokenizer,
 transformers.tokenization_utils.PreTrainedTokenizer,
 transformers.tokenization_utils_base.PreTrainedTokenizerBase,
 transformers.tokenization_utils_base.SpecialTokensMixin,
 transformers.utils.hub.PushToHubMixin,
 object)

### __\_\_call\_\_メソッド__

In [5]:
texts = [
    "新時代はこの未来だ",
    "世界中全部変えてしまえば変えてしまえば"
]

text = texts[0]

In [6]:
# __call__メソッド
# 基本的にはこれを使用する
# 特殊トークンは自動的に追加される

tokenizer(text)

{'input_ids': [2, 147, 315, 9, 70, 5143, 75, 3], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1]}

In [7]:
# 複数の文章を入れても良い

tokenizer(texts)

{'input_ids': [[2, 147, 315, 9, 70, 5143, 75, 3], [2, 6047, 9156, 4106, 16, 1084, 28547, 312, 4106, 16, 1084, 28547, 312, 3]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

In [8]:
# オプション引数をつける

tokenizer(
    text,
    padding="max_length", # "max_length" or "longest"
    truncation=True, # 切り捨て
    max_length=10, # padding="max_length" と truncation=Trueに影響
    return_tensors="pt" # 返り値のデータ型
)

{'input_ids': tensor([[   2,  147,  315,    9,   70, 5143,   75,    3,    0,    0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 0, 0]])}

### __その他のメソッド__

In [9]:
# テキスト→トークン

tokens = tokenizer.tokenize(text)
tokens

['新', '時代', 'は', 'この', '未来', 'だ']

In [10]:
# トークン→テキスト

tokenizer.convert_tokens_to_string(tokens)

'新 時代 は この 未来 だ'

In [11]:
# トークン→トークンID

ids = tokenizer.convert_tokens_to_ids(tokens)
ids

[147, 315, 9, 70, 5143, 75]

In [12]:
# トークンID→トークン

tokenizer.convert_ids_to_tokens(ids)

['新', '時代', 'は', 'この', '未来', 'だ']

In [13]:
# テキスト→トークン→トークンID
# 自動的に特殊トークンが入る

ids = tokenizer.encode(text)
ids

[2, 147, 315, 9, 70, 5143, 75, 3]

In [14]:
# トークンID→トークン→テキスト

tokenizer.decode(ids)

'[CLS] 新 時代 は この 未来 だ [SEP]'

### __トークン__

In [15]:
# トークンとトークンIDの対応関係

vocab = tokenizer.get_vocab()
vocab

{'[PAD]': 0,
 '[UNK]': 1,
 '[CLS]': 2,
 '[SEP]': 3,
 '[MASK]': 4,
 'の': 5,
 '、': 6,
 'に': 7,
 '。': 8,
 'は': 9,
 'た': 10,
 'を': 11,
 'で': 12,
 'と': 13,
 'が': 14,
 'し': 15,
 'て': 16,
 '1': 17,
 'な': 18,
 '年': 19,
 'れ': 20,
 'い': 21,
 'あ': 22,
 '(': 23,
 ')': 24,
 '2': 25,
 'さ': 26,
 'こ': 27,
 'も': 28,
 'か': 29,
 '##する': 30,
 'ある': 31,
 '日': 32,
 'いる': 33,
 'する': 34,
 '・': 35,
 '「': 36,
 '月': 37,
 '」': 38,
 '19': 39,
 'から': 40,
 '20': 41,
 '大': 42,
 'ア': 43,
 'そ': 44,
 'こと': 45,
 '##して': 46,
 'ま': 47,
 '3': 48,
 'や': 49,
 'として': 50,
 '中': 51,
 '一': 52,
 '人': 53,
 'よ': 54,
 'ス': 55,
 'によ': 56,
 '4': 57,
 'なっ': 58,
 'その': 59,
 'ら': 60,
 '-': 61,
 'れる': 62,
 '『': 63,
 'など': 64,
 '』': 65,
 'フ': 66,
 'シ': 67,
 '##リー': 68,
 '同': 69,
 'この': 70,
 '出': 71,
 '時': 72,
 'お': 73,
 '地': 74,
 'だ': 75,
 '5': 76,
 '行': 77,
 '201': 78,
 '国': 79,
 'ない': 80,
 '的': 81,
 'ため': 82,
 '後': 83,
 'られ': 84,
 '発': 85,
 '200': 86,
 '##ール': 87,
 'イ': 88,
 '##ラン': 89,
 '作': 90,
 '日本': 91,
 '##ター': 92,
 '##ック': 93,
 '市':

In [16]:
# 語彙数

tokenizer.vocab_size

32000

In [17]:
# 語彙数

len(vocab)

32000

In [18]:
# 特殊トークン

tokenizer.pad_token, \
tokenizer.unk_token, \
tokenizer.cls_token, \
tokenizer.sep_token, \
tokenizer.mask_token

('[PAD]', '[UNK]', '[CLS]', '[SEP]', '[MASK]')

In [19]:
# 特殊トークンのID

tokenizer.pad_token_id, \
tokenizer.unk_token_id, \
tokenizer.cls_token_id, \
tokenizer.sep_token_id, \
tokenizer.mask_token_id

(0, 1, 2, 3, 4)

In [20]:
# 全ての特殊トークン

tokenizer.all_special_tokens

['[UNK]', '[SEP]', '[PAD]', '[CLS]', '[MASK]']

In [21]:
# 全ての特殊トークンのID

tokenizer.all_special_ids

[1, 3, 0, 2, 4]