### __transformerのtokenizerの使い方__

In [1]:
!pip install transformers[ja] | tail -n 1

Successfully installed fugashi-1.2.1 huggingface-hub-0.11.1 ipadic-1.0.0 plac-1.3.5 pyknp-0.6.1 sudachidict-core-20221021 sudachipy-0.6.6 tokenizers-0.13.2 transformers-4.25.1 unidic-1.1.0 unidic-lite-1.0.8


In [6]:
# インポート
from pprint import pprint
from transformers import AutoTokenizer

In [3]:
# トークナイザを読み込み
# AutoTokenizerを使えば、指定したモデル名で自動的にTokenizerを読み込んでくれる

model_name = 'cl-tohoku/bert-base-japanese-whole-word-masking'
tokenizer = AutoTokenizer.from_pretrained(model_name)

Downloading:   0%|          | 0.00/110 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/479 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/258k [00:00<?, ?B/s]

In [16]:
texts = [
    "新時代はこの未来だ",
    "世界中全部変えてしまえば変えてしまえば"
]

In [17]:
# __call__メソッド
# 基本的にはこれを使用する

tokenizer(texts)

{'input_ids': [[2, 147, 315, 9, 70, 5143, 75, 3], [2, 6047, 9156, 4106, 16, 1084, 28547, 312, 4106, 16, 1084, 28547, 312, 3]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

In [18]:
# オプション引数をつけて__call__メソッド

tokenizer(
    texts,
    padding="max_length", # "max_length" or "longest"
    truncation=True, # 切り捨て
    max_length=10, # padding="maxx_length" と truncation=Trueに影響
    return_tensors="pt" # 返り値のデータ型
)

{'input_ids': tensor([[    2,   147,   315,     9,    70,  5143,    75,     3,     0,     0],
        [    2,  6047,  9156,  4106,    16,  1084, 28547,   312,  4106,     3]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

In [19]:
# テキスト→トークン
text = "新時代はこの未来だ"

tokens = tokenizer.tokenize(text)
tokens

['新', '時代', 'は', 'この', '未来', 'だ']

In [20]:
# トークン→ID

tokenizer.convert_tokens_to_ids(tokens)

[147, 315, 9, 70, 5143, 75]

In [21]:
# テキスト→トークン→ID

ids = tokenizer.encode(text)
ids

[2, 147, 315, 9, 70, 5143, 75, 3]

In [22]:
# ID→トークン→テキスト

tokenizer.decode(ids)

'[CLS] 新 時代 は この 未来 だ [SEP]'

In [23]:
# トークンとIDの対応関係

tokenizer.get_vocab()

{'[PAD]': 0,
 '[UNK]': 1,
 '[CLS]': 2,
 '[SEP]': 3,
 '[MASK]': 4,
 'の': 5,
 '、': 6,
 'に': 7,
 '。': 8,
 'は': 9,
 'た': 10,
 'を': 11,
 'で': 12,
 'と': 13,
 'が': 14,
 'し': 15,
 'て': 16,
 '1': 17,
 'な': 18,
 '年': 19,
 'れ': 20,
 'い': 21,
 'あ': 22,
 '(': 23,
 ')': 24,
 '2': 25,
 'さ': 26,
 'こ': 27,
 'も': 28,
 'か': 29,
 '##する': 30,
 'ある': 31,
 '日': 32,
 'いる': 33,
 'する': 34,
 '・': 35,
 '「': 36,
 '月': 37,
 '」': 38,
 '19': 39,
 'から': 40,
 '20': 41,
 '大': 42,
 'ア': 43,
 'そ': 44,
 'こと': 45,
 '##して': 46,
 'ま': 47,
 '3': 48,
 'や': 49,
 'として': 50,
 '中': 51,
 '一': 52,
 '人': 53,
 'よ': 54,
 'ス': 55,
 'によ': 56,
 '4': 57,
 'なっ': 58,
 'その': 59,
 'ら': 60,
 '-': 61,
 'れる': 62,
 '『': 63,
 'など': 64,
 '』': 65,
 'フ': 66,
 'シ': 67,
 '##リー': 68,
 '同': 69,
 'この': 70,
 '出': 71,
 '時': 72,
 'お': 73,
 '地': 74,
 'だ': 75,
 '5': 76,
 '行': 77,
 '201': 78,
 '国': 79,
 'ない': 80,
 '的': 81,
 'ため': 82,
 '後': 83,
 'られ': 84,
 '発': 85,
 '200': 86,
 '##ール': 87,
 'イ': 88,
 '##ラン': 89,
 '作': 90,
 '日本': 91,
 '##ター': 92,
 '##ック': 93,
 '市':

In [24]:
# 特殊トークンのID

tokenizer.pad_token_id, \
tokenizer.unk_token_id, \
tokenizer.cls_token_id, \
tokenizer.sep_token_id, \
tokenizer.mask_token_id

(0, 1, 2, 3, 4)

In [25]:
# 全ての特殊トークンとID
tokenizer.all_special_tokens, \
tokenizer.all_special_ids

(['[UNK]', '[SEP]', '[PAD]', '[CLS]', '[MASK]'], [1, 3, 0, 2, 4])