1~5章の中で扱ったように、文章または文章のリストをtokenizerに入力することで、言語モデルに入力できるような形式に変換することができる。

In [1]:
import pprint
from transformers import AutoTokenizer

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

sentence = "We are very happy to show you the Hugging Face Transformers library."
sentences = [
    "For us, the Hugging Face Transformers library is a huge success.",
    "We hope you don't hate it.",
]

input = tokenizer(sentence)
inputs = tokenizer(sentences)

# 整形して表示
pprint.pprint(input, width=256)
pprint.pprint(inputs, width=256)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

{'input_ids': [101, 2057, 2024, 2200, 3407, 2000, 2265, 2017, 1996, 17662, 2227, 19081, 3075, 1012, 102], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}
{'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]],
 'input_ids': [[101, 2005, 2149, 1010, 1996, 17662, 2227, 19081, 3075, 2003, 1037, 4121, 3112, 1012, 102], [101, 2057, 3246, 2017, 2123, 1005, 1056, 5223, 2009, 1012, 102]]}


また、文章のリスト入力に対するpaddingも引数を与えることで簡単に実装できる。

In [2]:
# Padding
## 最も長い文の長さまで埋める
padded_inputs_longest = tokenizer(sentences, padding="longest")

## modelの最大入力長まで埋める(bertなら512)
padded_inputs_max = tokenizer(sentences, padding="max_length")

## 指定した長さまで埋める
padded_inputs_selected_max = tokenizer(sentences, padding="max_length", max_length=15)

# 整形して表示
pprint.pprint(padded_inputs_longest, width=256, compact=True)
pprint.pprint(padded_inputs_max, width=256, compact=True)
pprint.pprint(padded_inputs_selected_max, width=256, compact=True)

{'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]],
 'input_ids': [[101, 2005, 2149, 1010, 1996, 17662, 2227, 19081, 3075, 2003, 1037, 4121, 3112, 1012, 102], [101, 2057, 3246, 2017, 2123, 1005, 1056, 5223, 2009, 1012, 102, 0, 0, 0, 0]]}
{'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
                     0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
                     0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

逆に、引数truncationを設定する事で入力のトークンを切り詰める事もできる。

In [5]:
# Truncation
## 入力トークン数がmodelの最大長より長い場合にはtruncation
truncated_inputs_max = tokenizer(sentences, truncation=True)

## 指定した長さ(8)まで切り詰める
truncated_inputs_selected_max = tokenizer(sentences, max_length=8, truncation=True, )

# 整形して表示
pprint.pprint(truncated_inputs_max, width=256, compact=True)
pprint.pprint(truncated_inputs_selected_max, width=256, compact=True)

{'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]],
 'input_ids': [[101, 2005, 2149, 1010, 1996, 17662, 2227, 19081, 3075, 2003, 1037, 4121, 3112, 1012, 102], [101, 2057, 3246, 2017, 2123, 1005, 1056, 5223, 2009, 1012, 102]]}
{'input_ids': [[101, 2005, 2149, 1010, 1996, 17662, 2227, 102], [101, 2057, 3246, 2017, 2123, 1005, 1056, 102]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1]]}


また、返す形式をpytorchやtensorflowなど指定する事も可能。

In [7]:
# 形式の指定
## pytorch
pt_inputs = tokenizer(sentences, padding="max_length", return_tensors="pt")

# tensorflow
tf_inputs = tokenizer(sentences, padding="max_length", return_tensors="tf")

# numpy
np_inputs = tokenizer(sentences, padding="max_length", return_tensors="np")

# 整形して表示
pprint.pprint(pt_inputs, width=256, compact=True)
pprint.pprint(tf_inputs, width=256, compact=True)
pprint.pprint(np_inputs, width=256, compact=True)

{'input_ids': tensor([[ 101, 2005, 2149,  ...,    0,    0,    0],
        [ 101, 2057, 3246,  ...,    0,    0,    0]]), 'attention_mask': tensor([[1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0]])}
{'attention_mask': <tf.Tensor: shape=(2, 512), dtype=int32, numpy=
array([[1, 1, 1, ..., 0, 0, 0],
       [1, 1, 1, ..., 0, 0, 0]], dtype=int32)>,
 'input_ids': <tf.Tensor: shape=(2, 512), dtype=int32, numpy=
array([[ 101, 2005, 2149, ...,    0,    0,    0],
       [ 101, 2057, 3246, ...,    0,    0,    0]], dtype=int32)>}
{'input_ids': array([[ 101, 2005, 2149, ...,    0,    0,    0],
       [ 101, 2057, 3246, ...,    0,    0,    0]]), 'attention_mask': array([[1, 1, 1, ..., 0, 0, 0],
       [1, 1, 1, ..., 0, 0, 0]])}


最後に、過去に扱ったように再度tokenizerによって付与される特殊トークンのふるまいについて確認する。

In [10]:
input_by_tokenizer = tokenizer(sentence)
decoded = tokenizer.decode(input_by_tokenizer.input_ids)
pprint.pprint(decoded, width=256, compact=True)

tokens = tokenizer.tokenize(sentence)
ids_by_method = tokenizer.convert_tokens_to_ids(tokens)
decoded = tokenizer.decode(ids_by_method)
pprint.pprint(decoded, width=256, compact=True)

'[CLS] we are very happy to show you the hugging face transformers library. [SEP]'
'we are very happy to show you the hugging face transformers library.'


上記に見られるように、文章にtokenizerを直接使用して取得したid列は、[CLS]と[SEP]の2つのトークンを含むようになっている事に注意。

以上まででtokenizerを使った文章(のリスト)の変換とその詳細な機能の紹介とする。