# Use tokenizers from Hugging Face Tokenizers

`PreTrainedTokenizerFast`は，`Hugging Face Tokenizers`ライブラリに依存しています．
ライブラリから得られるトークナイザはHugging Face Transformersにとても簡単に読み込むことができます．

詳細に入る前に，ダミーのトークナイザを数行で生成することから始めましょう:

In [1]:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

tokenizer.pre_tokenizer = Whitespace()
files = ["../tutorials/001_quicktour.ipynb"]
tokenizer.train(files, trainer)






定義したファイルで学習されたトークナイザが得られました．
このままこのランタイムで利用することもできますし，JSONファイルに保存して将来の再利用に備えることもできます．

## トークナイザオブジェクトからの直接の読み込み（Loading directly from tokenizer object）

このトークナイザオブジェクトをHugging Face Transformersライブラリで利用する方法について見ていきましょう．
*tokenizer*オブジェクトを引数にすることで，`PreTrainedTokenizerFast`クラスが簡単な実現方法を可能にします．

In [2]:
from transformers import PreTrainedTokenizerFast

fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)

Hugging Face Transformersのトークナイザで共有される全てのメソッドでこのオブジェクトを利用することができます！
より多くの情報のために[tokenizer page](https://huggingface.co/docs/transformers/v4.44.0/en/main_classes/tokenizer)に進んでください．

## JSONファイルの読み込み（Loading from a JSON file）

JSONファイルからトークナイザを読み込むために，今のトークナイザを保存してみましょう．

In [3]:
tokenizer.save("tokenizer.json")

ファイルを保存するのに使用したパスは，`PreTrainedTokenizerFast`の初期化メソッドに`tokenizer_file`パラメータを使って渡すことができます:

In [4]:
from transformers import PreTrainedTokenizerFast
fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")

Hugging Face Transformersのトークナイザで共有される全てのメソッドでこのオブジェクトを利用することができます！
より多くの情報のために[tokenizer page](https://huggingface.co/docs/transformers/v4.44.0/en/main_classes/tokenizer)に進んでください．