<a href="https://colab.research.google.com/github/tomoyahiroe/transformers-playground/blob/main/special_tokens.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# transformersのインストール
!pip install transformers[ja,sentencepiece,torch]

In [None]:
from transformers import AutoTokenizer
import pprint

# types of special tokens by specific models

In [None]:
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
pprint.pp(tokenizer.special_tokens_map)

# One token per type
# {'unk_token': '[UNK]',
#  'sep_token': '[SEP]',
#  'pad_token': '[PAD]',
#  'cls_token': '[CLS]',
#  'mask_token': '[MASK]'}

In [None]:
tokenizer = AutoTokenizer.from_pretrained("google/t5-v1_1-xl")
pprint.pp(tokenizer.special_tokens_map)

# models config

In [None]:
from transformers import AutoTokenizer
# AutoTokenizerでトークナイザをロードする
tokenizer = AutoTokenizer.from_pretrained("abeja/gpt2-large-japanese")

In [None]:
# ⼊⼒⽂をトークンに分割する
inputs = tokenizer.tokenize("今⽇は天気が良いので", return_tensors="pt")
# ['▁', '今日', 'は', '天気', 'が良い', 'の', 'で']

In [None]:
from transformers import AutoModelForCausalLM
# ⽣成を⾏うモデルであるAutoModelForCausalLMを使ってモデルをロードする
model = AutoModelForCausalLM.from_pretrained(
"abeja/gpt2-large-japanese"
)
# トークナイザを使ってモデルへの⼊⼒を作成する
inputs = tokenizer("今⽇は天気が良いので", return_tensors="pt")
# 後続のテキストを予測
outputs = model.generate(
**inputs,
max_length=15, # ⽣成する最⼤トークン数を15に指定
pad_token_id=tokenizer.pad_token_id # パディングのトークンIDを指定
)
# generate関数の出⼒をテキストに変換する
generated_text = tokenizer.decode(
outputs[0], skip_special_tokens=True
)
print(generated_text)

In [None]:
model.config