<a href="https://colab.research.google.com/github/kanade-ishii/ipynbs/blob/main/gpt_2_sample.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Transformersのインストール
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.26.0-py3-none-any.whl (6.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m52.9 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.2-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.6/7.6 MB[0m [31m117.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting huggingface-hub<1.0,>=0.11.0
  Downloading huggingface_hub-0.12.0-py3-none-any.whl (190 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m190.3/190.3 KB[0m [31m24.6 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tokenizers, huggingface-hub, transformers
Successfully installed huggingface-hub-0.12.0 tokenizers-0.13.2 transformers-4.26.0


In [2]:
# SentencePieceのインストール
!pip install sentencepiece

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sentencepiece
  Downloading sentencepiece-0.1.97-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m18.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentencepiece
Successfully installed sentencepiece-0.1.97


In [3]:
# ライブラリのインポート
import torch
from transformers import T5Tokenizer, AutoModelForCausalLM

# トークナイザの読み込み
tokenizer = T5Tokenizer.from_pretrained("rinna/japanese-gpt-1b")

# モデル本体の読み込み
model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-1b")

# GPU使用時の設定
if torch.cuda.is_available():
    model = model.to("cuda")

Downloading (…)"spiece.model";:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/153 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/283 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/578 [00:00<?, ?B/s]

Downloading (…)"pytorch_model.bin";:   0%|          | 0.00/2.66G [00:00<?, ?B/s]

In [5]:
# 入力文
text = "GPT-2のような文章生成モデルは、"

# 入力文のトークナイズ
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")

# 入力文とパラメータの設定にしたがって文章を生成
with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        max_length=100,
        min_length=100,
        do_sample=True,
        top_k=500,
        top_p=0.95,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
    )

# 生成された文章を単語IDから実際の単語に変換
output = tokenizer.decode(output_ids.tolist()[0])
print(output)

GPT-2のような文章生成モデルは、モデルに適合する文章を入れ替えることでデータを入力することができる。例えば、図1に示すようなA3長辺の文書Aの全てにデータが入力された場合に、この文書Aに対応する文章である図1の「(C)文章Aの全てが出力された」という文章をB2に評価させることで、B2はA3の長辺およびB2の長辺、つまりA3とB2の長辺が対応するように文書Aの全てを評価
