# 文書生成AIのファインチューニング・レシピ
本Notebookでは、MARC-jaというAmazonのレビューデータセットに対する分類モデルを報酬モデルとして用いたRLHFにより事前学習済みモデルをファインチューニングするコードを記載します。

## 事前準備
利用するライブラリのインストールやモデルのロード、データセットの準備を行います。

### (1) Hugging Face HubとWeights & Biasesのアカウント作成
それぞれのサービスのウェブサイトでアカウントを作成します。

### (2) ライブラリのインストール
利用するライブラリをインストールします。

In [1]:
%pip install transformers==4.35.2
%pip install trl[peft]==0.7.10
%pip install wandb==0.16.2
%pip install sentencepiece==0.1.99
%pip install accelerate==0.26.1
%pip install bitsandbytes==0.42.0

Collecting transformers==4.35.2
  Downloading transformers-4.35.2-py3-none-any.whl.metadata (123 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/123.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m123.5/123.5 kB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers<0.19,>=0.14 (from transformers==4.35.2)
  Downloading tokenizers-0.15.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Downloading transformers-4.35.2-py3-none-any.whl (7.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.9/7.9 MB[0m [31m95.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading tokenizers-0.15.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.6/3.6 MB[0m [31m80.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tokenizers, transformers
  Attempting uninstall: tokenizer

### (3) Weights & Biases及びHugging Face Hubへのログイン
学習時のログを記録するWeights & Biases、及び訓練後のモデルの保存先であるHuggingface Hubにログインします。

In [2]:
import wandb
wandb.init()

<IPython.core.display.Javascript object>

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
wandb: Paste an API key from your profile and hit enter, or press ctrl+c to quit:

 ··········


[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


In [3]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

ライブラリをインポートします。

In [4]:
import torch
from tqdm import tqdm
import pandas as pd

tqdm.pandas()

from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification
from datasets import load_dataset
from peft import LoraConfig
from trl import PPOTrainer, PPOConfig, AutoModelForCausalLMWithValueHead
from trl.core import LengthSampler

  _torch_pytree._register_pytree_node(
  _torch_pytree._register_pytree_node(
  _torch_pytree._register_pytree_node(


### (4) データセットの準備
モデル名とデータセット名を定義します。ファインチューニング後のモデルは`save_model_name`という名前でHugging Face Hub上に保存されます。

In [5]:
rm_name = 'Mizuiro-sakura/luke-japanese-base-marcja'
model_name = 'line-corporation/japanese-large-lm-1.7b'
dataset_name, subset_name = 'shunk031/JGLUE', 'MARC-ja'
save_model_name = "rlhf-line-marcja-0828"

データセットを作成する関数を定義します。

In [10]:
def build_dataset(model_name, dataset_name, subset_name=None, split="train",
                  input_min_text_length=2, input_max_text_length=8):
    # トーカナイザをロード
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    tokenizer.pad_token = tokenizer.eos_token

    # データセットをロード、長さが200以上のサンプルを残す
    ds = load_dataset(dataset_name, split=split, name=subset_name,
                      trust_remote_code=True)
    ds = ds.rename_columns({"sentence": "review"})
    ds = ds.filter(lambda x: len(x["review"]) > 200, batched=False)

    # 各サンプルの長さをランダムに選ぶ
    input_size = LengthSampler(input_min_text_length, input_max_text_length)

    # 入力サンプルに対して長さをランダムに選び、トークン列に変換
    def tokenize(sample):
        sample["input_ids"] = \
            tokenizer.encode(sample["review"])[: input_size()]
        sample["query"] = tokenizer.decode(sample["input_ids"])
        return sample

    ds = ds.map(tokenize, batched=False)
    ds.set_format(type="torch")
    return ds

In [11]:
# データセットを取得し、RLHFの対象となるモデルのトーカナイザでトークン列に変換
dataset = build_dataset(model_name, dataset_name, subset_name)



Downloading data: 0.00B [00:00, ?B/s]

Downloading data:   0%|          | 0.00/3.09k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/2.42k [00:00<?, ?B/s]



Downloading data:   0%|          | 0.00/65.0M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/1.93M [00:00<?, ?B/s]

Generating train split: 0 examples [00:00, ? examples/s]

Generating validation split: 0 examples [00:00, ? examples/s]

Filter:   0%|          | 0/187528 [00:00<?, ? examples/s]

Map:   0%|          | 0/71819 [00:00<?, ? examples/s]

In [12]:
len(dataset)

71819

In [14]:
dataset[0]

{'review': '以前職場の方にこれをみて少しでも元氣になってくださいと手渡して、早３年。返してくれと一度言ったが、結局返ってこなかった。６年前にも、職場の（といっても海外ですが）英語の先生に貸したら、これは素晴らしい！と言って、授業でも何度も生徒に見せたり、家でも見てたりしたそうで、結局帰国までに返してもらえなかった。。。この作品、結局３回購入してます。とほほでありつつ、誰かの心の支えになってくれればと願いつつ。エンディングの曲も好きです。あー、自分も突き進む人生を歩みたい。結婚もしたいが。。。',
 'label': tensor(0),
 'review_id': 'R2H83XHJUDZBHT',
 'input_ids': tensor([4964, 3752, 4488, 2833, 2474, 4481,  665]),
 'query': '以前職場の方にこれをみて少しでも元'}

### (5) 事前学習済みモデルの読み込み
Hugging Face Hub上の事前学習済みモデルを読み込みます。

In [15]:
lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)

model = AutoModelForCausalLMWithValueHead.from_pretrained(
    model_name,
    peft_config=lora_config,
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token



config.json:   0%|          | 0.00/2.01k [00:00<?, ?B/s]

  _torch_pytree._register_pytree_node(


model.safetensors:   0%|          | 0.00/3.51G [00:00<?, ?B/s]



pytorch_model.bin:   0%|          | 0.00/3.51G [00:00<?, ?B/s]

  state_dict = loading_func(filename if not use_safe else safe_filename, **load_kwargs)


### (6) 報酬モデルの読み込み
報酬モデルを読み込みます。

In [16]:
device = 0
sentiment_pipe = pipeline("sentiment-analysis", model=rm_name, device=device)

config.json:   0%|          | 0.00/937 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.88k [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/842k [00:00<?, ?B/s]

entity_vocab.json:   0%|          | 0.00/21.7M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/40.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/595 [00:00<?, ?B/s]

動作を確認します。

In [17]:
sentiment_pipe("これは美味しくない", return_all_scores=True)



[[{'label': 'LABEL_0', 'score': 0.028055215254426003},
  {'label': 'LABEL_1', 'score': 0.9719448089599609}]]

## ファインチューニング実装

### (1) 学習条件の設定
学習条件の設定を`PPOTrainer`のコンストラクタに渡してインスタンス化します。

In [18]:
def collator(data):
    return dict((key, [d[key] for d in data]) for key in data[0])

config = config = PPOConfig(
    model_name,
    learning_rate=1.41e-5,
    log_with="wandb",
)
ppo_trainer = PPOTrainer(config, model, tokenizer=tokenizer,
                         dataset=dataset, data_collator=collator)

VBox(children=(Label(value='0.002 MB of 0.002 MB uploaded\r'), FloatProgress(value=1.0, max=1.0)))

### (2) ファインチューニングの実行

以下のコードでファインチューニングを実行します。バッチサイズ256、A100 GPUで11時間程度かかります。

In [20]:
# 感情分析パイプラインのパラメータ
sent_kwargs = {"return_all_scores": True, "function_to_apply": "none", "batch_size": 16}

# 生成文の長さをランダムに選択
output_min_length = 4
output_max_length = 16
output_length_sampler = LengthSampler(output_min_length, output_max_length)

# 文書生成パイプラインのパラメータ
generation_kwargs = {
    "min_length": -1,
    "top_k": 0.0,
    "top_p": 1.0,
    "do_sample": True,
    "pad_token_id": tokenizer.eos_token_id,
}

for step, batch in tqdm(enumerate(ppo_trainer.dataloader)):
    # # 動作確認用
    # if step >= 2:
    #     break

    query_tensors = batch["input_ids"]

    # 文書生成
    response_tensors = []
    for query in query_tensors:
        gen_len = output_length_sampler()
        generation_kwargs["max_new_tokens"] = gen_len
        response = ppo_trainer.generate(query, **generation_kwargs)
        response_tensors.append(response.squeeze()[-gen_len:])
    batch["response"] = [tokenizer.decode(r.squeeze()) for r in response_tensors]

    # 報酬（感情スコア）の計算
    texts = [q + r for q, r in zip(batch["query"], batch["response"])]
    pipe_outputs = sentiment_pipe(texts, **sent_kwargs)

    assert pipe_outputs[0][0]["label"] == "LABEL_0"
    rewards = [torch.tensor(output[0]["score"]) for output in pipe_outputs]

    # PPO訓練ステップ
    stats = ppo_trainer.step(query_tensors, response_tensors, rewards)
    ppo_trainer.log_stats(stats, batch, rewards)


280it [10:28:34, 134.69s/it]


### モデルの保存

ファインチューニング済みのモデルを保存します。

In [21]:
ppo_trainer.save_pretrained(save_model_name, push_to_hub=True)

Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]

adapter_model.safetensors:   0%|          | 0.00/14.2M [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/taku-yoshioka/rlhf-line-marcja-0828/commit/bd3919d2877ca6bb04c5e01c0867994298e21c22', commit_message='Push model using huggingface_hub.', commit_description='', oid='bd3919d2877ca6bb04c5e01c0867994298e21c22', pr_url=None, pr_revision=None, pr_num=None)