## 製品価格予測

（講師は A100 を使用しているが T4 でも実行可能）

## 第7週 三日目：トレーニング！

# 重要なメモ これを読んでください!

以下の pip インストールを実行すると、FSSPECの互換性のないバージョンについて不平を言うPIPからエラーが発生する可能性があります。そのエラーを無視する必要があります！ FSSPECのバージョンは、Hugging Faceが必要とする適切なバージョンです。

ChatGptに尋ねると、FSSPECのより最近のバージョンをインストールすることを推奨してきますが、しかし、それは問題があり、Hugging Faceは、ファイルシステムに関するあいまいなエラーでデータセットを後でロードできないので、pip インストールは以下に表示されているように実行してください。エラーが発生した場合は、逆の方を見てください。

In [None]:
# pip install

!pip install -q --upgrade torch==2.5.1+cu124 torchvision==0.20.1+cu124 torchaudio==2.5.1+cu124 --index-url https://download.pytorch.org/whl/cu124
!pip install -q --upgrade requests==2.32.3 bitsandbytes==0.46.0 transformers==4.48.3 accelerate==1.3.0 datasets==3.2.0 peft==0.14.0 trl==0.14.0 matplotlib wandb

In [None]:
# import
# Islam S.に感謝します。

import os
import re
import math
from datetime import datetime
from tqdm import tqdm

from google.colab import userdata
from huggingface_hub import login
from datasets import load_dataset, Dataset, DatasetDict

import torch
import transformers
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, set_seed, BitsAndBytesConfig
from peft import LoraConfig
from trl import SFTTrainer, SFTConfig

import wandb
import matplotlib.pyplot as plt

In [None]:
# 定数

BASE_MODEL = "meta-llama/Meta-Llama-3.1-8B"
PROJECT_NAME = "lite-pricer" # "pricer"
HF_USER = "nishi74322014"

# データ
DATASET_NAME = f"{HF_USER}/lite-data"
#DATASET_NAME = "ed-donner/pricer-data" # 後で件数を少なくできる。
MAX_SEQUENCE_LENGTH = 182

# HF Hubにモデルを保存するために名前
RUN_NAME =  f"{datetime.now():%Y-%m-%d_%H.%M.%S}"
PROJECT_RUN_NAME = f"{PROJECT_NAME}-{RUN_NAME}"
HUB_MODEL_NAME = f"{HF_USER}/{PROJECT_RUN_NAME}"

# QLoRAのハイパーパラメタ
LORA_R = 32        # r:Rank
LORA_ALPHA = 64    # W′ = W + α⋅BA の α
TARGET_MODULES = ["q_proj", "v_proj", "k_proj", "o_proj"]
LORA_DROPOUT = 0.1 # α⋅BA の部分に適用される。
QUANT_4_BIT = True # LORA → QLORA

# トレーニング用のハイパーパラメタ

# 必要に応じてより多くのエポックを行うことができる。
# が、1-2で十分、3以上で過学習になる（ログを見て判断）。
EPOCHS = 1

# A100ボックスで16まで設定可能
BATCH_SIZE = 2

# GPUメモリが足りないときに「見かけ上のバッチサイズを大きくする」（→ 精度が安定）
# 「見かけ上のバッチサイズ」= BATCH_SIZE * GRADIENT_ACCUMULATION_STEPS
GRADIENT_ACCUMULATION_STEPS = 2

# 学習率
LEARNING_RATE = 1e-4

# 学習率のスケジュール・タイプ
LR_SCHEDULER_TYPE = 'cosine' # cosineカーブのように徐々に減少

# 学習率ウォームアップ
WARMUP_RATIO = 0.03 # ステップ数の 3% をウォームアップに使う

# 最適化アルゴリズム [paged_adamw_8bit, paged_adamw_32bit, adafactor]
# paged_adamw_32bit：高精度でA100など、paged_adamw_8bit：精度は下がるT4など、adafactor：メモリ使用量は最少、安定性は劣る
# LoRAやQLoRAなどの極端な軽量化が必要な時の最終手段。
OPTIMIZER = "paged_adamw_8bit" # "paged_adamw_32bit"

# 管理者設定 - SAVE_STEPS はハブへのアップロード頻度です。
# より頻繁に保存できるよう、5000 から 2000 に変更しました。
LOGGING_STEPS = 50
SAVE_STEPS = 2000
LOG_TO_WANDB = True

%matplotlib inline

In [None]:
# HF Hubにアップロードするモデル名
HUB_MODEL_NAME

# オプティマイザーの詳細

https://huggingface.co/docs/transformers/main/en/perf_train_gpu_one#optimizers

最も一般的なのは、AdamまたはAdamW（重減衰のあるAdam）です。

Adamは、以前の勾配のローリング平均を保存することにより、良好な収束を達成します。ただし、モデルパラメタの数の順序の追加メモリフットプリントを追加します。

### Hugging Face と Weights & Biases にログインします

まだHugging Faceアカウントをお持ちでない場合は、https://huggingface.co にアクセスしてサインアップしてトークンを作成します。

次に、左のキーアイコンをクリックして、このノートブックのシークレットを選択し、トークンとして値を持つ `HF_TOKEN` と呼ばれる新しい秘密を追加します。

https://wandb.ai で Weights & Biases についてこれを繰り返し、`WANDB_API_KEY` と呼ばれる秘密を追加する。

In [None]:
# Hugging Face Hub にプログラムからログイン
hf_token = userdata.get('HF_TOKEN')
login(hf_token, add_to_git_credential=True)

In [None]:
# Weights & Biasesにログイン
wandb_api_key = userdata.get('WANDB_API_KEY')
os.environ["WANDB_API_KEY"] = wandb_api_key
wandb.login()

# プロジェクトに対して記録するように重みとバイアスを構成
os.environ["WANDB_PROJECT"] = PROJECT_NAME
os.environ["WANDB_LOG_MODEL"] = "checkpoint" if LOG_TO_WANDB else "end"
os.environ["WANDB_WATCH"] = "gradients"

# データをロード

Hugging Faceにアップロードしたので、取得するのは簡単

In [None]:
dataset = load_dataset(DATASET_NAME)
train = dataset['train']
test = dataset['test']

In [None]:
# トレーニングデータセットのポイント
print(len(train))

# nishi74322014/lite-data を使用するので削減不要
# トレーニングデータセットを20,000ポイントに削減
#train = train.select(range(20000))

In [None]:
# wandb.init
if LOG_TO_WANDB:
  wandb.init(project=PROJECT_NAME, name=RUN_NAME)

## 次に、トークナイザとモデルをロード

モデルを「量子化」し、精度を4ビットに減らす。

In [None]:
# 適切な量子化を選択

if QUANT_4_BIT:
  quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_type="nf4"
  )
else:
  quant_config = BitsAndBytesConfig(
    load_in_8bit=True,
    bnb_8bit_compute_dtype=torch.bfloat16
  )

In [None]:
# トークナイザとモデルをロード

tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

base_model = AutoModelForCausalLM.from_pretrained(
    BASE_MODEL,
    quantization_config=quant_config,
    device_map="auto",
)

# （バッチ化などで）長さを揃えるために 「パディングトークンID」 が必要
base_model.generation_config.pad_token_id = tokenizer.pad_token_id

print(f"Memory footprint: {base_model.get_memory_footprint() / 1e6:.1f} MB")

# DataCollator

は、データの前処理（バッチ化）を行うクラスで、このトレーニングでは、

モデルが商品の説明含め予測するのではなく、価格のみを予測するようにトレーニングすることが重要になる。

「Price is $」までの部分は、モデルが次のトークンを予測するためのコンテキストを提供するためのもので、

- トレーナーに「`Price is $`までの部分を学習する必要はない」ことを伝える必要がある。
- また、トレーナーは、モデルに「`Price is $`の後のトークンを予測するよう」に教える必要がある。

マスクを設定することでこれを行うための複雑な方法があるが、幸運なことに、

Hugging Faceは私たちのためにこれを大事にするための非常にシンプルなヘルパークラスを提供します。

In [None]:
# 「Price is $」の後ろに続くテキストだけを学習対象にするように指示

from trl import DataCollatorForCompletionOnlyLM
response_template = "Price is $"
collator = DataCollatorForCompletionOnlyLM(response_template, tokenizer=tokenizer)

# そして今

## トレーニング用の構成を設定

2つのオブジェクトを作成

- LoRAのハイパーパラメタを備えた LoraConfig
- 全体的なトレーニングパラメタを備えた SFTConfig

In [None]:
# まず、LoraConfigを設定

lora_parameters = LoraConfig(
    # LoRAスケーリング係数α
    lora_alpha=LORA_ALPHA,
    # LoRA適用部分のドロップアウト率。
    lora_dropout=LORA_DROPOUT,
    # LoRA（の低ランク行列）のランク（次元）。
    r=LORA_R,
    # LoRAでバイアス項をどのように扱うか。
    bias="none",
    # タスク種類：因果言語モデル（次単語予測）
    task_type="CAUSAL_LM",
    # LoRAを適用するモジュール
    target_modules=TARGET_MODULES,
)

# 次に、SFTConfigを設定

train_parameters = SFTConfig(
    # トレーニング成果物保存ディレクトリ名。
    output_dir=PROJECT_RUN_NAME,
    # 学習エポック数
    num_train_epochs=EPOCHS,
    # 学習時のバッチサイズ（デバイスごと）
    per_device_train_batch_size=BATCH_SIZE,
    # 評価時のバッチサイズ（デバイスごと）。
    per_device_eval_batch_size=1,
    # 評価を行わない設定。通常 "steps" や "epoch" を指定可能。
    eval_strategy="no",
    # 見かけ上のバッチサイズを大きくする
    gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
    # 使用する最適化アルゴリズム
    optim=OPTIMIZER,
    # モデルを何ステップごとに保存するか？
    save_steps=SAVE_STEPS,
    # 保存するチェックポイントの最大数
    save_total_limit=10,
    # ログを出力するステップ間隔
    logging_steps=LOGGING_STEPS,
    # 学習率
    learning_rate=LEARNING_RATE,
    # 重み減衰（L2正則化）
    weight_decay=0.001,
    # 16ビット浮動小数点（半精度）演算を使わない。
    fp16=False,
    # bfloat16での学習を有効化（T4は非対応）
    bf16=False, # True,
    # 勾配クリッピングの最大値（勾配爆発の防止）
    max_grad_norm=0.3,
    # 総ステップ数をエポック数で制御
    max_steps=-1,
    # ウォームアップステップの割合
    warmup_ratio=WARMUP_RATIO,
    # バッチを同じ長さの入力にまとめ効率化
    group_by_length=True,
    # 学習率スケジューラーのタイプ（説明済み
    lr_scheduler_type=LR_SCHEDULER_TYPE,
    # Weights & Biases（W&B）へのログ送信の有効/無効
    report_to="wandb" if LOG_TO_WANDB else None,
    # W&B上などで使われるRUN_NAME
    run_name=RUN_NAME,
    # モデルが処理する最大トークン長
    max_seq_length=MAX_SEQUENCE_LENGTH,
    # 入力データのテキストが格納されているフィールド名
    dataset_text_field="text",
    # 保存タイミングの基準をステップ数に
    save_strategy="steps",
    # モデルを保存するたびにHubアップロード
    hub_strategy="every_save",
    # 学習済みモデルをHugging Face Hubにアップロード
    push_to_hub=True,
    # Hugging Face Hubにアップロードする際のモデル名
    hub_model_id=HUB_MODEL_NAME,
    # H非公開リポジトリとしてアップロード
    hub_private_repo=True
)

# そして今、監督されたファインチューニング・トレーナーがファインチューニングを実行します。
# これらの2セットの構成パラメタ（LoraConfig、SFTConfig）を与える。
# TRLの最新バージョンは、ラベルに関する警告を示している - この警告を無視してください
# 良いトレーニング結果が見られない場合はお知らせください（損失が下がっています）。

fine_tuning = SFTTrainer(
    model=base_model,
    train_dataset=train,
    peft_config=lora_parameters,
    args=train_parameters,
    data_collator=collator
  )

## 次のセルでは、ファインチューニングを開始します！

これはしばらくの間実行され、Save_Stepsステップで HF HUB にアップロードします。

しばらくすると、GoogleはあなたのColabを止めるかもしれません。

無料プランを使用している人にとって、Googleがリソースが少ないときはいつでも発生する可能性があります。

有料プランの場合は誰でも、最大24時間を与えることができますが、保証はありません。

サーバーが停止した場合は、ここで私のColabをたどって最後の保存から再開できる。

https://colab.research.google.com/drive/1qGTDVIas_Vwoby4UVi2vwsU0tHXy8OMO#scrollTo=R_O04fKxMMT-

このColabを出力での最終実行で保存したので、例を見ることができます。

トリックは、fine_tunedモデルをロードするときに「is_trainable」を設定する必要があることです。

### とにかく、それを念頭に置いて、これをキックオフしましょう！

In [None]:
# ファインチューニング！
fine_tuning.train()

# 結果をHF HUBにプッシュ
fine_tuning.model.push_to_hub(PROJECT_RUN_NAME, private=True)
print(f"Saved to the hub: {PROJECT_RUN_NAME}")

# W&Bに終了を通知
if LOG_TO_WANDB:
  wandb.finish()