In [1]:
%pip -q install torch
%pip -q install transformers
%pip -q install bitsandbytes
%pip -q install peft
%pip -q install trl
%pip -q install datasets
%pip -q install tensorboard
%pip -q install pandas openpyxl


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.

[1m[[0m[34;49mnotice[0m[1;39;49m][0m

In [None]:
import os
import json
import torch
from datasets import Dataset
import bitsandbytes as bnb
from transformers import (
    AutoTokenizer, 
    AutoModelForCausalLM, 
    BitsAndBytesConfig,
    TrainingArguments
)
from peft import LoraConfig
from trl import SFTTrainer

import torchinfo
from torchinfo import summary

In [None]:
# huggingfaceトークンの設定（gemma2を使用するのに必要なため）
os.environ["HF_TOKEN"] = "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"

# モデルのリポジトリIDを設定
repo_id = "google/gemma-2-2b-jpn-it"

# データセットのパス
dataset_path = "./zmn.jsonl"

In [None]:
# jsonlファイルを読み込む
json_data = []
with open(dataset_path, 'r', encoding='utf-8') as f:
    for line in f:
        json_data.append(json.loads(line))

# DatasetオブジェクトにJSONデータを変換
dataset = Dataset.from_list(json_data)

In [None]:
# jsonlファイルを読み込む
json_data = []
with open(dataset_path, 'r', encoding='utf-8') as f:
    for line in f:
        json_data.append(json.loads(line))

# DatasetオブジェクトにJSONデータを変換
dataset = Dataset.from_list(json_data)

# プロンプトフォーマット
PROMPT_FORMAT = """<start_of_turn>user
{system}

{instruction}
<end_of_turn>
<start_of_turn>model
{output}
<end_of_turn>
"""

# データセットの内容をプロンプトにセット → textフィールドとして作成する関数
def generate_text_field(data):
    messages = data["messages"]
    system = ""
    instruction = ""
    output = ""
    for message in messages:
        if message["role"] == "system":
            system = message["content"]
        elif message["role"] == "user":
            instruction = message["content"]
        elif message["role"] == "assistant":
            output = message["content"]  
    full_prompt = PROMPT_FORMAT.format(system=system, instruction=instruction, output=output) 
    return {"text": full_prompt}

# データセットに（generate_text_fieldの処理を用いて）textフィールドを追加
train_dataset = dataset.map(generate_text_field)

# messagesフィールドを削除
train_dataset = train_dataset.remove_columns(["messages"]) 

# 量子化のConfigを設定
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True, # 4ビット量子化を使用
    bnb_4bit_quant_type="nf4", # 4ビット量子化の種類にnf4（NormalFloat4）を使用
    bnb_4bit_use_double_quant=True, # 二重量子化を使用
    bnb_4bit_compute_dtype=torch.float16 # 量子化のデータ型をfloat16に設定
)

# モデルの読み込み
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=repo_id, # モデルのリポジトリIDをセット
    device_map={"": "cuda"}, # 使用デバイスを設定
    quantization_config=quantization_config, # 量子化のConfigをセット
    attn_implementation="eager", # 注意機構に"eager"を設定（Gemma2モデルの学習で推奨されているため）
)

# キャッシュを無効化（メモリ使用量を削減）
model.config.use_cache = False 

# テンソル並列ランクを１に設定（テンソル並列化を使用しない）
model.config.pretraining_tp = 1 

# トークナイザーの準備
tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path=repo_id, # モデルのリポジトリIDをセット
    attn_implementation="eager", # 注意機構に"eager"を設定（Gemma2モデルの学習で推奨されているため）
    add_eos_token=True, # EOSトークンの追加を設定
)

# パディングトークンが設定されていない場合、EOSトークンを設定
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# パディングを右側に設定(fp16を使う際のオーバーフロー対策)
tokenizer.padding_side = "right"

# モデルから4ビット量子化された線形層の名前を取得する関数
def find_all_linear_names(model):
    target_class = bnb.nn.Linear4bit
    linear_layer_names = set()
    for name_list, module in model.named_modules():
        if isinstance(module, target_class):
            names = name_list.split('.')
            layer_name = names[-1] if len(names) > 1 else names[0]
            linear_layer_names.add(layer_name)
    if 'lm_head' in linear_layer_names:
        linear_layer_names.remove('lm_head')
    return list(linear_layer_names)

# モジュールのリストとして線形層の名前を取得
target_modules = find_all_linear_names(model)

# LoRAのConfigを設定
Lora_config = LoraConfig(
    lora_alpha=8, # LoRAによる学習の影響力を調整（スケーリング)
    lora_dropout=0.1, # ドロップアウト率
    r=4, # 低ランク行列の次元数
    bias="none", # バイアスのパラメータ更新
    task_type="CAUSAL_LM", # タスクの種別
    target_modules=target_modules # LoRAを適用するモジュールのリスト
)

# 学習パラメータを設定
training_arguments = TrainingArguments(
    output_dir="./train_logs", # ログの出力ディレクトリ
    fp16=True, # fp16を使用
    logging_strategy='epoch', # 各エポックごとにログを保存（デフォルトは"steps"）
    save_strategy='epoch', # 各エポックごとにチェックポイントを保存（デフォルトは"steps"）
    num_train_epochs=3, # 学習するエポック数
    per_device_train_batch_size=1, # （GPUごと）一度に処理するバッチサイズ
    gradient_accumulation_steps=4, # 勾配を蓄積するステップ数
    optim="paged_adamw_32bit", # 最適化アルゴリズム
    learning_rate=5e-4, # 初期学習率
    lr_scheduler_type="cosine", # 学習率スケジューラの種別
    max_grad_norm=0.3, # 勾配の最大ノルムを制限（クリッピング）
    warmup_ratio=0.03, # 学習を増加させるウォームアップ期間の比率
    weight_decay=0.001, # 重み減衰率
    group_by_length=True,# シーケンスの長さが近いものをまとめてバッチ化
    report_to="tensorboard" # TensorBoard使用してログを生成（"./train_logs"に保存）
)

# SFTパラメータの設定
trainer = SFTTrainer(
    model=model, # モデルをセット
    tokenizer=tokenizer, # トークナイザーをセット
    train_dataset=train_dataset, # データセットをセット
    dataset_text_field="text", # 学習に使用するデータセットのフィールド
    peft_config=Lora_config, # LoRAのConfigをセット
    args=training_arguments, # 学習パラメータをセット
    max_seq_length=512, # 入力シーケンスの最大長を設定
)

# 正規化層をfloat32に変換(学習を安定させるため)
for name, module in trainer.model.named_modules():
    if "norm" in name:
        module = module.to(torch.float32)

# モデルの学習
trainer.train()

# 学習したアダプターを保存
trainer.model.save_pretrained("./QLoRA_sample_model")

In [None]:
import os
import torch
from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer

# huggingfaceトークンの設定（gemma2を使用するのに必要なため）
os.environ["HF_TOKEN"] = "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"

# アダプターのパス
adapter_path = "./QLoRA_sample_model"

# モデルのリポジトリIDを設定
repo_id = "google/gemma-2-2b-jpn-it"

# ベースモデルとアダプターの読み込み
model = AutoPeftModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=adapter_path, 
    device_map={"": "cuda"}, 
    torch_dtype=torch.float16,
)

# トークナイザーの準備
tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path=repo_id, 
)

# パディングトークンが設定されていない場合、EOSトークンを設定
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# パディングを右側に設定(fp16を使う際のオーバーフロー対策)
tokenizer.padding_side = "right"

question_list = [
    "名前を教えてください",
    "日本の首都はどこですか", 
    "ジョークを言ってください", 
    "東北の観光地について教えてください" 
]

# 各質問に対して回答を生成
for i, question in enumerate(question_list, 1):
    print(f"\nchat_{i}----------------------------------------------------")
    print(f"質問: {question}")
    
    # チャットメッセージの設定
    messages = [
        {"role": "user", "content": question}
    ]
    
    # トークナイザーのチャットテンプレートを適用
    prompt = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    
    # プロンプトをトークン化してテンソルに変換（GPUに転送）
    model_inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
    
    # 回答を生成
    generated_ids = model.generate(
        model_inputs.input_ids,
        attention_mask=model_inputs.attention_mask,
        max_new_tokens=300
    )
    
    # 生成された回答を抽出
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]

    # トークンIDを文字列に変換
    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
    
    print(f"回答: {response}")
    print("----------------------------------------------------------")