## finetuning
#### huggingface上にあるLLMをinstallしてきてfinetuning

In [1]:
## データセットの準備
import os
import json
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TrainingArguments, DataCollatorForSeq2Seq
from datasets import Dataset
from accelerate import Accelerator
from tqdm import tqdm
from utils import validate_and_correct_tnm_output, find_all_linear_names
import pandas as pd
import bitsandbytes as bnb
from unsloth import FastLanguageModel 
from unsloth import is_bfloat16_supported
import torch
from trl import SFTTrainer
from transformers import TrainingArguments
from datasets import load_dataset
from peft import LoraConfig, AutoPeftModelForCausalLM
max_seq_length = 2048 # Supports RoPE Scaling interally, so choose any!
# Get LAION dataset
# url = "https://huggingface.co/datasets/laion/OIG/resolve/main/unified_chip2.jsonl"
# dataset = load_dataset("json", data_files = {"train" : url}, split = "train")


# GPUの確認
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# モデルとトークナイザーのロード
model_name = "google/gemma-2-2b-jpn-it"#"tokyotech-llm/Llama-3.1-Swallow-70B-Instruct-v0.1"#


def prepare_dataset(jsonl_file_path):
    data = []
    with open(jsonl_file_path, 'r', encoding='utf-8') as jsonl_file:
        for line in jsonl_file:
            entry = json.loads(line.strip())
            data.append({
                "prompt": entry["prompt"],
                "completion": entry["completion"],
                "id": entry["id"]
            })
    return Dataset.from_list(data)

# データセットのロード
jsonl_file_path_train = "../finetune_jsons/finetune_dataset_train.jsonl"
dataset_train = prepare_dataset(jsonl_file_path_train)
jsonl_file_path_val = "../finetune_jsons/finetune_dataset_val.jsonl"
dataset_val = prepare_dataset(jsonl_file_path_val)

with open('../tnm_prompt.txt', 'r', encoding='utf-8') as file:
    tnm_prompt_text = file.read()

tnm_prompt = (
    "あなたは優秀な医師です。以下の文章に基づき肺癌に関して常に正しい判断ができます。"
    "以下の進行度分類に基づき、与えられた文章からTNM分類を選んでください。\n\n"
    f"{tnm_prompt_text}\n\n"
    "以下の文章を読んで、TNM分類を正確に選択し、必ず以下の形式で出力してください。TとN,NとMの間には半角スペースを挿入しそれ以外は何も出力しないでください。\n"
    "T<number>[optional_letter] N<number>[optional_letter] M<number>[optional_letter]\n\n"
)


def preprocess_function(examples):
    model_inputs = {}
    inputs = [f"<start_of_turn>user{tnm_prompt} {prompt} <end_of_turn><start_of_turn>model {completion} <end_of_turn>" for prompt,completion in zip(examples['prompt'], examples['completion'])]
    questions = [f"<start_of_turn>user{tnm_prompt} {prompt} <end_of_turn><start_of_turn>model " for prompt in examples['prompt']]

    ids = [id for id in examples['id']]
    # 元のテキストも保持
    model_inputs['text'] = inputs
    model_inputs["id"] = ids
    model_inputs["question"] = questions
    
    return model_inputs

# 元のテキストを保持しつつデータセットを生成
train_dataset = dataset_train.map(preprocess_function, batched=True).remove_columns(["prompt", "completion","id","question"]) 
eval_dataset = dataset_val.map(preprocess_function, batched=True)#.remove_columns(["prompt", "completion","id"]) 

##sample output
print(train_dataset[0])


This can be used to load a bitsandbytes version that is different from the PyTorch CUDA version.
If this was unintended set the BNB_CUDA_VERSION variable to an empty string: export BNB_CUDA_VERSION=
If you use the manual override make sure the right libcudart.so is in your LD_LIBRARY_PATH
For example by adding the following to your .bashrc: export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:<path_to_cuda_dir/lib64



🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
🦥 Unsloth Zoo will now patch everything to make training faster!
Using device: cuda


Map:   0%|          | 0/108 [00:00<?, ? examples/s]

Map:   0%|          | 0/54 [00:00<?, ? examples/s]

{'text': '<start_of_turn>userあなたは優秀な医師です。以下の文章に基づき肺癌に関して常に正しい判断ができます。以下の進行度分類に基づき、与えられた文章からTNM分類を選んでください。\n\nT0\t原発腫瘍を認めない\nTis\t上皮内癌（carcinoma in situ）：肺野型の場合は、充実成分径0cmかつ病変全体径≦3cm\nT1\t腫瘍の充実成分径≦3cm、肺または臓側胸膜に覆われている、葉気管支より中枢への浸潤が気管支鏡上認められない（すなわち主気管支に及んでいない）\nT1mi\u3000微少浸潤性腺癌：部分充実型を示し、充実成分径≦0.5cmかつ病変全体径≦3cm \nT1a\t充実成分径≦1cmでかつTis・T1miには相当しない\nT1b\t充実成分径>1cmでかつ≦2cm\nT1c\t充実成分径>2cmでかつ≦3cm\nT2\t充実成分径>3cmでかつ≦5cm、または充実成分径≦3cmでも以下のいずれかであるもの\n\u3000\u3000主気管支に及ぶが気管分岐部には及ばない\n\u3000\u3000臓側胸膜に浸潤\n\u3000\u3000肺門まで連続する部分的または一側全体の無気肺か閉塞性肺炎がある\nT2a\t充実成分径>3cmでかつ≦4cm\nT2b\t充実成分径>4cmでかつ≦5cm\nT3\t充実成分径>5cmでかつ≦7cm、または充実成分径≦5cmでも以下のいずれかであるもの\n\u3000\u3000壁側胸膜、胸壁（superior sulcus tumorを含む）、横隔神経、心膜のいずれかに直接浸潤\n\u3000\u3000同一葉内の不連続な副腫瘍結節\nT4\t充実成分径＞7cm、または大きさを問わず横隔膜、縦隔、心臓、大血管、気管、反回神経、食道、椎体、気管分岐部への浸潤、あるいは同側の異なった肺葉内の副腫瘍結節\n\n\nN0\t所属リンパ節転移なし\nN1\tがんのある肺と同じ側の気管支周囲かつ/または同じ側の肺門、肺内のリンパ節への転移がある\nN2\tがんのある肺と同じ側の縦隔かつ/または気管分岐部より下のリンパ節への転移がある\nN3\tがんのある肺と反対側の縦隔、肺門、同じ側あるいは反対側の前斜角筋（首の筋肉）、鎖骨上窩（鎖骨の上のくぼみ）のリンパ節への転移がある\n\n\nM

In [2]:
## inferenceのコード

# 推論関数の定義
def inference(dataset, model, tokenizer, max_length=2048):

    results = []
    for data in tqdm(eval_dataset):
        # 入力テキストを取得
        input_text = data["question"]
        
        # トークナイズ (モデルが理解できる形式に変換)
        inputs = tokenizer(input_text, return_tensors="pt", truncation=True, max_length=2048).to(model.device)
        # モデルの推論
        with torch.no_grad():
            outputs = model.generate(
                inputs["input_ids"],
                max_new_tokens=10,
                early_stopping=True,  # 早期終了を有効化
                eos_token_id=tokenizer.eos_token_id,  # EOSトークンを設定
                do_sample=False# トークンの確率質量
            )
        input_length = len(inputs["input_ids"][0])
        
        # デコード (トークン列をテキストに変換)
        output_text = tokenizer.decode(outputs[0][input_length:], skip_special_tokens=True)
        
        # 結果を保存
        results.append({
            "id": data["id"],
            "input": input_text,
            "generated_output": output_text,
            "expected_output": data["completion"]
        })
    return results

In [3]:

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = model_name,
    max_seq_length = max_seq_length,
    dtype = None,
    load_in_4bit = True,
)
tokenizer = AutoTokenizer.from_pretrained(model_name,attn_implementation="eager", add_eos_token=True,)
# パディングトークンが設定されていない場合、EOSトークンを設定
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
## finetune前の確認
# モデルの推論モード設定
FastLanguageModel.for_inference(model)

Unsloth: If you want to finetune Gemma 2, install flash-attn to make it faster!
To install flash-attn, do the below:

pip install --no-deps --upgrade "flash-attn>=2.6.3"
==((====))==  Unsloth 2024.11.10: Fast Gemma2 patching. Transformers:4.46.3.
   \\   /|    GPU: NVIDIA RTX A6000. Max memory: 47.425 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.5.1. CUDA: 8.6. CUDA Toolkit: 12.1. Triton: 3.1.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.28.post3. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Gemma2ForCausalLM(
  (model): Gemma2Model(
    (embed_tokens): Embedding(256000, 2304, padding_idx=0)
    (layers): ModuleList(
      (0-25): 26 x Gemma2DecoderLayer(
        (self_attn): Gemma2Attention(
          (q_proj): Linear4bit(in_features=2304, out_features=2048, bias=False)
          (k_proj): Linear4bit(in_features=2304, out_features=1024, bias=False)
          (v_proj): Linear4bit(in_features=2304, out_features=1024, bias=False)
          (o_proj): Linear4bit(in_features=2048, out_features=2304, bias=False)
          (rotary_emb): GemmaFixedRotaryEmbedding()
        )
        (mlp): Gemma2MLP(
          (gate_proj): Linear4bit(in_features=2304, out_features=9216, bias=False)
          (up_proj): Linear4bit(in_features=2304, out_features=9216, bias=False)
          (down_proj): Linear4bit(in_features=9216, out_features=2304, bias=False)
          (act_fn): PytorchGELUTanh()
        )
        (input_layernorm): Gemma2RMSNorm((2304,), eps=1e-06)
        (pre_feedforward_layern

In [3]:

# 量子化のConfigを設定
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True, # 4ビット量子化を使用
    bnb_4bit_quant_type="nf4", # 4ビット量子化の種類にnf4（NormalFloat4）を使用
    bnb_4bit_use_double_quant=True, # 二重量子化を使用
    bnb_4bit_compute_dtype=torch.float16 # 量子化のデータ型をfloat16に設定
)

# モデルの読み込み
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=model_name, # モデルのリポジトリIDをセット
    device_map={"": "cuda"}, # 使用デバイスを設定
    quantization_config=quantization_config, # 量子化のConfigをセット
    attn_implementation="eager", # 注意機構に"eager"を設定（Gemma2モデルの学習で推奨されているため）
)

# キャッシュを無効化（メモリ使用量を削減）
model.config.use_cache = False 

# テンソル並列ランクを１に設定（テンソル並列化を使用しない）
model.config.pretraining_tp = 1 

# トークナイザーの準備
tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path=model_name, # モデルのリポジトリIDをセット
    attn_implementation="eager", # 注意機構に"eager"を設定（Gemma2モデルの学習で推奨されているため）
    add_eos_token=True, # EOSトークンの追加を設定
)

# パディングトークンが設定されていない場合、EOSトークンを設定
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# パディングを右側に設定(fp16を使う際のオーバーフロー対策)
tokenizer.padding_side = "right"


# モジュールのリストとして線形層の名前を取得
target_modules = find_all_linear_names(model)

# LoRAのConfigを設定
Lora_config = LoraConfig(
    lora_alpha=8, # LoRAによる学習の影響力を調整（スケーリング)
    lora_dropout=0.1, # ドロップアウト率
    r=4, # 低ランク行列の次元数
    bias="none", # バイアスのパラメータ更新
    task_type="CAUSAL_LM", # タスクの種別
    target_modules=target_modules # LoRAを適用するモジュールのリスト
)

data_collator = DataCollatorForSeq2Seq(
    tokenizer=tokenizer,
    label_pad_token_id=-100,
    padding=True,  # 動的パディングを有効にする
)


# 学習パラメータを設定
training_arguments = TrainingArguments(
    fp16 = not is_bfloat16_supported(),
    bf16 = is_bfloat16_supported(),
    logging_strategy='epoch', # 各エポックごとにログを保存（デフォルトは"steps"）
    save_strategy='epoch', # 各エポックごとにチェックポイントを保存（デフォルトは"steps"）
    warmup_steps = 5,
    # num_train_epochs = 1, # Set this for 1 full training run.
    max_steps = 20,
    per_device_train_batch_size=1, # （GPUごと）一度に処理するバッチサイズ
    gradient_accumulation_steps=4, # 勾配を蓄積するステップ数
    optim="paged_adamw_32bit", # 最適化アルゴリズム
    learning_rate=5e-4, # 初期学習率
    lr_scheduler_type="cosine", # 学習率スケジューラの種別
    max_grad_norm=0.3, # 勾配の最大ノルムを制限（クリッピング）
    warmup_ratio=0.03, # 学習を増加させるウォームアップ期間の比率
    weight_decay=0.001, # 重み減衰率
    group_by_length=True,# シーケンスの長さが近いものをまとめてバッチ化
    output_dir = f"../finetuned_model/{os.path.basename(model_name)}",
    report_to = "none", # Use this for WandB etc
)

# SFTパラメータの設定
trainer = SFTTrainer(
    model=model, # モデルをセット
    tokenizer=tokenizer, # トークナイザーをセット
    train_dataset=train_dataset, # データセットをセット
    data_collator = data_collator,
    dataset_text_field="text", # 学習に使用するデータセットのフィールド
    peft_config=Lora_config, # LoRAのConfigをセット
    packing = False,
    args=training_arguments, # 学習パラメータをセット
    max_seq_length=2048, # 入力シーケンスの最大長を設定
)


`rope_scaling`'s original_max_position_embeddings field must be less than max_position_embeddings, got 8192 and max_position_embeddings=8192


Downloading shards:   0%|          | 0/30 [00:00<?, ?it/s]

Loading checkpoint shards:   0%|          | 0/30 [00:00<?, ?it/s]

Map:   0%|          | 0/108 [00:00<?, ? examples/s]

max_steps is given, it will override any value given in num_train_epochs


In [None]:

# 推論実行
inference_results = inference(eval_dataset, model, tokenizer)

output_csv = f'../model_outputs/submission_{os.path.basename(model_name)}_pretrained.csv'
results = []
# 結果を表示
for i, result in enumerate(inference_results):

    try:
        tnm_stage = result['generated_output']
        # TNM分類の形式を検証・修正
        tnm_stage = validate_and_correct_tnm_output(tnm_stage)

        # TNM分類を分割
        tnm_parts = tnm_stage.split()
        if len(tnm_parts) >= 3:
            results.append({
                "id": result['id'],
                "t": tnm_parts[0],
                "n": tnm_parts[1],
                "m": tnm_parts[2],
            })
        else:
            print(f"ファイル {result['id']} のTNM分類の出力形式が正しくありません: {tnm_stage}")
    except Exception as e:
        print(f"エラーが発生しました: {result['id']} - {e}")
        continue
# DataFrameに変換してCSVファイルに保存
results_df = pd.DataFrame(results)
#final_df = pd.concat([df, results_df], ignore_index=True)
results_df.to_csv(output_csv, index=False)

print(f"結果が{output_csv}に保存されました！")


100%|██████████| 54/54 [02:50<00:00,  3.16s/it]

結果が../model_outputs/submission_Llama-3.1-Swallow-70B-Instruct-v0.1_pretrained.csvに保存されました！





In [4]:
trainer_stats = trainer.train()

  0%|          | 0/20 [00:00<?, ?it/s]

OutOfMemoryError: CUDA out of memory. Tried to allocate 896.00 MiB. GPU 0 has a total capacity of 47.43 GiB of which 108.19 MiB is free. Including non-PyTorch memory, this process has 46.48 GiB memory in use. Of the allocated memory 45.20 GiB is allocated by PyTorch, and 989.52 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

In [None]:
trainer.model.save_pretrained("./ずんだもん_Adapter")

In [8]:

# モデルとトークナイザのロード
# model_path = "../finetuned_model/checkpoint-300"  # トレーニング済みモデルが保存されているディレクトリ
# model, tokenizer = FastLanguageModel.from_pretrained(
#     model_name = model_path,
#     max_seq_length = max_seq_length,
#     dtype = None,
#     load_in_4bit = True,
# )

# モデルをデバイスに移動
#model = model.to("cuda" if torch.cuda.is_available() else "cpu")
FastLanguageModel.for_inference(model)
# 推論実行
inference_results = inference(eval_dataset, model, tokenizer)

100%|██████████| 54/54 [00:17<00:00,  3.03it/s]


In [9]:

# モデルとトークナイザのロード
# model_path = "../finetuned_model/checkpoint-300"  # トレーニング済みモデルが保存されているディレクトリ
# model, tokenizer = FastLanguageModel.from_pretrained(
#     model_name = model_path,
#     max_seq_length = max_seq_length,
#     dtype = None,
#     load_in_4bit = True,
# )


output_csv = f'../model_outputs/submission_{os.path.basename(model_name)}_finetuned.csv'
results = []
# 結果を表示
for i, result in enumerate(inference_results):
    try:
        tnm_stage = result['generated_output']
        # TNM分類の形式を検証・修正
        tnm_stage = validate_and_correct_tnm_output(tnm_stage)

        # TNM分類を分割
        tnm_parts = tnm_stage.split()
        if len(tnm_parts) >= 3:
            results.append({
                "id": result['id'],
                "t": tnm_parts[0],
                "n": tnm_parts[1],
                "m": tnm_parts[2],
            })
        else:
            print(f"ファイル {result['id']} のTNM分類の出力形式が正しくありません: {tnm_stage}")
    except Exception as e:
        print(f"エラーが発生しました: {result['id']} - {e}")
        continue
# DataFrameに変換してCSVファイルに保存
results_df = pd.DataFrame(results)
#final_df = pd.concat([df, results_df], ignore_index=True)
results_df.to_csv(output_csv, index=False)

print(f"結果が{output_csv}に保存されました！")
    


結果が../model_outputs/submission_gemma-2-2b-jpn-it_finetuned.csvに保存されました！
