# QLoRA

In [1]:
%pip -q install torch
%pip -q install transformers
%pip -q install bitsandbytes
%pip -q install peft
%pip -q install trl
%pip -q install datasets
%pip -q install tensorboard
%pip -q install pandas openpyxl


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.

[1m[[0m[34;49mnotice[0m[1;39;49m][0m

## ライブラリのインポート

In [None]:
import os
import json
import torch
from datasets import Dataset
import bitsandbytes as bnb
from transformers import (
    AutoTokenizer, 
    AutoModelForCausalLM, 
    BitsAndBytesConfig,
    TrainingArguments
)
from peft import LoraConfig
from trl import SFTTrainer

import torchinfo
from torchinfo import summary

## データの読み込み

In [None]:
# huggingfaceトークンの設定（gemma2を使用するのに必要なため）
os.environ["HF_TOKEN"] = "内緒"

# モデルのリポジトリIDを設定
repo_id = "google/gemma-2-2b-jpn-it"

# データセットのパス
dataset_path = "./zmn.jsonl"

In [None]:
# jsonlファイルを読み込む
json_data = []
with open(dataset_path, 'r', encoding='utf-8') as f:
    for line in f:
        json_data.append(json.loads(line))

# DatasetオブジェクトにJSONデータを変換
dataset = Dataset.from_list(json_data)

# プロンプトフォーマット
PROMPT_FORMAT = """<start_of_turn>user
{system}

{instruction}
<end_of_turn>
<start_of_turn>model
{output}
<end_of_turn>
"""

1. 統一されたデータ形式で処理を行うため
- JSONデータは辞書やリストの形式で保存されていますが、これでは直接機械学習モデルのトレーニングに利用できません。
- Hugging FaceのDatasetオブジェクトは、効率的にデータを処理・操作できる専用の形式です。
  - バッチ処理
  - メモリ効率の良いデータ管理
  - データのシャッフルや分割
- Dataset形式に変換することで、Hugging Faceエコシステムの利便性を最大限に活用できます。

2.	トークナイザやモデルと簡単に連携させるため
3.	大規模データの処理に適している
4.	トレーニングデータの管理や前処理が簡単になる

In [None]:
# データセットの内容をプロンプトにセット → textフィールドとして作成する関数
def generate_text_field(data):
    messages = data["messages"]
    system = ""
    instruction = ""
    output = ""
    for message in messages:
        if message["role"] == "system":
            system = message["content"]
        elif message["role"] == "user":
            instruction = message["content"]
        elif message["role"] == "assistant":
            output = message["content"]  
    full_prompt = PROMPT_FORMAT.format(system=system, instruction=instruction, output=output) 
    return {"text": full_prompt}

# データセットに（generate_text_fieldの処理を用いて）textフィールドを追加
train_dataset = dataset.map(generate_text_field)

# messagesフィールドを削除
train_dataset = train_dataset.remove_columns(["messages"]) 

**コードの役割**
1. generate_text_field 関数

この関数は、各データサンプルから必要な情報を抽出し、プロンプト形式のテキストを作成します。

主な流れ：
- messages フィールドの解析:
  - data["messages"]は一連の対話データを含むリストと仮定されます。
  - 各メッセージの役割（role）に基づいて、その内容（content）を変数に保存します：
    - system: システムメッセージ（背景や設定情報）
    - instruction: ユーザーからの指示や入力
    - output: アシスタントの応答
- プロンプト形式の生成:
  - 収集したデータを特定のフォーマット文字列（PROMPT_FORMAT）に挿入し、最終的なプロンプトを作成します。
  - 例

```python
PROMPT_FORMAT = "{system}\n\nInstruction: {instruction}\n\nResponse: {output}"
```

- 上記フォーマットに基づいて、以下のような完全なプロンプトを生成：

```python
System Message: You are an AI assistant.
Instruction: Write a poem about the sea.
Response: The sea is deep and blue...
```

- 戻り値:
  - 辞書形式で"text"キーにプロンプトをセットして返します：

```python
return {"text": full_prompt}
```

1. dataset.map(generate_text_field)

この部分は、generate_text_field関数をデータセット内の全てのデータサンプルに適用し、新しいフィールド（"text"）をデータセットに追加します。
- map関数の動作:
  - データセット内の各サンプルを引数として関数に渡し、結果を反映した新しいデータセットを返します。
  - 上記のgenerate_text_fieldによって、各サンプルに"text"フィールドが追加されます。

- 例

元のデータサンプル
```python
{
    "messages": [
        {"role": "system", "content": "You are an AI assistant."},
        {"role": "user", "content": "Write a poem about the sea."},
        {"role": "assistant", "content": "The sea is deep and blue..."}
    ]
}
```

処理後のデータサンプル
```python
{
    "messages": [...],
    "text": "You are an AI assistant.\n\nInstruction: Write a poem about the sea.\n\nResponse: The sea is deep and blue..."
}
```

**なぜこの処理を行うのか？**
1.	言語モデルに適した形式を作るため
- プロンプト形式でテキストを構築することで、言語モデルが学習時に入力を理解しやすくなります。
- 特に指示（Instruction）と応答（Response）の明確な分離は、指示追従型モデルの学習に適しています。
2.	トレーニングデータの標準化
- データセット全体を統一的なフォーマット（PROMPT_FORMAT）に整えることで、モデルのトレーニングが安定します。
- 例えば、InstructionとResponseの明確な対応を学習できるようになります。
3.	高効率なトレーニングデータの準備
- モデルにとって重要な情報（system、instruction、output）のみを抽出してプロンプト化することで、冗長な情報を省き、効率的なトレーニングが可能になります。
4.	多目的な使用を想定
- この形式は、テキスト生成モデルや指示追従型タスク（例：ChatGPTのようなモデル）の微調整に適しています。
- 生成タスク: プロンプトから自然な応答を生成する能力を訓練。
- 指示理解タスク: 指示内容と関連した応答を生成する能力を強化。

In [None]:
# 量子化のConfigを設定
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True, # 4ビット量子化を使用
    bnb_4bit_quant_type="nf4", # 4ビット量子化の種類にnf4（NormalFloat4）を使用
    bnb_4bit_use_double_quant=True, # 二重量子化を使用
    bnb_4bit_compute_dtype=torch.float16 # 量子化のデータ型をfloat16に設定
)

`bnb_4bit_quant_type="nf4"`

- NF4（NormalFloat4） という量子化の形式を指定します。
- NF4は「データの重要な部分をうまく残す」特別な方法で、精度をできるだけ保ちながら量子化する技術です。
- なぜ使うのか？
  - 通常の4ビット量子化よりも性能が良いとされています。

`bnb_4bit_use_double_quant=True`

- 二重量子化（二段階の圧縮） を使います。
- 1回量子化した後に、もう一度量子化をかけることで、さらにメモリを節約できます。

 `bnb_4bit_compute_dtype=torch.float16`

- 計算時のデータ型をfloat16（16ビット浮動小数点）に設定します。
- 4ビット量子化では、計算するときに直接4ビットを使うのではなく、少し高精度なfloat16を使います。
  - 理由は、計算が安定しやすくなるためです。
- 例え話:
  - 荷物を運ぶときに、元は小さいけど運ぶときだけ少し大きめの箱を使うイメージ。

In [None]:
# モデルの読み込み
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=repo_id, # モデルのリポジトリIDをセット
    device_map={"": "cuda"}, # 使用デバイスを設定
    quantization_config=quantization_config, # 量子化のConfigをセット
    attn_implementation="eager", # 注意機構に"eager"を設定（Gemma2モデルの学習で推奨されているため）
)

**このコードの目的**

- 機械学習モデルを「事前学習済み（pretrained）」の状態で読み込み、効率的に実行できるようにします。
- この設定では、量子化を適用し、GPU（CUDA）を利用することで高速化と省メモリ化を目指しています。

**コードの詳しい説明**

1. AutoModelForCausalLM.from_pretrained()

この関数は、事前学習済みの言語モデルを読み込むために使われます。
- AutoModelForCausalLM:
  - Hugging Faceのライブラリで提供されるクラス。
  - **Causal Language Model（因果言語モデル）**をロードするための自動設定クラスです。
  - 例：ChatGPTのような対話型AIや、文章生成モデルに使われます。
- from_pretrained():
  - モデルを指定されたリポジトリからダウンロードしてロードします。
  - リポジトリとは？
    - モデルのデータが保存されている場所（クラウド上のフォルダのようなもの）。
    - 例：Hugging Face Hub上の公開モデル。

2. attn_implementation="eager"

- attn_implementation:
  - 注意機構（Attention Mechanism）の実装方法を指定します。
  - "eager"は、Gemma-2モデルで推奨されている設定。
- 注意機構とは？
  - モデルが重要な単語や情報に集中するための仕組み。
  - 例：質問に応答するときに、質問文のキーワードに注意を払う。
- eagerの利点:
  - シンプルで安定した動作が期待できるため、特定のモデル（例：Gemma-2）では推奨されています。

eagerは、Gemma-2モデルなどの特定の機械学習モデルで推奨されている注意機構（Attention Mechanism）の実装方法です。この設定により、モデルの注意（Attention）の計算が「簡潔かつ安定」した方法で実行されます。

**Attention Mechanism（注意機構）とは？**

- 役割: モデルが重要な情報（単語やトークン）に「集中」できるようにする仕組み。
- 例: 「猫はかわいい」という文で、「猫」と「かわいい」の関連性に注目しながら意味を学ぶ。


**eager の意味**

eagerは、Attention計算を実行する方法の一つで、「即時実行モード」に相当します。
- **即時実行（Eager Execution）**とは？
  - コードを1行ずつ実行する、直感的でデバッグしやすい方式。
  - Pythonプログラムの通常の動作と似ています。
  - 注意の計算が「リアルタイム」に行われるため、動作が分かりやすく、エラーが発生した場合も原因を特定しやすい。
- 他のモードとの違い
  - 多くのモデルでは、Attention計算を高速化するために「最適化されたバックエンド」を使うことがあります（例: Flash Attention）。
  - しかし、これらの高速化手法は、特定のハードウェアやライブラリに依存することが多く、安定性に問題が生じる場合があります。
  - eagerは単純で安定しており、特に新しいモデルやデバイスで推奨されることがあります。

In [None]:
# キャッシュを無効化（メモリ使用量を削減）
model.config.use_cache = False 

このコードは、モデルの設定を変更して、キャッシュ機能を無効化するものです。これにより、特にトレーニング時や推論時に、モデルが使用するメモリ量を削減できます。

コードの詳細

`model.config.use_cache = False`

- model.config:
  - モデルの動作に関する設定を格納するオブジェクト。
  - 例：バッチサイズ、注意機構の種類、キャッシュの利用など。
- use_cache:
  - キャッシュ（生成済みの計算結果の再利用）を有効または無効にする設定。
  - デフォルト値は通常Trueで、推論時に計算の効率を上げるために使用されます。
- Falseに設定する効果:
  - キャッシュを無効化することで、メモリ使用量を減らす。
  - 特に、モデルがメモリに余裕がない場合（大きなモデルを小さなGPUで使う場合など）に有効。

キャッシュ（Cache）とは？

キャッシュは、既に計算した結果を再利用する仕組みです。
- 例：文章生成タスク
	1.	モデルが文章の最初の部分を計算します。
	2.	次の単語を予測するとき、以前の計算結果をキャッシュとして再利用することで効率化します。
	3.	キャッシュを利用することで、計算の重複を防ぎ、高速化を実現します。
- 推論時（生成タスク）での利点:
  - 次の単語を予測する際、過去の文脈を再計算する必要がないため、時間を大幅に節約できます。

キャッシュを無効化する理由

1.	トレーニング時の不要性:
  - キャッシュは推論（文章生成）では役立ちますが、トレーニングでは通常不要です。
  - 各バッチで入力データが異なるため、キャッシュを保持しても再利用する機会がほとんどありません。
2.	メモリの節約:
  - キャッシュを保持するためには追加のメモリが必要です。
  - モデルが大きい場合や、GPUメモリに制約がある場合は、キャッシュを無効にすることでメモリ不足を防ぎます。
3.	動作の安定性:
  - 大規模なモデルや複雑なトレーニングでは、キャッシュを保持すると計算が不安定になる場合があります。
  - キャッシュを無効化することで、これらの問題を回避できます。

例えで理解する

- キャッシュあり（use_cache=True）:
  - 本を読んでいるときに、前のページのメモを取っておいて、それを再度参照して内容を思い出す。
  - 新しいページを読むときには、過去のページのメモが役立つ。
- キャッシュなし（use_cache=False）:
  - 本を読むときに、メモを取らずに毎回最初から全部読む。
  - 時間はかかるけど、メモを保存するスペース（メモリ）は不要になる。

In [None]:
# テンソル並列ランクを１に設定（テンソル並列化を使用しない）
model.config.pretraining_tp = 1 

**コードの詳細**

`model.config.pretraining_tp = 1`

このコードは、モデルの設定において **テンソル並列化（Tensor Parallelism）** のランクを1に設定するものです。テンソル並列化を無効化（使用しない）することを意味します。

テンソル並列化とは？

- テンソル並列化は、大規模なニューラルネットワークモデルを複数のGPUに分割して計算を並列化する方法の一つです。
- 通常、大規模モデルでは重い計算を分散するため、モデルの重みや演算をGPU間で分割して負荷を分散します。
- テンソル並列化は、モデルの **テンソル（行列やベクトルなどのデータ構造）** を分割し、複数のデバイスで並行して計算を行う手法です。

pretraining_tp の役割

- **pretraining_tp**は、モデルがテンソル並列化を利用する際の「並列ランク数」を指定します。
  - ランク数: モデルのテンソルを分割する数。
  - 例: ランクが2なら、モデルのテンソルが2つのGPUで並列計算されます。
- pretraining_tp=1:
  - モデルがテンソル並列化を使用しない設定。
  - 全てのテンソル計算が1つのデバイス（通常は1つのGPU）で実行されます。

このコードの目的

- テンソル並列化を無効化することで、モデルの動作を簡略化し、単一GPU上で計算を行うようにする。
- メモリや計算リソースの制約がある環境では、この設定が適している場合があります。

なぜテンソル並列化を無効化するのか?

1.	リソース制約:
  - ユーザーが単一のGPUを使っている場合、テンソル並列化を有効にすると動作しないか、エラーが発生する可能性があります。
  - 並列化を無効化することで、シンプルな設定で実行できます。
2.	小規模モデルの場合:
  - モデルが小さい場合、テンソル並列化は必要ありません。
  - 並列化のオーバーヘッド（通信コスト）がかえってパフォーマンスを低下させることがあります。
3.	デバッグや開発の容易さ:
  - 並列化を無効化することで、コードの実行が単純化され、エラーが発生した際にデバッグが容易になります。

In [None]:
# トークナイザーの準備
tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path=repo_id, # モデルのリポジトリIDをセット
    attn_implementation="eager", # 注意機構に"eager"を設定（Gemma2モデルの学習で推奨されているため）
    add_eos_token=True, # EOSトークンの追加を設定
)

このコードは、Hugging Faceライブラリを使用して、**事前学習済みトークナイザー（tokenizer）**をロードし、必要な設定を行うものです。

**トークナイザーとは？**

トークナイザーは、テキストデータをモデルが理解できる形式に変換するツールです。
- 役割:
	1.	テキストをトークン（単語や文字単位の小さな単位）に分割する。
	2.	トークンを数値データ（ID）に変換する。
	3.	モデルが出力した数値（トークンID）を再びテキストに戻す。
- 例:
  - 入力: "Hello world!"
  - 出力（トークン分割）: ["Hello", "world", "!"]
  - 出力（数値化）: [101, 7592, 999]（トークンごとのID）

コードの各パラメータについて

1. pretrained_model_name_or_path=repo_id

- 説明:
  - トークナイザーをロードするためのモデルの名前やパスを指定します。
  - repo_idには事前学習済みモデルのリポジトリID（例: "gemma-2-2b"など）が含まれます。
  - トークナイザーは、このモデルに適合するように設計されています。
- 目的:
  - モデルに対応した適切なトークナイザーを利用するため。

1. attn_implementation="eager"

- 説明:
  - 注意機構（Attention Mechanism）を制御する設定。
  - "eager"は、Gemma2モデルで推奨される注意機構の実装方式。
  - モデルの挙動や互換性を保つため、トークナイザーにもこの設定を指定します。
- 目的:
  - モデルの動作と整合性を保つため。

1. add_eos_token=True

- 説明:
  - トークナイザーが入力テキストの最後に **EOSトークン（End of Sequence）** を自動的に追加します。
  - EOSトークンは、テキストの終了を示す特殊なトークンです。
- 理由:
  - モデルが入力データの終了を明確に理解するため。
  - 特に、テキスト生成タスクでは重要です。モデルはEOSトークンを出力すると、文章生成を終了します。
- 例:
  - 入力テキスト: "Hello world!"
  - トークン化結果（EOS追加なし）: [101, 7592, 999]
  - トークン化結果（EOS追加あり）: [101, 7592, 999, 102]（102がEOSトークン）

トークナイザーを準備する理由

1.	モデルとの整合性:
  - モデルに適したトークナイザーを利用することで、入力形式が正確になり、エラーを防ぎます。
2.	テキストデータの前処理:
  - 自然言語データはそのままではモデルが理解できないため、数値データに変換する必要があります。
3.	学習・推論の効率化:
  - モデルが効率的に動作するよう、トークナイザーがテキストを適切に変換します。

In [None]:
# パディングトークンが設定されていない場合、EOSトークンを設定
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

このコードは、トークナイザー（tokenizer）において **パディングトークン（pad_token）** が設定されていない場合、**終了トークン（eos_token）** をパディングトークンとして設定する処理です。

各トークンの説明

1. パディングトークン（pad_token）

- パディングトークンは、入力の長さを揃えるために使用される特殊なトークンです。
- 入力データ（テキスト）が異なる長さの場合、モデルに一括処理させるため、短い入力をパディングトークンで補います。
例:
  - 入力A: ["Hello", "world", "!"] → 長さ: 3
  - 入力B: ["Hi", "!"] → 長さ: 2
  - パディング後:
    - A: ["Hello", "world", "!", "<pad>"] → 長さ: 4
    - B: ["Hi", "!", "<pad>", "<pad>"] → 長さ: 4

1. 終了トークン（eos_token）

- EOSトークン（End of Sequence）は、テキストの終了を示すための特殊なトークンです。
- 主に、テキスト生成タスクやデコーダー部分で利用されます。
例:
  - 入力: ["Hello", "world", "!"]
  - EOS追加後: ["Hello", "world", "!", "<eos>"]

コードの目的

1.	パディングトークンが設定されていない場合への対処
  - 一部のトークナイザーでは、初期状態でpad_tokenが設定されていないことがあります。
  - このコードでは、pad_tokenが未設定の場合に、eos_tokenを代用として設定しています。
2.	モデルの動作を安定化
  - パディングが必要な場面（例: バッチ処理）でエラーを防ぎ、モデルが正常に動作するようにします。

なぜEOSトークンを代用するのか？

- パディングトークンと終了トークンの役割の類似性:
  - どちらも「特別な意味を持つトークン」で、通常の単語や記号とは異なります。
  - パディングトークンが未設定の場合、終了トークンを一時的に代用しても大きな問題はありません。
- 実用上の簡便さ:
  - パディングトークンを新たに作成するよりも、既に存在する終了トークンを使う方が簡単でエラーを減らせます。

例えで理解する

- パディングトークンの役割:
  - 同じ長さに揃えるために、ノートのページを空白で埋めるイメージ。
  - ノートAは3ページ、ノートBは2ページだとすると、2つを揃えるためにBに空白ページを1枚追加。
- EOSトークンを代用する理由:
  - パディング用の空白ページがない場合、終了ページ（例えば「これで終了」という記載）を代用するイメージ。
  - 完全な空白ではないが、十分に意味が通じるため問題がない。

In [None]:
# パディングを右側に設定(fp16を使う際のオーバーフロー対策)
tokenizer.padding_side = "right"

このコードは、トークナイザー（tokenizer）に対して、パディングを入力シーケンスの右側に追加するように設定するものです。これにより、トークナイザーが入力データを統一した長さに揃える際、必要なパディングトークンを右側に挿入します。

**パディングとは？**

- 目的:
  - モデルが異なる長さの入力を扱う際に一括処理できるように、短い入力にパディングトークン（<pad>など）を追加します。
- 例:

入力1: ["Hello", "world"] 　
<br>
入力2: ["Hi"]

→ パディング後（右側に追加）:

入力1: ["Hello", "world"]　　
<br>
入力2: ["Hi", "<pad>"]

**padding_sideの役割**

padding_sideは、どちら側にパディングトークンを追加するかを指定する属性です。
- "right"（右側）: 入力シーケンスの末尾にパディングを追加。
- "left"（左側）: 入力シーケンスの先頭にパディングを追加。

例: "right" vs "left"

- 入力データ:

["Hello", "world"]
<br>
["Hi"]


- padding_side = "right"（右側）:

["Hello", "world"]
<br>
["Hi", "<pad>"]


- padding_side = "left"（左側）:

["<pad>", "Hi"]

コードの目的

1. fp16オーバーフロー対策

- fp16（半精度浮動小数点演算）:
  - モデルの計算において、メモリ効率を向上させるために使用されます。
  - ただし、数値が非常に大きくなると「オーバーフロー」が発生し、計算結果が不正確になるリスクがあります。
- 右側にパディングを追加する理由:
  - モデルのアテンション（Attention）計算では、入力シーケンスの重要な部分（トークン）に焦点を当てます。
  - パディングトークンを右側に追加することで、重要な情報を含む部分がシーケンスの先頭に集まりやすくなります。
  - これにより、オーバーフローの影響を最小限に抑えることができます。

1. パフォーマンス向上

- 多くの自然言語処理（NLP）モデルでは、右側パディングが効率的に処理されるよう最適化されています。
- 特にトランスフォーマーモデルでは、左側にパディングを追加するよりも右側の方が一般的で、計算負荷を軽減できます。

例えで理解する

- パディングを右側に追加する理由:
  - 重要なテキスト部分が入力の「前側」に集まるようにすることで、モデルが最初に重要な部分を処理しやすくします。
  - 例えば、映画を編集する際に、重要なシーンを最初に配置して目立たせるイメージです。

In [None]:
# モデルから4ビット量子化された線形層の名前を取得する関数
def find_all_linear_names(model):
    target_class = bnb.nn.Linear4bit
    linear_layer_names = set()
    for name_list, module in model.named_modules():
        if isinstance(module, target_class):
            names = name_list.split('.')
            layer_name = names[-1] if len(names) > 1 else names[0]
            linear_layer_names.add(layer_name)
    if 'lm_head' in linear_layer_names:
        linear_layer_names.remove('lm_head')
    return list(linear_layer_names)

# モジュールのリストとして線形層の名前を取得
target_modules = find_all_linear_names(model)

**コードの概要**

このコードは、モデル内にある4ビット量子化された線形層（Linear4bit）の名前をリストとして取得する関数です。以下に、その動作や背景を詳しく説明します。

**目的**

- 量子化された線形層を見つける:
- モデル内のすべてのモジュールをチェックし、Linear4bitに該当するモジュールの名前を収集。
- 線形層（Linear）は、ニューラルネットワークの基本的な計算単位。

**引数**

- model: モデルオブジェクト。PyTorchで定義されたニューラルネットワーク。

**戻り値**

- 4ビット量子化された線形層の名前のリスト（list）。

**コードの動作の流れ**

1.	target_class の設定

`target_class = bnb.nn.Linear4bit`

- bnb.nn.Linear4bit:
- Bits and Bytesライブラリが提供する「4ビット量子化された線形層」のクラス。
- 通常の線形層よりもメモリ効率が高い。

2.	線形層の名前を格納するセットを初期化

`linear_layer_names = set()`

- 名前を一意に保存するためにセット（set）を使用。
- 重複した名前を自動的に排除。

3.	モデル内のモジュールを探索

```python
for name_list, module in model.named_modules():
    if isinstance(module, target_class):
        names = name_list.split('.')
        layer_name = names[-1] if len(names) > 1 else names[0]
        linear_layer_names.add(layer_name)
```

- model.named_modules():
- モデル内のすべてのモジュール（レイヤー）を名前付きで取得します。
- 例: ("layer1.fc", Linear4bit) のようなタプルが取得される。
- isinstance(module, target_class):
- モジュールがLinear4bitクラスに属している場合のみ処理。
- 名前を分割・抽出:
- 名前（name_list）を.で分割し、最後の部分（names[-1]）を取得。
- ネストされた名前空間でも正しく処理される。

4.	lm_head を除外

if 'lm_head' in linear_layer_names:
    linear_layer_names.remove('lm_head')

- lm_head:
- モデルの出力部分に該当するレイヤー。
- 多くの場合、最終出力に関連するため、量子化の対象外とされる。

5.	結果をリストで返す

return list(linear_layer_names)

- 結果をセット（set）からリスト（list）に変換して返す。

**このコードを使う理由**

1.	効率的なモジュール検索
- モデル全体から特定のモジュール（この場合は4ビット量子化された線形層）を簡単に特定。
- モジュール数が多い大規模モデルで特に有用。
2.	LoRA（Low-Rank Adaptation）との統合
- この関数はLoRA（低ランク適応手法）を適用する際に、適用対象となる線形層を動的に選択するために使われることが多い。
- 例: 以下のように、LoRA設定で使用します。

```python
target_modules = find_all_linear_names(model)
lora_config = LoraConfig(target_modules=target_modules, ...)
```


3.	柔軟性
- モジュール名を動的に取得することで、異なるモデル構造にも対応可能。

**例えで理解する**

- モデルは「巨大な工場」、モジュールは「工場内の機械」。
- この関数は、「特定の種類の機械（4ビット線形層）」だけを探し出し、その名前をリスト化する「点検リスト作成ツール」のようなものです。
- 例えば、ある特定の作業（LoRA適用など）を「指定の機械」だけに行うために必要です。

## QLoRAの準備

In [None]:
# LoRAのConfigを設定
Lora_config = LoraConfig(
    lora_alpha=8, # LoRAによる学習の影響力を調整（スケーリング)
    lora_dropout=0.1, # ドロップアウト率
    r=4, # 低ランク行列の次元数
    bias="none", # バイアスのパラメータ更新
    task_type="CAUSAL_LM", # タスクの種別
    target_modules=target_modules # LoRAを適用するモジュールのリスト
)

このコードは、**LoRA（Low-Rank Adaptation）** の設定を定義するためのものです。
LoRAは、モデルの微調整（fine-tuning）を効率的に行う手法で、特定の部分（通常は線形層）を低ランク行列に置き換え、学習するパラメータ数を大幅に削減します。

コードの目的

1.	LoRAを使ったモデル微調整の設定:
    - モデルの特定のモジュール（層）に対して、LoRAを適用します。
    - 必要なハイパーパラメータを指定して、LoRAの動作を調整します。
2.	計算効率を向上:
    - モデル全体を微調整する代わりに、LoRAで軽量かつ効率的な学習を可能にします。
3.	柔軟な適用:
    - 特定のモジュール（target_modules）だけを対象にすることで、重要な部分だけを学習対象にできます。

各パラメータの解説

1. lora_alpha=8

- LoRAスケーリング係数:
  - LoRAの更新部分（低ランク行列）の出力に掛けるスケール係数。
  - この値が大きいほど、LoRAによるモデルの出力への影響が大きくなります。
  - 例え: スピーカーの音量調節のようなものです。音量を上げたり下げたりして、学習の「影響力」を調整します。

1. lora_dropout=0.1

- ドロップアウト率:
  - ドロップアウトは、過学習を防ぐためにランダムにニューロンを無効化する手法。
  - 0.1は、10%のニューロンを無効化する設定を意味します。
  - LoRA層の一部出力を無効化することで、汎化性能（未学習データへの適応能力）を向上させます。

1. r=4

- 低ランク行列のランク（次元数）:
  - LoRAで追加される低ランク行列の次元を指定します。
  - この値が小さいほど、学習パラメータ数が減り、計算効率が高まります。
  - 例え: 「大きなデータを小さな表に圧縮して、それだけを学習する」イメージです。

1. bias="none"

- バイアスパラメータの扱い:
  - none: バイアスは学習しない設定。
  - 他に "all"（全てのバイアスを学習する）や "lora_only"（LoRA層だけ学習）などの選択肢もあります。
  - バイアスを固定することで、モデルの安定性を保ちつつ計算コストを削減します。

1. task_type="CAUSAL_LM"

- タスクタイプ:
  - CAUSAL_LMは、因果的言語モデル（Causal Language Modeling）の略。
  - 次の単語を予測するタスク（例: GPTモデル）に対応した設定。
  - この設定を基に、LoRAが適用される方法が調整されます。

1. target_modules=target_modules

- LoRAを適用するモジュール（層）:
  - 事前に定義したtarget_modulesに基づいて、LoRAを適用する層を限定します。
  - 通常は、量子化された線形層（Linear4bit）を対象とします。
  - 例え: 部分的に改良する対象を選ぶようなもの（例: 家の中で修理が必要な家具だけを選ぶ）。

なぜこの設定を行うのか？

1.	効率的な学習:
  - モデル全体ではなく、一部の層にLoRAを適用することで、学習時間やメモリ使用量を削減します。
2.	汎化性能を向上:
  - ドロップアウトや低ランク行列を使用することで、過学習を防ぎ、未知のデータへの対応力を向上させます。
3.	カスタマイズ性:
  - パラメータを調整することで、タスクやモデルに応じた最適な微調整が可能です。

In [None]:
# 学習パラメータを設定
training_arguments = TrainingArguments(
    output_dir="./train_logs", # ログの出力ディレクトリ
    fp16=True, # fp16を使用
    logging_strategy='epoch', # 各エポックごとにログを保存（デフォルトは"steps"）
    save_strategy='epoch', # 各エポックごとにチェックポイントを保存（デフォルトは"steps"）
    num_train_epochs=3, # 学習するエポック数
    per_device_train_batch_size=1, # （GPUごと）一度に処理するバッチサイズ
    gradient_accumulation_steps=4, # 勾配を蓄積するステップ数
    optim="paged_adamw_32bit", # 最適化アルゴリズム
    learning_rate=5e-4, # 初期学習率
    lr_scheduler_type="cosine", # 学習率スケジューラの種別
    max_grad_norm=0.3, # 勾配の最大ノルムを制限（クリッピング）
    warmup_ratio=0.03, # 学習を増加させるウォームアップ期間の比率
    weight_decay=0.001, # 重み減衰率
    group_by_length=True,# シーケンスの長さが近いものをまとめてバッチ化
    report_to="tensorboard" # TensorBoard使用してログを生成（"./train_logs"に保存）
)

このコードは、モデルを学習する際に使用する 学習パラメータ（Training Arguments） を設定しています。Hugging Faceのトレーニングループ（Trainerクラス）に渡すことで、モデルの学習が効率的かつ管理しやすくなります。

**コードの目的**

1.	トレーニングの動作を管理:
  - ログ出力、モデルの保存、学習の進行状況の制御など、学習全体の設定を管理します。
2.	計算資源の効率化:
  - fp16やgradient_accumulationでGPUのメモリを節約しながら、大きなモデルの学習を可能にします。
3.	学習効率の向上:
  - 適切な学習率スケジューリングや重み減衰（weight decay）を設定し、学習を安定させます。
4.	結果の可視化:
  - TensorBoardにログを出力することで、学習中の変化をリアルタイムで確認可能です。

**各パラメータの解説**

1. output_dir="./train_logs"

- モデルやログの保存先ディレクトリ:
  - 学習中に生成されるログやチェックポイント（途中保存したモデル）を保存するディレクトリを指定。
  - ここにモデルの状態が保存されるため、途中で停止しても再開が可能。

1. fp16=True

- 半精度浮動小数点（fp16）を使用:
  - モデルの重みや計算を半精度（16ビット）で行い、メモリ使用量を減少。
  - 高速化も期待できますが、数値精度に若干の影響を及ぼす場合もあります。

1. logging_strategy='epoch'

- ログの保存頻度を設定:
  - 各エポックの終了時にログを出力します。
  - デフォルトの”steps”（ステップごと）ではなく、エポック単位で出力することで、頻繁なログ出力を抑制。

1. save_strategy='epoch'

- チェックポイントの保存頻度を設定:
  - モデルの途中経過を保存する頻度を設定。
  - 各エポック終了後にモデルの状態を保存します。

1. num_train_epochs=3

- 学習するエポック数:
  - モデル全体のデータセットを3回繰り返して学習します。
  - データのサイズや計算資源に応じて調整可能。

1. per_device_train_batch_size=1

- バッチサイズ:
  - 1回の学習ステップで処理するデータの数を設定。
  - 各デバイス（例: GPU）でのバッチサイズが1になります。
  - モデルやデータの大きさによっては、メモリ制限のため小さくする必要があります。

1. gradient_accumulation_steps=4

- 勾配の蓄積:
  - バッチサイズが小さい場合、4ステップ分の勾配を蓄積してからモデルを更新します。
  - 実質的にバッチサイズが「1 × 4 = 4」となるため、メモリ効率を保ちながら学習が安定。

1. optim="paged_adamw_32bit"

- 最適化アルゴリズム:
  - AdamWの32ビット版（効率的な重み減衰を含む）。
  - paged_adamwはメモリ節約のため特化したバージョン。

1. learning_rate=5e-4

- 初期学習率:
  - 学習を始める際の学習率を指定。
  - 大きすぎると学習が不安定、小さすぎると収束が遅くなります。

1.  lr_scheduler_type="cosine"

- 学習率スケジューラ:
  - 学習率をエポックごとに調整し、コサイン曲線のように減少させる方法。
  - 適応的に学習率を調整することで、学習の安定性を向上。

1.  max_grad_norm=0.3

- 勾配のクリッピング:
  - 勾配のノルム（長さ）を0.3に制限。
  - 勾配が大きくなりすぎると学習が不安定になるため、その影響を防ぎます。

1.  warmup_ratio=0.03

- ウォームアップ期間:
  - 学習の最初の3%は徐々に学習率を上げる設定。
  - 急激な学習率の増加による不安定性を防ぎます。

1.  weight_decay=0.001

- 重み減衰（正則化）:
  - 学習中にモデルの重みを少しずつ減少させることで、過学習を防ぎます。

1.  group_by_length=True

- シーケンスの長さに基づくバッチ化:
  - 入力テキストの長さが近いものをまとめてバッチを作成。
  - 効率的な計算を実現します。

1.  report_to="tensorboard"

- ログ出力先:
  - TensorBoardに学習過程の情報を出力。
  - 例えば、損失関数の変化や学習率の動きをリアルタイムで可視化可能。


この設定を「車の燃費テスト」に例えると：
- output_dir: テスト結果を保存するノート。
- fp16: 軽量化したエンジンを使用。
- gradient_accumulation: 複数回の測定を合算して燃費を計算。
- lr_scheduler: 試運転中に徐々にスピードを上げる。

In [None]:
# SFTパラメータの設定
trainer = SFTTrainer(
    model=model, # モデルをセット
    tokenizer=tokenizer, # トークナイザーをセット
    train_dataset=train_dataset, # データセットをセット
    dataset_text_field="text", # 学習に使用するデータセットのフィールド
    peft_config=Lora_config, # LoRAのConfigをセット
    args=training_arguments, # 学習パラメータをセット
    max_seq_length=512, # 入力シーケンスの最大長を設定
)

SFTTrainer（Supervised Fine-Tuning Trainer）とは？

SFTTrainerは、**「モデルを特定のタスクに合わせて微調整（fine-tuning）するためのツール」** です。微調整とは、既に訓練されたモデル（例えば言語モデル）に新しいデータを使って学習を追加し、特定の用途に対応できるようにすることです。

**簡単な例え**

SFTTrainerを「スポーツの個人トレーニングコーチ」に例えましょう：
- モデル：すでに基本技術を持っているサッカー選手。
- データセット：練習メニュー（ドリブル練習やシュート練習の指示）。
- 微調整：シュートの精度やスピードを高めるために、特定の練習を集中して行うこと。

SFTTrainerは、この練習プランを作り、選手に適切な練習をさせるコーチの役割です。

**SFTTrainerの特徴**

1.	既存のモデルを活用する:
- すでに大量のデータで学習済みの言語モデル（例: ChatGPTやBERT）を基にします。
- 最初から学習するより効率的で、時間や計算コストを削減できます。
2.	新しいデータで特定のタスクを学習:
- 例えば「質問に答える」「文章を要約する」「特定のテーマで文章を生成する」といった新しいスキルを学習させます。
3.	簡単に設定・実行できる:
- 必要なデータ、モデル、トレーニングパラメータを指定するだけで、細かい部分を自動で処理します。

**SFTTrainerを使う理由**

- 計算資源を節約: モデル全体を訓練するのではなく、必要な部分だけを効率的に学習できます。
- タスクに特化: たとえば、一般的な文章生成モデルを「特定のトピックについて答えるモデル」に変えることができます。
- 簡単なセットアップ: トレーニングループ（学習の進行管理）やログの記録などを自動化してくれます。

**どうやって使うのか？**

SFTTrainerを使うには、以下の情報を提供します：
1.	モデル: 微調整したい既存の言語モデル。
2.	トークナイザー: テキストデータを数値データに変換するツール。
3.	データセット: モデルに学習させる具体的な例（質問と答え、入力文と出力文など）。
4.	学習パラメータ: 学習率やエポック数、バッチサイズなどの設定。
5.	LoRAなどの効率化設定: 計算資源を節約しながら学習を最適化する仕組み。

例: 実際にやっていること

コードの内容をざっくり言うと：

- モデル: 言語モデル（文章を生成したり、質問に答えたりできるAI）。
- データ: 「質問→答え」のペアが含まれる学習データ。
- 目標: モデルに「質問に正確に答えるスキル」を教える。

このコードは、SFTTrainer（Supervised Fine-Tuning Trainer）を使って、モデルの微調整（fine-tuning）を実行する準備を整えています。このSFTTrainerは、Hugging FaceのTrainerクラスを拡張したもので、特にLoRAのような効率的な学習方法を使った微調整に適しています。

**コードの目的**

1.	微調整用のトレーナー設定:
- 指定したモデル、トークナイザー、データセットを使い、学習ループを管理するトレーナーを作成します。
2.	LoRA（Low-Rank Adaptation）を利用した効率的な微調整:
- メモリと計算資源を節約しながら、特定のタスク向けにモデルを調整します。
3.	データセットとパラメータの設定:
- 入力テキストの形式や長さ、学習に必要なパラメータを登録します。

**各パラメータの解説**

1. model=model

- 微調整するモデルを指定:
  - ここでは、量子化されたモデルを設定しています。
  - このモデルが学習対象となり、タスクに合わせて微調整されます。

1. tokenizer=tokenizer

- トークナイザーを指定:
  - テキストデータを数値データに変換するためのツール。
  - モデルと連携して、適切な形式の入力データを生成します。

1. train_dataset=train_dataset

- 学習用データセットを指定:
  - モデルが学習するためのデータ。
  - 例: テキストデータやラベル付きの文章。

1. dataset_text_field="text"

- データセット内のテキストが格納されているフィールドを指定:
  - データセットの中で、モデルが学習に使うテキストが含まれるカラム名（キー）を指定。
  - 例えば、JSONやCSV形式のデータから特定のフィールドを指定します。

1. peft_config=Lora_config

- LoRAの設定を適用:
  - 低ランク行列を使った効率的な学習を行うための設定。
  - ここでは、学習におけるLoRAの影響力（lora_alpha）、ドロップアウト率（lora_dropout）、適用するモジュールなどを指定したLora_configが使われます。

1. args=training_arguments

- 学習パラメータを適用:
  - TrainingArgumentsで設定した学習率、エポック数、バッチサイズなどの情報を渡します。
  - これにより、学習ループ全体の挙動が制御されます。

1. max_seq_length=512

- 入力シーケンスの最大長を指定:
  - モデルに入力される文章の最大トークン数。
  - 長い文章がトークン数512を超えた場合は切り捨てられます。
  - モデルの性能やメモリ使用量に応じて調整が必要です。

なぜこの設定を行うのか？

1.	効率的な学習:
  - LoRAを使ってメモリを節約しながら、高品質な微調整を行うため。
  - 長い文章や大量のデータを扱う際に、計算資源を節約する工夫が含まれています。
2.	タスク適応:
  - 特定のタスク（例: 質問応答や文章生成）にモデルを調整するため。
  - データセットの内容や形式を明示的に指定し、学習効率を高めます。
3.	汎用性とカスタマイズ性:
  - SFTTrainerは、LoRAのような特定の学習方法を簡単に組み込むことができ、カスタマイズも容易です。

**例えで理解する**

この設定を「サッカーの個人トレーニング」に例えると：
- model: 練習する選手。
- tokenizer: 練習内容を選手が理解できる言語に翻訳するコーチ。
- train_dataset: 練習で使用するドリルやシナリオ。
- dataset_text_field="text": ボールを使う部分の練習メニュー。
- peft_config: 特定のスキル（例: ドリブル）の強化プラン。
- args: トレーニングスケジュールや練習の回数。
- max_seq_length: 1回の練習で集中する時間（512分以内）。

In [None]:
# 正規化層をfloat32に変換(学習を安定させるため)
for name, module in trainer.model.named_modules():
    if "norm" in name:
        module = module.to(torch.float32)

## モデルの学習

In [None]:
# モデルの学習
trainer.train()

# 学習したアダプターを保存
trainer.model.save_pretrained("./QLoRA_sample_model")

## 推論

In [None]:
import os
import torch
from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer

# huggingfaceトークンの設定（gemma2を使用するのに必要なため）
os.environ["HF_TOKEN"] = "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"

# アダプターのパス
adapter_path = "./QLoRA_sample_model"

# モデルのリポジトリIDを設定
repo_id = "google/gemma-2-2b-jpn-it"

# ベースモデルとアダプターの読み込み
model = AutoPeftModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=adapter_path, 
    device_map={"": "cuda"}, 
    torch_dtype=torch.float16,
)

# トークナイザーの準備
tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path=repo_id, 
)

# パディングトークンが設定されていない場合、EOSトークンを設定
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# パディングを右側に設定(fp16を使う際のオーバーフロー対策)
tokenizer.padding_side = "right"

question_list = [
    "名前を教えてください",
    "日本の首都はどこですか", 
    "ジョークを言ってください", 
    "東北の観光地について教えてください" 
]

# 各質問に対して回答を生成
for i, question in enumerate(question_list, 1):
    print(f"\nchat_{i}----------------------------------------------------")
    print(f"質問: {question}")
    
    # チャットメッセージの設定
    messages = [
        {"role": "user", "content": question}
    ]
    
    # トークナイザーのチャットテンプレートを適用
    prompt = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    
    # プロンプトをトークン化してテンソルに変換（GPUに転送）
    model_inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
    
    # 回答を生成
    generated_ids = model.generate(
        model_inputs.input_ids,
        attention_mask=model_inputs.attention_mask,
        max_new_tokens=300
    )
    
    # 生成された回答を抽出
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]

    # トークンIDを文字列に変換
    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
    
    print(f"回答: {response}")
    print("----------------------------------------------------------")