In [1]:
%pip -q install torch
%pip -q install transformers
%pip -q install bitsandbytes
%pip -q install peft
%pip -q install trl
%pip -q install datasets
%pip -q install tensorboard
%pip -q install pandas openpyxl


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.1.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.

[1m[[0m[34;49mnotice[0m[1;39;49m][0m

In [None]:
import os
import json
import torch
from datasets import Dataset
import bitsandbytes as bnb
from transformers import (
    AutoTokenizer, 
    AutoModelForCausalLM, 
    BitsAndBytesConfig,
    TrainingArguments
)
from peft import LoraConfig
from trl import SFTTrainer

import torchinfo
from torchinfo import summary

In [None]:
# huggingfaceトークンの設定（gemma2を使用するのに必要なため）
os.environ["HF_TOKEN"] = "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"

# モデルのリポジトリIDを設定
repo_id = "google/gemma-2-2b-jpn-it"

# データセットのパス
dataset_path = "./zmn.jsonl"

In [None]:
# jsonlファイルを読み込む
json_data = []
with open(dataset_path, 'r', encoding='utf-8') as f:
    for line in f:
        json_data.append(json.loads(line))

# DatasetオブジェクトにJSONデータを変換
dataset = Dataset.from_list(json_data)

# プロンプトフォーマット
PROMPT_FORMAT = """<start_of_turn>user
{system}

{instruction}
<end_of_turn>
<start_of_turn>model
{output}
<end_of_turn>
"""

1. 統一されたデータ形式で処理を行うため
- JSONデータは辞書やリストの形式で保存されていますが、これでは直接機械学習モデルのトレーニングに利用できません。
- Hugging FaceのDatasetオブジェクトは、効率的にデータを処理・操作できる専用の形式です。
  - バッチ処理
  - メモリ効率の良いデータ管理
  - データのシャッフルや分割
- Dataset形式に変換することで、Hugging Faceエコシステムの利便性を最大限に活用できます。

2.	トークナイザやモデルと簡単に連携させるため
3.	大規模データの処理に適している
4.	トレーニングデータの管理や前処理が簡単になる

In [None]:
# データセットの内容をプロンプトにセット → textフィールドとして作成する関数
def generate_text_field(data):
    messages = data["messages"]
    system = ""
    instruction = ""
    output = ""
    for message in messages:
        if message["role"] == "system":
            system = message["content"]
        elif message["role"] == "user":
            instruction = message["content"]
        elif message["role"] == "assistant":
            output = message["content"]  
    full_prompt = PROMPT_FORMAT.format(system=system, instruction=instruction, output=output) 
    return {"text": full_prompt}

# データセットに（generate_text_fieldの処理を用いて）textフィールドを追加
train_dataset = dataset.map(generate_text_field)

# messagesフィールドを削除
train_dataset = train_dataset.remove_columns(["messages"]) 

**コードの役割**
1. generate_text_field 関数

この関数は、各データサンプルから必要な情報を抽出し、プロンプト形式のテキストを作成します。

主な流れ：
- messages フィールドの解析:
  - data["messages"]は一連の対話データを含むリストと仮定されます。
  - 各メッセージの役割（role）に基づいて、その内容（content）を変数に保存します：
    - system: システムメッセージ（背景や設定情報）
    - instruction: ユーザーからの指示や入力
    - output: アシスタントの応答
- プロンプト形式の生成:
  - 収集したデータを特定のフォーマット文字列（PROMPT_FORMAT）に挿入し、最終的なプロンプトを作成します。
  - 例

```python
PROMPT_FORMAT = "{system}\n\nInstruction: {instruction}\n\nResponse: {output}"
```

- 上記フォーマットに基づいて、以下のような完全なプロンプトを生成：

```python
System Message: You are an AI assistant.
Instruction: Write a poem about the sea.
Response: The sea is deep and blue...
```

- 戻り値:
  - 辞書形式で"text"キーにプロンプトをセットして返します：

```python
return {"text": full_prompt}
```

1. dataset.map(generate_text_field)

この部分は、generate_text_field関数をデータセット内の全てのデータサンプルに適用し、新しいフィールド（"text"）をデータセットに追加します。
- map関数の動作:
  - データセット内の各サンプルを引数として関数に渡し、結果を反映した新しいデータセットを返します。
  - 上記のgenerate_text_fieldによって、各サンプルに"text"フィールドが追加されます。

- 例

元のデータサンプル
```python
{
    "messages": [
        {"role": "system", "content": "You are an AI assistant."},
        {"role": "user", "content": "Write a poem about the sea."},
        {"role": "assistant", "content": "The sea is deep and blue..."}
    ]
}
```

処理後のデータサンプル
```python
{
    "messages": [...],
    "text": "You are an AI assistant.\n\nInstruction: Write a poem about the sea.\n\nResponse: The sea is deep and blue..."
}
```

**なぜこの処理を行うのか？**
1.	言語モデルに適した形式を作るため
- プロンプト形式でテキストを構築することで、言語モデルが学習時に入力を理解しやすくなります。
- 特に指示（Instruction）と応答（Response）の明確な分離は、指示追従型モデルの学習に適しています。
2.	トレーニングデータの標準化
- データセット全体を統一的なフォーマット（PROMPT_FORMAT）に整えることで、モデルのトレーニングが安定します。
- 例えば、InstructionとResponseの明確な対応を学習できるようになります。
3.	高効率なトレーニングデータの準備
- モデルにとって重要な情報（system、instruction、output）のみを抽出してプロンプト化することで、冗長な情報を省き、効率的なトレーニングが可能になります。
4.	多目的な使用を想定
- この形式は、テキスト生成モデルや指示追従型タスク（例：ChatGPTのようなモデル）の微調整に適しています。
- 生成タスク: プロンプトから自然な応答を生成する能力を訓練。
- 指示理解タスク: 指示内容と関連した応答を生成する能力を強化。

In [None]:
# 量子化のConfigを設定
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True, # 4ビット量子化を使用
    bnb_4bit_quant_type="nf4", # 4ビット量子化の種類にnf4（NormalFloat4）を使用
    bnb_4bit_use_double_quant=True, # 二重量子化を使用
    bnb_4bit_compute_dtype=torch.float16 # 量子化のデータ型をfloat16に設定
)

`bnb_4bit_quant_type="nf4"`

- NF4（NormalFloat4） という量子化の形式を指定します。
- NF4は「データの重要な部分をうまく残す」特別な方法で、精度をできるだけ保ちながら量子化する技術です。
- なぜ使うのか？
  - 通常の4ビット量子化よりも性能が良いとされています。

`bnb_4bit_use_double_quant=True`

- 二重量子化（二段階の圧縮） を使います。
- 1回量子化した後に、もう一度量子化をかけることで、さらにメモリを節約できます。

 `bnb_4bit_compute_dtype=torch.float16`

- 計算時のデータ型をfloat16（16ビット浮動小数点）に設定します。
- 4ビット量子化では、計算するときに直接4ビットを使うのではなく、少し高精度なfloat16を使います。
  - 理由は、計算が安定しやすくなるためです。
- 例え話:
  - 荷物を運ぶときに、元は小さいけど運ぶときだけ少し大きめの箱を使うイメージ。

In [None]:
# モデルの読み込み
model = AutoModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=repo_id, # モデルのリポジトリIDをセット
    device_map={"": "cuda"}, # 使用デバイスを設定
    quantization_config=quantization_config, # 量子化のConfigをセット
    attn_implementation="eager", # 注意機構に"eager"を設定（Gemma2モデルの学習で推奨されているため）
)

**このコードの目的**

- 機械学習モデルを「事前学習済み（pretrained）」の状態で読み込み、効率的に実行できるようにします。
- この設定では、量子化を適用し、GPU（CUDA）を利用することで高速化と省メモリ化を目指しています。

**コードの詳しい説明**

1. AutoModelForCausalLM.from_pretrained()

この関数は、事前学習済みの言語モデルを読み込むために使われます。
- AutoModelForCausalLM:
  - Hugging Faceのライブラリで提供されるクラス。
  - **Causal Language Model（因果言語モデル）**をロードするための自動設定クラスです。
  - 例：ChatGPTのような対話型AIや、文章生成モデルに使われます。
- from_pretrained():
  - モデルを指定されたリポジトリからダウンロードしてロードします。
  - リポジトリとは？
    - モデルのデータが保存されている場所（クラウド上のフォルダのようなもの）。
    - 例：Hugging Face Hub上の公開モデル。

2. attn_implementation="eager"

- attn_implementation:
  - 注意機構（Attention Mechanism）の実装方法を指定します。
  - "eager"は、Gemma-2モデルで推奨されている設定。
- 注意機構とは？
  - モデルが重要な単語や情報に集中するための仕組み。
  - 例：質問に応答するときに、質問文のキーワードに注意を払う。
- eagerの利点:
  - シンプルで安定した動作が期待できるため、特定のモデル（例：Gemma-2）では推奨されています。

eagerは、Gemma-2モデルなどの特定の機械学習モデルで推奨されている注意機構（Attention Mechanism）の実装方法です。この設定により、モデルの注意（Attention）の計算が「簡潔かつ安定」した方法で実行されます。

**Attention Mechanism（注意機構）とは？**

- 役割: モデルが重要な情報（単語やトークン）に「集中」できるようにする仕組み。
- 例: 「猫はかわいい」という文で、「猫」と「かわいい」の関連性に注目しながら意味を学ぶ。


**eager の意味**

eagerは、Attention計算を実行する方法の一つで、「即時実行モード」に相当します。
- **即時実行（Eager Execution）**とは？
  - コードを1行ずつ実行する、直感的でデバッグしやすい方式。
  - Pythonプログラムの通常の動作と似ています。
  - 注意の計算が「リアルタイム」に行われるため、動作が分かりやすく、エラーが発生した場合も原因を特定しやすい。
- 他のモードとの違い
  - 多くのモデルでは、Attention計算を高速化するために「最適化されたバックエンド」を使うことがあります（例: Flash Attention）。
  - しかし、これらの高速化手法は、特定のハードウェアやライブラリに依存することが多く、安定性に問題が生じる場合があります。
  - eagerは単純で安定しており、特に新しいモデルやデバイスで推奨されることがあります。

In [None]:
# キャッシュを無効化（メモリ使用量を削減）
model.config.use_cache = False 

このコードは、モデルの設定を変更して、キャッシュ機能を無効化するものです。これにより、特にトレーニング時や推論時に、モデルが使用するメモリ量を削減できます。

コードの詳細

`model.config.use_cache = False`

- model.config:
  - モデルの動作に関する設定を格納するオブジェクト。
  - 例：バッチサイズ、注意機構の種類、キャッシュの利用など。
- use_cache:
  - キャッシュ（生成済みの計算結果の再利用）を有効または無効にする設定。
  - デフォルト値は通常Trueで、推論時に計算の効率を上げるために使用されます。
- Falseに設定する効果:
  - キャッシュを無効化することで、メモリ使用量を減らす。
  - 特に、モデルがメモリに余裕がない場合（大きなモデルを小さなGPUで使う場合など）に有効。

キャッシュ（Cache）とは？

キャッシュは、既に計算した結果を再利用する仕組みです。
- 例：文章生成タスク
	1.	モデルが文章の最初の部分を計算します。
	2.	次の単語を予測するとき、以前の計算結果をキャッシュとして再利用することで効率化します。
	3.	キャッシュを利用することで、計算の重複を防ぎ、高速化を実現します。
- 推論時（生成タスク）での利点:
  - 次の単語を予測する際、過去の文脈を再計算する必要がないため、時間を大幅に節約できます。

キャッシュを無効化する理由

1.	トレーニング時の不要性:
  - キャッシュは推論（文章生成）では役立ちますが、トレーニングでは通常不要です。
  - 各バッチで入力データが異なるため、キャッシュを保持しても再利用する機会がほとんどありません。
2.	メモリの節約:
  - キャッシュを保持するためには追加のメモリが必要です。
  - モデルが大きい場合や、GPUメモリに制約がある場合は、キャッシュを無効にすることでメモリ不足を防ぎます。
3.	動作の安定性:
  - 大規模なモデルや複雑なトレーニングでは、キャッシュを保持すると計算が不安定になる場合があります。
  - キャッシュを無効化することで、これらの問題を回避できます。

例えで理解する

- キャッシュあり（use_cache=True）:
  - 本を読んでいるときに、前のページのメモを取っておいて、それを再度参照して内容を思い出す。
  - 新しいページを読むときには、過去のページのメモが役立つ。
- キャッシュなし（use_cache=False）:
  - 本を読むときに、メモを取らずに毎回最初から全部読む。
  - 時間はかかるけど、メモを保存するスペース（メモリ）は不要になる。

In [None]:
# テンソル並列ランクを１に設定（テンソル並列化を使用しない）
model.config.pretraining_tp = 1 

**コードの詳細**

`model.config.pretraining_tp = 1`

このコードは、モデルの設定において**テンソル並列化（Tensor Parallelism）**のランクを1に設定するものです。テンソル並列化を無効化（使用しない）することを意味します。

テンソル並列化とは？

- テンソル並列化は、大規模なニューラルネットワークモデルを複数のGPUに分割して計算を並列化する方法の一つです。
- 通常、大規模モデルでは重い計算を分散するため、モデルの重みや演算をGPU間で分割して負荷を分散します。
- テンソル並列化は、モデルの**テンソル（行列やベクトルなどのデータ構造）**を分割し、複数のデバイスで並行して計算を行う手法です。

pretraining_tp の役割

- **pretraining_tp**は、モデルがテンソル並列化を利用する際の「並列ランク数」を指定します。
  - ランク数: モデルのテンソルを分割する数。
  - 例: ランクが2なら、モデルのテンソルが2つのGPUで並列計算されます。
- pretraining_tp=1:
  - モデルがテンソル並列化を使用しない設定。
  - 全てのテンソル計算が1つのデバイス（通常は1つのGPU）で実行されます。

このコードの目的

- テンソル並列化を無効化することで、モデルの動作を簡略化し、単一GPU上で計算を行うようにする。
- メモリや計算リソースの制約がある環境では、この設定が適している場合があります。

なぜテンソル並列化を無効化するのか?

1.	リソース制約:
  - ユーザーが単一のGPUを使っている場合、テンソル並列化を有効にすると動作しないか、エラーが発生する可能性があります。
  - 並列化を無効化することで、シンプルな設定で実行できます。
2.	小規模モデルの場合:
  - モデルが小さい場合、テンソル並列化は必要ありません。
  - 並列化のオーバーヘッド（通信コスト）がかえってパフォーマンスを低下させることがあります。
3.	デバッグや開発の容易さ:
  - 並列化を無効化することで、コードの実行が単純化され、エラーが発生した際にデバッグが容易になります。

In [None]:
# トークナイザーの準備
tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path=repo_id, # モデルのリポジトリIDをセット
    attn_implementation="eager", # 注意機構に"eager"を設定（Gemma2モデルの学習で推奨されているため）
    add_eos_token=True, # EOSトークンの追加を設定
)

In [None]:
# パディングトークンが設定されていない場合、EOSトークンを設定
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# パディングを右側に設定(fp16を使う際のオーバーフロー対策)
tokenizer.padding_side = "right"

# モデルから4ビット量子化された線形層の名前を取得する関数
def find_all_linear_names(model):
    target_class = bnb.nn.Linear4bit
    linear_layer_names = set()
    for name_list, module in model.named_modules():
        if isinstance(module, target_class):
            names = name_list.split('.')
            layer_name = names[-1] if len(names) > 1 else names[0]
            linear_layer_names.add(layer_name)
    if 'lm_head' in linear_layer_names:
        linear_layer_names.remove('lm_head')
    return list(linear_layer_names)

# モジュールのリストとして線形層の名前を取得
target_modules = find_all_linear_names(model)

# LoRAのConfigを設定
Lora_config = LoraConfig(
    lora_alpha=8, # LoRAによる学習の影響力を調整（スケーリング)
    lora_dropout=0.1, # ドロップアウト率
    r=4, # 低ランク行列の次元数
    bias="none", # バイアスのパラメータ更新
    task_type="CAUSAL_LM", # タスクの種別
    target_modules=target_modules # LoRAを適用するモジュールのリスト
)

# 学習パラメータを設定
training_arguments = TrainingArguments(
    output_dir="./train_logs", # ログの出力ディレクトリ
    fp16=True, # fp16を使用
    logging_strategy='epoch', # 各エポックごとにログを保存（デフォルトは"steps"）
    save_strategy='epoch', # 各エポックごとにチェックポイントを保存（デフォルトは"steps"）
    num_train_epochs=3, # 学習するエポック数
    per_device_train_batch_size=1, # （GPUごと）一度に処理するバッチサイズ
    gradient_accumulation_steps=4, # 勾配を蓄積するステップ数
    optim="paged_adamw_32bit", # 最適化アルゴリズム
    learning_rate=5e-4, # 初期学習率
    lr_scheduler_type="cosine", # 学習率スケジューラの種別
    max_grad_norm=0.3, # 勾配の最大ノルムを制限（クリッピング）
    warmup_ratio=0.03, # 学習を増加させるウォームアップ期間の比率
    weight_decay=0.001, # 重み減衰率
    group_by_length=True,# シーケンスの長さが近いものをまとめてバッチ化
    report_to="tensorboard" # TensorBoard使用してログを生成（"./train_logs"に保存）
)

# SFTパラメータの設定
trainer = SFTTrainer(
    model=model, # モデルをセット
    tokenizer=tokenizer, # トークナイザーをセット
    train_dataset=train_dataset, # データセットをセット
    dataset_text_field="text", # 学習に使用するデータセットのフィールド
    peft_config=Lora_config, # LoRAのConfigをセット
    args=training_arguments, # 学習パラメータをセット
    max_seq_length=512, # 入力シーケンスの最大長を設定
)

# 正規化層をfloat32に変換(学習を安定させるため)
for name, module in trainer.model.named_modules():
    if "norm" in name:
        module = module.to(torch.float32)

# モデルの学習
trainer.train()

# 学習したアダプターを保存
trainer.model.save_pretrained("./QLoRA_sample_model")

In [None]:
import os
import torch
from peft import AutoPeftModelForCausalLM
from transformers import AutoTokenizer

# huggingfaceトークンの設定（gemma2を使用するのに必要なため）
os.environ["HF_TOKEN"] = "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"

# アダプターのパス
adapter_path = "./QLoRA_sample_model"

# モデルのリポジトリIDを設定
repo_id = "google/gemma-2-2b-jpn-it"

# ベースモデルとアダプターの読み込み
model = AutoPeftModelForCausalLM.from_pretrained(
    pretrained_model_name_or_path=adapter_path, 
    device_map={"": "cuda"}, 
    torch_dtype=torch.float16,
)

# トークナイザーの準備
tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path=repo_id, 
)

# パディングトークンが設定されていない場合、EOSトークンを設定
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

# パディングを右側に設定(fp16を使う際のオーバーフロー対策)
tokenizer.padding_side = "right"

question_list = [
    "名前を教えてください",
    "日本の首都はどこですか", 
    "ジョークを言ってください", 
    "東北の観光地について教えてください" 
]

# 各質問に対して回答を生成
for i, question in enumerate(question_list, 1):
    print(f"\nchat_{i}----------------------------------------------------")
    print(f"質問: {question}")
    
    # チャットメッセージの設定
    messages = [
        {"role": "user", "content": question}
    ]
    
    # トークナイザーのチャットテンプレートを適用
    prompt = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    
    # プロンプトをトークン化してテンソルに変換（GPUに転送）
    model_inputs = tokenizer([prompt], return_tensors="pt").to("cuda")
    
    # 回答を生成
    generated_ids = model.generate(
        model_inputs.input_ids,
        attention_mask=model_inputs.attention_mask,
        max_new_tokens=300
    )
    
    # 生成された回答を抽出
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]

    # トークンIDを文字列に変換
    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
    
    print(f"回答: {response}")
    print("----------------------------------------------------------")