# QLoRAについて

## ライブラリのインストール

In [None]:
# 必要なライブラリの最新バージョンをインストール
%pip install -q -U bitsandbytes
%pip install -q -U git+https://github.com/huggingface/transformers.git
%pip install -q -U git+https://github.com/huggingface/peft.git
%pip install -q -U git+https://github.com/huggingface/accelerate.git

1. bitsandbytes

```python
%pip install -q -U bitsandbytes
```

- 概要:
- 計算を高速化するためのライブラリで. 特にモデルの量子化（少ないビットでモデルの計算を行う手法）をサポートします. 
- メモリ消費量を減らしながら. 高速かつ効率的にモデルを動かすことができます. 
- 用途:
- 4-bit や 8-bit 量子化のサポート. 
- GPU メモリの節約に役立ちます. 

2. transformers

```python
%pip install -q -U git+https://github.com/huggingface/transformers.git
```

- 概要:
- Hugging Face が提供するライブラリで. さまざまな最先端の自然言語処理（NLP）モデルを簡単に利用できます. 
- GPT. BERT. OPT などのモデルを扱う際に必要です. 
- 用途:
- モデルのロード. トークナイザーの適用. 学習や推論の実行. 
- ポイント:
- git+https://github.com/... と記載されているのは. GitHubの最新コードを直接取得してインストールするためです. 

3. peft

```python
%pip install -q -U git+https://github.com/huggingface/peft.git
```

- 概要:
- Parameter-Efficient Fine-Tuning（PEFT）をサポートするライブラリです. 
- モデル全体を再学習するのではなく. 一部のパラメータだけを調整することで. 効率的にモデルの微調整を可能にします. 
- 用途:
- QLoRA（量子化を活用した効率的な微調整）や他の効率的な微調整手法を使用. 

4. accelerate

```python
%pip install -q -U git+https://github.com/huggingface/accelerate.git
```

- 概要:
- 分散処理やマルチGPU環境での計算を簡単に行うためのライブラリ. 
- モデルのトレーニングや推論を高速化する. 
- 用途:
- GPUやTPUのリソースを効果的に活用して. トレーニングや推論のパフォーマンスを向上. 

コマンドの解説

- %pip: Jupyter Notebook や Google Colab で pip を実行するためのマジックコマンド. 
- -q: 実行ログを抑制して. インストール状況を簡潔に表示. 
- -U: ライブラリを「アップデート」するオプション. 既にインストールされている場合でも最新バージョンに更新. 

## モデルのロード

In [None]:
from transformers import AutoModelForCausalLM

# Hugging Faceのtransformersライブラリから. 事前学習済みの"facebook/opt-350m"モデルをロード
model = AutoModelForCausalLM.from_pretrained("facebook/opt-350m". load_in_4bit=True. device_map="auto")

1. ライブラリのインポート

```python
from transformers import AutoModelForCausalLM
```

- transformers ライブラリ:
- 機械学習モデル（特にNLPモデル）を簡単にロード・実行できるライブラリ. 
- AutoModelForCausalLM は「因果言語モデル」（Causal Language Model）をロードするためのクラスです. 

2. モデルのロード

```python
model = AutoModelForCausalLM.from_pretrained(
    "facebook/opt-350m",
    load_in_4bit=True,
    device_map="auto"
)
```

- from_pretrained():
- Hugging Face モデルハブから. 事前学習済みモデルをロードします. 
- "facebook/opt-350m" は. Facebook が提供する OPT モデルの 350M パラメータ版. 
- 引数の詳細:
	1.	"facebook/opt-350m":
- ロードするモデル名（またはローカルディレクトリのパス）. 
- このモデルは. 因果言語モデルとして設計されており. 次に続く単語や文章を予測するタスクに適しています. 
	2.	load_in_4bit=True:
- モデルのパラメータを 4bit量子化 してロードします. 
- モデルのサイズを小さくし. メモリ使用量を大幅に削減することで. 低スペックなGPUでもモデルを扱えるようにします. 
- 量子化により. 若干の性能低下（精度の劣化）が発生する可能性がありますが. 計算効率が向上します. 
	3.	device_map="auto":
- デバイスマッピング（CPU. GPU. TPU などの選択）を自動で設定します. 
- 使用可能なデバイス（たとえばGPU）を探し. 適切に割り当てます. 
- GPUがある環境では. 自動的にGPUにモデルを配置し. 計算を高速化します. 

OPT モデルについて

- OPT (Open Pretrained Transformer):
- Facebook（現Meta）が開発した. 大規模な自然言語処理モデル. 
- GPT-3に匹敵する性能を持ちつつ. 軽量化と効率化を意識して設計されています. 
- OPT-350M:
- OPTシリーズの中で. 350M（350百万）パラメータを持つ小規模版. 
- 軽量かつ適度な性能を持つため. リソースの限られた環境で使いやすいモデル. 

## 実験

In [None]:
from transformers import AutoTokenizer. AutoModelForCausalLM

# モデルとトークナイザーのロード
tokenizer = AutoTokenizer.from_pretrained("facebook/opt-350m")
model = AutoModelForCausalLM.from_pretrained("facebook/opt-350m". load_in_4bit=True. device_map="auto")

# 入力の準備
# 質問を入力
input_text = "What is QLoRA?"
# 入力をトークン化し. GPUに転送
input_ids = tokenizer(input_text. return_tensors="pt").input_ids.to("cuda")

# モデルを使ってテキスト生成
# 最大長50でテキスト生成
outputs = model.generate(input_ids. max_length=50)
# 生成されたトークンを元に戻す
generated_text = tokenizer.decode(outputs[0]. skip_special_tokens=True)

print(generated_text)

1. 必要なライブラリとモジュールのインポート

```python
from transformers import AutoTokenizer. AutoModelForCausalLM
```

- AutoTokenizer: テキストをトークン化（モデルが理解できる形式に変換）したり. トークンを元のテキストに戻すためのクラス. 
- AutoModelForCausalLM: 因果言語モデル（Causal Language Model）を扱うためのクラス. 

2. モデルとトークナイザーのロード

```python
tokenizer = AutoTokenizer.from_pretrained("facebook/opt-350m")
model = AutoModelForCausalLM.from_pretrained("facebook/opt-350m". load_in_4bit=True. device_map="auto")
```

- トークナイザー:
- "facebook/opt-350m" 用のトークナイザーをロードします. 
- テキストをモデルが理解可能なトークン（数値）に変換するために必要です. 
- モデル:
- OPT-350M モデルをロードします. 
- 4bit量子化を使用してメモリ効率を向上させ. デバイスの自動割り当て（device_map="auto"） を行います. 

3. 入力テキストの準備

```python
input_text = "What is QLoRA?"
input_ids = tokenizer(input_text. return_tensors="pt").input_ids.to("cuda")
```

- 入力テキスト:
- ユーザーが与える質問やプロンプト（この場合は “What is QLoRA?”）. 
- tokenizer():
- テキストをトークン化し. PyTorchテンソル形式（return_tensors="pt"）で出力. 
- .to("cuda"): トークン化したデータを GPU（CUDAデバイス） に転送して. 計算を高速化. 

4. モデルを使ったテキスト生成

```python
outputs = model.generate(input_ids. max_length=50)
```

- model.generate():
- モデルを使って. 次の単語や文章を予測し. テキストを生成します. 
- 引数:
- input_ids: トークナイザーによって変換された入力. 
- max_length=50: 生成されるテキストの最大トークン数（この例では最大50トークン）. 
- モデルは. 入力に続く最も可能性の高い単語を選びながらテキストを生成します. 

5. 生成されたトークンをテキストに戻す

```python
generated_text = tokenizer.decode(outputs[0]. skip_special_tokens=True)
```

- tokenizer.decode():
- モデルが出力したトークン（数値列）を元のテキストに戻します. 
- skip_special_tokens=True: 特殊トークン（例: <EOS>）を省略して読みやすい形式にします. 

6. 結果を表示

```python
print(generated_text)
```

- 生成されたテキストを表示します. 

このコードの流れ

1.	モデルとトークナイザーのロード: Hugging Face から事前学習済みモデルをロード. 
2.	入力テキストを準備: トークン化し. GPUに転送. 
3.	テキスト生成: 入力に基づいてモデルが続きのテキストを生成. 
4.	生成テキストを復元: モデルの出力を人間が読める形式に変換. 
5.	結果を表示: 生成された回答やテキストを出力. 

## ファインチューニング

In [None]:
%pip install -q markupsafe==2.0.1
%pip install -q --upgrade gradio
%pip install -q transformers datasets peft
%pip install -q --upgrade peft

1. 安全な文字列処理ライブラリ markupsafe のインストール

```python
%pip install -q markupsafe==2.0.1
```

- markupsafe:
- Flask や Jinja2 などのウェブ関連ライブラリで使用される文字列操作ライブラリ. 
- 安全にHTMLやXMLにエスケープされた文字列を生成する機能を提供します. 
- ==2.0.1:
- バージョンを2.0.1に固定してインストールします. 特定のライブラリの互換性を保つために使用されることが多いです. 

2. Gradioのアップグレード

```python
%pip install -q --upgrade gradio
```

- gradio:
- 機械学習モデルを簡単にウェブアプリ化できるライブラリ. 
- ユーザーインターフェースを作成し. モデルのデモを素早く構築できます. 
- --upgrade:
- Gradioを最新バージョンにアップグレードします. 
- 使用例:
- 画像生成モデルやテキスト生成モデルのインターフェース作成. 
- ウェブブラウザ経由でモデルをテストするためのUI構築. 

3. Transformers. Datasets. PEFT のインストール

```python
%pip install -q transformers datasets peft
```

- transformers:
- Hugging Face が提供するライブラリで. BERT. GPT. OPT など多数の事前学習済みモデルをサポート. 
- 用途: テキスト生成. 分類. 翻訳など. 
- datasets:
- Hugging Face のデータセットライブラリ. 
- 数百種類の自然言語処理（NLP）データセットを簡単に利用可能. 
- 用途: データのロード. 前処理. データ拡張など. 
- peft:
- Parameter-Efficient Fine-Tuning の略. 
- 大規模言語モデル（LLM）の微調整を効率化するためのライブラリ. 
- 低リソース環境やカスタマイズタスクで有効. 

4. PEFTのアップグレード

```python
%pip install -q --upgrade peft
```

- --upgrade:
- PEFTライブラリを最新バージョンにアップデートします. 
- モデルの微調整機能が最新の状態で利用可能になります. 

In [None]:
import pandas as pd
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments
from transformers import DataCollatorForSeq2Seq
from datasets import Dataset
#from peft import LoraConfig, get_peft_model, prepare_model_for_int8_training, BitsAndBytesConfig
from transformers import AutoModelForCausalLM, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model

1. Pandasのインポート

```python
import pandas as pd
```

- Pandas:
- データ解析用ライブラリ. 
- 用途:
- CSVやExcelなどのデータファイルを読み書きする. 
- データの前処理（フィルタリング. 集計. 欠損値処理など）を行う. 

2. PyTorchのインポート

```python
import torch
```

- PyTorch:
- 機械学習モデルの構築やトレーニングをサポートするライブラリ. 
- Hugging Face Transformersのモデルは内部的にPyTorchを使用します. 

3. Transformers関連のインポート

```python
from transformers import AutoModelForCausalLM. AutoTokenizer. Trainer. TrainingArguments
from transformers import DataCollatorForSeq2Seq
```

- AutoModelForCausalLM:
- 自然言語生成（Causal Language Modeling）タスク用の事前学習済みモデルをロードするためのクラス. 
- 例: GPT系モデル（GPT-3. GPT-Neoなど）. 
- AutoTokenizer:
- モデルに対応するトークナイザー（テキストをトークンに変換するツール）を自動で取得します. 
- Trainer:
- モデルのトレーニング（微調整）を簡単に実行するためのラッパー. 
- バッチ処理. 学習率スケジューリング. 評価機能などを備えています. 
- TrainingArguments:
- トレーニングプロセスの設定（エポック数. 学習率. バッチサイズなど）を指定するためのクラス. 
- DataCollatorForSeq2Seq:
- シーケンス生成タスクにおけるデータの前処理をサポート. 
- ミニバッチ作成時にパディングやトークンの整列を自動で行います. 

4. Datasetsライブラリのインポート

```python
from datasets import Dataset
```

- Datasets:
- データセットの読み込み. 前処理. 分割を簡単に行うためのHugging Faceライブラリ. 
- Datasetクラスを使用して. カスタムデータや既存のデータセットを簡単に管理可能. 

5. モデル微調整関連のインポート

```python
from transformers import BitsAndBytesConfig
from peft import LoraConfig. get_peft_model
```

- BitsAndBytesConfig:
- モデルを効率的にロードするための設定を提供. 
- 特に. 量子化（quantization）を使用してメモリ使用量を削減する場合に有用. 
- 例: 4-bit 量子化を設定. 
- PEFT（Parameter-Efficient Fine-Tuning）関連:
- LoraConfig:
- LoRA（Low-Rank Adaptation）微調整の設定を指定. 
- 大規模モデルの一部のパラメータだけを微調整し. 効率的に学習可能. 
- get_peft_model:
- LoRA設定を使用してモデルを微調整可能な状態に変換する関数. 

6. コメントアウトされている行

```python
#from peft import LoraConfig. get_peft_model. prepare_model_for_int8_training. BitsAndBytesConfig
```

- prepare_model_for_int8_training:
- モデルを8-bit量子化（低精度演算）でトレーニングする準備を行う関数. 
- コメントアウトされている理由:
- 現時点で必要ない. もしくはこのコードでは未使用. 

このコードの目的

- Hugging Faceライブラリを活用して. 事前学習済みモデルのロードや微調整を行う準備. 
- 特にLoRAや量子化などを使い. 大規模モデルを効率的に扱うための設定を含む. 

## モデルの準備

In [None]:
# モデルID
model_id = "facebook/opt-350m"

# 4ビット量子化の設定
quantization_config = BitsAndBytesConfig(load_in_4bit=True)

# 量子化されたfacebook/opt-350mモデルを読み込む
model = AutoModelForCausalLM.from_pretrained(model_id. quantization_config=quantization_config)

このコードは. Hugging FaceのTransformersライブラリを使用して. facebook/opt-350mモデルを**8ビット量子化（8-bit quantization）**で読み込むプロセスを示しています. 量子化を行うことで. 計算リソースやメモリ使用量を大幅に削減しながら. 大規模言語モデルを扱うことが可能です. 

コードの詳細解説

1. モデルIDの設定

```python
model_id = "facebook/opt-350m"
```

- model_id:
- Hugging Faceのモデルハブに公開されている. 事前学習済みモデルのIDを指定します. 
- ここでは. Facebookが提供する OPT-350M モデル（350Mパラメータ）を使用します. 

2. 8ビット量子化の設定

```python
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
```

- BitsAndBytesConfig:
- **量子化（quantization）**や計算効率化の設定を行うクラス. 
- load_in_8bit=True:
- モデルを 8-bit精度 でロードします. 
- 通常の32-bit浮動小数点数（FP32）に比べてメモリ使用量を大幅に削減. 
- メリット:
- 軽量化: モデルサイズと計算負荷を削減. 
- 効率化: 同じGPUメモリでより大きなモデルを扱える. 

3. 量子化されたモデルのロード

```python
model = AutoModelForCausalLM.from_pretrained(model_id. quantization_config=quantization_config)
```

- AutoModelForCausalLM.from_pretrained:
- 指定したモデルIDから. Causal Language Modeling（因果言語モデリング）用の事前学習済みモデルをロードします. 
- 引数:
- model_id:
- 使用するモデルの名前（ID）. 
- quantization_config=quantization_config:
- 上記で設定した8-bit量子化の設定を適用. 
- 動作:
- モデルパラメータを8-bit量子化した形式でメモリにロード. 
- GPUやCPUで効率的に推論や微調整を実行. 

このコードの全体像

	1.	Hugging Faceの facebook/opt-350m モデルを指定. 
	2.	BitsAndBytesConfig を用いて 8-bit量子化の設定を適用. 
	3.	量子化された形式でモデルをロードし. 推論やトレーニングに備える. 

```python
PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): OPTForCausalLM(
      (model): OPTModel(
        (decoder): OPTDecoder(
          (embed_tokens): Embedding(50272, 512, padding_idx=1)
          (embed_positions): OPTLearnedPositionalEmbedding(2050, 1024)
          (project_out): Linear4bit(in_features=1024, out_features=512, bias=False)
          (project_in): Linear4bit(in_features=512, out_features=1024, bias=False)
          (layers): ModuleList(
            (0-23): 24 x OPTDecoderLayer(
              (self_attn): OPTSdpaAttention(
                (k_proj): lora.Linear4bit(
                  (base_layer): Linear4bit(in_features=1024, out_features=1024, bias=True)
                  (lora_dropout): ModuleDict(
                    (default): Dropout(p=0.1, inplace=False)
                  )
                  (lora_A): ModuleDict(
                    (default): Linear(in_features=1024, out_features=64, bias=False)
                  )
                  (lora_B): ModuleDict(
                    (default): Linear(in_features=64, out_features=1024, bias=False)
                  )
                  (lora_embedding_A): ParameterDict()
                  (lora_embedding_B): ParameterDict()
                  (lora_magnitude_vector): ModuleDict()
                )
                (v_proj): Linear4bit(in_features=1024, out_features=1024, bias=True)
                (q_proj): lora.Linear4bit(
                  (base_layer): Linear4bit(in_features=1024, out_features=1024, bias=True)
                  (lora_dropout): ModuleDict(
                    (default): Dropout(p=0.1, inplace=False)
                  )
                  (lora_A): ModuleDict(
                    (default): Linear(in_features=1024, out_features=64, bias=False)
                  )
                  (lora_B): ModuleDict(
                    (default): Linear(in_features=64, out_features=1024, bias=False)
                  )
                  (lora_embedding_A): ParameterDict()
                  (lora_embedding_B): ParameterDict()
                  (lora_magnitude_vector): ModuleDict()
                )
                (out_proj): Linear4bit(in_features=1024, out_features=1024, bias=True)
              )
              (activation_fn): ReLU()
              (self_attn_layer_norm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
              (fc1): Linear4bit(in_features=1024, out_features=4096, bias=True)
              (fc2): Linear4bit(in_features=4096, out_features=1024, bias=True)
              (final_layer_norm): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
            )
          )
        )
      )
      (lm_head): Linear(in_features=512, out_features=50272, bias=False)
    )
  )
)
```

OPTForCausalLM アーキテクチャ概要

OPTForCausalLM は. Facebookが開発した OPT (Open Pretrained Transformer) モデルファミリーの一部で. 主に 因果言語モデリング (Causal Language Modeling) に使用されます. このアーキテクチャは. 軽量化と効率的な微調整を重視した設計が特徴です. 

1. 主な目的

- 因果言語モデリング: トークン列を入力し. 次に出現するトークンを予測. 
- 自然言語生成: テキスト生成や会話エージェント. コード補完など. 

2. アーキテクチャの構成

(1) Embedding 層

- embed_tokens: トークンを512次元のベクトルに変換. 
- embed_positions: トークン位置を考慮した2050次元の埋め込み. 

(2) Decoder

- Transformerアーキテクチャ:
- デコーダ専用構造で24層の OPTDecoderLayer を含む. 
- 隠れ層サイズ: 1024
- トークン埋め込み次元: 512

(3) Decoder Layer (OPTDecoderLayer)

	1.	注意メカニズム (Self-Attention):
- self_attn: Scaled Dot-Product Attention. 
- LoRA (Low-Rank Adaptation):
- 軽量な微調整手法を採用し. k_proj と q_proj のプロジェクションに適用. 
- パラメータ数を抑えながら効率的なモデル調整を実現. 
	2.	全結合層:
- fc1: 入力次元を1024から4096に拡張. 
- fc2: 中間次元を1024に縮小. 
	3.	正規化:
- 注意層後: self_attn_layer_norm. 
- 出力層後: final_layer_norm. 
	4.	活性化関数:
- ReLU: 全結合層の活性化関数として使用. 

(4) 最後の線形層 (lm_head)

- デコーダの出力（512次元）を辞書サイズ（50272次元）に変換. 
- 各トークンの出現確率を計算. 

3. 特徴

	1.	LoRAの採用:
- 低ランク分解 (Low-Rank Decomposition) による効率的な微調整. 
- 計算コストとメモリ消費を削減しつつ. 新しいタスクへの適応が可能. 
	2.	軽量設計:
- パラメータ効率を重視し. 大規模モデルでの実用性を向上. 
	3.	柔軟性:
- モジュール化された設計により. 特定の層や部分のカスタマイズが可能. 

4. 用途例

- テキスト生成: 自然な文章やストーリー生成. 
- 対話システム: 会話エージェントやチャットボット. 
- 微調整タスク: 特定分野（法律. 医療など）のテキスト生成. 

5. 技術仕様

|項目 |	値 |
| --- | --- |
| モデル層数 | 24層 |
| 隠れ層サイズ | 1024 |
| 埋め込み次元 | 512 | 
| トークン辞書サイズ | 50272 |
| 活性化関数 | ReLU |
| 使用技術 | LoRA. Scaled Dot-Product Attention |

1. 利点

- 計算効率: モデル全体を再学習する必要なく. 一部のパラメータで適応が可能. 
- スケーラビリティ: 大規模モデルにも対応しやすい. 
- 多用途: 各種生成タスクに対応可能な汎用性. 

このアーキテクチャは. 効率性と適応性を兼ね備えた設計であり. 大規模モデルの微調整や生成タスクに最適です. 

In [None]:
# LoRAの設定
lora_config = LoraConfig(
    lora_alpha=16,
    lora_dropout=0.1,
    r=64,
    target_modules=["q_proj". "k_proj"],
    bias="none",
    task_type="CAUSAL_LM"
)

LoRAの設定についての詳細な説明

LoRA（Low-Rank Adaptation）は. 大規模な事前学習済みモデルを効率的に微調整（fine-tuning）する手法です. この手法は. 計算コストやメモリ使用量を削減しながら. 高い性能を達成できるのが特徴です. このコードで指定されている各設定の詳細をさらに掘り下げて説明します. 

LoRAの基本的な仕組み

1.	通常. 大規模モデルの重み（パラメータ）は非常に大きな行列で構成されます. 
2.	LoRAは. その大きな行列を 低ランク分解 という手法で分解します. 
- 具体的には. 行列 $W$ を. 2つの小さな行列 $A$ と $B$ に分解します. 
- これにより. 学習するパラメータの数が大幅に減少します. 
3.	既存のモデルの重みは固定され. LoRAで学習するのは $A$ と $B$ のみです. 
4.	この方法では. 大規模な行列の更新が不要になり. 計算効率が向上します. 

コード解説

```python
lora_config = LoraConfig(
    lora_alpha=16,
    lora_dropout=0.1,
    r=64,
    target_modules=["q_proj". "k_proj"],
    bias="none",
    task_type="CAUSAL_LM"
)
```

1. lora_alpha=16

- 役割:
- LoRAによって学習された行列 ￼ と ￼ の出力をスケーリングするための係数. 
- 学習の安定性を確保し. 微調整の影響を適切にモデル全体に反映させるために使用します. 
- 動作の詳細:
- 出力結果は以下のようにスケーリングされます：
$W^{\prime} = W + \alpha \cdot (A \cdot B)$

￼
- $W^{\prime}$￼: 元の重み（事前学習済みの値. 固定）. 
- $(A \cdot B)$￼: LoRAで学習した低ランク行列の積. 
- $\alpha$￼: スケーリング係数. 
- 値の選び方:
- 一般的には ￼ を大きくするとLoRAの影響が増え. 小さくすると元のモデルの重みが優先されます. 

1. lora_dropout=0.1

- 役割:
- 過学習を防ぐためのドロップアウト（Dropout）をLoRA層に導入します. 
- 動作の詳細:
- 学習中. 一定割合（ここでは10%）のユニットを無効化して. 汎化性能（未知のデータへの適応能力）を向上させます. 
- ドロップアウトはランダムに適用されるため. 毎回異なるニューロンが無効化されます. 
- 適切な値:
- 通常は 0.1 ～ 0.3 の範囲で設定されます. 

2. r=64

- 役割:
- LoRAで学習する行列のランク（次元）を指定します. 
- 動作の詳細:
- 元の行列 $W$ を. 以下のように低ランク行列 $A$ と $B$ に分解します：
$W \approx A \cdot B$

￼
- $A$￼: サイズは  $\text{original\_rows} \times r$ ￼. 
- $B$￼: サイズは $ r \times \text{original\_columns} $￼. 
- ここで. $r$ が小さいほどパラメータ数が減少し. 計算効率が上がります. 
- 選び方:
- 小さい $r$ は計算量を削減しますが. モデルの表現力が制限される可能性があります. 
- 大規模モデルでは $r$ を 32 ～ 128 程度に設定するのが一般的です. 

1. target_modules=["q_proj". "k_proj"]

- 役割:
- Transformerモデル内でLoRAを適用する層を指定します. 
- 動作の詳細:
- ここでは q_proj（Queryプロジェクション）と k_proj（Keyプロジェクション）の層をターゲットにしています. 
- これらはAttention機構の計算に重要な役割を果たす部分で. ここにLoRAを適用することでモデル全体の性能に大きな影響を与えられます. 

2. bias="none"

- 役割:
- バイアス項（bias）をLoRAで学習するかどうかを指定します. 
- 設定の詳細:
- "none":
- バイアス項は固定され. 学習されません. 
- 他のオプション：
- "all": バイアス項を含めて学習. 
- "lora_only": LoRA部分のみにバイアスを学習. 

3. task_type="CAUSAL_LM"

- 役割:
- LoRAを適用するタスクの種類を指定します. 
- 詳細:
- "CAUSAL_LM" は因果言語モデル（Causal Language Modeling）の略で. 次の単語を予測するタスクを指します. 
- 具体例：
- 入力：「The cat sat on the」
- 出力：「mat.」
- GPTやOPTのようなモデルがこのタスクに使用されます. 

target_modules=["q_proj". "k_proj"] は, LoRA (Low-Rank Adaptation) の適用対象として, 特定のモジュール（層）を指定する設定です. この指定により, LoRA はモデルの一部に限定して適用されます. これを理解するには, まず以下の背景を押さえる必要があります. 

背景: Transformerと自己注意機構

Transformerモデル（例: GPT, OPT）では, 自己注意機構 (Self-Attention) が重要な役割を果たします. この自己注意機構は以下の3つの行列で構成されます：

1.	Query (q_proj):
- 入力特徴量を「質問 (query)」ベクトルに変換. 
- どの部分が重要かを問う役割を持つ. 
2.	Key (k_proj):
- 入力特徴量を「鍵 (key)」ベクトルに変換. 
- 各トークンがどれだけ関連性を持つかを示す役割を持つ. 
3.	Value (v_proj):
- 入力特徴量を「値 (value)」ベクトルに変換. 
- 実際に出力に反映される情報を保持. 

q_proj. k_proj. v_proj はそれぞれ Linear レイヤー（全結合層）で実装されています. 

LoRAの概要

LoRA は, 大きなモデルを効率的に微調整するための手法で, 特定のパラメータ（モジュール）に低ランク行列を追加して学習します. この低ランク行列によるパラメータ追加により, 以下が可能になります：

1.	計算負荷の削減:
- モデル全体ではなく, 選択された層（部分的なパラメータ）にのみ変更を加える. 
2.	モデルの効率的な更新:
- モデル全体を再学習せずに特定の部分を微調整できる. 

target_modules=["q_proj". "k_proj"]

この指定では, 自己注意機構の以下の部分をLoRAで微調整対象にすることを意味します：

1.	q_proj (Query projection):
- モデルが「どの情報に注目するべきか」を決定する部分. 
2.	k_proj (Key projection):
- モデルが「どの情報が関連するか」を評価する部分. 

この設定により, 自己注意機構全体ではなく, q_projとk_projに限定してLoRAの適用が行われます. これには以下の利点があります：

利点

1.	パラメータの効率化:
- モデル全体を調整せず, 重要な部分（自己注意のQueryとKey部分）に焦点を当てる. 
2.	学習時間の短縮:
- LoRAの調整対象を限定することで, 計算負荷が軽減される. 
3.	性能の維持:
- Valueやその他の層を固定するため, 元のモデルの性能を損なうリスクが小さい. 

全体像

以下に, この設定を視覚的に整理します：

```plaintext
Transformer内の自己注意機構：
------------------------------------------------
[Input] --> q_proj (調整対象: LoRA) --> Query
         --> k_proj (調整対象: LoRA) --> Key
         --> v_proj (固定)          --> Value
[Output] <-- Attention計算
```

LoRAを適用することで, q_proj と k_proj に対して低ランク行列を導入し, これらの部分の微調整を効率化します. 

まとめ

- target_modules の役割: LoRAの適用対象となるモジュールを指定します. 
- q_proj と k_proj を選択する理由: 自己注意機構の中でも, 特に情報の選択や関連性評価に関わる部分であり, モデルの応答生成に大きく影響するからです. 

これにより, 少ないリソースで高性能な微調整が可能になります. 

In [None]:
# LoRAアダプタをモデルに適用
model = get_peft_model(model. lora_config)

# LoRAアダプタをモデルに適用
```python
model = get_peft_model(model. lora_config)
```

1. コードの全体的な概要

このコードは. 既存の大規模言語モデルにLoRA（Low-Rank Adaptation）を適用する処理です. 

- get_peft_model 関数を使用して. 事前学習済みモデル（model）に LoRAアダプタ を組み込みます. 
- これにより. 元のモデルのパラメータを固定しながら. LoRAのパラメータのみを学習可能な形に変換します. 

2. 各要素の説明

(1) get_peft_model

- 役割:
- LoRAアダプタをモデルに注入（integrate）し. モデルの一部にLoRAを適用可能にします. 
- この関数は. 元のモデル構造を変更するのではなく. LoRA用の追加パラメータを一部の層に追加します. 
- 具体的な動作:
- target_modules（例: ["q_proj". "k_proj"]）で指定された部分にLoRAアダプタを適用. 
- 元のモデルの重みは固定され. LoRAで導入したパラメータ（低ランク行列 ￼ と ￼ ）のみが学習対象になります. 

(2) model

- 元のモデル:
- ここでは. 事前にロード済みの言語モデル（例: facebook/opt-350m）. 
- AutoModelForCausalLM などで取得されたPyTorchモデル. 
- LoRA適用後のモデル:
- get_peft_model を適用すると. モデルの一部がLoRA用の層に置き換えられます. 
- モデル構造はLoRAをサポートする形に変更されますが. 基本的な動作（例: テキスト生成）は維持されます. 

(3) lora_config

- LoRAの設定:
- このコードでは. 以下のようなパラメータを持つ設定が事前に用意されています:
- r: LoRAで使用する低ランク行列のランク（次元数）. 
- lora_alpha: LoRA出力をスケーリングする係数. 
- lora_dropout: ドロップアウト率. 
- target_modules: LoRAを適用する対象モジュール（例: q_proj. k_proj）. 
- task_type: モデルのタスクタイプ（例: CAUSAL_LM）. 
- 適用時の役割:
- この設定に基づいて. LoRAの適用範囲や学習対象が決まります. 

3. LoRA適用後のモデルの特徴

	1.	パラメータの固定
- 元の事前学習済みモデルのパラメータは固定され. 更新されません. 
- 更新対象はLoRAで導入された追加の低ランク行列 ￼ と ￼ のみです. 
	2.	効率的な学習
- 低ランク行列に限定して学習を行うため. 必要なメモリ量や計算負荷が大幅に減少します. 
- 特に. GPUメモリが制約となる環境で効果的です. 
	3.	動作の互換性
- LoRAアダプタを適用しても. 元のモデルのインターフェースやAPIはそのまま利用可能です. 
- 例えば. model.generate() を使ったテキスト生成などが通常通り実行できます. 

4. 実行後に確認すべきこと

(1) LoRAが適用されたことの確認

get_peft_model を適用後. 以下のコードでモデルの設定が正しいか確認できます：

# モデルに適用されたLoRAの情報を表示
print(model)

(2) LoRAで学習可能なパラメータの確認

LoRA部分のみが学習対象となっていることを確認するには以下を実行します：

# 学習対象のパラメータを表示
for name. param in model.named_parameters():
    if param.requires_grad:
        print(name)

(3) メモリ消費量の削減

LoRAを適用したモデルをロードした際に. 従来よりもメモリ使用量が減少しているかを確認できます. 

5. 実行の次のステップ

LoRAアダプタを適用したモデルを使用して以下のような操作を行います：

	1.	微調整（Fine-tuning）
- LoRAを適用したモデルに新しいデータを用いて学習を行います. 
	2.	推論（Inference）
- LoRA付きのモデルを使ってタスク（例: テキスト生成）を実行します. 

LoRAは. 大規模モデルを効率的に微調整するための強力な手法です. このコードにより. 計算コストを抑えながら高い性能を発揮できるカスタムモデルが作成可能です. 

In [None]:
# トークナイザーを読み込む
tokenizer = AutoTokenizer.from_pretrained(model_id)

AutoTokenizer.from_pretrained(model_id) のコード解説

# トークナイザーを読み込む
```python
tokenizer = AutoTokenizer.from_pretrained(model_id)
```

このコードは. 指定されたモデルの トークナイザー をロードするための処理です. 

1. トークナイザーとは？

トークナイザー（Tokenizer）は. 自然言語処理（NLP）の前処理において重要な役割を果たします. テキストを以下のように処理します：

- テキストの分割（トークン化）：テキストを単語. サブワード. または文字単位の「トークン」に分解します. 
- 数値化：トークンをモデルが理解できる形式（数値のインデックス）に変換します. 
- 特殊トークンの処理：文章の始まりや終わり. パディング. マスクなどの特殊トークンを追加します. 

2. AutoTokenizer.from_pretrained(model_id) の役割

(1) AutoTokenizer

- AutoTokenizer は. Hugging Faceの transformers ライブラリで提供されるクラスで. 事前学習済みモデルに合わせて適切なトークナイザーを自動的に選んでくれます. 
- AutoTokenizer を使用することで. 事前にモデルに合わせたトークナイザーを手動で選ぶ手間を省くことができます. 例えば. BertTokenizer や GPT2Tokenizer など. モデルに適したトークナイザーが内部で自動的に選ばれます. 

(2) from_pretrained(model_id)

- from_pretrained メソッドは. 指定した model_id（モデルの名前やパス）からトークナイザーの設定をロードします. 
- model_id には. 事前学習済みモデルの名前（例: "facebook/opt-350m"）を指定します. このモデルに合わせて. 対応するトークナイザーも自動的にロードされます. 

(3) どうして model_id を使うのか？

- モデルに関連したトークナイザーの設定や語彙（vocabulary）は. モデルごとに異なります. 例えば. BERT と GPT-2 では. トークン化の方法が異なります（BERTはWordPiece. GPT-2はByte-Pair Encoding）. そのため. モデルを使う際にはそのモデルに最適化されたトークナイザーを使う必要があります. 

3. 実際にロードされるもの

AutoTokenizer.from_pretrained(model_id) を呼び出すと. 以下のようなものがロードされます：

- 語彙（vocabulary）: モデルに適した語彙ファイルがロードされます. この語彙ファイルには. モデルが理解できるすべてのトークンが含まれています. 
- トークナイザー設定: トークン化方法や特殊トークン（例えば. 文の始まりを示す [CLS]. 文の終わりを示す [SEP] など）の設定が含まれます. 
- 追加の設定（オプション）: モデルに合わせた特殊トークンの設定や. その他の必要なパラメータ（最大長. パディングの方法など）が含まれます. 

4. 具体的な使用例

例えば. facebook/opt-350m モデルの場合. このコードは以下のように動作します：

- facebook/opt-350m モデルに適したトークナイザー（例えば. Byte-Pair Encoding 方式）がロードされ. tokenizer 変数に格納されます. 
- tokenizer はその後. テキストのトークン化や逆トークン化（数値をトークンに戻す）に使用できます. 

# 例：トークン化と逆トークン化
```python
input_text = "What is QLoRA?"
input_ids = tokenizer(input_text. return_tensors="pt").input_ids
decoded_text = tokenizer.decode(input_ids[0]. skip_special_tokens=True)

print("トークン化されたID:". input_ids)
print("復元されたテキスト:". decoded_text)
```

5. AutoTokenizer を使う利点

- 簡潔さ: モデルに合わせたトークナイザーを手動で選ぶ必要がなく. コードがシンプルになります. 
- 柔軟性: AutoTokenizer は多くのモデルに対応しており. 同じコードで異なるモデルにも適応できます. 
- 拡張性: 新しいモデルがHugging Faceに追加されるたびに. AutoTokenizer は自動的に新しいモデルのトークナイザーをサポートします. 

6. model_id とは何か？

model_id は. 事前学習済みモデルの識別子であり. 以下のような形式です：

- 例: "facebook/opt-350m" や "bert-base-uncased" など. 
- 詳細:
- model_id はHugging Face Hubで公開されているモデルの名前です. 
- 自分のローカルファイルシステムに保存されたモデルを指定する場合も. ファイルパスを指定することができます. 

まとめ

このコードの目的は. 指定した model_id に対応するトークナイザーをロードし. テキストをトークン化してモデルが処理できる形式に変換することです. トークナイザーはNLPの前処理に欠かせないものであり. AutoTokenizer を使うことで. 異なるモデル間で簡単にトークナイザーを切り替えることができます. 

In [None]:
# データの準備
data = {
    "input_text": ["What is QLoRA？"] * 5,
    "output_text": [
        "QLoRA is a technique for efficient fine-tuning that enables high-performance model training while reducing memory usage through 4-bit quantization.",
        "QLoRA. or Quantized Low-Rank Adaptation. is an advanced method that leverages low-rank matrix factorization and quantization for fine-tuning large models efficiently.",
        "QLoRA is a strategy that combines low-rank adaptation and 4-bit quantization. optimizing the model training process by significantly reducing memory overhead.",
        "QLoRA enhances the fine-tuning of large models by applying 4-bit quantization and low-rank adaptations. allowing for faster training with reduced computational resources.",
        "QLoRA facilitates efficient model tuning by incorporating low-rank updates and utilizing 4-bit quantization. making it feasible to fine-tune large models on limited hardware."
    ]
}

**日本語訳**

**1. QLoRA is a technique for efficient fine-tuning that enables high-performance model training while reducing memory usage through 4-bit quantization.**
- QLoRAは. 4ビット量子化によるメモリ使用量の削減と高性能モデルのトレーニングを可能にする効率的なファインチューニング手法です.

**2. QLoRA. or Quantized Low-Rank Adaptation. is an advanced method that leverages low-rank matrix factorization and quantization for fine-tuning large models efficiently.**
- QLoRA（Quantized Low-Rank Adaptation）は. 低ランク行列分解と量子化を活用して. 大規模モデルのファインチューニングを効率的に行うための高度な手法です.

**3. QLoRA is a strategy that combines low-rank adaptation and 4-bit quantization. optimizing the model training process by significantly reducing memory overhead.**
- QLoRAは. 低ランク適応と4ビット量子化を組み合わせた戦略であり. メモリオーバーヘッドを大幅に削減することでモデルのトレーニングプロセスを最適化します.

**4. QLoRA enhances the fine-tuning of large models by applying 4-bit quantization and low-rank adaptations. allowing for faster training with reduced computational resources.**
- QLoRAは. 4ビット量子化と低ランク適応を適用することで. 大規模モデルのファインチューニングを強化し. 計算資源を削減しながらより高速なトレーニングを可能にします.

**5. QLoRA facilitates efficient model tuning by incorporating low-rank updates and utilizing 4-bit quantization. making it feasible to fine-tune large models on limited hardware.**
- QLoRAは. 低ランク更新と4ビット量子化を組み込むことで. 効率的なモデルチューニングを可能にし. 限られたハードウェア上で大規模モデルのファインチューニングを実現します.

In [None]:
dataset = Dataset.from_dict(data)

Dataset.from_dict(data) のコードは. datasets ライブラリを使用して. Pythonの辞書型データ (data) から Dataset オブジェクトを作成するためのものです. これにより. データが適切に整形され. Hugging Faceの datasets ライブラリでのデータ操作やモデル学習に使用できる形式に変換されます. 

詳細解説

```python
dataset = Dataset.from_dict(data)
```

このコードで行われていることを詳しく見ていきましょう. 

1. Dataset.from_dict(data) メソッド

- 目的: Dataset.from_dict は. Pythonの辞書型（dict）データから. Hugging Face datasets ライブラリで使える Dataset オブジェクトを生成するためのメソッドです. 
- 引数 data: ここで渡される data は. 通常. 辞書型のデータです. この辞書のキーはカラム名に対応し. 値はリストや配列. またはタプルで. データの各サンプルに対応します. 具体的には. 各カラムに対する値（リスト）を持つ辞書を渡す形になります. 

2. datasets ライブラリ

- datasets ライブラリ: Hugging Faceの datasets ライブラリは. 大規模なデータセットを簡単に操作. 処理. 分析できるツールを提供します. これを使うと. データを効率的にロードしたり. 前処理を行ったり. モデルのトレーニングに使ったりできます. 

3. data の形式

- 辞書型データ (dict):
- data は通常. 各カラム名（例えば “text”. “label” など）をキーとして持ち. それぞれのカラムに対応する値としてリストやNumPy配列. またはPandasのSeriesなどを指定します. 
- 例えば. 次のようなデータが data に渡されることが考えられます. 

```python
data = {
    "text": ["I love programming". "Hugging Face is great". "I am learning NLP"],
    "label": [1. 0. 1]
}
```

この場合. "text" カラムにはテキストデータが. "label" カラムにはラベルが含まれており. これを Dataset.from_dict(data) に渡すことで. これらのデータが Dataset オブジェクトとして生成されます. 

4. Dataset オブジェクト

- Dataset は. データを効率的に操作するためのHugging Faceライブラリ内のクラスです. これにより. 例えばデータのスライシング（データの一部を取り出す）. シャッフル（データの順序をランダム化する）. バッチ処理（複数のサンプルをまとめて処理する）などが簡単に行えます. 

例

例えば. 以下のようにテキストとラベルのペアからデータセットを作成する場合：

```python
from datasets import Dataset

# 辞書型データ
data = {
    "text": ["I love programming". "Hugging Face is great". "I am learning NLP"],
    "label": [1. 0. 1]
}

# Datasetオブジェクトを作成
dataset = Dataset.from_dict(data)

# 結果確認
print(dataset)
```

出力結果:

```python
Dataset({
    features: ['text'. 'label'],
    num_rows: 3
})
```

ここで. dataset は Dataset オブジェクトで. text と label という2つのカラムを持つデータセットが作成されます. 

主な利点

- 効率的なデータ操作: datasets ライブラリは. 効率的なデータ処理（データのシャッフル. バッチ処理. フィルタリング. 変換など）を提供します. 
- メモリ管理: 大規模なデータセットを扱う際にメモリを効率的に使えるように設計されており. メモリに収まりきらないデータもディスクから直接読み込んで処理できます. 

まとめ

Dataset.from_dict(data) は. Pythonの辞書型データからHugging Faceの Dataset オブジェクトを作成する方法です. この方法を使うことで. 辞書で管理されているデータを簡単にデータセットとして利用できるようになります. 

In [None]:
# データセットのトークナイズ
tokenized_dataset = dataset.map(tokenize_function, batched=True)

このコードは. dataset.map() メソッドを使用して. データセットの全体に対してトークナイゼーション（トークン化）を適用するためのものです. 具体的に何が行われるのかを. 以下で詳細に説明します. 

コードの説明

```python
tokenized_dataset = dataset.map(tokenize_function. batched=True)
```

1. dataset.map() メソッド

- dataset.map() は. datasets ライブラリで提供されるメソッドで. 指定した関数（この場合は tokenize_function）をデータセット全体に適用します. 
- map() メソッドは. データセットの各サンプルに関数を適用することにより. 元のデータを変換した新しいデータセットを返します. 例えば. トークナイゼーション. データ前処理. フィルタリング. 変換などの処理に使用されます. 

2. tokenize_function

- tokenize_function は. 前のコードで定義された関数です. この関数は. データセットのサンプル（examples）を入力として受け取り. 入力テキスト（input_text）と出力テキスト（output_text）をトークン化します. 
- トークン化後は. モデルが理解できる形式（input_ids や attention_mask など）に変換されます. 

3. batched=True

- batched=True は. 関数がバッチ単位でデータを処理することを指定します. つまり. データセットの一部をまとめて処理し. 個々のサンプルではなく. 複数のサンプルを一度に関数に渡します. 
- これにより. トークナイゼーションを効率的に処理できるため. 速度向上が期待できます. batched=True によって. tokenize_function に渡される examples 引数はリストまたは辞書の形式で. 複数のサンプルが一度に処理されます. 

4. トークナイズされたデータセット

dataset.map() の結果として. トークナイゼーションが適用された新しいデータセットが返されます. このデータセットには. 元の入力テキストと出力テキストが. トークン化された形式で格納されています. これにより. 各サンプルのテキストは. モデルの入力として使用可能な形式になります. 

具体的に. トークナイゼーション後には以下のようなキーが含まれるデータが生成されます（tokenize_function が行っている処理に基づく）:

- input_ids: トークン化された入力テキスト. 
- attention_mask: パディングが追加されている場合. パディング部分を示すマスク. モデルがどのトークンを処理すべきか. または無視すべきかを示します. 
- labels: 出力テキスト（教師データ）のトークン化結果. 通常. 生成タスクの場合. 出力としてこれが使用されます. 

5. 処理後のデータセットの利用

トークナイズされたデータセット（tokenized_dataset）は. トレーニング. 評価. または推論のために使用できます. このデータセットは. すでにモデルが理解できる形式に変換されているため. すぐに Trainer などのトレーニングツールに渡して使用することができます. 

まとめ

このコードの目的は. dataset 内のすべてのサンプルに対して tokenize_function を適用し. 入力と出力のテキストをトークン化することです. batched=True を使用することで. バッチ処理で効率よくトークナイゼーションを行い. トークン化されたデータセット（tokenized_dataset）を得ることができます. この新しいデータセットは. モデルのトレーニングや推論に使用するために準備されたものです. 

In [None]:
# データコラトレータ
data_collator = DataCollatorForSeq2Seq(tokenizer. model=model)

このコードは. トレーニングの際にデータを適切な形式に整えるための データコラトレータ（DataCollatorForSeq2Seq） を作成しています. データコラトレータは. ミニバッチの作成時に入力データを適切にパディングし. バッチ内のサンプルが同じ長さを持つように調整します. これにより. モデルが効率的に学習できるようになります. 

以下で. このコードの詳細について説明します. 

コードの構成

data_collator = DataCollatorForSeq2Seq(tokenizer. model=model)

1. DataCollatorForSeq2Seq

- DataCollatorForSeq2Seq は. Hugging Face の transformers ライブラリのクラスで. シーケンス生成タスク（例えば. 翻訳. 要約. 質問応答など）のためのデータコラトレータです. このクラスは. トレーニング時に シーケンスデータ（入力文と出力文）を適切な形式に整えるために使用されます. 
- シーケンスデータは通常. 異なる長さのテキストから成り立っていますが. ミニバッチを作成するには. すべてのサンプルが同じ長さである必要があります. DataCollatorForSeq2Seq は. 以下のような処理を行います：
- パディング: 各サンプルを指定された最大長さに合わせてパディングします. これにより. バッチ内のすべてのサンプルが同じ長さになります. 
- ラベルの調整: 出力シーケンスに関しても同様にパディングを行い. モデルにとって適切な形式になります. 

2. 引数: tokenizer と model

- tokenizer:
- tokenizer は. トークン化を担当するオブジェクトで. テキストをトークン化したり. トークンIDに変換したり. 逆にトークンIDをテキストに戻したりする機能を提供します. 
- DataCollatorForSeq2Seq は. tokenizer を使用して. 入力シーケンスと出力シーケンスをパディングし. トークンIDを正しく扱います. 
- model:
- model 引数は. 使うモデルのインスタンスです. これを渡すことで. データコラトレータは. モデルに適したデータ整形を行うために必要な設定を調整できます. 例えば. 特定のモデルが要求するパディングの方法やその他の設定に従うことができます. 

3. データコラトレータの役割

- DataCollatorForSeq2Seq は. トレーニング中に使用される データのバッチ化 を適切に行います. トークナイズされた入力と出力のペアを受け取り. モデルに適した形に調整します. 
- パディング: ミニバッチ内の全てのテキストの長さを揃えます. これは. GPUを効率的に使用するために重要です. 
- バッチ処理: バッチ単位でデータを供給するため. トレーニングが効率的に進みます. 

4. トレーニング時の利用

- この data_collator は. Trainer クラスで使用されることが多いです. Trainer は. データローダー（DataLoader）とともに data_collator を使って. トレーニング時に適切なバッチを生成します. 

まとめ

このコードは. シーケンス生成タスク（例えば. QAや翻訳など）におけるデータの前処理を行うための データコラトレータ を作成しています. DataCollatorForSeq2Seq を使用すると. 入力と出力のシーケンスが異なる長さを持つ場合でも. 効率的にパディングと調整を行い. ミニバッチの作成をサポートします. これにより. トレーニング中にGPUを最大限に活用できるようになります. 

In [None]:
# 学習の設定
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="no",
    learning_rate=1e-4,
    per_device_train_batch_size=2,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir='./logs',
    logging_steps=10,
    save_strategy="epoch",
)

このコードは. Hugging Face の transformers ライブラリで使用する 学習設定（TrainingArguments）を定義しています. TrainingArguments は. トレーニングの設定を行うクラスで. トレーニング時の様々なパラメータを管理します. 以下は各設定の詳細です. 

コード

```python
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="no",
    learning_rate=1e-4,
    per_device_train_batch_size=2,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_dir='./logs',
    logging_steps=10,
    save_strategy="epoch",
)
```

各パラメータの詳細

1.	output_dir
- output_dir は. トレーニング結果やモデルの保存先ディレクトリを指定します. トレーニング終了後に. 最終的なモデルやチェックポイントがこのディレクトリに保存されます. 
- ここでは. "./results" と指定されており. トレーニング結果は results フォルダ内に保存されます. 
2.	evaluation_strategy
- evaluation_strategy は. 評価のタイミングを設定します. 以下のようなオプションがあります：
- "no": 評価を行わない
- "epoch": 各エポック終了時に評価を行う
- "steps": 指定したステップごとに評価を行う
- ここでは "no" が指定されており. 評価は行われません. 
3.	learning_rate
- learning_rate は. 学習率（モデルの重み更新の速さ）を設定します. 1e-4（0.0001）という小さな学習率が指定されています. これにより. 学習が安定しやすくなります. 
4.	per_device_train_batch_size
- per_device_train_batch_size は. トレーニングの際に各デバイス（GPUなど）で使用するバッチサイズを設定します. ここでは 2 と指定されています. つまり. 各GPUで2つのサンプルを同時に処理します. 
5.	num_train_epochs
- num_train_epochs は. モデルのトレーニングを行うエポック数を指定します. エポックは. データセット全体を一回通すことを指します. ここでは 3 回のエポックで学習を行うことが設定されています. 
6.	weight_decay
- weight_decay は. 重みの減衰（L2正則化）を設定します. これにより. モデルの過学習を防ぐことができます. 0.01 と指定されており. 適度な正則化が行われます. 
7.	logging_dir
- logging_dir は. トレーニング中のログ情報を保存するディレクトリを指定します. ここでは './logs' と指定されており. トレーニング中に発生するログがこのディレクトリに保存されます. 
8.	logging_steps
- logging_steps は. 何ステップごとにログを記録するかを設定します. ここでは 10 が指定されており. 10ステップごとにログを出力します. 
9.	save_strategy
- save_strategy は. モデルのチェックポイントを保存するタイミングを設定します. 以下のオプションがあります：
- "no": チェックポイントを保存しない
- "epoch": 各エポック終了時にチェックポイントを保存する
- "steps": 指定したステップごとにチェックポイントを保存する
- ここでは "epoch" が指定されており. 各エポックが終了するたびにチェックポイントが保存されます. 

まとめ

このコードは. トレーニングの設定を行うために TrainingArguments を使用しています. 主に次のポイントを設定しています：

- 出力先やログ出力先の指定
- 学習率やバッチサイズなどの基本的なハイパーパラメータの設定
- 評価の頻度やチェックポイントの保存タイミングの設定

この設定を使用すると. 指定されたパラメータに従ってトレーニングが実行され. 結果やモデルは指定されたディレクトリに保存されます. 

In [None]:
# トレーナーの設定
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    data_collator=data_collator,
)

このコードは. Hugging Face の transformers ライブラリの Trainer クラスを使用して. モデルのトレーニングの設定を行っています. Trainer は. モデルのトレーニングプロセスを簡単に管理できる高レベルなAPIで. データセットの準備や評価. ログ出力. モデルの保存などを簡素化します. 

コード
```python
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    data_collator=data_collator,
)
```

各引数の詳細

1.	model
- model は. トレーニングに使用するモデルです. この例では. 前のコードで定義された model（facebook/opt-350m）が指定されています. Trainer は. 指定されたモデルを使ってトレーニングを行います. 
2.	args
- args には. トレーニングの設定を指定するために TrainingArguments オブジェクトが渡されます. これにより. バッチサイズや学習率. エポック数など. トレーニングの詳細な設定が提供されます. このコードでは. 前述の training_args が指定されています. 
3.	train_dataset
- train_dataset には. トレーニングに使用するデータセットを指定します. この例では. トークナイズされたデータセット（tokenized_dataset）が指定されています. tokenized_dataset は. 前述のトークナイズ関数を通じて. テキストデータをトークンに変換したデータセットです. 
4.	data_collator
- data_collator は. データのバッチ処理を行うためのオブジェクトです. このコードでは. DataCollatorForSeq2Seq を使って. トークン化されたデータをバッチごとに処理しています. data_collator は. バッチ内のデータを適切にまとめ. モデルに渡す形式に変換します. この場合. シーケンスデータを処理するために DataCollatorForSeq2Seq が使用されています. 

Trainer クラスの主な役割

- モデルのトレーニング: Trainer は. 与えられたモデルを指定された設定（TrainingArguments）に基づいてトレーニングします. 
- 評価: 設定に応じて. トレーニング中にモデルの評価を実行します（ここでは評価は行われない設定になっています）. 
- ログの管理: トレーニング中のログを指定されたディレクトリ（logging_dir）に記録し. 進行状況を追跡できます. 
- チェックポイントの保存: 指定された方法でモデルのチェックポイント（中間結果）を保存します. 
- 学習データのバッチ処理: data_collator によって. データを適切な形式に変換し. モデルに供給する準備をします. 

まとめ

このコードで作成された Trainer インスタンスは. 指定されたモデル. トレーニング設定. データセット. バッチ処理の設定を元に. トレーニングを開始する準備が整います. Trainer を使うことで. トレーニングの流れが簡単に管理でき. 細かい設定や操作を意識することなく. 高レベルなトレーニングプロセスを実行できます. 

# トレーニングの出力結果
この出力は, Hugging FaceのTrainerまたは類似のトレーニングスクリプトを使用した際のトレーニング結果を示しています. それぞれの値がトレーニングプロセスの進行状況や性能指標を表しています. 

出力の項目の説明

1.	global_step: 9
- トレーニング中に実行された全体の更新ステップ数（グローバルステップ数）. 
- モデルが9回のパラメータ更新を行ったことを意味します. 
2.	training_loss: 12.783854166666666
- トレーニング中に記録された平均損失値. 
- 損失関数（例: クロスエントロピー）が示す値で, 低いほどモデルの予測精度が高いことを意味します. 
- 値が大きい場合, モデルがまだ学習不足, もしくはハイパーパラメータ（学習率など）を調整する必要がある可能性があります. 
3.	metrics: {...}
- トレーニングのパフォーマンス指標を含む辞書形式のデータ. 
metrics内の各項目

- train_runtime: 2.5007
- トレーニングに要した総時間（秒）. 
- train_samples_per_second: 5.998
- 1秒あたりに処理されたトレーニングサンプル数. 
- train_steps_per_second: 3.599
- 1秒あたりに実行されたトレーニングステップ数. 
- 高いほど学習が効率的であることを示します. 
- total_flos: 3567161180160.0
- 総フロップ数 (Floating Point Operations). 
- モデルがトレーニング中に実行した浮動小数点演算の量を示します. 
- フロップ数が大きいほど, モデルの計算量が多いことを意味します. 
- train_loss: 12.783854166666666
- 上記のtraining_lossと同じ値. 
- トレーニングプロセス全体で記録された平均損失値. 
- epoch: 3.0
- トレーニングが完了したエポック数. 
- データセット全体を3回繰り返してトレーニングを実施したことを意味します. 

この結果から分かること

1.	損失値 (training_loss)
- 現時点の損失値が12.78と比較的高めなので, モデルがまだ最適化の途中である可能性があります. 
- 学習率の調整やエポック数の増加, データの正規化などを試す価値があります. 
2.	トレーニング速度
- 秒あたり6サンプル処理（train_samples_per_second）と3.6ステップ実行（train_steps_per_second）は, トレーニングが効率的に進んでいることを示しています. 
3.	エポック数
- エポック数は3で, データセット全体を3回繰り返してトレーニングした状態です. 
- 追加のエポックを試すことで損失値がさらに下がる可能性があります. 

In [None]:
from transformers import AutoModelForCausalLM. AutoTokenizer
import torch

# 保存したモデルとトークナイザーを読み込む
#model = AutoModelForCausalLM.from_pretrained("./QLoRA_fine_tuned_model")
model = AutoModelForCausalLM.from_pretrained("./QLoRA_fine_tuned_model". local_files_only=True)
#tokenizer = AutoTokenizer.from_pretrained("./QLoRA_fine_tuned_model")
tokenizer = AutoTokenizer.from_pretrained("./QLoRA_fine_tuned_model". local_files_only=True)

# 推論を行うための入力テキスト
input_text = "What is QLoRA?"

# テキストをトークナイズ
inputs = tokenizer(input_text. return_tensors="pt". padding=True. truncation=True. max_length=128)

# 推論を実行
with torch.no_grad():
    outputs = model.generate(
        inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        max_length=128.  # 出力の最大長
        num_beams=5.     # ビームサーチの探索幅
        no_repeat_ngram_size=2.  # 重複を避けるために2-gramを繰り返さない
        early_stopping=True  # 終了条件
    )

# 出力をデコードして結果を表示
output_text = tokenizer.decode(outputs[0]. skip_special_tokens=True)
print(f"モデルの回答: {output_text}")

このコードは. 事前にファインチューニングされたモデルを使用して. 与えられたテキストに基づく推論（テキスト生成）を行うためのものです. transformers ライブラリと PyTorch を使用して. 指定したモデルから推論を実行し. 生成されたテキストを表示します. 

コードの詳細な解説

```python
from transformers import AutoModelForCausalLM. AutoTokenizer
import torch

# 保存したモデルとトークナイザーを読み込む
#model = AutoModelForCausalLM.from_pretrained("./QLoRA_fine_tuned_model")
model = AutoModelForCausalLM.from_pretrained("./QLoRA_fine_tuned_model". local_files_only=True)
#tokenizer = AutoTokenizer.from_pretrained("./QLoRA_fine_tuned_model")
tokenizer = AutoTokenizer.from_pretrained("./QLoRA_fine_tuned_model". local_files_only=True)
```

1.	モデルとトークナイザーの読み込み
- AutoModelForCausalLM.from_pretrained("./QLoRA_fine_tuned_model". local_files_only=True) で. ローカルに保存されているファインチューニングされたモデル（QLoRA_fine_tuned_model）を読み込んでいます. 
- local_files_only=True オプションを使うことで. インターネットからモデルをダウンロードするのではなく. ローカルに保存されたモデルのみを読み込むことを指定しています. 
- 同様に. AutoTokenizer.from_pretrained を使って. モデルに合わせたトークナイザーも読み込んでいます. 

# 推論を行うための入力テキスト
```python
input_text = "What is QLoRA?"
```

# テキストをトークナイズ
```python
inputs = tokenizer(input_text. return_tensors="pt". padding=True. truncation=True. max_length=128)
```

2.	入力テキストの準備
- input_text に. 推論のための入力文「What is QLoRA?」を指定します. 
- tokenizer(input_text. return_tensors="pt". padding=True. truncation=True. max_length=128) では. input_text をトークナイズ（トークン化）して. モデルに入力できる形式に変換します. 
- return_tensors="pt" は. PyTorch のテンソル形式で返すことを指定しています. 
- padding=True は. 入力シーケンスを指定した最大長（ここでは128）でパディングして長さを揃えるためのオプションです. 
- truncation=True は. 入力が最大長を超える場合にトークンを切り詰めるためのオプションです. 
- max_length=128 は. 入力テキストの最大長を128に制限します. 

# 推論を実行
```python
with torch.no_grad():
    outputs = model.generate(
        inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        max_length=128.  # 出力の最大長
        num_beams=5.     # ビームサーチの探索幅
        no_repeat_ngram_size=2.  # 重複を避けるために2-gramを繰り返さない
        early_stopping=True  # 終了条件
    )
```

3.	推論の実行
- with torch.no_grad(): は. 推論時に勾配計算を無効にすることでメモリ消費を削減し. 計算速度を向上させるために使われます. 
- model.generate(...) メソッドを使って. 指定した条件でテキスト生成を行います. 主な引数は以下の通りです：
- inputs["input_ids"] は. トークン化された入力文（input_ids）です. 
- inputs["attention_mask"] は. パディングを考慮するためのマスクです. これにより. パディングされた部分を無視してモデルが計算を行うことができます. 
- max_length=128 は. 生成されるテキストの最大長を128トークンに制限します. 
- num_beams=5 は. ビームサーチの探索幅を5に設定しています. ビームサーチは. 最も確からしい次の単語を選ぶ際に複数の候補を同時に探索することで. より良い結果を得るための手法です. 
- no_repeat_ngram_size=2 は. 2-gram（連続する2つの単語）が繰り返されることを防ぐためのオプションです. これにより. 生成されるテキストに意味のない繰り返しが生じにくくなります. 
- early_stopping=True は. 生成中に終了条件が満たされた場合. 生成を早期に停止するオプションです. 

# 出力をデコードして結果を表示
output_text = tokenizer.decode(outputs[0]. skip_special_tokens=True)
print(f"モデルの回答: {output_text}")

4.	生成されたテキストのデコードと表示
- tokenizer.decode(outputs[0]. skip_special_tokens=True) は. 生成されたトークン列（outputs[0]）を人間が読めるテキスト形式にデコードするためのメソッドです. skip_special_tokens=True は. 特殊なトークン（例：パディングトークンや開始/終了トークンなど）を除外するオプションです. 
- 最後に. print(f"モデルの回答: {output_text}") で. モデルが生成したテキストを表示します. 

まとめ

このコードは. 保存されたファインチューニング済みモデルを使って. 与えられた入力テキストに基づいてテキスト生成を行い. その結果を表示するものです. トークン化やテキスト生成の設定. ビームサーチによる最適なテキストの選択. 繰り返しの回避など. 様々なテクニックを駆使して. 品質の高い生成結果を得ることを目指しています. 