<a href="https://colab.research.google.com/github/arumajirou/-daily-test/blob/main/H2O_LLM_Studio_CLI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# [H2O LLM Studio](https://github.com/h2oai/h2o-llmstudio)を使って大規模言語モデルを微調整する

このノートブックでは、H2O LLM Studioの**CLIインターフェイス**を使って、大規模な言語モデルを簡単に微調整する方法を示します。

こんにちは、Bingです。あなたの質問にお答えします。😊

あなたが教えてほしいURLの内容は、H2O LLM Studioというものです。これは、大規模な言語モデル（LLM）を微調整するためのフレームワークとノーコードGUI（グラフィカルユーザーインターフェース）です¹²³。

- 大規模な言語モデル（LLM）とは、自然言語（人間が話す言語）を理解したり生成したりするために、大量のテキストデータを学習した人工知能（AI）のことです。
- 微調整とは、すでに学習したLLMに、特定のタスクや目的に合わせてさらに学習させることです。例えば、質問に答えたり、詩を作ったりするように微調整することができます。
- ノーコードGUIとは、プログラミングやコーディング（コンピューターに命令を書くこと）をせずに、マウスやキーボードで操作できる画面のことです。

H2O LLM Studioでは、以下のようなことができます¹²³。

- 大規模な言語モデルを使うための専用の画面で、簡単に微調整できます。
- さまざまなパラメーター（微調整の方法や条件）を変えて、LLMを微調整できます。
- 最新の微調整技術（LoRAや8ビットモデルなど）を使って、LLMを効率的に微調整できます。
- LLMが生成した答えを評価するための高度な指標（評価基準）を使えます。
- LLMの性能を視覚的に追跡や比較できます。また、Neptuneというサービスと連携して使うこともできます。
- LLMとチャットして、その性能をすぐにフィードバックできます。
- LLMをHugging Face Hubというプラットフォームに簡単にエクスポートして、コミュニティと共有できます。

では、H2O LLM Studioの使い方を具体的に見ていきましょう。

## 目次

- H2O LLM Studio GUIの起動
- データ形式
- モデルの微調整
  - 実験の開始
  - 実験の監視
  - Hugging Faceへのプッシュ
  - 実験の比較
- OASSTデータでCLI経由で実行する例
- モデルチェックポイント
- FAQ
- 技術用語の解説

## H2O LLM Studio GUIの起動

H2O LLM Studio GUIは、以下の方法で起動できます¹。

- requirements.txtを使ってインストールする方法
- Dockerからナイトリービルドを使って起動する方法
- Dockerイメージを自分でビルドして起動する方法

### requirements.txtを使ってインストールする方法

requirements.txtは、H2O LLM Studioが動作するために必要なプログラムやライブラリ（部品）の一覧です。これを使って、簡単にインストールできます。

まず、H2O LLM Studioのソースコード（プログラムの元）をダウンロードします。以下のコマンドを実行してください。

```bash
git clone https://github.com/h2oai/h2o-llmstudio.git
```

次に、ダウンロードしたフォルダに移動して、requirements.txtを使ってインストールします。以下のコマンドを実行してください。

```bash
cd h2o-llmstudio
pip install -r requirements.txt
```

### Dockerからナイトリービルドを使って起動する方法

Dockerとは、コンピューター上に仮想的な環境（コンテナ）を作って、プログラムを動かすためのツールです。Dockerを使うと、インストールや設定などの手間が省けます。

ナイトリービルドとは、開発中の最新版のプログラムを毎日自動的にビルド（作成）することです。ナイトリービルドを使うと、最新の機能や修正が利用できますが、不安定になる可能性もあります。

まず、Dockerをインストールしてください。以下のURLからダウンロードできます。

https://docs.docker.com/get-docker/

次に、以下のコマンドを実行して、H2O LLM StudioのナイトリービルドのDockerイメージ（コンテナの元）をダウンロードします。

```bash
docker pull h2oai/llmstudio:nightly
```

次に、以下のコマンドを実行して、H2O LLM Studio GUIを起動します。

```bash
docker run --rm -p 10101:10101 h2oai/llmstudio:nightly
```

### Dockerイメージを自分でビルドして起動する方法

Dockerイメージを自分でビルドすると、カスタマイズやデバッグ（不具合の調査）ができますが、時間がかかる場合があります。

まず、H2O LLM Studioのソースコードをダウンロードします。以下のコマンドを実行してください。

```bash
git clone https://github.com/h2oai/h2o-llmstudio.git
```

次に、ダウンロードしたフォルダに移動して、Dockerイメージをビルドします。以下のコマンドを実行してください。

```bash
cd h2o-llmstudio
docker build -t h2oai/llmstudio:latest .
```

次に、以下のコマンドを実行して、H2O LLM Studio GUIを起動します。

```bash
docker run --rm -p 10101:10101 h2oai/llmstudio:latest
```

### H2O LLM Studio GUIにアクセスする方法

H2O LLM Studio GUIを起動したら、ブラウザ（Chromeがおすすめ）で以下のURLにアクセスしてください。

http://localhost:10101/

すると、以下のような画面が表示されます¹³。

![H2O LLM Studio GUI](https://docs.h2o.ai/h2o-llmstudio/_images/llm_studio_home.png)

この画面では、以下のことができます¹³。

- New Experimentボタンで、新しい実験（微調整）を開始できます。
- Load Experimentボタンで、保存した実験（微調整）を読み込んで再開できます。
- Compare Experimentsボタンで、複数の実験（微調整）の結果や性能を比較できます。
- Chatボタンで、微調整したLLMとチャットできます。

- Documentationボタンで、H2O LLM Studioの詳しい説明や使い方を見ることができます。
- Settingsボタンで、H2O LLM Studioの設定を変更できます。例えば、言語やテーマなどです。

## データ形式

H2O LLM Studioでは、微調整に使うデータは、以下の形式で用意する必要があります 。

- テキストファイル（.txt）であること
- 一行に一つのテキストが入っていること
- テキストはタブ（\t）で区切られた二つの部分からなること
- 最初の部分は入力（質問やプロンプトなど）であること
- 次の部分は出力（答えや生成文など）であること

例えば、以下のようなデータがあります。

```
What is the capital of Japan?	Tokyo
Who wrote Harry Potter?	J.K. Rowling
How many planets are there in the solar system?	Eight
```

このデータは、LLMに質問に答えさせるための微調整に使えます。最初の部分が質問で、次の部分が答えです。

データを用意したら、H2O LLM Studio GUIのNew Experimentボタンをクリックして、実験を開始します。

## モデルの微調整

H2O LLM Studioでは、以下の手順でLLMを微調整できます 。

- 実験の開始
- 実験の監視
- Hugging Faceへのプッシュ
- 実験の比較

### 実験の開始

New Experimentボタンをクリックすると、以下のような画面が表示されます 。

![New Experiment](https://docs.h2o.ai/h2o-llmstudio/_images/llm_studio_new_experiment.png)

この画面では、以下のことができます 。

- Experiment Nameで、実験に名前を付けることができます。
- Model Typeで、微調整するLLMの種類を選択できます。現在はGPT-NeoとGPT-Jが利用できます。
- Model Sizeで、微調整するLLMのサイズを選択できます。サイズが大きいほど性能は高くなりますが、学習に時間やメモリがかかります。
- Data Fileで、微調整に使うデータファイルをアップロードできます。
- Hyperparametersで、微調整に使うパラメーターを設定できます。パラメーターについては後述します。
- Startボタンで、実験を開始できます。

パラメーターには以下のものがあります 。

| パラメーター | 説明 |
| --- | --- |
| Batch Size | 一度に学習するデータの数 |
| Learning Rate | 学習率（学習の速さ） |
| Num Epochs | エポック数（全データを何回学習するか） |
| Max Length | 入力や出力の最大文字数 |
| Min Length | 出力の最小文字数 |
| Early Stopping | 早期終了（性能が改善しなくなったら学習を止めるか） |
| Patience | 早期終了の基準（何回連続で性能が改善しなかったら学習を止めるか） |
| Gradient Accumulation Steps | 勾配蓄積ステップ数（何回の学習で勾配を更新するか） |
| Weight Decay | 重み減衰（過学習を防ぐために重みを減らすか） |
| Adam Epsilon | アダムイプシロン（勾配の更新に使う微小な値） |
| Warmup Steps | ウォームアップステップ数（学習率を徐々に上げるステップ数） |
| Max Grad Norm | 最大勾配ノルム（勾配の大きさの上限） |
| Top K | トップK（出力の候補を上位K個に絞るか） |
| Top P | トップP（出力の候補を確率P以上に絞るか） |
| Repetition Penalty | 繰り返しペナルティ（出力に同じ単語が繰り返されることを減らすか） |
| Temperature | 温度（出力の多様性を増やすか） |
| No Repeat N-Gram Size | 繰り返し禁止Nグラムサイズ（出力に同じNグラムが繰り返されないようにするか） |
| Bad Words Ids | 禁止単語ID（出力に含めない単語のIDのリスト） |
| Num Beams | ビーム数（出力の候補を何本の枝で探索するか） |
| Length Penalty | 長さペナルティ（出力の長さに応じてスコアを変えるか） |
| Diversity Penalty | 多様性ペナルティ（ビーム内で出力の多様性を増やすか） |

パラメーターの詳しい説明や効果は、以下のURLを参照してください。

https://huggingface.co/transformers/main_classes/model.html#transformers.generation_utils.GenerationMixin.generate

パラメーターを設定したら、Startボタンをクリックして実験を開始します。
### 実験の監視

実験を開始すると、以下のような画面が表示されます 。

![Experiment Monitor](https://docs.h2o.ai/h2o-llmstudio/_images/llm_studio_experiment_monitor.png)

この画面では、以下のことができます 。

- Experiment Infoで、実験の情報を確認できます。例えば、実験名やモデル名、データファイル名などです。
- Metricsで、実験の性能を評価するための指標を見ることができます。例えば、損失（Loss）や正解率（Accuracy）などです。
- Loss Graphで、損失の推移をグラフで見ることができます。損失とは、LLMが生成した答えと正しい答えとのずれのことです。損失が小さいほど性能が高いと言えます。
- Accuracy Graphで、正解率の推移をグラフで見ることができます。正解率とは、LLMが生成した答えが正しい答えと一致する割合のことです。正解率が高いほど性能が高いと言えます。
- Samplesで、LLMが生成した答えの例を見ることができます。入力（Input）と出力（Output）のペアが表示されます。
- Stopボタンで、実験を停止できます。
- Saveボタンで、実験を保存できます。
- Push to Hugging Faceボタンで、微調整したLLMをHugging Face Hubにエクスポートできます。

### Hugging Faceへのプッシュ

Hugging Face Hubとは、LLMを共有するためのプラットフォームです。Hugging Face Hubにエクスポートすると、他の人があなたの微調整したLLMを使ったり評価したりすることができます。

Push to Hugging Faceボタンをクリックすると、以下のような画面が表示されます 。

![Push to Hugging Face](https://docs.h2o.ai/h2o-llmstudio/_images/llm_studio_push_to_hf.png)

この画面では、以下のことができます 。

- Model Nameで、エクスポートするLLMに名前を付けることができます。
- Model Descriptionで、エクスポートするLLMに説明文を付けることができます。
- Model Card Templateで、エクスポートするLLMにモデルカード（性能や特徴などをまとめた文書）を作成できます。
- Pushボタンで、エクスポートを開始できます。

エクスポートにはHugging Faceアカウントが必要です。アカウントを持っていない場合は、以下のURLから作成してください。

https://huggingface.co/join

エクスポートに成功すると、以下のような画面が表示されます 。

![Push to Hugging Face Success](https://docs.h2o.ai/h2o-llmstudio/_images/llm_studio_push_to_hf_success.png)

この画面では、以下のことができます 。

- View on Hugging Face Hubボタンで、エクスポートしたLLMのページに移動できます。
- Copy URLボタンで、エクスポートしたLLMのURLをコピーできます。


### 実験の比較

Compare Experimentsボタンをクリックすると、以下のような画面が表示されます 。

![Compare Experiments](https://docs.h2o.ai/h2o-llmstudio/_images/llm_studio_compare_experiments.png)

この画面では、以下のことができます 。

- Add Experimentボタンで、比較したい実験を追加できます。
- Remove Experimentボタンで、比較したくない実験を削除できます。
- Compareボタンで、実験の比較を開始できます。

実験の比較を開始すると、以下のような画面が表示されます 。

![Compare Experiments Result](https://docs.h2o.ai/h2o-llmstudio/_images/llm_studio_compare_experiments_result.png)

この画面では、以下のことができます 。

- Experiment Infoで、比較した実験の情報を確認できます。例えば、実験名やモデル名、データファイル名などです。
- Metricsで、比較した実験の性能を評価するための指標を見ることができます。例えば、損失（Loss）や正解率（Accuracy）などです。
- Loss Graphで、比較した実験の損失の推移をグラフで見ることができます。損失とは、LLMが生成した答えと正しい答えとのずれのことです。損失が小さいほど性能が高いと言えます。
- Accuracy Graphで、比較した実験の正解率の推移をグラフで見ることができます。正解率とは、LLMが生成した答えが正しい答えと一致する割合のことです。正解率が高いほど性能が高いと言えます。
- Samplesで、比較した実験のLLMが生成した答えの例を見ることができます。入力（Input）と出力（Output）のペアが表示されます。

## OASSTデータでCLI経由で実行する例

H2O LLM Studioでは、GUIだけでなく、CLI（コマンドラインインターフェース）でもLLMを微調整できます。CLIとは、コマンド（文字列）を入力して操作する方法です。

CLIを使うと、GUIにない機能や設定が利用できます。例えば、Neptuneというサービスと連携して実験を管理したり、GPU（高速な計算装置）を使って学習を高速化したりすることができます。

ここでは、OASSTデータという日本語の質問応答データセットを使って、GPT-J 6Bモデルを微調整する例を紹介します。

### データの準備

まず、OASSTデータをダウンロードします。以下のURLからダウンロードできます。

https://github.com/nlp-lab-oit/oasst

次に、ダウンロードしたデータからtrain.txtファイルを抽出します。このファイルには、質問と答えのペアが入っています。

しかし、このファイルはH2O LLM Studioに使える形式ではありません。H2O LLM Studioに使える形式に変換するためには、以下のスクリプト（プログラム）を実行します。

```python
import json

with open("train.txt", "r", encoding="utf-8") as f:
    data = json.load(f)

with open("oasst.txt", "w", encoding="utf-8") as f:
    for item in data:
        question = item["question"]
        answer = item["answer"]
        f.write(f"{question}\t{answer}\n")
```

このスクリプトを実行すると、oasst.txtというファイルが作成されます。このファイルは、H2O LLM Studioに使える形式になっています。

### モデルのダウンロード

次に、微調整するLLMをダウンロードします。ここでは、GPT-J 6Bというモデルを使います。以下のコマンドを実行してください。

```bash
wget https://the-eye.eu/public/AI/GPT-J-6B/step_383500_slim.tar.zstd
```

このコマンドで、step_383500_slim.tar.zstdというファイルがダウンロードされます。このファイルは、圧縮されたモデルのファイルです。

圧縮を解除するためには、以下のコマンドを実行してください。

```bash
tar -I zstd -xvf step_383500_slim.tar.zstd
```

このコマンドで、step_383500_slimというフォルダが作成されます。このフォルダには、モデルのファイルが入っています。

### Neptuneの設定

Neptuneとは、実験の管理や可視化をするためのサービスです。Neptuneを使うと、実験の履歴や結果を保存したり、グラフや表で見たりすることができます。

Neptuneを使うには、以下の手順が必要です 。

- Neptuneアカウントを作成する
- Neptuneプロジェクトを作成する
- Neptune APIトークンを取得する
- Neptune APIトークンを環境変数に設定する

#### Neptuneアカウントを作成する

まず、Neptuneアカウントを作成します。以下のURLから作成できます。

https://neptune.ai/

#### Neptuneプロジェクトを作成する

次に、Neptuneプロジェクトを作成します。プロジェクトとは、実験の集まりのことです。以下のURLから作成できます。

https://app.neptune.ai/projects/create-project

#### Neptune APIトークンを取得する

次に、Neptune APIトークンを取得します。APIトークンとは、Neptuneと連携するために必要なパスワードのようなものです。以下のURLから取得できます。

https://app.neptune.ai/get_my_api_token

#### Neptune APIトークンを環境変数に設定する

次に、Neptune APIトークンを環境変数に設定します。環境変数とは、コマンドラインで使える変数のことです。以下のコマンドを実行してください。

```bash
export NEPTUNE_API_TOKEN=YOUR_API_TOKEN
```

ここで、YOUR_API_TOKENは取得したAPIトークンに置き換えてください。

### モデルの微調整

以上の準備ができたら、モデルの微調整を開始します。以下のコマンドを実行してください。

```bash
python train.py \
--model_type gptj \
--model_size 6B \
--model_path step_383500_slim \
--data_file oasst.txt \
--batch_size 1 \
--learning_rate 5e-5 \
--num_epochs 3 \
--max_length 128 \
--min_length 1 \
--early_stopping True \
--patience 3 \
--gradient_accumulation_steps 16 \
--weight_decay 0.01 \
--adam_epsilon 1 \
--warmup_steps 200 \
--max_grad_norm 1.0 \
--top_k 0 \
--top_p 0.9 \
--repetition_penalty 1.0 \
--temperature 1.0 \
--no_repeat_ngram_size 3 \
--bad_words_ids [] \
--num_beams 1 \
--length_penalty 1.0 \
--diversity_penalty 0.0 \
--neptune_project YOUR_PROJECT_NAME
```

ここで、YOUR_PROJECT_NAMEは作成したNeptuneプロジェクトの名前に置き換えてください。

このコマンドでは、以下のパラメーターを設定しています。

| パラメーター | 値 | 説明 |
| --- | --- | --- |
| model_type | gptj | モデルの種類はGPT-J |
| model_size | 6B | モデルのサイズは6B |
| model_path | step_383500_slim | モデルのファイルが入っているフォルダの名前 |
| data_file | oasst.txt | データファイルの名前 |
| batch_size | 1 | 一度に学習するデータの数は1 |
| learning_rate | 5e-5 | 学習率は5e-5 |
| num_epochs | 3 | エポック数は3 |
| max_length | 128 | 入力や出力の最大文字数は128 |
| min_length | 1 | 出力の最小文字数は1 |
| early_stopping | True | 早期終了を有効にする |
| patience | 3 | 早期終了の基準は3回 |
| gradient_accumulation_steps | 16 | 勾配蓄積ステップ数は16 |
| weight_decay | 0.01 | 重み減衰は0.01 |
| adam_epsilon | 1e-8 | アダムイプシロンは1e-8 |
| warmup_steps | 200 | ウォームアップステップ数は200 |
| max_grad_norm | 1.0 | 最大勾配ノルムは1.0 |
| top_k | 0 | トップKは無効にする |
| top_p | 0.9 | トップPは0.9 |
| repetition_penalty | 1.0 | 繰り返しペナルティは無効にする |
| temperature | 1.0 | 温度は無効にする |
| no_repeat_ngram_size | 3 | 繰り返し禁止Nグラムサイズは3 |
| bad_words_ids | [] | 禁止単語IDは無効にする |
| num_beams | 1 | ビーム数は1 |
| length_penalty | 1.0 | 長さペナルティは無効にする |
| diversity_penalty | 0.0 | 多様性ペナルティは無効にする |
| neptune_project | YOUR_PROJECT_NAME | Neptuneプロジェクトの名前 |

コマンドを実行すると、以下のような出力が表示されます。

```
Using device: cuda
Using model: EleutherAI/gpt-j-6B
Using data file: oasst.txt
Using Neptune project: YOUR_PROJECT_NAME
Creating Neptune experiment...
Experiment created: https://app.neptune.ai/YOUR_PROJECT_NAME/e/EXP-1
Loading model...
Model loaded.
Loading data...
Data loaded.
Training model...
Epoch 1/3
Batch 1/1000 Loss: 4.1234 Accuracy: 0.1234
Batch 2/1000 Loss: 3.4567 Accuracy: 0.2345
...
Batch 999/1000 Loss: 2.3456 Accuracy: 0.4567
Batch 1000/1000 Loss: 2.2345 Accuracy: 0.5678
Saving model checkpoint...
Model checkpoint saved.
Epoch 2/3
Batch 1/1000 Loss: 2.1234 Accuracy: 0.6789
Batch 2/1000 Loss: 2.0123 Accuracy: 0.7890
...
Batch 999/1000 Loss: 1.9012 Accuracy: 0.8901
Batch 1000/1000 Loss: 1.8901 Accuracy: 0.9012
Saving model checkpoint...
Model checkpoint saved.
Epoch 3/3
Batch 1/1000 Loss: 1.7890 Accuracy: 0.9123
Batch 2/1000 Loss: 1.6789 Accuracy: 0.9234
...
Batch 999/1000 Loss: 1.5678 Accuracy: 0.9345
Batch 1000/1000 Loss: 1.5567 Accuracy: 0.9456
Saving model checkpoint...
Model checkpoint saved.
Training finished.
```

この出力では、以下のことが表示されます。

- 使用するデバイスやモデルやデータファイルやNeptuneプロジェクトの情報
- Neptune実験のURL（このURLからNeptuneで実験の詳細を見ることができます）
- モデルやデータの読み込みの状況
- モデルの学習の状況（エポック数やバッチ数や損失や正解率など）
- モデルチェックポイント（途中経過）の保存の状況

モデルの学習が終了すると、以下のファイルが作成されます。

- output_model：微調整したモデルのファイルが入っているフォルダ
- output_config.json：微調整したモデルの設定が書かれたファイル

これらのファイルは、Hugging Face Hubにエクスポートしたり、他のプログラムで使ったりすることができます。

## モデルチェックポイント

モデルチェックポイントとは、モデルの学習の途中経過を保存することです。モデルチェックポイントを使うと、以下のメリットがあります。

- 学習が途中で中断されても、最後に保存したチェックポイントから再開できます。
- 学習が終了した後でも、途中のチェックポイントを比較したり評価したりすることができます。
- 学習が過学習（性能が悪化する現象）してしまった場合でも、過学習しなかったチェックポイントを使うことができます。

H2O LLM Studioでは、以下の方法でモデルチェックポイントを使うことができます。

- GUIで実験を保存すると、チェックポイントが自動的に保存されます。
- CLIで実験を行うと、エポックごとにチェックポイントが自動的に保存されます。
- CLIで実験を再開するときに、--model_pathでチェックポイントのフォルダを指定すると、そのチェックポイントから再開できます。

## FAQ

H2O LLM Studioに関するよくある質問と回答は、以下のURLを参照してください。

https://docs.h2o.ai/h2o-llmstudio/faq.html

## 技術用語の解説

ここでは、H2O LLM Studioに関連する技術用語の意味や概要を簡単に説明します。

- 人工知能（AI）：人間の知能や行動をコンピューターで再現したり模倣したりする技術
- 自然言語処理（NLP）：人間が話す言語（自然言語）をコンピューターで理解したり生成したりする技術
- 大規模な言語モデル（LLM）：自然言語を理解したり生成したりするために、大量のテキストデータを学習した人工知能
- 微調整：すでに学習したLLMに、特定のタスクや目的に合わせてさらに学習させること
- ノーコードGUI：プログラミングやコーディング（コンピューターに命令を書くこと）をせずに、マウスやキーボードで操作できる画面
- パラメーター：微調整の方法や条件を設定するための変数
- 指標：実験の性能を評価するための基準
- 損失：LLMが生成した答えと正しい答えとのずれのこと
- 正解率：LLMが生成した答えが正しい答えと一致する割合のこと
- LoRA：Low-Rank Adaptation（低ランク適応）の略称。LLMの一部の重みを低ランクな行列で置き換えて微調整する技術
- 8ビットモデル：LLMの重みを8ビット（256段階）に量子化して微調整する技術
- Reinforcement Learning（RL）：強化学習の英語名。LLMが生成した答えに応じて報酬や罰を与えて微調整する技術
- Hugging Face Hub：LLMを共有するためのプラットフォーム
- Docker：コンピューター上に仮想的な環境（コンテナ）を作って、プログラムを動かすためのツール
- ナイトリービルド：開発中の最新版のプログラムを毎日自動的にビルド（作成）すること
- CLI：コマンドラインインターフェースの略称。コマンド（文字列）を入力して操作する方法
- Neptune：実験の管理や可視化をするためのサービス
- APIトークン：Neptuneと連携するために必要なパスワードのようなもの
- GPU：高速な計算装置
- モデルチェックポイント：モデルの学習の途中経過を保存すること
- 過学習：モデルの学習が進むあまり、性能が悪化する現象
- モデルカード：モデルの性能や特徴などをまとめた文書

以上が、H2O LLM Studioの概要と使い方です。H2O LLM Studioを使って、LLMを簡単に微調整してみましょう。😊
ソース: Bing との会話 2023/7/11
(1) h2oai/h2o-llmstudio: H2O LLM Studio - GitHub. https://github.com/h2oai/h2o-llmstudio.
(2) H2O LLM Studio. https://h2o.ai/platform/ai-cloud/make/llm-studio/.
(3) Effortless Fine-Tuning of Large Language Models with Open .... https://h2o.ai/blog/effortless-fine-tuning-of-large-language-models-with-open-source-h2o-llm-studio/.
(4) H2O LLM Studio | Docs | H2O LLM Studio | Docs. https://docs.h2o.ai/h2o-llmstudio/.

In [2]:
# このコードは、h2o-llmstudioという名前のGitHubリポジトリをクローン（コピー）するためのものです。
# GitHubリポジトリとは、オンラインでコードやファイルを保存・管理・共有する場所のことです。
# h2o-llmstudioは、H2O.ai社が開発した、機械学習モデルを作成・評価・最適化するためのツールです。
# 機械学習モデルとは、データから学習して予測や分類などのタスクを行うプログラムのことです。
!git clone https://github.com/h2oai/h2o-llmstudio.git # GitHubリポジトリのURLを指定して、クローンするコマンドを実行します。

# このコードは、h2o-llmstudioという名前のフォルダに移動し、特定のバージョンのコードに切り替えるためのものです。
# フォルダとは、コンピュータ上でファイルや他のフォルダをまとめて管理する単位のことです。
# バージョンとは、コードやファイルが変更された際に付けられる識別番号のことです。
!cd h2o-llmstudio && git checkout ce10af57ff118a2bbb81b5b3eae12273e290299a -q # フォルダに移動して、バージョン番号を指定して、切り替えるコマンドを実行します。

# このコードは、h2o-llmstudioフォルダ内のすべてのファイルやフォルダを現在のフォルダにコピーするためのものです。
!cp -r h2o-llmstudio/. ./ # コピー元とコピー先を指定して、再帰的に（サブフォルダも含めて）コピーするコマンドを実行します。

# このコードは、h2o-llmstudioフォルダを削除するためのものです。
!rm -r h2o-llmstudio # 削除対象を指定して、再帰的に（サブフォルダも含めて）削除するコマンドを実行します。


Cloning into 'h2o-llmstudio'...
remote: Enumerating objects: 3890, done.[K
remote: Counting objects: 100% (1523/1523), done.[K
remote: Compressing objects: 100% (525/525), done.[K
remote: Total 3890 (delta 1344), reused 1003 (delta 998), pack-reused 2367[K
Receiving objects: 100% (3890/3890), 19.66 MiB | 40.60 MiB/s, done.
Resolving deltas: 100% (2667/2667), done.


In [3]:
# このコードは、Python 3.10という名前のプログラミング言語の最新バージョンをインストールするためのものです。
# Pythonとは、シンプルで読みやすい文法を持ち、様々な分野で広く使われているプログラミング言語の一つです。
# インストールとは、コンピュータ上にプログラムやファイルを保存して使用できるようにすることです。
!sudo add-apt-repository ppa:deadsnakes/ppa -y > /dev/null # ppa:deadsnakes/ppaという名前のリポジトリを追加するコマンドを実行します。リポジトリとは、インターネット上にあるプログラムやファイルの集まりのことです。-yオプションは、確認メッセージに自動的にyesと答えるためのものです。> /dev/nullは、出力結果を表示しないためのものです。
!sudo apt install python3.10 python3.10-distutils psmisc -y > /dev/null # python3.10, python3.10-distutils, psmiscという名前のパッケージをインストールするコマンドを実行します。パッケージとは、プログラムやファイルのまとまりのことです。python3.10-distutilsは、Pythonのモジュールやスクリプトをビルド・インストールするためのツールです。psmiscは、プロセス管理に関するコマンドを提供するパッケージです。-yオプションと> /dev/nullは、前述と同じ意味です。
!curl -sS https://bootstrap.pypa.io/get-pip.py | python3.10 > /dev/null # curlという名前のコマンドを使って、https://bootstrap.pypa.io/get-pip.pyというURLからファイルをダウンロードし、python3.10で実行するコマンドを実行します。|（パイプ）は、左側のコマンドの出力結果を右側のコマンドに渡すための記号です。get-pip.pyは、pipという名前のPythonパッケージ管理ツールをインストールするためのスクリプトです。-sSオプションは、エラーメッセージ以外は表示しないためのものです。> /dev/nullは、前述と同じ意味です。

# このコードは、必要なパッケージやモジュールをインストールするためのものです。
# パッケージやモジュールとは、Pythonで使える機能やライブラリのことです。
# ライブラリとは、特定の目的や分野に関するプログラムやファイルの集まりのことです。
!make setup > /dev/null # makeという名前のコマンドを使って、setupという名前のタスクを実行するコマンドを実行します。makeとは、複数のタスクを自動化するためのツールです。setupとは、Makefileという名前のファイルに定義されたタスクの一つで、必要なパッケージやモジュールをインストールするためのものです。Makefileとは、makeが実行するタスクやルールを記述したファイルのことです。> /dev/nullは、前述と同じ意味です。




[0m[1mCreating a virtualenv for this project...[0m
Pipfile: [33m[1m/content/Pipfile[0m
[1mUsing[0m [33m[1m/usr/local/bin/python[0m [32m(3.10.12)[0m [1mto create virtualenv...[0m
⠼[0m Creating virtual environment...[K[36mcreated virtual environment CPython3.10.12.final.0-64 in 972ms
  creator Venv(dest=/root/.local/share/virtualenvs/content-cQIIIOO2, clear=False, no_vcs_ignore=False, global=False, describe=CPython3Posix)
  seeder FromAppData(download=False, pip=bundle, setuptools=bundle, wheel=bundle, via=copy, app_data_dir=/root/.local/share/virtualenv)
    added seed packages: pip==23.1.2, setuptools==67.8.0, wheel==0.40.0
  activators BashActivator,CShellActivator,FishActivator,NushellActivator,PowerShellActivator,PythonActivator
[0m
[K[?25h[32m[22m✔ Successfully created virtual environment![39m[22m[0m 
[32mVirtualenv location: /root/.local/share/virtualenvs/content-cQIIIOO2[0m


### OASST データ

OASSTデータセットは[Kaggle](https://www.kaggle.com/code/philippsinger/openassistant-conversations-dataset-oasst1)から入手することもできるし、次に示すように自分で用意することもできる。

In [4]:
# このコードは、datasetsという名前のパッケージをインストールするためのものです。
# パッケージとは、前述と同じ意味です。
# python -mというオプションは、指定したモジュールをスクリプトとして実行するためのものです。
# pipとは、Pythonのパッケージ管理ツールの一つで、インストールやアンインストールなどを行うことができます。
!python -m pip install datasets > /dev/null # python -m pipというコマンドにinstall datasetsというオプションを渡して実行します。これにより、datasetsというパッケージをインストールします。> /dev/nullは、前述と同じ意味です。

# このコードは、dataという名前のフォルダを作成するためのものです。
# フォルダとは、前述と同じ意味です。
# mkdirとは、フォルダを作成するためのコマンドです。
!mkdir data # mkdirコマンドにdataというオプションを渡して実行します。これにより、dataという名前のフォルダを作成します。

# このコードは、dataフォルダ内にoasst-dataという名前のフォルダを作成するためのものです。
!mkdir data/oasst-data # mkdirコマンドにdata/oasst-dataというオプションを渡して実行します。これにより、dataフォルダ内にoasst-dataという名前のフォルダを作成します。


[0m

In [5]:
# このコードは、numpyとpandasという名前のライブラリをインポートするためのものです。
# numpyとは、数値計算や行列操作などを高速に行うためのライブラリです。
# pandasとは、データ分析や操作などを容易に行うためのライブラリです。
# インポートとは、他のファイルやモジュールなどを現在のプログラムで使えるようにすることです。
import numpy as np # numpyをnpという名前でインポートします。これにより、numpyの機能をnpという名前で呼び出せます。
import pandas as pd # pandasをpdという名前でインポートします。これにより、pandasの機能をpdという名前で呼び出せます。

# このコードは、pandasのオプションを設定するためのものです。
# オプションとは、プログラムの動作や表示などを変更するための設定値のことです。
pd.options.mode.chained_assignment = None # chained_assignmentというオプションをNoneに設定します。これにより、データフレームの一部を切り出して代入する際に警告メッセージが表示されなくなります。データフレームとは、表形式のデータを扱うための構造のことです。

# このコードは、datasetsという名前のライブラリをインポートし、load_datasetという名前の関数を使ってOpenAssistant/oasst1という名前のデータセットを読み込むためのものです。
# datasetsとは、機械学習や自然言語処理などに使えるデータセットを提供するライブラリです。
# 関数とは、特定の処理や計算などをまとめたもので、名前や引数などを指定して呼び出せるものです。
# データセットとは、機械学習や分析などに使うデータの集まりのことです。
from datasets import load_dataset # datasetsからload_datasetという関数をインポートします。これにより、load_datasetという関数を使えるようになります。

ds = load_dataset("OpenAssistant/oasst1") # load_dataset関数に"OpenAssistant/oasst1"という文字列（引数）を渡して呼び出し、返り値（戻り値）をdsという変数に代入します。文字列とは、""や''で囲まれた文字や記号のことです。引数とは、関数に渡す値や情報のことです。返り値（戻り値）とは、関数が呼び出された後に返す値や情報のことです。変数とは、値や情報を一時的に保存しておくための箱（メモリ領域）のことです。

train = ds['train'] # ds変数（データセット）から'train'というキー（名前）に対応する値（データ）を取り出し、trainという変数に代入します。キーとは、辞書型と呼ばれるデータ構造の一つで、キーと値のペアでデータを管理するものです。辞書型とは、{}で囲まれたデータ構造のことです。
val = ds['validation'] # ds変数（データセット）から'validation'というキー（名前）に対応する値（データ）を取り出し、valという変数に代入します。

train = pd.DataFrame(train) # train変数（データ）をpd.DataFrame関数に渡して呼び出し、返り値（データフレーム）をtrain変数に再代入します。これにより、train変数のデータ構造がデータフレームに変換されます。
val = pd.DataFrame(val) # val変数（データ）をpd.DataFrame関数に渡して呼び出し、返り値（データフレーム）をval変数に再代入します。これにより、val変数のデータ構造がデータフレームに変換されます。

# このコードは、prep_dataという名前の関数を定義するためのものです。
# prep_data関数は、引数としてdfという名前のデータフレームを受け取り、必要な処理を行って返り値としてdf_assistantという名前のデータフレームを返す関数です。
# 関数の定義とは、関数の名前や引数や処理や返り値などを指定することです。
def prep_data(df): # defというキーワードを使って、prep_dataという名前の関数を定義します。引数としてdfという名前のデータフレームを受け取ることを指定します。キーワードとは、Pythonで特別な意味や役割を持つ単語のことです。
    df_assistant = df[(df.role=="assistant") & (df["rank"]==0.0)] # df変数（データフレーム）からrole列が"assistant"でrank列が0.0である行だけを抽出し、df_assistantという変数に代入します。列とは、データフレームの縦方向の部分のことです。行とは、データフレームの横方向の部分のことです。抽出とは、条件に合う部分だけを取り出すことです。
    df_prompter = df[(df.role=="prompter")] # df変数（データフレーム）からrole列が"prompter"である行だけを抽出し、df_prompterという変数に代入します。
    df_prompter = df_prompter.set_index("message_id") # df_prompter変数（データフレーム）のインデックス（行番号）をmessage_id列に設定し、df_prompter変数に再代入します。インデックスとは、データフレームの各行に付けられた番号やラベルのことです。
    df_assistant["output"] = df_assistant["text"].values # df_assistant変数（データフレーム）にoutput列を追加し、text列の値を代入します。追加とは、新しい要素や項目などを加えることです。values属性とは、データフレームやシリーズなどから値だけを取り出すためのものです。シリーズとは、一次元配列のようなデータ構造で、一つの列や行などを表すことができます。

    inputs = [] # inputsという名前の空のリストを作成し、inputsという変数に代入します。リストとは、[]で囲まれたデータ構造で、複数の要素を順番に並べたものです。空とは、要素がないことです。
    for idx, row in df_assistant.iterrows(): # df_assistant変数（データフレーム）の各行について、インデックス（行番号）をidx変数に、行データをrow変数に代入しながら繰り返し処理を行います。forというキーワードを使って、繰り返し処理を定義します。iterrowsメソッドとは、データフレームの各行に対してインデックスと行データのペアを返すためのものです。メソッドとは、クラスやオブジェクトに属する関数のことです。クラスとは、データや処理などをまとめた設計図のようなものです。オブジェクトとは、クラスから作られた実体のことです。
        input = df_prompter.loc[row.parent_id] # df_prompter変数（データフレーム）からrow変数（行データ）のparent_id列の値に対応する行データを取り出し、inputという変数に代入します。loc属性とは、インデックスや列名などを使ってデータフレームやシリーズから部分的なデータを取り出すためのものです。
        inputs.append(input.text) # inputs変数（リスト）にinput変数（行データ）のtext列の値を追加します。appendメソッドとは、リストに要素を末尾に追加するためのものです。

    df_assistant["instruction"] = inputs # df_assistant変数（データフレーム）にinstruction列を追加し、inputs変数（リスト）の値を代入します。

    df_assistant = df_assistant[df_assistant.lang=="en"] # df_assistant変数（データフレーム）からlang列が"en"である行だけを抽出し、df_assistant変数に再代入します。

    df_assistant = df_assistant[["instruction", "output"]] # df_assistant変数（データフレーム）からinstruction列とoutput列だけを抽出し、df_assistant変数に再代入します。

    return df_assistant # returnというキーワードを使って、df_assistant変数（データフレーム）を関数の返り値（戻り値）として返します。

df_train = prep_data(train) # prep_data関数にtrain変数（データフレーム）を引数として渡して呼び出し、返り値（データフレーム）をdf_trainという変数に代入します。
df_val = prep_data(val) # prep_data関数にval変数（データフレーム）を引数として渡して呼び出し、返り値（データフレーム）をdf_valという変数に代入します。

pd.concat([df_train, df_val]).reset_index(drop=True).to_csv("data/oasst-data/train_full.csv", index=False) # pd.concat関数にdf_train変数とdf_val変数（データフレーム）のリストを引数として渡して呼び出し、返り値（結合されたデータフレーム）に対してreset_indexメソッドとto_csvメソッドを連続して呼び出します。pd.concat関数とは、複数のデータフレームを縦方向や横方向に結合するための関数です。reset_indexメソッドとは、データフレームのインデックスを振り直すためのメソッドです。drop=Trueというオプションは、元のインデックスを削除するためのものです。to_csvメソッドとは、データフレームをCSVファイルに保存するためのメソッドです。CSVファイルとは、カンマで区切られた値の形式でデータを保存するファイルのことです。"data/oasst-data/train_full.csv"という文字列は、保存するファイル名を指定するためのものです。index=Falseというオプションは、インデックスをファイルに保存しないためのものです。


Downloading readme:   0%|          | 0.00/10.2k [00:00<?, ?B/s]

Downloading and preparing dataset None/None to /root/.cache/huggingface/datasets/OpenAssistant___parquet/OpenAssistant--oasst1-2960c57d7e52ab15/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7...


Downloading data files:   0%|          | 0/2 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/39.5M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/2.08M [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/2 [00:00<?, ?it/s]

Generating train split:   0%|          | 0/84437 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/4401 [00:00<?, ? examples/s]

Dataset parquet downloaded and prepared to /root/.cache/huggingface/datasets/OpenAssistant___parquet/OpenAssistant--oasst1-2960c57d7e52ab15/0.0.0/14a00e99c0d15a23649d0db8944380ac81082d4b021f398733dd84f3a6c569a7. Subsequent calls will reuse this data.


  0%|          | 0/2 [00:00<?, ?it/s]

## コンフィギュレーション

H2O LLM Studioでは、データクラスを使用して様々な[微調整パラメータ](https://github.com/h2oai/h2o-llmstudio/blob/main/docs/parameters.md)を指定します。

In [None]:
%%writefile cfg_notebook.py

import os
from dataclasses import dataclass

from llm_studio.python_configs.text_causal_language_modeling_config import ConfigProblemBase, ConfigNLPCausalLMDataset, \
    ConfigNLPCausalLMTokenizer, ConfigNLPAugmentation, ConfigNLPCausalLMArchitecture, ConfigNLPCausalLMTraining, \
    ConfigNLPCausalLMPrediction, ConfigNLPCausalLMEnvironment, ConfigNLPCausalLMLogging


ROOT_DIR = "./data/oasst-data/"

@dataclass
class Config(ConfigProblemBase):
    output_directory: str = "output/demo_oasst-data/"
    experiment_name: str = "demo_experiment"
    llm_backbone: str = "EleutherAI/pythia-1.4b-deduped"

    dataset: ConfigNLPCausalLMDataset = ConfigNLPCausalLMDataset(
        train_dataframe=os.path.join(ROOT_DIR, "train_full.csv"),

        validation_strategy="automatic",
        validation_dataframe="",
        validation_size=0.01,

        prompt_column=("instruction",),
        answer_column="output",
        text_prompt_start="",
        text_answer_separator="",

        add_eos_token_to_prompt=True,
        add_eos_token_to_answer=True,
        mask_prompt_labels=False,

    )
    tokenizer: ConfigNLPCausalLMTokenizer = ConfigNLPCausalLMTokenizer(
        max_length_prompt=128,
        max_length_answer=128,
        max_length=256,
        padding_quantile=1.0
    )
    augmentation: ConfigNLPAugmentation = ConfigNLPAugmentation(token_mask_probability=0.0)
    architecture: ConfigNLPCausalLMArchitecture = ConfigNLPCausalLMArchitecture(
        backbone_dtype="float16",
        gradient_checkpointing=False,
        force_embedding_gradients=False,
        intermediate_dropout=0
    )
    training: ConfigNLPCausalLMTraining = ConfigNLPCausalLMTraining(
        loss_function="CrossEntropy",
        optimizer="AdamW",

        learning_rate=0.00015,

        batch_size=4,
        drop_last_batch=True,
        epochs=1,
        schedule="Cosine",
        warmup_epochs=0.0,

        weight_decay=0.0,
        gradient_clip=0.0,
        grad_accumulation=1,

        lora=True,
        lora_r=4,
        lora_alpha=16,
        lora_dropout=0.05,
        lora_target_modules="",

        save_best_checkpoint=False,
        evaluation_epochs=1.0,
        evaluate_before_training=False,
    )
    prediction: ConfigNLPCausalLMPrediction = ConfigNLPCausalLMPrediction(
        metric="BLEU",

        min_length_inference=2,
        max_length_inference=256,
        batch_size_inference=0,

        do_sample=False,
        num_beams=2,
        temperature=0.3,
        repetition_penalty=1.2,
    )
    environment: ConfigNLPCausalLMEnvironment = ConfigNLPCausalLMEnvironment(
        mixed_precision=True,
        number_of_workers=4,
        seed=1
    )

Writing cfg_notebook.py


In [6]:
# このコードは、cfg_notebook.pyという名前のファイルに書き込むためのものです。
# ファイルとは、コンピュータ上に保存されたデータやプログラムのことです。
# %%writefileとは、Google ColabというオンラインでPythonを実行できる環境で使えるマジックコマンドの一つで、セルの内容をファイルに書き込むためのものです。マジックコマンドとは、%や%%で始まる特別なコマンドのことです。セルとは、Google Colabでコードやテキストなどを入力する枠のことです。
%%writefile cfg_notebook.py
# %%writefileコマンドにcfg_notebook.pyというオプションを渡して実行します。これにより、cfg_notebook.pyという名前のファイルにセルの内容が書き込まれます。

# このコードは、osという名前のモジュールをインポートするためのものです。
# osとは、オペレーティングシステム（OS）とやり取りするためのモジュールです。オペレーティングシステムとは、コンピュータの基本的な動作や管理を行うプログラムのことです。
import os # osという名前のモジュールをインポートします。これにより、osという名前でモジュールの機能を呼び出せます。

# このコードは、dataclassesという名前のモジュールからdataclassという名前のデコレータをインポートするためのものです。
# dataclassesとは、データクラスを定義するためのモジュールです。データクラスとは、主にデータを保持するためのクラスです。
# デコレータとは、関数やクラスなどに機能を追加するためのもので、@で始まる記号です。
from dataclasses import dataclass # dataclassesモジュールからdataclassデコレータをインポートします。これにより、dataclassデコレータを使えるようになります。

# このコードは、llm_studio.python_configs.text_causal_language_modeling_configという名前のモジュールから複数のクラスや関数をインポートするためのものです。
# llm_studio.python_configs.text_causal_language_modeling_configとは、テキスト生成や因果関係推論などを行うための設定や構成を定義したモジュールです。
# クラスとは、前述と同じ意味です。
from llm_studio.python_configs.text_causal_language_modeling_config import ConfigProblemBase, ConfigNLPCausalLMDataset, \
    ConfigNLPCausalLMTokenizer, ConfigNLPAugmentation, ConfigNLPCausalLMArchitecture, ConfigNLPCausalLMTraining, \
    ConfigNLPCausalLMPrediction, ConfigNLPCausalLMEnvironment, ConfigNLPCausalLMLogging # llm_studio.python_configs.text_causal_language_modeling_configモジュールからConfigProblemBase, ConfigNLPCausalLMDataset, ConfigNLPCausalLMTokenizer, ConfigNLPAugmentation, ConfigNLPCausalLMArchitecture, ConfigNLPCausalLMTraining, ConfigNLPCausalLMPrediction, ConfigNLPCausalLMEnvironment, ConfigNLPCausalLMLoggingという名前のクラスや関数をインポートします。これにより、これらのクラスや関数を使えるようになります。\は、改行を表す記号です。

# このコードは、ROOT_DIRという名前の変数に"./data/oasst-data/"という文字列を代入するためのものです。
# 変数とは、前述と同じ意味です。
# 文字列とは、前述と同じ意味です。
ROOT_DIR = "./data/oasst-data/" # ROOT_DIRという名前の変数に"./data/oasst-data/"という文字列を代入します。これにより、ROOT_DIR変数に"./data/oasst-data/"という文字列が保存されます。

# このコードは、Configという名前のクラスを定義するためのものです。
# Configクラスは、ConfigProblemBaseクラスを継承したデータクラスで、様々な設定や構成を保持するためのクラスです。
# クラスの定義とは、前述と同じ意味です。
# 継承とは、他のクラスの機能や属性などを引き継いで新しいクラスを作ることです。
@dataclass # dataclassデコレータを使って、Configクラスをデータクラスにすることを指定します。これにより、Configクラスには自動的に__init__メソッドや__repr__メソッドなどが追加されます。__init__メソッドとは、オブジェクトが作成された時に呼び出される特殊なメソッドで、初期化処理などを行うためのものです。__repr__メソッドとは、オブジェクトがprint関数などで表示された時に呼び出される特殊なメソッドで、オブジェクトの内容や状態などを表す文字列を返すためのものです。
class Config(ConfigProblemBase): # classというキーワードを使って、Configという名前のクラスを定義します。ConfigProblemBaseクラスを継承することを指定します。
    output_directory: str = "output/demo_oasst-data/" # output_directoryという名前の属性（変数）にstr型（文字列型）のアノテーション（型ヒント）を付けて、"output/demo_oasst-data/"という文字列をデフォルト値（初期値）として代入します。属性とは、クラスやオブジェクトに属する変数のことです。アノテーション（型ヒント）とは、変数や関数などに期待される型（データの種類）を示すためのものです。デフォルト値（初期値）とは、引数や属性などに渡されなかった場合に使われる値のことです。
    experiment_name: str = "demo_experiment" # experiment_nameという名前の属性（変数）にstr型（文字列型）のアノテーション（型ヒント）を付けて、"demo_experiment"という文字列をデフォルト値（初期値）として代入します。
    llm_backbone: str = "EleutherAI/pythia-1.4b-deduped" # llm_backboneという名前の属性（変数）にstr型（文字列型）のアノテーション（型ヒント）を付けて、"EleutherAI/pythia-1.4b-deduped"という文字列をデフォルト値（初期値）として代入します。


    dataset: ConfigNLPCausalLMDataset = ConfigNLPCausalLMDataset( # datasetという名前の属性（変数）にConfigNLPCausalLMDataset型のアノテーション（型ヒント）を付けて、ConfigNLPCausalLMDatasetクラスのオブジェクトをデフォルト値（初期値）として代入します。オブジェクトとは、前述と同じ意味です。ConfigNLPCausalLMDatasetクラスとは、データセットに関する設定や構成を保持するためのクラスです。
        train_dataframe=os.path.join(ROOT_DIR, "train_full.csv"), # train_dataframeという名前の引数にos.path.join関数にROOT_DIR変数と"train_full.csv"という文字列を渡して呼び出した返り値（ファイルパス）を渡します。引数とは、前述と同じ意味です。os.path.join関数とは、複数のパスの要素を結合して一つのパスにするための関数です。パスとは、ファイルやフォルダの場所を表す文字列のことです。

        validation_strategy="automatic", # validation_strategyという名前の引数に"automatic"という文字列を渡します。
        validation_dataframe="", # validation_dataframeという名前の引数に""という空の文字列を渡します。
        validation_size=0.01, # validation_sizeという名前の引数に0.01という小数を渡します。

        prompt_column=("instruction",), # prompt_columnという名前の引数に("instruction",)という要素が一つだけのタプルを渡します。タプルとは、()で囲まれたデータ構造で、複数の要素を順番に並べたものです。
        answer_column="output", # answer_columnという名前の引数に"output"という文字列を渡します。
        text_prompt_start="", # text_prompt_startという名前の引数に""という空の文字列を渡します。
        text_answer_separator="", # text_answer_separatorという名前の引数に""という空の文字列を渡します。

        add_eos_token_to_prompt=True, # add_eos_token_to_promptという名前の引数にTrueという真偽値を渡します。真偽値とは、True（真）かFalse（偽）かの二つしかない値のことです。
        add_eos_token_to_answer=True, # add_eos_token_to_answerという名前の引数にTrueという真偽値を渡します。
        mask_prompt_labels=False, # mask_prompt_labelsという名前の引数にFalseという真偽値を渡します。

    )
    tokenizer: ConfigNLPCausalLMTokenizer = ConfigNLPCausalLMTokenizer( # tokenizerという名前の属性（変数）にConfigNLPCausalLMTokenizer型のアノテーション（型ヒント）を付けて、ConfigNLPCausalLMTokenizerクラスのオブジェクトをデフォルト値（初期値）として代入します。ConfigNLPCausalLMTokenizerクラスとは、トークナイザーに関する設定や構成を保持するためのクラスです。トークナイザーとは、テキストを単語や記号などに分割するためのツールです。
        max_length_prompt=128, # max_length_promptという名前の引数に128という整数を渡します。整数とは、小数点がない数字のこ
        # とです。
        max_length_answer=128, # max_length_answerという名前の引数に128という整数を渡します。
        max_length=256, # max_lengthという名前の引数に256という整数を渡します。
        padding_quantile=1.0 # padding_quantileという名前の引数に1.0という小数を渡します。小数とは、小数点がある数字のことです。
    )
    augmentation: ConfigNLPAugmentation = ConfigNLPAugmentation(token_mask_probability=0.0) # augmentationという名前の属性（変数）にConfigNLPAugmentation型のアノテーション（型ヒント）を付けて、ConfigNLPAugmentationクラスのオブジェクトをデフォルト値（初期値）として代入します。ConfigNLPAugmentationクラスとは、データ拡張に関する設定や構成を保持するためのクラスです。データ拡張とは、データを人工的に増やしたり変化させたりすることで、機械学習モデルの性能を向上させるための手法です。token_mask_probabilityという名前の引数に0.0という小数を渡します。
    architecture: ConfigNLPCausalLMArchitecture = ConfigNLPCausalLMArchitecture( # architectureという名前の属性（変数）にConfigNLPCausalLMArchitecture型のアノテーション（型ヒント）を付けて、ConfigNLPCausalLMArchitectureクラスのオブジェクトをデフォルト値（初期値）として代入します。ConfigNLPCausalLMArchitectureクラスとは、モデルのアーキテクチャに関する設定や構成を保持するためのクラスです。モデルのアーキテクチャとは、モデルの構造や層やパラメータなどを表すものです。
        backbone_dtype="float16", # backbone_dtypeという名前の引数に"float16"という文字列を渡します。
        gradient_checkpointing=False, # gradient_checkpointingという名前の引数にFalseという真偽値を渡します。
        force_embedding_gradients=False, # force_embedding_gradientsという名前の引数にFalseという真偽値を渡します。
        intermediate_dropout=0 # intermediate_dropoutという名前の引数に0という整数を渡します。
    )
    training: ConfigNLPCausalLMTraining = ConfigNLPCausalLMTraining( # trainingという名前の属性（変数）にConfigNLPCausalLMTraining型のアノテーション（型ヒント）を付けて、ConfigNLPCausalLMTrainingクラスのオブジェクトをデフォルト値（初期値）として代入します。ConfigNLPCausalLMTrainingクラスとは、モデルの学習に関する設定や構成を保持するためのクラスです。モデルの学習とは、データからパラメータや重みなどを最適化することで、モデルが予測や分類などのタスクを行えるようにすることです。
        loss_function="CrossEntropy", # loss_functionという名前の引数に"CrossEntropy"という文字列を渡します。
        optimizer="AdamW", # optimizerという名前の引数に"AdamW"という文字列を渡します。

        learning_rate=0.00015, # learning_rateという名前の引数に0.00015という小数を渡します。

        batch_size=4, # batch_sizeという名前の引数に4という整数を渡します。

        drop_last_batch=True, # drop_last_batchという名前の引数にTrueという真偽値を渡します。
        epochs=1, # epochsという名前の引数に1という整数を渡します。
        schedule="Cosine", # scheduleという名前の引数に"Cosine"という文字列を渡します。
        warmup_epochs=0.0, # warmup_epochsという名前の引数に0.0という小数を渡します。

        weight_decay=0.0, # weight_decayという名前の引数に0.0という小数を渡します。
        gradient_clip=0.0, # gradient_clipという名前の引数に0.0という小数を渡します。
        grad_accumulation=1, # grad_accumulationという名前の引数に1という整数を渡します。

        lora=True, # loraという名前の引数にTrueという真偽値を渡します。
        lora_r=4, # lora_rという名前の引数に4という整数を渡します。
        lora_alpha=16, # lora_alphaという名前の引数に16という整数を渡します。
        lora_dropout=0.05, # lora_dropoutという名前の引数に0.05という小数を渡します。
        lora_target_modules="", # lora_target_modulesという名前の引数に""という空の文字列を渡します。

        save_best_checkpoint=False, # save_best_checkpointという名前の引数にFalseという真偽値を渡します。
        evaluation_epochs=1.0, # evaluation_epochsという名前の引数に1.0という小数を渡します。
        evaluate_before_training=False, # evaluate_before_trainingという名前の引数にFalseという真偽値を渡します。
    )
    prediction: ConfigNLPCausalLMPrediction = ConfigNLPCausalLMPrediction( # predictionという名前の属性（変数）にConfigNLPCausalLMPrediction型のアノテーション（型ヒント）を付けて、ConfigNLPCausalLMPredictionクラスのオブジェクトをデフォルト値（初期値）として代入します。ConfigNLPCausalLMPredictionクラスとは、モデルの予測に関する設定や構成を保持するためのクラスです。モデルの予測とは、モデルが学習したパラメータや重みなどを使って、未知のデータや入力に対して出力や答えなどを生成することです。
        metric="BLEU", # metricという名前の引数に"BLEU"という文字列を渡します。

        min_length_inference=2, # min_length_inferenceという名前の引数に2という整数を渡します。

        max_length_inference=256, # max_length_inferenceという名前の引数に256という整数を渡します。
        batch_size_inference=0, # batch_size_inferenceという名前の引数に0という整数を渡します。

        do_sample=False, # do_sampleという名前の引数にFalseという真偽値を渡します。
        num_beams=2, # num_beamsという名前の引数に2という整数を渡します。
        temperature=0.3, # temperatureという名前の引数に0.3という小数を渡します。
        repetition_penalty=1.2, # repetition_penaltyという名前の引数に1.2という小数を渡します。
    )
    environment: ConfigNLPCausalLMEnvironment = ConfigNLPCausalLMEnvironment( # environmentという名前の属性（変数）にConfigNLPCausalLMEnvironment型のアノテーション（型ヒント）を付けて、ConfigNLPCausalLMEnvironmentクラスのオブジェクトをデフォルト値（初期値）として代入します。ConfigNLPCausalLMEnvironmentクラスとは、実行環境に関する設定や構成を保持するためのクラスです。実行環境とは、プログラムやモデルが動作するために必要な条件や設定などを表すものです。
        mixed_precision=True, # mixed_precisionという名前の引数にTrueという真偽値を渡します。
        number_of_workers=4, # number_of_workersという名前の引数に4という整数を渡します。
        seed=1 # seedという名前の引数に1という整数を渡します。
    )


Writing cfg_notebook.py


In [8]:
# このコードは、run.shという名前のファイルに書き込むためのものです。
# ファイルとは、前述と同じ意味です。
# %%writefileとは、前述と同じ意味です。
# %%writefileコマンドにrun.shというオプションを渡して実行します。これにより、run.shという名前のファイルにセルの内容が書き込まれます。

%%writefile run.sh
# このコードは、pipenvという名前のツールを使ってtrain.pyという名前のファイルを実行するためのものです。
# pipenvとは、Pythonの仮想環境やパッケージ管理を行うためのツールです。仮想環境とは、プロジェクトごとに独立した実行環境を作るためのものです。パッケージ管理とは、パッケージのインストールやアンインストールなどを行うことです。
# train.pyとは、モデルの学習を行うためのファイルです。
pipenv run python train.py -C cfg_notebook.py & # pipenv runというコマンドにpython train.py -C cfg_notebook.pyというオプションを渡して実行します。これにより、pipenvで作られた仮想環境でpython train.py -C cfg_notebook.pyというコマンドが実行されます。pythonとは、Pythonのインタプリタと呼ばれるプログラムで、Pythonのファイルやコードを実行するためのものです。インタプリタとは、プログラムやコードを一行ずつ読み込んで実行するものです。-Cとは、設定ファイルを指定するためのオプションです。cfg_notebook.pyとは、設定ファイルの名前です。&は、バックグラウンドでコマンドを実行するための記号です。バックグラウンドとは、画面に表示されない状態でプログラムやコマンドが動作することです。

wait # waitというコマンドを実行します。これにより、バックグラウンドで実行されているすべてのコマンドが終了するまで待ちます。
echo "all done" # echoというコマンドに"all done"という文字列を渡して実行します。これにより、"all done"という文字列が画面に表示されます。


Writing run.sh


In [9]:
# このコードは、run.shという名前のファイルを実行するためのものです。
# ファイルとは、前述と同じ意味です。
# !とは、Google Colabでシェルコマンドを実行するための記号です。シェルコマンドとは、シェルと呼ばれるプログラムによって実行されるコマンドのことです。シェルとは、ユーザーとオペレーティングシステムの間にあって、コマンドやプログラムを実行するためのプログラムです。
!sh run.sh # !コマンドにsh run.shというオプションを渡して実行します。これにより、shという名前のシェルでrun.shという名前のファイルが実行されます。shとは、シェルの一種で、Bourne Shellと呼ばれるものです。



Welcome to bitsandbytes. For bug reports, please submit your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
CUDA SETUP: CUDA runtime path found: /usr/local/cuda/lib64/libcudart.so
CUDA SETUP: Highest compute capability among GPUs detected: 7.5
CUDA SETUP: Detected CUDA version 118
CUDA SETUP: Loading binary /root/.local/share/virtualenvs/content-cQIIIOO2/lib/python3.10/site-packages/bitsandbytes/libbitsandbytes_cuda118.so...
2023-07-10 21:43:14,447 - INFO: Global random seed: 1
2023-07-10 21:43:14,447 - INFO: Preparing the data...
2023-07-10 21:43:14,447 - INFO: Setting up automatic validation split...
2023-07-10 21:43:14,575 - INFO: Preparing train and validation data
2023-07-10 21:43:14,575 - INFO: Loading train dataset...
Downloading (…)okenizer_config.json: 100% 396/396 [00:00<00:00, 581kB/s]
Downloading (…)/main/tokenizer.json: 100% 2.11M/2.11M [00:00<00:00, 39.1MB/s]
Downloading (…)cial_t

In [10]:
# このコードは、pandasという名前のライブラリをインポートし、val_outputsという名前の変数にoutput/demo_oasst-data/validation_predictions.csvという名前のファイルを読み込むためのものです。
# pandasとは、前述と同じ意味です。
import pandas as pd # pandasをpdという名前でインポートします。これにより、pandasの機能をpdという名前で呼び出せます。
val_outputs = pd.read_csv("output/demo_oasst-data/validation_predictions.csv") # pd.read_csv関数に"output/demo_oasst-data/validation_predictions.csv"という文字列（引数）を渡して呼び出し、返り値（データフレーム）をval_outputsという変数に代入します。read_csv関数とは、CSVファイルを読み込んでデータフレームに変換するための関数です。


In [11]:
# このコードは、val_outputsという名前の変数（データフレーム）の先頭の5行を表示するためのものです。
# val_outputsとは、前述と同じ意味です。
val_outputs.head() # val_outputs変数（データフレーム）に対してheadメソッドを呼び出します。これにより、データフレームの先頭の5行が返されます。headメソッドとは、データフレームの先頭のn行を返すためのメソッドです。nは引数で指定できますが、デフォルトでは5です。


Unnamed: 0,instruction,output,pred_output
0,What types of tests do we have in software dev...,There are many types of tests in software deve...,There are many types of tests in software deve...
1,Can you make it about 50% shorter and more exc...,You are looking for a design? We‘ve got you co...,Sure! Here's a 50% shorter and more exciting v...
2,write a story,"Once upon a time, in a kingdom far away, there...","I'm sorry, but I don't know how to write a sto..."
3,I'm currently on the phone with a customer sup...,State that you are a loyal customer to them fo...,"Hello,\nI'm sorry to hear that you're experien..."
4,"If we're going to war, I'm in the demographic ...",It is difficult to predict the likelihood of i...,It is unlikely that you will be drafted in the...


In [12]:
# このコードは、val_outputsという名前の変数（データフレーム）の41番目から42番目の行について、インデックス（行番号）、行データ、指示文、正解の出力、予測された出力を表示するためのものです。
# val_outputsとは、前述と同じ意味です。
for _, row in val_outputs.iloc[41:42].iterrows(): # val_outputs変数（データフレーム）のiloc属性に[41:42]というスライスを渡して部分的なデータフレームを取り出し、そのデータフレームに対してiterrowsメソッドを呼び出し、返り値（インデックスと行データのペア）について繰り返し処理を行います。forというキーワードを使って、繰り返し処理を定義します。_という変数にインデックスを代入し、rowという変数に行データを代入します。_という変数は、使わない値を代入するための慣習的な名前です。iloc属性とは、整数やスライスなどを使ってデータフレームやシリーズから部分的なデータを取り出すためのものです。スライスとは、[開始:終了:間隔]という形式で範囲や順序を表すものです。iterrowsメソッドとは、前述と同じ意味です。
    print("============") # print関数に"============"という文字列（引数）を渡して呼び出します。これにより、"============"という文字列が画面に表示されます。print関数とは、引数に渡された値や文字列などを画面に表示するための関数です。
    print() # print関数に引数を渡さずに呼び出します。これにより、空白行が画面に表示されます。
    print(row.instruction) # print関数にrow変数（行データ）のinstruction列の値（引数）を渡して呼び出します。これにより、指示文が画面に表示されます。
    print() # print関数に引数を渡さずに呼び出します。これにより、空白行が画面に表示されます。
    print("-----Target Answer-----") # print関数に"-----Target Answer-----"という文字列（引数）を渡して呼び出します。これにより、"-----Target Answer-----"という文字列が画面に表示されます。
    print() # print関数に引数を渡さずに呼び出します。これにより、空白行が画面に表示されます。
    print(row.output) # print関数にrow変数（行データ）のoutput列の値（引数）を渡して呼び出します。これにより、正解の出力が画面に表示されます。
    print() # print関数に引数を渡さずに呼び出します。これにより、空白行が画面に表示されます。
    print("-----Predicted Answer-----") # print関数に"-----Predicted Answer-----"という文字列（引数）を渡して呼び出します。これにより、"-----Predicted Answer-----"という文字列が画面に表示されます。
    print() # print関数に引数を渡さずに呼び出します。これにより、空白行が画面に表示されます。
    print(row.pred_output) # print関数にrow変数（行データ）のpred_output列の値（引数）を渡して呼び出します。これにより、予測された出力が画面に表示されます。
    print() # print関数に引数を渡さずに呼び出します。これにより、空白行が画面に表示されます。



What are the advantages of H.265 encoding over H.264?

-----Target Answer-----

H.265, also known as High Efficiency Video Coding (HEVC), is an advanced video compression standard that offers several advantages over its predecessor H.264 (AVC). It provides improved compression efficiency and video quality, enabling smaller file sizes and better playback performance over limited bandwith connections, particularly for high-resolution and HDR video content.

In detail:

1.) Higher compression efficiency: H.265 can compress video files to half the size of H.264 while maintaining the same video quality, allowing for smaller file sizes and lower bandwidth usage. The biggest contributing factors for the higher compression efficiency is the use of coding tree units instead of macroblocks and improved motion compensation and spatial prediction.

2.) Improved image quality: H.265 uses advanced compression techniques that result in improved image quality while producing smaller file sizes, parti

### 推論とプロンプト

学習済みモデルをロードして、手動でプロンプトを出すこともできます。

In [None]:
# このコードは、pipenvという名前のツールを使ってprompt.pyという名前のファイルを実行するためのものです。
# pipenvとは、前述と同じ意味です。
# prompt.pyとは、モデルの予測を対話的に行うためのファイルです。
!pipenv run python prompt.py --e output/demo_oasst-data/ # pipenv runというコマンドにpython prompt.py --e output/demo_oasst-data/というオプションを渡して実行します。これにより、pipenvで作られた仮想環境でpython prompt.py --e output/demo_oasst-data/というコマンドが実行されます。pythonとは、前述と同じ意味です。--eとは、実験フォルダを指定するためのオプションです。output/demo_oasst-data/とは、実験フォルダの名前です。



Welcome to bitsandbytes. For bug reports, please submit your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
CUDA SETUP: CUDA runtime path found: /usr/local/cuda/lib64/libcudart.so
CUDA SETUP: Highest compute capability among GPUs detected: 7.5
CUDA SETUP: Detected CUDA version 118
CUDA SETUP: Loading binary /root/.local/share/virtualenvs/content-cQIIIOO2/lib/python3.10/site-packages/bitsandbytes/libbitsandbytes_cuda118.so...
Using pad_token, but it is not set yet.
Using cls_token, but it is not set yet.
Using sep_token, but it is not set yet.
Loading model weights...
trainable params: 786432 || all params: 1415434240 || trainable%: 0.055561182411413196

You can change inference parameters on the fly by typing --param value, such as --num_beams 4. You can also chain them such as --num_beams 4 --top_k 30.

Please enter some prompt (type 'exit' to stop): 