# 要約 
このJupyter Notebookは、Kaggleの「LMSYS - Chatbot Arena 人間による好み予測チャレンジ」に参加するためのモデルの構築とファインチューニングに関する内容です。以下に詳細をまとめます。

### 問題の概要
このノートブックは、ユーザーが提示するプロンプトに対して異なる大規模言語モデル（LLM）が生成した応答のうち、どの応答が好まれるかを予測するための機械学習モデルを構築しています。具体的には、与えられた応答がどちらのモデル（モデルAまたはモデルB）がユーザーに選ばれるかを予測するテキスト分類の問題を扱っています。

### 使用されている手法およびライブラリ
- **モデル選定**:
  - LLMとしてGemmaやLLAMAモデルを使用するためのハイパーパラメータ設定が行われています。
  - モデルのファインチューニングには、`LoRA`（Low-Rank Adaptation）手法が使用されており、特に`SFTTrainer`を用いています。
  
- **データ処理**:
  - データセットには、トレーニングファイルとテストファイルが用意され、Pandasライブラリを通じてデータの読み込み、前処理、特徴量エンジニアリングが行われています。
  - プロンプトおよび応答は、特定のフォーマットで連結されたテキストとして処理されています。

- **モデルのトレーニング**:
  - `transformers`ライブラリを使用して、トレーニングデータをトークナイズし、モデルの訓練を行います。
  - トレーニング後、精度、再現率、F1スコアなどの評価指標が計算され、各メトリックの可視化にMatplotlibが使用されています。

- **推論**:
  - モデルに対する入力テキストを用いて、分類結果を得るための関数が定義されています。
  - 最後に得た結果を提出用のCSVファイルとして保存します。

### ステップの概要
1. **設定**: ハイパーパラメータや使用するモデルの選定、データセットのパス設定。
2. **ライブラリのインポートとインストール**: 必要なライブラリをインポートし、オフライン環境用のキャッシュされたライブラリをインストール。
3. **データの読み込みと前処理**: トレーニングデータの読み込み、欠損値のチェック、各列のユニークな値の表示。プロンプトと応答を一つのテキストとして形成。
4. **モデル構築とトレーニング**: モデルの選択、設定、ファインチューニングの実行。
5. **評価**: モデル性能の評価およびメトリックの計算。
6. **推論と提出ファイルの生成**: テストデータに基づいて予測を行い、CSV形式で出力。

このNotebookは、ユーザーの好みを正確に予測するモデルの開発を目指しており、複雑なテキスト分類タスクに適した多様なアプローチを備えています。

---


# 用語概説 
以下に、Jupyter Notebook内で使用されている専門用語の簡単な解説を示します。初心者にとって重要かつマイナーなものや、実務経験がないとなかなか馴染みがないものに焦点を当てています。

### 専門用語の解説

1. **CFG**:
   - 設定を管理するためのクラスで、モデルの使用やトレーニングの設定を簡単に変更できるようにする。

2. **LoRA (Low-Rank Adaptation)**:
   - 大規模なモデルをファインチューニングする際に、低ランク行列を利用して効率よく学習する手法。少ないパラメータで高い性能を維持できる。

3. **FID (Fréchet Inception Distance)**:
   - 生成モデルの評価指標で、生成された画像と実際の画像との間の距離を測る数値。原因と結果の情報をどれだけ保持しているかを判断するために使われる。

4. **SFTTrainer (Supervised Fine-Tuning Trainer)**:
   - 指示に基づいてモデルをファインチューニングするためのクラス。教師あり学習でトレーニングを行うモデルを管理する。

5. **Peft (Parameter-Efficient Fine-Tuning)**:
   - 少ないパラメータの変更でモデルをファインチューニングする手法のこと。精度を上げながら計算資源を節約する。

6. **Gradient Accumulation**:
   - バッチサイズが大きかった場合に、複数回のミニバッチの勾配を蓄積して、後で合計してパラメータを更新する手法。メモリの制限を回避するために使用される。

7. **Tokenizer**:
   - テキストをモデルが理解できる形式（数値のベクトル）に変換するためのツール。単語や文をトークンと呼ばれる小単位に分割する。

8. **DataCollator**:
   - バッチの生成時にサンプルを適切に整形するために使用されるクラス。パディングやトークン化の処理を一括して行う。

9. **Nucleus Sampling / Top-k Sampling**:
   - 生成モデルからのテキストをサンプリングする手法。Nucleus Samplingでは、確率の合計がpになるまでのトークンを考慮し、Top-k Samplingでは、k個の確率の高いトークンの中からサンプリングする。

10. **Softmax**:
    - トークンが与えられたときに各トークンの確率を計算するために使用される関数。出力が確率分布になるように変換する。

11. **Pydantic**:
    - データバリデーションと設定管理を行うPythonのライブラリ。モデルの構造を定義し、データが期待される形式であることを検証する。

12. **Chroma / FAISS**:
    - 高速な近似近傍探索を行うライブラリ。大規模なベクトルデータから類似するアイテムを効率的に検索するために使用される。

13. **RAG (Retrieval-Augmented Generation)**:
    - データベースや文書から情報を取得して、それをもとに生成するモデル。外部の知識を活用して応答を生成する手法。

14. **Trainer**:
    - トレーニングの実行、評価、モデル保存を管理するための主要なクラス。パラメータの更新を行いながらモデルを学習させる。

これらの用語はJupyter Notebookのコードやマークダウン内容に含まれており、機械学習や深層学習における重要な概念です。理解を深めることで、モデルの構築や調整が効果的に行えるようになるでしょう。

---


<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Configuration

</div>
<div class="column-right">

# 日本語訳

# 設定

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
class CFG:
    OFFLINE = True#False #False # requirement for submision competition, during development recommend online model support LLM Evaluation Tools
    USE_LLAMA3 = False # for GPU version
    USE_GEMMA2 = False # for GPU version only 
    TASK_GEN = False # for generative Text output task (seem not suitble for this competition)
    TASK_CLASSIFICATION = True  # for text classiction (suitable for this competition)
#     model1 = "/kaggle/input/llama-3/transformers/8b-hf/1"  # llama3 8B |
    model2 = "/kaggle/input/gemma/transformers/2b-it/3" #  gemma 2B
    model3 = "/kaggle/input/gemma/transformers/7b-it/3" # gemma 7B
#     model4 = "/kaggle/input/gemma-2/pytorch/gemma-2-9b-it/1" # gemma 2 9B
    trainFile = "/kaggle/input/lmsys-chatbot-arena/train.csv"
    testFile = "/kaggle/input/lmsys-chatbot-arena/test.csv"
    submitSample = "/kaggle/input/lmsys-chatbot-arena/sample_submission.csv"
    FEW_SHOT_TEST= False#True
    USE_RAG = False#False#False #True#True , in this project, prefer use fine tuning for p
    USE_WANDB = False#True # for  LLM evalution and debug , track fine tuning performance
    USE_TRULENS = False # for LLM evalution For RAG prefer 
    USE_DEEPEVAL = False # for LLM evalution   (require openAI API key)
    USE_TRAIN =  True #True #False#True Much be use GPU for Training
    USE_INFER =  False # for submision prediction only , no test model
    loggingSteps= 10#100 #100, #20, #5,#10,
    maxTrainData = 1500#3500#5000 #10000#5000 #10000
    maxEvalData = 20#100 # 20 
    maxToken=  650 #512#768#512#768 # 512 for test only
    
```

</div>
<div class="column-right">

# 日本語訳

```python
class CFG:
    OFFLINE = True  # False # 提出コンペティションの要件。開発中はオンラインモデルサポートを推奨
    USE_LLAMA3 = False  # GPUバージョン用
    USE_GEMMA2 = False  # GPUバージョン専用
    TASK_GEN = False  # 生成的テキスト出力タスク用（このコンペには適していないと思われる）
    TASK_CLASSIFICATION = True  # テキスト分類用（このコンペに適している）
#     model1 = "/kaggle/input/llama-3/transformers/8b-hf/1"  # llama3 8B |
    model2 = "/kaggle/input/gemma/transformers/2b-it/3"  # gemma 2B
    model3 = "/kaggle/input/gemma/transformers/7b-it/3"  # gemma 7B
#     model4 = "/kaggle/input/gemma-2/pytorch/gemma-2-9b-it/1"  # gemma 2 9B
    trainFile = "/kaggle/input/lmsys-chatbot-arena/train.csv"  # トレーニングデータファイルのパス
    testFile = "/kaggle/input/lmsys-chatbot-arena/test.csv"  # テストデータファイルのパス
    submitSample = "/kaggle/input/lmsys-chatbot-arena/sample_submission.csv"  # 提出サンプルファイルのパス
    FEW_SHOT_TEST = False  # True # Few-shot テストを使用するかどうか
    USE_RAG = False  # False # True # このプロジェクトではファインチューニングの使用を優先
    USE_WANDB = False  # True # LLMの評価とデバッグ用、ファインチューニングのパフォーマンスを追跡
    USE_TRULENS = False  # RAG用のLLM評価
    USE_DEEPEVAL = False  # LLM評価用（OpenAI APIキーが必要）
    USE_TRAIN = True  # GPUでトレーニングを行うかどうか
    USE_INFER = False  # 提出用予測のみ、テストモデルはなし
    loggingSteps = 10  # ロギングのステップ数
    maxTrainData = 1500  # 最大トレーニングデータ数
    maxEvalData = 20  # 最大評価データ数
    maxToken = 650  # 使用する最大トークン数 (テスト用は512)
```

</div>
</details>

In [None]:
class CFG:
    OFFLINE = True  # False # 提出コンペティションの要件。開発中はオンラインモデルサポートを推奨
    USE_LLAMA3 = False  # GPUバージョン用
    USE_GEMMA2 = False  # GPUバージョン専用
    TASK_GEN = False  # 生成的テキスト出力タスク用（このコンペには適していないと思われる）
    TASK_CLASSIFICATION = True  # テキスト分類用（このコンペに適している）
#     model1 = "/kaggle/input/llama-3/transformers/8b-hf/1"  # llama3 8B |
    model2 = "/kaggle/input/gemma/transformers/2b-it/3"  # gemma 2B
    model3 = "/kaggle/input/gemma/transformers/7b-it/3"  # gemma 7B
#     model4 = "/kaggle/input/gemma-2/pytorch/gemma-2-9b-it/1"  # gemma 2 9B
    trainFile = "/kaggle/input/lmsys-chatbot-arena/train.csv"  # トレーニングデータファイルのパス
    testFile = "/kaggle/input/lmsys-chatbot-arena/test.csv"  # テストデータファイルのパス
    submitSample = "/kaggle/input/lmsys-chatbot-arena/sample_submission.csv"  # 提出サンプルファイルのパス
    FEW_SHOT_TEST = False  # True # Few-shot テストを使用するかどうか
    USE_RAG = False  # False # True # このプロジェクトではファインチューニングの使用を優先
    USE_WANDB = False  # True # LLMの評価とデバッグ用、ファインチューニングのパフォーマンスを追跡
    USE_TRULENS = False  # RAG用のLLM評価
    USE_DEEPEVAL = False  # LLM評価用（OpenAI APIキーが必要）
    USE_TRAIN = True  # GPUでトレーニングを行うかどうか
    USE_INFER = False  # 提出用予測のみ、テストモデルはなし
    loggingSteps = 10  # ロギングのステップ数
    maxTrainData = 1500  # 最大トレーニングデータ数
    maxEvalData = 20  # 最大評価データ数
    maxToken = 650  # 使用する最大トークン数 (テスト用は512)

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Install Library

</div>
<div class="column-right">

# 日本語訳

# ライブラリのインストール

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# installDir = #"/kaggle/input/ai-math-llm-install-package/Universal-LLM-install-page/Universal-LLM-install-page"
installDir = "/kaggle/input/universal-llm-install-package2/Universal-LLM-install-page"
# install Libary for offline
if CFG.OFFLINE:
    !pip install transformers --no-index --no-deps --find-links=file://{installDir}/tranforemers
    !pip install -U datasets     --no-index --no-deps --find-links=file://{installDir}/datasets
    !pip install -U accelerate   --no-index --no-deps --find-links=file://{installDir}/accelerate
    !pip install build        --no-index  --no-deps --find-links=file://{installDir}/build-1.2.1-py3-none-any.whl
    !pip install -U bitsandbytes --no-index --no-deps --find-links=file://{installDir}/bitsandbytes-0.43.1-py3-none-manylinux_2_24_x86_64.whl
    !pip install langchain --no-index --no-deps --find-links=file://{installDir}/langchain-0.2.6-py3-none-any.whl
    !pip install langchain-core  --no-index --no-deps --find-links=file://{installDir}/langchain_core-0.2.10-py3-none-any.whl
    !pip install langsmith   --no-index --no-deps --find-links=file://{installDir}/langsmith-0.1.82-py3-none-any.whl
    !pip install langchain-community --no-index --no-deps --find-links=file://{installDir}/langchain_community-0.2.5-py3-none-any.whl
    !pip install sentence-transformers --no-index --no-deps --find-links=file://{installDir}/sentence_transformers-3.0.1-py3-none-any.whl
    !pip install chromadb --no-index --no-deps --find-links=file://{installDir}/chromadb-0.5.3-py3-none-any.whl
    !pip install faiss-cpu --no-index --no-deps --find-links=file://{installDir}/faiss_cpu-1.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl
    !pip install -U huggingface_hub --no-index --no-deps --find-links=file://{installDir}/huggingface_hub
    !pip install -qU langchain-text-splitters --no-index --no-deps --find-links=file://{installDir}/langchain_text_splitters-0.2.2-py3-none-any.whl
    !pip install -U peft  --no-index --no-deps --find-links=file://{installDir}/peft-0.11.1-py3-none-any.whl
    !pip install -U trl  --no-index --no-deps --find-links=file://{installDir}/trl-0.9.4-py3-none-any.whl 
    !pip install umap-learn  --no-index --no-deps --find-links=file://{installDir}/umap_learn
    !pip install evaluate  --no-index --no-deps --find-links=file://{installDir}/evaluate-0.4.2-py3-none-any.whl 
    !pip install deepeval  --no-index --no-deps --find-links=file://{installDir}/deepeval-0.21.62-py3-none-any.whl
    !pip install weave  --no-index --no-deps --find-links=file://{installDir}/weave-0.50.2-py3-none-any.whl
    !pip install openai --no-index --no-deps --find-links=file://{installDir}/openai-1.35.7-py3-none-any.whl
    !pip install langchain_openai --no-index --no-deps --find-links=file://{installDir}/langchain_openai-0.1.13-py3-none-any.whl
    !pip install trulens --no-index --no-deps --find-links=file://{installDir}/trulens-0.13.4-py3-none-any.whl
    !pip install trulens-eval --no-index --no-deps --find-links=file://{installDir}/trulens_eval-0.32.0-py3-none-any.whl
    
else: # install libary for online
    !pip install git+https://github.com/huggingface/transformers.git  # install transformer from source
    # !pip install --upgrade torch datasets accelerate peft bitsandbytes trl
    # !pip install --upgrade accelerate peft bitsandbytes trl
    !pip install --upgrade datasets accelerate bitsandbytes  # add datasets, accelerate , bitsndbytes
    !pip install langchain  langchain-community sentence-transformers chromadb  faiss-cpu #pypdf
    !pip install --upgrade huggingface_hub
    !pip install -qU langchain-text-splitters
    # for loRA fine tuning 
    !pip install --upgrade peft trl
    # for advance RAG & LLM evalution 
    !pip install portalocker openai langchain_openai # for deepeval dependance library (require openai api key)
    !pip install --upgrade umap-learn evaluate deepeval weave trulens trulens-eval
    
```

</div>
<div class="column-right">

# 日本語訳

```python
# installDir = #"/kaggle/input/ai-math-llm-install-package/Universal-LLM-install-page/Universal-LLM-install-page"
installDir = "/kaggle/input/universal-llm-install-package2/Universal-LLM-install-page"  # インストールディレクトリの指定

# オフライン用ライブラリのインストール
if CFG.OFFLINE:
    !pip install transformers --no-index --no-deps --find-links=file://{installDir}/tranforemers  # transformersライブラリのインストール
    !pip install -U datasets --no-index --no-deps --find-links=file://{installDir}/datasets  # datasetsライブラリのインストール
    !pip install -U accelerate --no-index --no-deps --find-links=file://{installDir}/accelerate  # accelerateライブラリのインストール
    !pip install build --no-index --no-deps --find-links=file://{installDir}/build-1.2.1-py3-none-any.whl  # buildライブラリのインストール
    !pip install -U bitsandbytes --no-index --no-deps --find-links=file://{installDir}/bitsandbytes-0.43.1-py3-none-manylinux_2_24_x86_64.whl  # bitsandbytesライブラリのインストール
    !pip install langchain --no-index --no-deps --find-links=file://{installDir}/langchain-0.2.6-py3-none-any.whl  # langchainライブラリのインストール
    !pip install langchain-core --no-index --no-deps --find-links=file://{installDir}/langchain_core-0.2.10-py3-none.whl  # langchain-coreライブラリのインストール
    !pip install langsmith --no-index --no-deps --find-links=file://{installDir}/langsmith-0.1.82-py3-none-any.whl  # langsmithライブラリのインストール
    !pip install langchain-community --no-index --no-deps --find-links=file://{installDir}/langchain_community-0.2.5-py3-none-any.whl  # langchain-communityライブラリのインストール
    !pip install sentence-transformers --no-index --no-deps --find-links=file://{installDir}/sentence_transformers-3.0.1-py3-none-any.whl  # sentence-transformersライブラリのインストール
    !pip install chromadb --no-index --no-deps --find-links=file://{installDir}/chromadb-0.5.3-py3-none-any.whl  # chromadbライブラリのインストール
    !pip install faiss-cpu --no-index --no-deps --find-links=file://{installDir}/faiss_cpu-1.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl  # faiss-cpuライブラリのインストール
    !pip install -U huggingface_hub --no-index --no-deps --find-links=file://{installDir}/huggingface_hub  # huggingface_hubライブラリのインストール
    !pip install -qU langchain-text-splitters --no-index --no-deps --find-links=file://{installDir}/langchain_text_splitters-0.2.2-py3-none-any.whl  # langchain-text-splittersライブラリのインストール
    !pip install -U peft --no-index --no-deps --find-links=file://{installDir}/peft-0.11.1-py3-none-any.whl  # peftライブラリのインストール
    !pip install -U trl --no-index --no-deps --find-links=file://{installDir}/trl-0.9.4-py3-none-any.whl  # trlライブラリのインストール
    !pip install umap-learn --no-index --no-deps --find-links=file://{installDir}/umap_learn  # umap-learnライブラリのインストール
    !pip install evaluate --no-index --no-deps --find-links=file://{installDir}/evaluate-0.4.2-py3-none-any.whl  # evaluateライブラリのインストール
    !pip install deepeval --no-index --no-deps --find-links=file://{installDir}/deepeval-0.21.62-py3-none-any.whl  # deepevalライブラリのインストール
    !pip install weave --no-index --no-deps --find-links=file://{installDir}/weave-0.50.2-py3-none-any.whl  # weaveライブラリのインストール
    !pip install openai --no-index --no-deps --find-links=file://{installDir}/openai-1.35.7-py3-none-any.whl  # openaiライブラリのインストール
    !pip install langchain_openai --no-index --no-deps --find-links=file://{installDir}/langchain_openai-0.1.13-py3-none-any.whl  # langchain_openaiライブラリのインストール
    !pip install trulens --no-index --no-deps --find-links=file://{installDir}/trulens-0.13.4-py3-none-any.whl  # trulensライブラリのインストール
    !pip install trulens-eval --no-index --no-deps --find-links=file://{installDir}/trulens_eval-0.32.0-py3-none-any.whl  # trulens-evalライブラリのインストール
    
else:  # オンライン用ライブラリのインストール
    !pip install git+https://github.com/huggingface/transformers.git  # ソースからtransformerをインストール
    # !pip install --upgrade torch datasets accelerate peft bitsandbytes trl
    # !pip install --upgrade accelerate peft bitsandbytes trl
    !pip install --upgrade datasets accelerate bitsandbytes  # datasets、accelerate、bitsandbytesをアップグレード
    !pip install langchain langchain-community sentence-transformers chromadb faiss-cpu  # langchain関連ライブラリのインストール
    !pip install --upgrade huggingface_hub  # huggingface_hubをアップグレード
    !pip install -qU langchain-text-splitters  # langchain-text-sプリッターをアップグレード
    # LoRAファインチューニング用
    !pip install --upgrade peft trl  # peftとtrlをアップグレード
    # 高度なRAGおよびLLM評価用
    !pip install portalocker openai langchain_openai  # deepevalの依存ライブラリ（OpenAI APIキーが必要）をインストール
    !pip install --upgrade umap-learn evaluate deepeval weave trulens trulens-eval  # これらのライブラリをアップグレード
```

</div>
</details>

In [None]:
# installDir = #"/kaggle/input/ai-math-llm-install-package/Universal-LLM-install-page/Universal-LLM-install-page"
installDir = "/kaggle/input/universal-llm-install-package2/Universal-LLM-install-page"  # インストールディレクトリの指定

# オフライン用ライブラリのインストール
if CFG.OFFLINE:
    !pip install transformers --no-index --no-deps --find-links=file://{installDir}/tranforemers  # transformersライブラリのインストール
    !pip install -U datasets --no-index --no-deps --find-links=file://{installDir}/datasets  # datasetsライブラリのインストール
    !pip install -U accelerate --no-index --no-deps --find-links=file://{installDir}/accelerate  # accelerateライブラリのインストール
    !pip install build --no-index --no-deps --find-links=file://{installDir}/build-1.2.1-py3-none-any.whl  # buildライブラリのインストール
    !pip install -U bitsandbytes --no-index --no-deps --find-links=file://{installDir}/bitsandbytes-0.43.1-py3-none-manylinux_2_24_x86_64.whl  # bitsandbytesライブラリのインストール
    !pip install langchain --no-index --no-deps --find-links=file://{installDir}/langchain-0.2.6-py3-none-any.whl  # langchainライブラリのインストール
    !pip install langchain-core --no-index --no-deps --find-links=file://{installDir}/langchain_core-0.2.10-py3-none.whl  # langchain-coreライブラリのインストール
    !pip install langsmith --no-index --no-deps --find-links=file://{installDir}/langsmith-0.1.82-py3-none-any.whl  # langsmithライブラリのインストール
    !pip install langchain-community --no-index --no-deps --find-links=file://{installDir}/langchain_community-0.2.5-py3-none-any.whl  # langchain-communityライブラリのインストール
    !pip install sentence-transformers --no-index --no-deps --find-links=file://{installDir}/sentence_transformers-3.0.1-py3-none-any.whl  # sentence-transformersライブラリのインストール
    !pip install chromadb --no-index --no-deps --find-links=file://{installDir}/chromadb-0.5.3-py3-none-any.whl  # chromadbライブラリのインストール
    !pip install faiss-cpu --no-index --no-deps --find-links=file://{installDir}/faiss_cpu-1.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl  # faiss-cpuライブラリのインストール
    !pip install -U huggingface_hub --no-index --no-deps --find-links=file://{installDir}/huggingface_hub  # huggingface_hubライブラリのインストール
    !pip install -qU langchain-text-splitters --no-index --no-deps --find-links=file://{installDir}/langchain_text_splitters-0.2.2-py3-none-any.whl  # langchain-text-splittersライブラリのインストール
    !pip install -U peft --no-index --no-deps --find-links=file://{installDir}/peft-0.11.1-py3-none-any.whl  # peftライブラリのインストール
    !pip install -U trl --no-index --no-deps --find-links=file://{installDir}/trl-0.9.4-py3-none-any.whl  # trlライブラリのインストール
    !pip install umap-learn --no-index --no-deps --find-links=file://{installDir}/umap_learn  # umap-learnライブラリのインストール
    !pip install evaluate --no-index --no-deps --find-links=file://{installDir}/evaluate-0.4.2-py3-none-any.whl  # evaluateライブラリのインストール
    !pip install deepeval --no-index --no-deps --find-links=file://{installDir}/deepeval-0.21.62-py3-none-any.whl  # deepevalライブラリのインストール
    !pip install weave --no-index --no-deps --find-links=file://{installDir}/weave-0.50.2-py3-none-any.whl  # weaveライブラリのインストール
    !pip install openai --no-index --no-deps --find-links=file://{installDir}/openai-1.35.7-py3-none-any.whl  # openaiライブラリのインストール
    !pip install langchain_openai --no-index --no-deps --find-links=file://{installDir}/langchain_openai-0.1.13-py3-none-any.whl  # langchain_openaiライブラリのインストール
    !pip install trulens --no-index --no-deps --find-links=file://{installDir}/trulens-0.13.4-py3-none-any.whl  # trulensライブラリのインストール
    !pip install trulens-eval --no-index --no-deps --find-links=file://{installDir}/trulens_eval-0.32.0-py3-none-any.whl  # trulens-evalライブラリのインストール
    
else:  # オンライン用ライブラリのインストール
    !pip install git+https://github.com/huggingface/transformers.git  # ソースからtransformerをインストール
    # !pip install --upgrade torch datasets accelerate peft bitsandbytes trl
    # !pip install --upgrade accelerate peft bitsandbytes trl
    !pip install --upgrade datasets accelerate bitsandbytes  # datasets、accelerate、bitsandbytesをアップグレード
    !pip install langchain langchain-community sentence-transformers chromadb faiss-cpu  # langchain関連ライブラリのインストール
    !pip install --upgrade huggingface_hub  # huggingface_hubをアップグレード
    !pip install -qU langchain-text-splitters  # langchain-text-sプリッターをアップグレード
    # LoRAファインチューニング用
    !pip install --upgrade peft trl  # peftとtrlをアップグレード
    # 高度なRAGおよびLLM評価用
    !pip install portalocker openai langchain_openai  # deepevalの依存ライブラリ（OpenAI APIキーが必要）をインストール
    !pip install --upgrade umap-learn evaluate deepeval weave trulens trulens-eval  # これらのライブラリをアップグレード

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Import Library

</div>
<div class="column-right">

# 日本語訳

# ライブラリのインポート

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import os, json, time
import gc
from IPython.display import display, Markdown
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import transformers
import torch
from transformers import AutoTokenizer, BitsAndBytesConfig, AutoModelForCausalLM, TrainingArguments
from transformers import AutoModelForSequenceClassification, DataCollatorWithPadding
from langchain_community.document_loaders import TextLoader # new version
from langchain.prompts.prompt import PromptTemplate
from langchain_core.runnables import ConfigurableField
from langchain_community.vectorstores import FAISS, Chroma




# Text chunk spliter
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter , SentenceTransformersTokenTextSplitter# Text Splitter
from langchain.embeddings import HuggingFaceEmbeddings
from datasets import Dataset, DatasetDict, load_dataset

# for evaluate  LLM 
import evaluate
import pytest
import trulens
from sklearn.metrics import (classification_report, ConfusionMatrixDisplay  , 
                             f1_score , accuracy_score, precision_score, recall_score)

import warnings
# warnings.filterwarnings("error") # for handle warning as error
# warnings.filterwarnings("ignore", category=DeprecationWarning) 
```

</div>
<div class="column-right">

# 日本語訳

```python
import os, json, time  # osモジュール、jsonモジュール、timeモジュールのインポート
import gc  # ガベージコレクション用モジュールのインポート
from IPython.display import display, Markdown  # Jupyter Notebookでの表示用モジュールのインポート
import numpy as np  # 線形代数用のNumPyモジュールのインポート
import pandas as pd  # データ処理用のPandasモジュールのインポート（例：pd.read_csvでCSVファイルを読み込む）
import transformers  # Transformersライブラリのインポート
import torch  # PyTorchライブラリのインポート
from transformers import AutoTokenizer, BitsAndBytesConfig, AutoModelForCausalLM, TrainingArguments  # モデルとトークナイザーのインポート
from transformers import AutoModelForSequenceClassification, DataCollatorWithPadding  # シーケンス分類用モデルとデータコラファイアのインポート
from langchain_community.document_loaders import TextLoader  # 新しいバージョンのテキストローダーのインポート
from langchain.prompts.prompt import PromptTemplate  # プロンプトテンプレートのインポート
from langchain_core.runnables import ConfigurableField  # 設定可能なフィールドのインポート
from langchain_community.vectorstores import FAISS, Chroma  # FAISSおよびChromaのインポート

# テキストチャンク分割器のインポート
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter, SentenceTransformersTokenTextSplitter  # テキストスプリッター
from langchain.embeddings import HuggingFaceEmbeddings  # HuggingFaceの埋め込みモデルのインポート
from datasets import Dataset, DatasetDict, load_dataset  # データセット用モジュールのインポート

# LLM評価用
import evaluate  # 評価用ライブラリのインポート
import pytest  # テスト用モジュールのインポート
import trulens  # TruLensライブラリのインポート
from sklearn.metrics import (classification_report, ConfusionMatrixDisplay,  # 分類レポートと混同行列表示のインポート
                             f1_score, accuracy_score, precision_score, recall_score)  # 精度、再現率、F1スコア、正確度のインポート

import warnings  # 警告用モジュールのインポート
# warnings.filterwarnings("error")  # 警告をエラーとして扱う
# warnings.filterwarnings("ignore", category=DeprecationWarning)  # 非推奨警告を無視する設定
```

</div>
</details>

In [None]:
import os, json, time  # osモジュール、jsonモジュール、timeモジュールのインポート
import gc  # ガベージコレクション用モジュールのインポート
from IPython.display import display, Markdown  # Jupyter Notebookでの表示用モジュールのインポート
import numpy as np  # 線形代数用のNumPyモジュールのインポート
import pandas as pd  # データ処理用のPandasモジュールのインポート（例：pd.read_csvでCSVファイルを読み込む）
import transformers  # Transformersライブラリのインポート
import torch  # PyTorchライブラリのインポート
from transformers import AutoTokenizer, BitsAndBytesConfig, AutoModelForCausalLM, TrainingArguments  # モデルとトークナイザーのインポート
from transformers import AutoModelForSequenceClassification, DataCollatorWithPadding  # シーケンス分類用モデルとデータコラファイアのインポート
from langchain_community.document_loaders import TextLoader  # 新しいバージョンのテキストローダーのインポート
from langchain.prompts.prompt import PromptTemplate  # プロンプトテンプレートのインポート
from langchain_core.runnables import ConfigurableField  # 設定可能なフィールドのインポート
from langchain_community.vectorstores import FAISS, Chroma  # FAISSおよびChromaのインポート

# テキストチャンク分割器のインポート
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter, SentenceTransformersTokenTextSplitter  # テキストスプリッター
from langchain.embeddings import HuggingFaceEmbeddings  # HuggingFaceの埋め込みモデルのインポート
from datasets import Dataset, DatasetDict, load_dataset  # データセット用モジュールのインポート

# LLM評価用
import evaluate  # 評価用ライブラリのインポート
import pytest  # テスト用モジュールのインポート
import trulens  # TruLensライブラリのインポート
from sklearn.metrics import (classification_report, ConfusionMatrixDisplay,  # 分類レポートと混同行列表示のインポート
                             f1_score, accuracy_score, precision_score, recall_score)  # 精度、再現率、F1スコア、正確度のインポート

import warnings  # 警告用モジュールのインポート
# warnings.filterwarnings("error")  # 警告をエラーとして扱う
# warnings.filterwarnings("ignore", category=DeprecationWarning)  # 非推奨警告を無視する設定

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
device =  torch.device('cuda'  if  torch.cuda.is_available() else 'cpu')
device
```

</div>
<div class="column-right">

# 日本語訳

```python
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # GPUが利用可能であればCUDAを使用し、なければCPUを使用する
device  # 使用しているデバイスを表示する
```

</div>
</details>

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # GPUが利用可能であればCUDAを使用し、なければCPUを使用する
device  # 使用しているデバイスを表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
def clearMemory():
    for _ in range(5):
        torch.cuda.empty_cache()
        gc.collect()
        time.sleep(0.3)
```

</div>
<div class="column-right">

# 日本語訳

```python
def clearMemory():
    # メモリをクリアする関数
    for _ in range(5):  # 5回ループを実行する
        torch.cuda.empty_cache()  # CUDAキャッシュをクリアする
        gc.collect()  # ガベージコレクションを実行してメモリを解放する
        time.sleep(0.3)  # 0.3秒待機する
```

</div>
</details>

In [None]:
def clearMemory():
    # メモリをクリアする関数
    for _ in range(5):  # 5回ループを実行する
        torch.cuda.empty_cache()  # CUDAキャッシュをクリアする
        gc.collect()  # ガベージコレクションを実行してメモリを解放する
        time.sleep(0.3)  # 0.3秒待機する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
clearMemory()
```

</div>
<div class="column-right">

# 日本語訳

```python
clearMemory()  # メモリをクリアする関数を呼び出す
```

</div>
</details>

In [None]:
clearMemory()  # メモリをクリアする関数を呼び出す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory
if False:
    for dirname, _, filenames in os.walk('/kaggle/input'):
        for filename in filenames:
            print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session
```

</div>
<div class="column-right">

# 日本語訳

```python
# このPython 3環境には、多くの便利な分析ライブラリがインストールされています
# これは、kaggle/python Dockerイメージによって定義されています: https://github.com/kaggle/docker-python
# 例えば、以下は読み込むのに役立ついくつかのパッケージです

# 入力データファイルは、読み取り専用の"../input/"ディレクトリにあります
# 例えば、これを実行すると（実行をクリックするかShift + Enterを押すことで）、入力ディレクトリ内のすべてのファイルがリスト表示されます
if False:
    for dirname, _, filenames in os.walk('/kaggle/input'):
        for filename in filenames:
            print(os.path.join(dirname, filename))

# 現在のディレクトリ（/kaggle/working/）に最大20GBまで書き込むことができ、"Save & Run All"を使用してバージョンを作成する際に出力として保存されます  
# 一時ファイルは/kaggle/temp/に書き込むこともできますが、現在のセッションの外では保存されません
```

</div>
</details>

In [None]:
# このPython 3環境には、多くの便利な分析ライブラリがインストールされています
# これは、kaggle/python Dockerイメージによって定義されています: https://github.com/kaggle/docker-python
# 例えば、以下は読み込むのに役立ついくつかのパッケージです

# 入力データファイルは、読み取り専用の"../input/"ディレクトリにあります
# 例えば、これを実行すると（実行をクリックするかShift + Enterを押すことで）、入力ディレクトリ内のすべてのファイルがリスト表示されます
if False:
    for dirname, _, filenames in os.walk('/kaggle/input'):
        for filename in filenames:
            print(os.path.join(dirname, filename))

# 現在のディレクトリ（/kaggle/working/）に最大20GBまで書き込むことができ、"Save & Run All"を使用してバージョンを作成する際に出力として保存されます  
# 一時ファイルは/kaggle/temp/に書き込むこともできますが、現在のセッションの外では保存されません

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# W&B inital For Online Only (LLM evalution Tool)

</div>
<div class="column-right">

# 日本語訳

# W&Bの初期化（オンライン専用、LLM評価ツール）

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_WANDB:
    import wandb
    from kaggle_secrets import UserSecretsClient
    user_secrets = UserSecretsClient()
    my_secret = user_secrets.get_secret("wandb_api_key")
    wandb.login(key=my_secret) # login
    reportTo= "wandb" # use for fine tuning training logging 
else:
    reportTo = "none"# None
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_WANDB:
    import wandb  # Weights & Biasesライブラリのインポート
    from kaggle_secrets import UserSecretsClient  # Kaggleの秘密情報管理クライアントのインポート
    user_secrets = UserSecretsClient()  # ユーザーの秘密情報クライアントを初期化
    my_secret = user_secrets.get_secret("wandb_api_key")  # Weights & Biases APIキーを取得
    wandb.login(key=my_secret)  # ログイン
    reportTo = "wandb"  # ファインチューニングトレーニングのロギングに使用
else:
    reportTo = "none"  # None (ロギングなし)
```

</div>
</details>

In [None]:
if CFG.USE_WANDB:
    import wandb  # Weights & Biasesライブラリのインポート
    from kaggle_secrets import UserSecretsClient  # Kaggleの秘密情報管理クライアントのインポート
    user_secrets = UserSecretsClient()  # ユーザーの秘密情報クライアントを初期化
    my_secret = user_secrets.get_secret("wandb_api_key")  # Weights & Biases APIキーを取得
    wandb.login(key=my_secret)  # ログイン
    reportTo = "wandb"  # ファインチューニングトレーニングのロギングに使用
else:
    reportTo = "none"  # None (ロギングなし)

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Load Dataset

</div>
<div class="column-right">

# 日本語訳

# データセットの読み込み

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF =  pd.read_csv(CFG.trainFile)
trainDF
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF = pd.read_csv(CFG.trainFile)  # トレーニングデータファイルを読み込み、Pandas DataFrameに格納する
trainDF  # 読み込んだトレーニングデータを表示する
```

</div>
</details>

In [None]:
trainDF = pd.read_csv(CFG.trainFile)  # トレーニングデータファイルを読み込み、Pandas DataFrameに格納する
trainDF  # 読み込んだトレーニングデータを表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF[trainDF["winner_tie"] ==1] # 
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF[trainDF["winner_tie"] == 1]  # 'winner_tie'列が1の行だけをフィルタリングして表示する
```

</div>
</details>

In [None]:
trainDF[trainDF["winner_tie"] == 1]  # 'winner_tie'列が1の行だけをフィルタリングして表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
nullTranDF=trainDF[trainDF.response_a == 'null']
```

</div>
<div class="column-right">

# 日本語訳

```python
nullTranDF = trainDF[trainDF.response_a == 'null']  # 'response_a'列が'null'である行だけをフィルタリングして新しいデータフレームに格納する
```

</div>
</details>

In [None]:
nullTranDF = trainDF[trainDF.response_a == 'null']  # 'response_a'列が'null'である行だけをフィルタリングして新しいデータフレームに格納する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
len(nullTranDF)
```

</div>
<div class="column-right">

# 日本語訳

```python
len(nullTranDF)  # 'response_a'が'null'の行数を取得して表示する
```

</div>
</details>

In [None]:
len(nullTranDF)  # 'response_a'が'null'の行数を取得して表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF.isnull().sum()
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF.isnull().sum()  # データフレーム内の各列における欠損値の数をカウントして表示する
```

</div>
</details>

In [None]:
trainDF.isnull().sum()  # データフレーム内の各列における欠損値の数をカウントして表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
testDF =  pd.read_csv(CFG.testFile)
testDF.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
testDF = pd.read_csv(CFG.testFile)  # テストデータファイルを読み込み、Pandas DataFrameに格納する
testDF.head()  # 読み込んだテストデータの最初の5行を表示する
```

</div>
</details>

In [None]:
testDF = pd.read_csv(CFG.testFile)  # テストデータファイルを読み込み、Pandas DataFrameに格納する
testDF.head()  # 読み込んだテストデータの最初の5行を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
submitDF = pd.read_csv(CFG.submitSample)
submitDF.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
submitDF = pd.read_csv(CFG.submitSample)  # 提出サンプルファイルを読み込み、Pandas DataFrameに格納する
submitDF.head()  # 読み込んだ提出サンプルデータの最初の5行を表示する
```

</div>
</details>

In [None]:
submitDF = pd.read_csv(CFG.submitSample)  # 提出サンプルファイルを読み込み、Pandas DataFrameに格納する
submitDF.head()  # 読み込んだ提出サンプルデータの最初の5行を表示する

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# EDA

</div>
<div class="column-right">

# 日本語訳

# EDA（探索的データ分析）

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
def printUniqueValue(df, showAll= True):
    for col in df.columns:
        if showAll ==True:
            print(f"""{col} :  {df[col].unique()}""")
        else:
            if df[col].dtype == "object": # only show object type columns unique values
                print(f"{col} : {df[col].unique()}")
        
```

</div>
<div class="column-right">

# 日本語訳

```python
def printUniqueValue(df, showAll=True):
    # データフレームの各列のユニークな値を表示する関数
    for col in df.columns:
        if showAll == True:
            print(f"""{col} :  {df[col].unique()}""")  # 各列のユニークな値を表示
        else:
            if df[col].dtype == "object":  # オブジェクト型の列のユニークな値のみ表示
                print(f"{col} : {df[col].unique()}")
```

</div>
</details>

In [None]:
def printUniqueValue(df, showAll=True):
    # データフレームの各列のユニークな値を表示する関数
    for col in df.columns:
        if showAll == True:
            print(f"""{col} :  {df[col].unique()}""")  # 各列のユニークな値を表示
        else:
            if df[col].dtype == "object":  # オブジェクト型の列のユニークな値のみ表示
                print(f"{col} : {df[col].unique()}")

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## print  unqiue Value

</div>
<div class="column-right">

# 日本語訳

## ユニークな値を表示する

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
printUniqueValue(trainDF, showAll=True)
```

</div>
<div class="column-right">

# 日本語訳

```python
printUniqueValue(trainDF, showAll=True)  # トレーニングデータフレームのユニークな値を表示する関数を呼び出す
```

</div>
</details>

In [None]:
printUniqueValue(trainDF, showAll=True)  # トレーニングデータフレームのユニークな値を表示する関数を呼び出す

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## Model distribution

</div>
<div class="column-right">

# 日本語訳

## モデル分布

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF.columns
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF.columns  # トレーニングデータフレームの列名を表示する
```

</div>
</details>

In [None]:
trainDF.columns  # トレーニングデータフレームの列名を表示する

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Load LLM Model



</div>
<div class="column-right">

# 日本語訳

# LLMモデルの読み込み

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN == True:
    # for LoRA fine tuning
    from trl import SFTTrainer
    from peft import LoraConfig, PeftModel, get_peft_model , prepare_model_for_kbit_training #prepare_model_for_int8_training deprecated 

```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN == True:
    # LoRAファインチューニング用
    from trl import SFTTrainer  # SFTTrainerをインポート
    from peft import LoraConfig, PeftModel, get_peft_model, prepare_model_for_kbit_training  # LoRA設定、モデル、取得関数などをインポート
    # prepare_model_for_int8_trainingは非推奨
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN == True:
    # LoRAファインチューニング用
    from trl import SFTTrainer  # SFTTrainerをインポート
    from peft import LoraConfig, PeftModel, get_peft_model, prepare_model_for_kbit_training  # LoRA設定、モデル、取得関数などをインポート
    # prepare_model_for_int8_trainingは非推奨

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
do_sample= True 
top_p=0.95 
top_k= 2
temperature=0.2#0.7 
num_beams = 3
max_length= 512

# Quantized Config for GPU support only
bnb_config = BitsAndBytesConfig(
        load_in_4bit = True,
        bnb_4bit_quant_type="nf4",
        bnb_4bit_compute_dtype= torch.bfloat16,
        bnb_4bit_use_double_quant=True # Activate nested quantization for 4-bit base models (double quantization)

)

```

</div>
<div class="column-right">

# 日本語訳

```python
do_sample = True  # サンプリングを使用するかどうか
top_p = 0.95  # nucleus samplingの確率
top_k = 2  # top-k samplingのk値
temperature = 0.2  # テンプレチャー（生成の多様性を調整）
num_beams = 3  # ビームサーチのビーム数
max_length = 512  # 生成するテキストの最大長

# GPU専用の量子化設定
bnb_config = BitsAndBytesConfig(
        load_in_4bit=True,  # 4ビットで読み込む
        bnb_4bit_quant_type="nf4",  # 4ビットの量子化タイプ
        bnb_4bit_compute_dtype=torch.bfloat16,  # 計算のデータ型
        bnb_4bit_use_double_quant=True  # 4ビットベースモデルの二重量子化を有効にする
)
```

</div>
</details>

In [None]:
do_sample = True  # サンプリングを使用するかどうか
top_p = 0.95  # nucleus samplingの確率
top_k = 2  # top-k samplingのk値
temperature = 0.2  # テンプレチャー（生成の多様性を調整）
num_beams = 3  # ビームサーチのビーム数
max_length = 512  # 生成するテキストの最大長

# GPU専用の量子化設定
bnb_config = BitsAndBytesConfig(
        load_in_4bit=True,  # 4ビットで読み込む
        bnb_4bit_quant_type="nf4",  # 4ビットの量子化タイプ
        bnb_4bit_compute_dtype=torch.bfloat16,  # 計算のデータ型
        bnb_4bit_use_double_quant=True  # 4ビットベースモデルの二重量子化を有効にする
)

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# define Label for Text classification

</div>
<div class="column-right">

# 日本語訳

# テキスト分類のラベルを定義する

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
id2label = {0: "winner_model_a", 1: "winner_model_b", 2: "winner_tie"}
label2id = {"winner_model_a": 0, "winner_model_b": 1, "winner_tie": 2}
```

</div>
<div class="column-right">

# 日本語訳

```python
id2label = {0: "winner_model_a", 1: "winner_model_b", 2: "winner_tie"}  # ラベルIDからラベル名へのマッピング
label2id = {"winner_model_a": 0, "winner_model_b": 1, "winner_tie": 2}  # ラベル名からラベルIDへのマッピング
```

</div>
</details>

In [None]:
id2label = {0: "winner_model_a", 1: "winner_model_b", 2: "winner_tie"}  # ラベルIDからラベル名へのマッピング
label2id = {"winner_model_a": 0, "winner_model_b": 1, "winner_tie": 2}  # ラベル名からラベルIDへのマッピング

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if device.type == "cuda": # use 7b/8b/9b model gain performance
    if CFG.USE_LLAMA3:
        modelSel = CFG.model1
        llmModel = "llama3_8b"
        
    elif CFG.USE_GEMMA2:
        modelSel = CFG.model4
        llmModel = "gemma2_9b"
    
    else:
        modelSel = CFG.model3
        llmModel = "gemma_7b"
    if CFG.TASK_GEN:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto",  
                                                 quantization_config= bnb_config)
#         model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto")
    elif CFG.TASK_CLASSIFICATION:
        model = AutoModelForSequenceClassification.from_pretrained(modelSel, device_map="auto", 
                                                                   num_labels =3 ,
                                                                   id2label=id2label, 
                                                                   label2id=label2id,
#                                                                    problem_type= "multi_label_classification", #problem unmatch issues
                                                 quantization_config= bnb_config) #remove quantization
#          model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto",  num_labels =3)
    else:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto",  
                                                 quantization_config= bnb_config)
#         model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto")
    
    tokenizer = AutoTokenizer.from_pretrained(modelSel) # inital tokenizer
    tokenizer.add_eos_token = True  # We'll add <eos> at the end
    tokenizer.padding_side = "right"
    

else: # for cpu select smaller model
    modelSel = CFG.model2
    llmModel = 'gemma_2b'
    if CFG.TASK_GEN:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto")
        
    elif CFG.TASK_CLASSIFICATION:
        model = AutoModelForSequenceClassification.from_pretrained(modelSel, device_map="auto", 
                                                                   num_labels =3,
                                                                   id2label=id2label, 
                                                                   label2id=label2id,
#                                                                    problem_type= "multi_label_classification",
                                                                  )
    else:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto")

    tokenizer = AutoTokenizer.from_pretrained(modelSel) # inital tokenizer
    tokenizer.add_eos_token = True  # We'll add <eos> at the end
    tokenizer.padding_side = "right"
    
        
        
```

</div>
<div class="column-right">

# 日本語訳

```python
if device.type == "cuda":  # CUDAデバイスが使用されている場合（7B/8B/9Bモデルを使用し性能向上）
    if CFG.USE_LLAMA3:
        modelSel = CFG.model1  # 使用するモデルを選択
        llmModel = "llama3_8b"  # モデル名を設定
        
    elif CFG.USE_GEMMA2:
        modelSel = CFG.model4  # 使用するモデルを選択
        llmModel = "gemma2_9b"
    
    else:
        modelSel = CFG.model3  # 使用するモデルを選択
        llmModel = "gemma_7b"
    
    if CFG.TASK_GEN:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto",  
                                                 quantization_config=bnb_config)  # 生成モデルのロード
#         model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto")
    elif CFG.TASK_CLASSIFICATION:
        model = AutoModelForSequenceClassification.from_pretrained(modelSel, device_map="auto", 
                                                                   num_labels=3,
                                                                   id2label=id2label, 
                                                                   label2id=label2id,
#                                                                    problem_type="multi_label_classification",  # 問題の不一致による注釈
                                                 quantization_config=bnb_config)  # 分類モデルのロード
#          model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto", num_labels=3)
    else:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto",  
                                                 quantization_config=bnb_config)

    tokenizer = AutoTokenizer.from_pretrained(modelSel)  # トークナイザーの初期化
    tokenizer.add_eos_token = True  # 終了トークン<eos>を追加する
    tokenizer.padding_side = "right"  # パディングを右側に設定
    
else:  # CPUの場合は小さなモデルを選択
    modelSel = CFG.model2  # 使用するモデルを選択
    llmModel = 'gemma_2b'
    
    if CFG.TASK_GEN:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto")  # 生成モデルのロード
        
    elif CFG.TASK_CLASSIFICATION:
        model = AutoModelForSequenceClassification.from_pretrained(modelSel, device_map="auto", 
                                                                   num_labels=3,
                                                                   id2label=id2label, 
                                                                   label2id=label2id,
#                                                                    problem_type="multi_label_classification",
                                                                  )
    else:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto")  # モデルをロード

    tokenizer = AutoTokenizer.from_pretrained(modelSel)  # トークナイザーの初期化
    tokenizer.add_eos_token = True  # 終了トークン<eos>を追加する
    tokenizer.padding_side = "right"  # パディングを右側に設定
```

</div>
</details>

In [None]:
if device.type == "cuda":  # CUDAデバイスが使用されている場合（7B/8B/9Bモデルを使用し性能向上）
    if CFG.USE_LLAMA3:
        modelSel = CFG.model1  # 使用するモデルを選択
        llmModel = "llama3_8b"  # モデル名を設定
        
    elif CFG.USE_GEMMA2:
        modelSel = CFG.model4  # 使用するモデルを選択
        llmModel = "gemma2_9b"
    
    else:
        modelSel = CFG.model3  # 使用するモデルを選択
        llmModel = "gemma_7b"
    
    if CFG.TASK_GEN:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto",  
                                                 quantization_config=bnb_config)  # 生成モデルのロード
#         model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto")
    elif CFG.TASK_CLASSIFICATION:
        model = AutoModelForSequenceClassification.from_pretrained(modelSel, device_map="auto", 
                                                                   num_labels=3,
                                                                   id2label=id2label, 
                                                                   label2id=label2id,
#                                                                    problem_type="multi_label_classification",  # 問題の不一致による注釈
                                                 quantization_config=bnb_config)  # 分類モデルのロード
#          model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto", num_labels=3)
    else:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto",  
                                                 quantization_config=bnb_config)

    tokenizer = AutoTokenizer.from_pretrained(modelSel)  # トークナイザーの初期化
    tokenizer.add_eos_token = True  # 終了トークン<eos>を追加する
    tokenizer.padding_side = "right"  # パディングを右側に設定
    
else:  # CPUの場合は小さなモデルを選択
    modelSel = CFG.model2  # 使用するモデルを選択
    llmModel = 'gemma_2b'
    
    if CFG.TASK_GEN:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto")  # 生成モデルのロード
        
    elif CFG.TASK_CLASSIFICATION:
        model = AutoModelForSequenceClassification.from_pretrained(modelSel, device_map="auto", 
                                                                   num_labels=3,
                                                                   id2label=id2label, 
                                                                   label2id=label2id,
#                                                                    problem_type="multi_label_classification",
                                                                  )
    else:
        model = AutoModelForCausalLM.from_pretrained(modelSel, device_map="auto")  # モデルをロード

    tokenizer = AutoTokenizer.from_pretrained(modelSel)  # トークナイザーの初期化
    tokenizer.add_eos_token = True  # 終了トークン<eos>を追加する
    tokenizer.padding_side = "right"  # パディングを右側に設定

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
model
```

</div>
<div class="column-right">

# 日本語訳

```python
model  # 読み込んだモデルを表示する
```

</div>
</details>

In [None]:
model  # 読み込んだモデルを表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
llmModel
```

</div>
<div class="column-right">

# 日本語訳

```python
llmModel  # 使用しているLLMモデルの名前を表示する
```

</div>
</details>

In [None]:
llmModel  # 使用しているLLMモデルの名前を表示する

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Prompt Engineering

</div>
<div class="column-right">

# 日本語訳

# プロンプトエンジニアリング

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.TASK_GEN:
    templatePrompt1 = """Question: {question}.\nOnly require given final result in JSON format with key 'answer'
            """
    templatePrompt2 = "Answer the user Question.\n###\n{format_instructions}\n###\nQuestion: {query}\n"
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.TASK_GEN:
    templatePrompt1 = """Question: {question}.\n最終結果をJSON形式で、キー'answer'のみで要求してください。
            """  # 質問を受け取り、JSON形式での回答を求めるプロンプトテンプレート
    templatePrompt2 = "ユーザーの質問に答えてください。\n###\n{format_instructions}\n###\nQuestion: {query}\n"  # 質問に回答するためのプロンプトテンプレート
```

</div>
</details>

In [None]:
if CFG.TASK_GEN:
    templatePrompt1 = """Question: {question}.\n最終結果をJSON形式で、キー'answer'のみで要求してください。
            """  # 質問を受け取り、JSON形式での回答を求めるプロンプトテンプレート
    templatePrompt2 = "ユーザーの質問に答えてください。\n###\n{format_instructions}\n###\nQuestion: {query}\n"  # 質問に回答するためのプロンプトテンプレート

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

### Generate Response from LLM

</div>
<div class="column-right">

# 日本語訳

### LLMからの応答生成

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.TASK_GEN:
    def generateResponse(query, maxNewToken =256):
        """
        Direct send message to LLM model, get resposne
        """
    
        inputIds = tokenizer(query, return_tensors="pt").to(device)
        response = model.generate(**inputIds,
                              do_sample= True,
                              top_p =0.95,
                              top_k= 3,
                              temperature= 0.5,
#                               max_lenght = 1024, 
                              max_new_tokens= maxNewToken,
                             )
    
        return tokenizer.decode(response[0][len(inputIds["input_ids"]):], skip_special_tokens = True)
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.TASK_GEN:
    def generateResponse(query, maxNewToken=256):
        """
        LLMモデルにメッセージを直接送信し、応答を取得する関数
        """
    
        inputIds = tokenizer(query, return_tensors="pt").to(device)  # クエリをトークナイズしてテンソルに変換
        response = model.generate(**inputIds,
                                  do_sample=True,  # サンプリングを使用
                                  top_p=0.95,  # nucleus samplingの確率
                                  top_k=3,  # top-k samplingのk値
                                  temperature=0.5,  # テンプレチャー
#                                   max_length=1024,  # 最大長（コメントアウトされている）
                                  max_new_tokens=maxNewToken,  # 新しく生成するトークンの最大数
                                 )
    
        # 生成された応答をデコードし、特別なトークンをスキップして返す
        return tokenizer.decode(response[0][len(inputIds["input_ids"]):], skip_special_tokens=True)
```

</div>
</details>

In [None]:
if CFG.TASK_GEN:
    def generateResponse(query, maxNewToken=256):
        """
        LLMモデルにメッセージを直接送信し、応答を取得する関数
        """
    
        inputIds = tokenizer(query, return_tensors="pt").to(device)  # クエリをトークナイズしてテンソルに変換
        response = model.generate(**inputIds,
                                  do_sample=True,  # サンプリングを使用
                                  top_p=0.95,  # nucleus samplingの確率
                                  top_k=3,  # top-k samplingのk値
                                  temperature=0.5,  # テンプレチャー
#                                   max_length=1024,  # 最大長（コメントアウトされている）
                                  max_new_tokens=maxNewToken,  # 新しく生成するトークンの最大数
                                 )
    
        # 生成された応答をデコードし、特別なトークンをスキップして返す
        return tokenizer.decode(response[0][len(inputIds["input_ids"]):], skip_special_tokens=True)

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Simple parser to extract data

</div>
<div class="column-right">

# 日本語訳

# データを抽出するためのシンプルなパーサー

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import re
from  json.decoder import JSONDecodeError
if CFG.TASK_GEN:

    def isInteger(text):
        try:
            if int(text) >= 0:
                return True
            else:
                return False
        except ValueError:
            return False

    def llmJSONparser(txt, key="answer:", integerOut= False):
        """
        try to get answer from LLM response , expect in JSON format, 
        """
        try:
            subText = txt.split("{") # split several {} in list 
            for txtSeg in subText: # loop in list to find answer
                end = txtSeg.find("}") # find end position in text segment
                sub = txtSeg[:end] #subsring with {} context
                temp = sub.replace("*", "") # remove * symbol
                temp = temp.replace("\"", "") # reomve \" symbol
                temp = temp.lower() # convert to lower case
                answerloc = temp.find(key) # find key word "answer" position
                if answerloc != -1:
                    print(f"find answer location : {answerloc}")
                    newTxt = temp[answerloc:] # substring start answer
#                   print("Temp: ", temp)
                    subTxt = newTxt.split("\n")
                    #       print(subTxt)
                    rel =subTxt[0][len(key):].strip() # get answer value with remove space
                    rel= rel.replace(',', '') # remove , symbol
                    print(rel)
                    if integerOut: # expect integer output 
                        if isInteger(rel):
                            return rel
                        else:
                            continue # not find the value
                    else:
                        return rel
                
            return None # can't find answer
        except :
            print(f"""Error LLM JSON parser input txt {txt}""" )
            return None
        return None


    def getLLMAnswerParser(txt, key="answer:"):
        """
        when json parser failure, seem answer not JSON format, 
        use "answer" for key word search final answer 
        """
         # find answer  
        temp = txt.replace("*", "") # remove * symbol
        temp = temp.replace("\"", "") # reomve "" symbol
        temp = temp.lower() # convert to lower case
        # find answer key word
        start = temp.find(key)
        print(f"Start loc: {start}")
        subStr = temp[start:]
        if start != -1:
            subTxt = subStr.split("\n")
           #print(subTxt)
            rel =subTxt[0][len(key):].strip() # get answer value with remove space
            rel= rel.replace(',', '') # remove , symbol
            print(rel)
            return rel
    
        print(subStr)
        return None
    

```

</div>
<div class="column-right">

# 日本語訳

```python
import re  # 正規表現モジュールのインポート
from json.decoder import JSONDecodeError  # JSONデコードエラークラスのインポート

if CFG.TASK_GEN:

    def isInteger(text):
        # テキストが非負の整数かどうかを判断する関数
        try:
            if int(text) >= 0:
                return True  # 整数である場合はTrueを返す
            else:
                return False
        except ValueError:
            return False  # 整数に変換できない場合はFalseを返す

    def llmJSONparser(txt, key="answer:", integerOut=False):
        """
        LLMからの応答からJSON形式で答えを取得しようとする関数
        """
        try:
            subText = txt.split("{")  # {}で区切られた部分をリストに分割
            for txtSeg in subText:  # リスト内で答えを探すループ
                end = txtSeg.find("}")  # テキストセグメント内の終了位置を見つける
                sub = txtSeg[:end]  # {}のコンテキストを持つサブ文字列
                temp = sub.replace("*", "")  # *記号を削除
                temp = temp.replace("\"", "")  # \"記号を削除
                temp = temp.lower()  # 小文字に変換
                answerloc = temp.find(key)  # "answer"の位置を見つける
                if answerloc != -1:
                    print(f"答えの位置を見つけました: {answerloc}")
                    newTxt = temp[answerloc:]  # 答えの部分文字列を取得
#                   print("Temp: ", temp)
                    subTxt = newTxt.split("\n")  # 新しいテキストを行ごとに分割
                    #       print(subTxt)
                    rel = subTxt[0][len(key):].strip()  # 空白を削除して答えの値を取得
                    rel = rel.replace(',', '')  # ,記号を削除
                    print(rel)
                    if integerOut:  # 整数の出力を期待する場合
                        if isInteger(rel):
                            return rel  # 整数であれば返す
                        else:
                            continue  # 値が見つからなければ次へ
                    else:
                        return rel  # 整数でない場合はそのまま返す
                
            return None  # 答えが見つからない場合
        except:
            print(f"""エラー LLM JSONパーサーの入力テキスト {txt}""")
            return None
        return None

    def getLLMAnswerParser(txt, key="answer:"):
        """
        JSONパーサーが失敗した場合、回答がJSON形式でないと思われる場合に使用する関数
        "answer"というキーワードを使用して最終的な答えを検索
        """
        # 答えを見つける  
        temp = txt.replace("*", "")  # *記号を削除
        temp = temp.replace("\"", "")  # ""記号を削除
        temp = temp.lower()  # 小文字に変換
        # 答えのキーワードを見つける
        start = temp.find(key)
        print(f"開始位置: {start}")
        subStr = temp[start:]
        if start != -1:
            subTxt = subStr.split("\n")  # 行ごとに分割
           #print(subTxt)
            rel = subTxt[0][len(key):].strip()  # 空白を削除して答えの値を取得
            rel = rel.replace(',', '')  # ,記号を削除
            print(rel)
            return rel  # 得られた答えを返す
    
        print(subStr)
        return None  # 答えが見つからない場合
```

</div>
</details>

In [None]:
import re  # 正規表現モジュールのインポート
from json.decoder import JSONDecodeError  # JSONデコードエラークラスのインポート

if CFG.TASK_GEN:

    def isInteger(text):
        # テキストが非負の整数かどうかを判断する関数
        try:
            if int(text) >= 0:
                return True  # 整数である場合はTrueを返す
            else:
                return False
        except ValueError:
            return False  # 整数に変換できない場合はFalseを返す

    def llmJSONparser(txt, key="answer:", integerOut=False):
        """
        LLMからの応答からJSON形式で答えを取得しようとする関数
        """
        try:
            subText = txt.split("{")  # {}で区切られた部分をリストに分割
            for txtSeg in subText:  # リスト内で答えを探すループ
                end = txtSeg.find("}")  # テキストセグメント内の終了位置を見つける
                sub = txtSeg[:end]  # {}のコンテキストを持つサブ文字列
                temp = sub.replace("*", "")  # *記号を削除
                temp = temp.replace("\"", "")  # \"記号を削除
                temp = temp.lower()  # 小文字に変換
                answerloc = temp.find(key)  # "answer"の位置を見つける
                if answerloc != -1:
                    print(f"答えの位置を見つけました: {answerloc}")
                    newTxt = temp[answerloc:]  # 答えの部分文字列を取得
#                   print("Temp: ", temp)
                    subTxt = newTxt.split("\n")  # 新しいテキストを行ごとに分割
                    #       print(subTxt)
                    rel = subTxt[0][len(key):].strip()  # 空白を削除して答えの値を取得
                    rel = rel.replace(',', '')  # ,記号を削除
                    print(rel)
                    if integerOut:  # 整数の出力を期待する場合
                        if isInteger(rel):
                            return rel  # 整数であれば返す
                        else:
                            continue  # 値が見つからなければ次へ
                    else:
                        return rel  # 整数でない場合はそのまま返す
                
            return None  # 答えが見つからない場合
        except:
            print(f"""エラー LLM JSONパーサーの入力テキスト {txt}""")
            return None
        return None

    def getLLMAnswerParser(txt, key="answer:"):
        """
        JSONパーサーが失敗した場合、回答がJSON形式でないと思われる場合に使用する関数
        "answer"というキーワードを使用して最終的な答えを検索
        """
        # 答えを見つける  
        temp = txt.replace("*", "")  # *記号を削除
        temp = temp.replace("\"", "")  # ""記号を削除
        temp = temp.lower()  # 小文字に変換
        # 答えのキーワードを見つける
        start = temp.find(key)
        print(f"開始位置: {start}")
        subStr = temp[start:]
        if start != -1:
            subTxt = subStr.split("\n")  # 行ごとに分割
           #print(subTxt)
            rel = subTxt[0][len(key):].strip()  # 空白を削除して答えの値を取得
            rel = rel.replace(',', '')  # ,記号を削除
            print(rel)
            return rel  # 得られた答えを返す
    
        print(subStr)
        return None  # 答えが見つからない場合

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Add parser to control extract data from LLM Structure Output

</div>
<div class="column-right">

# 日本語訳

# LLMの構造化出力からデータを抽出するためのパーサーを追加する

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
from langchain_core.output_parsers import (StrOutputParser, 
                                           JsonOutputParser,
                                           PydanticOutputParser,
                                          )
# for LLM structure output
from langchain_core.pydantic_v1 import BaseModel, Field, validator
# from pydantic import BaseModel, Field
```

</div>
<div class="column-right">

# 日本語訳

```python
from langchain_core.output_parsers import (StrOutputParser,  # 文字列出力パーサーのインポート
                                           JsonOutputParser,  # JSON出力パーサーのインポート
                                           PydanticOutputParser,  # Pydantic出力パーサーのインポート
                                          )
# LLMの構造化出力用
from langchain_core.pydantic_v1 import BaseModel, Field, validator  # Pydanticモデルのインポート
# from pydantic import BaseModel, Field  # PydanticのBaseModelとFieldをインポート（コメントアウトされている）
```

</div>
</details>

In [None]:
from langchain_core.output_parsers import (StrOutputParser,  # 文字列出力パーサーのインポート
                                           JsonOutputParser,  # JSON出力パーサーのインポート
                                           PydanticOutputParser,  # Pydantic出力パーサーのインポート
                                          )
# LLMの構造化出力用
from langchain_core.pydantic_v1 import BaseModel, Field, validator  # Pydanticモデルのインポート
# from pydantic import BaseModel, Field  # PydanticのBaseModelとFieldをインポート（コメントアウトされている）

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.TASK_GEN:
# define data strauctrue for LLM output structure 
    class Answer(BaseModel):
        answer: str = Field(description="the answer of question response from LLM")
        explanation: str = Field(description="explain how answer come from and reasoning")
    
    
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.TASK_GEN:
    # LLM出力構造のデータ構造を定義する
    class Answer(BaseModel):
        answer: str = Field(description="LLMからの質問応答の答え")
        explanation: str = Field(description="答えがどのように生じたか、及びその理由")
```

</div>
</details>

In [None]:
if CFG.TASK_GEN:
    # LLM出力構造のデータ構造を定義する
    class Answer(BaseModel):
        answer: str = Field(description="LLMからの質問応答の答え")
        explanation: str = Field(description="答えがどのように生じたか、及びその理由")

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# test Parser
if CFG.TASK_GEN:
    jsonParser = JsonOutputParser(pydantic_object=Answer)  # json parser
    pydanticParser =  PydanticOutputParser(pydantic_object=Answer) # pydantic base parse
             
```

</div>
<div class="column-right">

# 日本語訳

```python
# パーサーのテスト
if CFG.TASK_GEN:
    jsonParser = JsonOutputParser(pydantic_object=Answer)  # JSONパーサーのインスタンスを作成
    pydanticParser = PydanticOutputParser(pydantic_object=Answer)  # Pydanticベースのパーサーのインスタンスを作成
```

</div>
</details>

In [None]:
# パーサーのテスト
if CFG.TASK_GEN:
    jsonParser = JsonOutputParser(pydantic_object=Answer)  # JSONパーサーのインスタンスを作成
    pydanticParser = PydanticOutputParser(pydantic_object=Answer)  # Pydanticベースのパーサーのインスタンスを作成

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.TASK_GEN:
    print(jsonParser.get_format_instructions())
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.TASK_GEN:
    print(jsonParser.get_format_instructions())  # JSONパーサーのフォーマット指示を表示する
```

</div>
</details>

In [None]:
if CFG.TASK_GEN:
    print(jsonParser.get_format_instructions())  # JSONパーサーのフォーマット指示を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.TASK_GEN:
    print(pydanticParser.get_format_instructions())
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.TASK_GEN:
    print(pydanticParser.get_format_instructions())  # Pydanticパーサーのフォーマット指示を表示する
```

</div>
</details>

In [None]:
if CFG.TASK_GEN:
    print(pydanticParser.get_format_instructions())  # Pydanticパーサーのフォーマット指示を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time
if CFG.TASK_GEN:
    ret = generateResponse("What is Machine Learning?", maxNewToken=256) # test Model 
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time
if CFG.TASK_GEN:
    ret = generateResponse("What is Machine Learning?", maxNewToken=256)  # モデルをテストするための応答を生成する
```

</div>
</details>

In [None]:
%%time
if CFG.TASK_GEN:
    ret = generateResponse("What is Machine Learning?", maxNewToken=256)  # モデルをテストするための応答を生成する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.TASK_GEN:
    print(ret) # seem LLM default output in Markdown format
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.TASK_GEN:
    print(ret)  # LLMのデフォルト出力がMarkdown形式であるように見えるので表示する
```

</div>
</details>

In [None]:
if CFG.TASK_GEN:
    print(ret)  # LLMのデフォルト出力がMarkdown形式であるように見えるので表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.TASK_GEN:
    display(Markdown(ret))
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.TASK_GEN:
    display(Markdown(ret))  # Markdown形式の出力を表示する
```

</div>
</details>

In [None]:
if CFG.TASK_GEN:
    display(Markdown(ret))  # Markdown形式の出力を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
clearMemory()
```

</div>
<div class="column-right">

# 日本語訳

```python
clearMemory()  # メモリをクリアする関数を呼び出す
```

</div>
</details>

In [None]:
clearMemory()  # メモリをクリアする関数を呼び出す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time 
if CFG.TASK_GEN:
    # test prompt template with structure format and test parser
    query = "What is Machine Learning?"
    newPrompt =PromptTemplate(input_variables=["question"], template=templatePrompt1)
    finalPrompt = newPrompt.format(
        question= query
    )
    rel = generateResponse(finalPrompt,  maxNewToken=1024)
    jsonTxt = llmJSONparser(rel, key="answer:", integerOut= False)
    print(f"Question : {query}\nResponse Answer: {jsonTxt}") # convert output structure format
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time 
if CFG.TASK_GEN:
    # 構造化フォーマットでプロンプトテンプレートをテストし、パーサーをテストする
    query = "What is Machine Learning?"  # 質問を設定
    newPrompt = PromptTemplate(input_variables=["question"], template=templatePrompt1)  # プロンプトテンプレートを作成
    finalPrompt = newPrompt.format(
        question=query  # 質問をテンプレートに挿入
    )
    rel = generateResponse(finalPrompt, maxNewToken=1024)  # 応答を生成
    jsonTxt = llmJSONparser(rel, key="answer:", integerOut=False)  # JSONパーサーを使用して応答を解析
    print(f"Question : {query}\nResponse Answer: {jsonTxt}")  # 出力構造フォーマットを変換して表示
```

</div>
</details>

In [None]:
%%time 
if CFG.TASK_GEN:
    # 構造化フォーマットでプロンプトテンプレートをテストし、パーサーをテストする
    query = "What is Machine Learning?"  # 質問を設定
    newPrompt = PromptTemplate(input_variables=["question"], template=templatePrompt1)  # プロンプトテンプレートを作成
    finalPrompt = newPrompt.format(
        question=query  # 質問をテンプレートに挿入
    )
    rel = generateResponse(finalPrompt, maxNewToken=1024)  # 応答を生成
    jsonTxt = llmJSONparser(rel, key="answer:", integerOut=False)  # JSONパーサーを使用して応答を解析
    print(f"Question : {query}\nResponse Answer: {jsonTxt}")  # 出力構造フォーマットを変換して表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.TASK_GEN:
    print(rel)
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.TASK_GEN:
    print(rel)  # 生成された応答を表示する
```

</div>
</details>

In [None]:
if CFG.TASK_GEN:
    print(rel)  # 生成された応答を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.TASK_GEN:
    templatePrompt2
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.TASK_GEN:
    templatePrompt2  # プロンプトテンプレート2を表示する
```

</div>
</details>

In [None]:
if CFG.TASK_GEN:
    templatePrompt2  # プロンプトテンプレート2を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time 
if CFG.TASK_GEN:
    # test Structure output control by PydanticOutputParser
    query = "What is Machine Learning?"
    newPrompt = PromptTemplate(template=templatePrompt2,
                          input_variables=["query"],
                          partial_variables={"format_instructions": pydanticParser.get_format_instructions()},  
                          )
    finalPrompt = newPrompt.format(
            query=query,
        )
    print(f"Final Prompt: {finalPrompt}")
    print("Response:\n")
    rel = generateResponse(finalPrompt,  maxNewToken=2048)
    print(rel)
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time 
if CFG.TASK_GEN:
    # PydanticOutputParserによる構造出力制御をテストする
    query = "What is Machine Learning?"  # 質問を設定
    newPrompt = PromptTemplate(template=templatePrompt2,
                          input_variables=["query"],
                          partial_variables={"format_instructions": pydanticParser.get_format_instructions()},  # Pydanticパーサーの指示を部分変数に設定
                          )
    finalPrompt = newPrompt.format(
            query=query,  # 質問をテンプレートに挿入
        )
    print(f"最終プロンプト: {finalPrompt}")  # 最終プロンプトを表示
    print("応答:\n")  # 応答のセクションを表示
    rel = generateResponse(finalPrompt, maxNewToken=2048)  # 応答を生成
    print(rel)  # 生成された応答を表示
```

</div>
</details>

In [None]:
%%time 
if CFG.TASK_GEN:
    # PydanticOutputParserによる構造出力制御をテストする
    query = "What is Machine Learning?"  # 質問を設定
    newPrompt = PromptTemplate(template=templatePrompt2,
                          input_variables=["query"],
                          partial_variables={"format_instructions": pydanticParser.get_format_instructions()},  # Pydanticパーサーの指示を部分変数に設定
                          )
    finalPrompt = newPrompt.format(
            query=query,  # 質問をテンプレートに挿入
        )
    print(f"最終プロンプト: {finalPrompt}")  # 最終プロンプトを表示
    print("応答:\n")  # 応答のセクションを表示
    rel = generateResponse(finalPrompt, maxNewToken=2048)  # 応答を生成
    print(rel)  # 生成された応答を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
clearMemory()
```

</div>
<div class="column-right">

# 日本語訳

```python
clearMemory()  # メモリをクリアする関数を呼び出す
```

</div>
</details>

In [None]:
clearMemory()  # メモリをクリアする関数を呼び出す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# pydanticParser.parse(rel)
```

</div>
<div class="column-right">

# 日本語訳

```python
# pydanticParser.parse(rel)  # 生成された応答をPydanticパーサーで解析するコード（現在コメントアウトされている）
```

</div>
</details>

In [None]:
# pydanticParser.parse(rel)  # 生成された応答をPydanticパーサーで解析するコード（現在コメントアウトされている）

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Prepare Dataset for Fine Tuning

</div>
<div class="column-right">

# 日本語訳

# ファインチューニング用データセットの準備

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
tempTrainData= (trainDF["prompt"])
```

</div>
<div class="column-right">

# 日本語訳

```python
tempTrainData = (trainDF["prompt"])  # トレーニングデータフレームからプロンプト列を抽出する
```

</div>
</details>

In [None]:
tempTrainData = (trainDF["prompt"])  # トレーニングデータフレームからプロンプト列を抽出する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
tempTrainData[0]
```

</div>
<div class="column-right">

# 日本語訳

```python
tempTrainData[0]  # 抽出したトレーニングデータの最初のプロンプトを表示する
```

</div>
</details>

In [None]:
tempTrainData[0]  # 抽出したトレーニングデータの最初のプロンプトを表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
def dataPreprocess(inputStr):
    # concatenate strings in list
    stripStr = inputStr.strip("[]") # remove list symbol
#     print(stripStr)
    sentence = [s.strip("\"") for s in stripStr.split('","')] # list spliter and remove start 
#     print(sentence)
    finalStr = " ".join(sentence) #concatenate snetence into single string 
    return finalStr
```

</div>
<div class="column-right">

# 日本語訳

```python
def dataPreprocess(inputStr):
    # リスト内の文字列を連結する関数
    stripStr = inputStr.strip("[]")  # リスト記号を削除
#     print(stripStr)
    sentence = [s.strip("\"") for s in stripStr.split('","')]  # リストを分割し、先頭の"を削除
#     print(sentence)
    finalStr = " ".join(sentence)  # 文を単一の文字列に連結
    return finalStr  # 最終的な文字列を返す
```

</div>
</details>

In [None]:
def dataPreprocess(inputStr):
    # リスト内の文字列を連結する関数
    stripStr = inputStr.strip("[]")  # リスト記号を削除
#     print(stripStr)
    sentence = [s.strip("\"") for s in stripStr.split('","')]  # リストを分割し、先頭の"を削除
#     print(sentence)
    finalStr = " ".join(sentence)  # 文を単一の文字列に連結
    return finalStr  # 最終的な文字列を返す

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Preprocessing Training / Testing dataset

</div>
<div class="column-right">

# 日本語訳

# トレーニング／テストデータセットの前処理

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF  # トレーニングデータフレームの内容を表示する
```

</div>
</details>

In [None]:
trainDF  # トレーニングデータフレームの内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
tempTrainData[0]
```

</div>
<div class="column-right">

# 日本語訳

```python
tempTrainData[0]  # 抽出したトレーニングデータの最初のプロンプトを表示する
```

</div>
</details>

In [None]:
tempTrainData[0]  # 抽出したトレーニングデータの最初のプロンプトを表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
dataPreprocess(tempTrainData[0])
```

</div>
<div class="column-right">

# 日本語訳

```python
dataPreprocess(tempTrainData[0])  # 最初のトレーニングデータプロンプトを前処理関数に渡して処理する
```

</div>
</details>

In [None]:
dataPreprocess(tempTrainData[0])  # 最初のトレーニングデータプロンプトを前処理関数に渡して処理する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF  # トレーニングデータフレームの内容を表示する
```

</div>
</details>

In [None]:
trainDF  # トレーニングデータフレームの内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
testDF
```

</div>
<div class="column-right">

# 日本語訳

```python
testDF  # テストデータフレームの内容を表示する
```

</div>
</details>

In [None]:
testDF  # テストデータフレームの内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Cleaning Training Dataset
trainDF.loc[:, "prompt"] = trainDF["prompt"].apply(dataPreprocess) # convert list of string into single sentence string
trainDF.loc[:, "response_a"] = trainDF["response_a"].apply(dataPreprocess) # convert list of string into single sentence string
trainDF.loc[:, "response_b"] = trainDF["response_b"].apply(dataPreprocess) # convert list of string into single sentence string 

# Clearning Testing Dataset 
testDF.loc[:, "prompt"] = testDF["prompt"].apply(dataPreprocess) # convert list of string into single sentence string
testDF.loc[:, "response_a"] =  testDF["response_a"].apply(dataPreprocess) # convert list of string into single sentence string
testDF.loc[:, "response_b"] = testDF["response_b"].apply(dataPreprocess) # convert list of string into single sentence string 

```

</div>
<div class="column-right">

# 日本語訳

```python
# トレーニングデータセットのクリーニング
trainDF.loc[:, "prompt"] = trainDF["prompt"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換
trainDF.loc[:, "response_a"] = trainDF["response_a"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換
trainDF.loc[:, "response_b"] = trainDF["response_b"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換

# テストデータセットのクリーニング 
testDF.loc[:, "prompt"] = testDF["prompt"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換
testDF.loc[:, "response_a"] = testDF["response_a"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換
testDF.loc[:, "response_b"] = testDF["response_b"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換
```

</div>
</details>

In [None]:
# トレーニングデータセットのクリーニング
trainDF.loc[:, "prompt"] = trainDF["prompt"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換
trainDF.loc[:, "response_a"] = trainDF["response_a"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換
trainDF.loc[:, "response_b"] = trainDF["response_b"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換

# テストデータセットのクリーニング 
testDF.loc[:, "prompt"] = testDF["prompt"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換
testDF.loc[:, "response_a"] = testDF["response_a"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換
testDF.loc[:, "response_b"] = testDF["response_b"].apply(dataPreprocess)  # ストリングのリストを単一の文に変換

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF  # クリーニング後のトレーニングデータフレームの内容を表示する
```

</div>
</details>

In [None]:
trainDF  # クリーニング後のトレーニングデータフレームの内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
testDF
```

</div>
<div class="column-right">

# 日本語訳

```python
testDF  # クリーニング後のテストデータフレームの内容を表示する
```

</div>
</details>

In [None]:
testDF  # クリーニング後のテストデータフレームの内容を表示する

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## Create Training datase

</div>
<div class="column-right">

# 日本語訳

## トレーニングデータセットの作成

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN:
    def getTokenLength(texts):
        ids = tokenizer(texts.tolist(), return_tensors='np')['input_ids']
        # return length of inputs_ids for each text
        return [len(t) for t in ids]
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN:
    def getTokenLength(texts):
        # テキストのトークン長を取得する関数
        ids = tokenizer(texts.tolist(), return_tensors='np')['input_ids']  # テキストをトークナイズしてIDを取得
        # 各テキストのinput_idsの長さを返す
        return [len(t) for t in ids]  # 各トークンIDの長さをリストで返す
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN:
    def getTokenLength(texts):
        # テキストのトークン長を取得する関数
        ids = tokenizer(texts.tolist(), return_tensors='np')['input_ids']  # テキストをトークナイズしてIDを取得
        # 各テキストのinput_idsの長さを返す
        return [len(t) for t in ids]  # 各トークンIDの長さをリストで返す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# convert targat from one hot encoding into caterogy (numberic)
targetCol = ["winner_model_a", "winner_model_b", "winner_tie"]
trainDF["label"] = np.argmax(trainDF[targetCol].values, axis =1 )  # 0: for winner model a, 1 for winner model b , 2 for winner tie
```

</div>
<div class="column-right">

# 日本語訳

```python
# ターゲットをワンホットエンコーディングからカテゴリ（数値）に変換
targetCol = ["winner_model_a", "winner_model_b", "winner_tie"]
trainDF["label"] = np.argmax(trainDF[targetCol].values, axis=1)  # 0: winner model a, 1: winner model b, 2: winner tie
```

</div>
</details>

In [None]:
# ターゲットをワンホットエンコーディングからカテゴリ（数値）に変換
targetCol = ["winner_model_a", "winner_model_b", "winner_tie"]
trainDF["label"] = np.argmax(trainDF[targetCol].values, axis=1)  # 0: winner model a, 1: winner model b, 2: winner tie

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF["label"].value_counts()
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF["label"].value_counts()  # ターゲットラベルの各カテゴリの出現回数をカウントして表示する
```

</div>
</details>

In [None]:
trainDF["label"].value_counts()  # ターゲットラベルの各カテゴリの出現回数をカウントして表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF["label"]
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF["label"]  # トレーニングデータフレームのラベル列を表示する
```

</div>
</details>

In [None]:
trainDF["label"]  # トレーニングデータフレームのラベル列を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF["label"].value_counts().plot(kind="bar");
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF["label"].value_counts().plot(kind="bar");  # ターゲットラベルの出現回数を棒グラフでプロットする
```

</div>
</details>

In [None]:
trainDF["label"].value_counts().plot(kind="bar");  # ターゲットラベルの出現回数を棒グラフでプロットする

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# trainDF["labelStr"]= trainDF["label"].apply(str)
```

</div>
<div class="column-right">

# 日本語訳

```python
# trainDF["labelStr"] = trainDF["label"].apply(str)  # ラベルを文字列に変換して新しい列に追加するコード（現在コメントアウトされている）
```

</div>
</details>

In [None]:
# trainDF["labelStr"] = trainDF["label"].apply(str)  # ラベルを文字列に変換して新しい列に追加するコード（現在コメントアウトされている）

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# trainDF["labelStr"]
```

</div>
<div class="column-right">

# 日本語訳

```python
# trainDF["labelStr"]  # 文字列形式のラベル列を表示する（現在コメントアウトされている）
```

</div>
</details>

In [None]:
# trainDF["labelStr"]  # 文字列形式のラベル列を表示する（現在コメントアウトされている）

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# create training data set for training feature
# trainDF["text"]=  ("User Prompt: " + trainDF["prompt"] + 
#                      "\n\n---\n\nModel A: " + trainDF["response_a"] +
#                      "\n\n---\n\nModel B: " + trainDF["response_b"] 
#                    )
```

</div>
<div class="column-right">

# 日本語訳

```python
# トレーニング特徴のためのトレーニングデータセットを作成する
# trainDF["text"] =  ("User Prompt: " + trainDF["prompt"] + 
#                      "\n\n---\n\nModel A: " + trainDF["response_a"] +
#                      "\n\n---\n\nModel B: " + trainDF["response_b"] 
#                    )  # ユーザープロンプトとモデルの応答を組み合わせて新しいテキスト列を作成するコード（現在コメントアウトされている）
```

</div>
</details>

In [None]:
# トレーニング特徴のためのトレーニングデータセットを作成する
# trainDF["text"] =  ("User Prompt: " + trainDF["prompt"] + 
#                      "\n\n---\n\nModel A: " + trainDF["response_a"] +
#                      "\n\n---\n\nModel B: " + trainDF["response_b"] 
#                    )  # ユーザープロンプトとモデルの応答を組み合わせて新しいテキスト列を作成するコード（現在コメントアウトされている）

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF["text"]=  ("<prompt>: " + trainDF["prompt"] + 
                     "\n\n<response_a>: " + trainDF["response_a"] +
                     "\n\n<response_b>: " + trainDF["response_b"] 
                   )
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF["text"] =  ("<prompt>: " + trainDF["prompt"] +  # プロンプトを含むテキスト列を作成する
                     "\n\n<response_a>: " + trainDF["response_a"] +  # モデルAの応答を追加
                     "\n\n<response_b>: " + trainDF["response_b"]  # モデルBの応答を追加
                   )
```

</div>
</details>

In [None]:
trainDF["text"] =  ("<prompt>: " + trainDF["prompt"] +  # プロンプトを含むテキスト列を作成する
                     "\n\n<response_a>: " + trainDF["response_a"] +  # モデルAの応答を追加
                     "\n\n<response_b>: " + trainDF["response_b"]  # モデルBの応答を追加
                   )

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
testDF
```

</div>
<div class="column-right">

# 日本語訳

```python
testDF  # テストデータフレームの内容を表示する
```

</div>
</details>

In [None]:
testDF  # テストデータフレームの内容を表示する

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## Prepare Test Data set for submission 

</div>
<div class="column-right">

# 日本語訳

## 提出用のテストデータセットの準備

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# testDF["text"] = ("User Prompt: " + testDF["prompt"] + 
#                      "\n\n---\n\nModel A: " + testDF["response_a"] +
#                      "\n\n---\n\nModel B: " + testDF["response_b"]
#                  )
```

</div>
<div class="column-right">

# 日本語訳

```python
# testDF["text"] = ("User Prompt: " + testDF["prompt"] +  # テストデータのテキスト列を作成するコード（現在コメントアウトされている）
#                      "\n\n---\n\nModel A: " + testDF["response_a"] +
#                      "\n\n---\n\nModel B: " + testDF["response_b"]
#                  )
```

</div>
</details>

In [None]:
# testDF["text"] = ("User Prompt: " + testDF["prompt"] +  # テストデータのテキスト列を作成するコード（現在コメントアウトされている）
#                      "\n\n---\n\nModel A: " + testDF["response_a"] +
#                      "\n\n---\n\nModel B: " + testDF["response_b"]
#                  )

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
testDF["text"]=  ("<prompt>: " + testDF["prompt"] + 
                     "\n\n<response_a>: " + testDF["response_a"] +
                     "\n\n<response_b>: " + testDF["response_b"] 
                   )
```

</div>
<div class="column-right">

# 日本語訳

```python
testDF["text"] =  ("<prompt>: " + testDF["prompt"] +  # テストデータのテキスト列を作成する
                     "\n\n<response_a>: " + testDF["response_a"] +  # モデルAの応答を追加
                     "\n\n<response_b>: " + testDF["response_b"]  # モデルBの応答を追加
                   )
```

</div>
</details>

In [None]:
testDF["text"] =  ("<prompt>: " + testDF["prompt"] +  # テストデータのテキスト列を作成する
                     "\n\n<response_a>: " + testDF["response_a"] +  # モデルAの応答を追加
                     "\n\n<response_b>: " + testDF["response_b"]  # モデルBの応答を追加
                   )

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
print(trainDF["text"][1]) #print the train data sample
```

</div>
<div class="column-right">

# 日本語訳

```python
print(trainDF["text"][1])  # トレーニングデータのサンプルを表示する
```

</div>
</details>

In [None]:
print(trainDF["text"][1])  # トレーニングデータのサンプルを表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if False:  # only for statistic count the length of token
    trainDF.loc[:, 'token_count'] = getTokenLength(trainDF['text']) #calucate each 
```

</div>
<div class="column-right">

# 日本語訳

```python
if False:  # トークンの長さをカウントするためだけの条件
    trainDF.loc[:, 'token_count'] = getTokenLength(trainDF['text'])  # 各テキストのトークン長を計算して追加する
```

</div>
</details>

In [None]:
if False:  # トークンの長さをカウントするためだけの条件
    trainDF.loc[:, 'token_count'] = getTokenLength(trainDF['text'])  # 各テキストのトークン長を計算して追加する

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## Fine Tuning

</div>
<div class="column-right">

# 日本語訳

## ファインチューニング

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF  # ファインチューニング用のトレーニングデータフレームの内容を表示する
```

</div>
</details>

In [None]:
trainDF  # ファインチューニング用のトレーニングデータフレームの内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if False: # only for statistic count the length of token
    print(trainDF['token_count'].describe().to_frame().astype(int)) # check token length in statistic
```

</div>
<div class="column-right">

# 日本語訳

```python
if False:  # トークンの長さをカウントするためだけの条件
    print(trainDF['token_count'].describe().to_frame().astype(int))  # トークン長の統計情報を表示する（現在コメントアウトされている）
```

</div>
</details>

In [None]:
if False:  # トークンの長さをカウントするためだけの条件
    print(trainDF['token_count'].describe().to_frame().astype(int))  # トークン長の統計情報を表示する（現在コメントアウトされている）

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if False:  # only for statistic count the length of token
    # get length of tokens which covers 80% of data, we'll still take 1024 length!
    print(np.percentile(trainDF["token_count"],  q=65))
```

</div>
<div class="column-right">

# 日本語訳

```python
if False:  # トークンの長さをカウントするためだけの条件
    # データの80%をカバーするトークンの長さを取得、長さはまだ1024を使用
    print(np.percentile(trainDF["token_count"], q=65))  # 65パーセンタイルを計算して表示（現在コメントアウトされている）
```

</div>
</details>

In [None]:
if False:  # トークンの長さをカウントするためだけの条件
    # データの80%をカバーするトークンの長さを取得、長さはまだ1024を使用
    print(np.percentile(trainDF["token_count"], q=65))  # 65パーセンタイルを計算して表示（現在コメントアウトされている）

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if False:
    trainDF.drop("token_count", axis=1, inplace=True)
```

</div>
<div class="column-right">

# 日本語訳

```python
if False:
    trainDF.drop("token_count", axis=1, inplace=True)  # token_count列をトレーニングデータフレームから削除するコード（現在コメントアウトされている）
```

</div>
</details>

In [None]:
if False:
    trainDF.drop("token_count", axis=1, inplace=True)  # token_count列をトレーニングデータフレームから削除するコード（現在コメントアウトされている）

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF  # トレーニングデータフレームの内容を表示する
```

</div>
</details>

In [None]:
trainDF  # トレーニングデータフレームの内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
print(testDF["text"][0])
```

</div>
<div class="column-right">

# 日本語訳

```python
print(testDF["text"][0])  # テストデータの最初のテキストを表示する
```

</div>
</details>

In [None]:
print(testDF["text"][0])  # テストデータの最初のテキストを表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_WANDB and CFG.USE_TRAIN:
     # Start a new wandb run
    wandbFineTuningProject = "lmsys-chatbot-araena-fine-tuning"
    runTask1 = wandb.init(project=wandbFineTuningProject, job_type="generation", anonymous="allow")
    # define W&B Table
    wandbCol1 =  ["model", "user query", "modela_ans", "modelb_ans", "label"] #define column for record
    wandbFineTuneTable =wandb.Table(columns=wandbCol1)
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_WANDB and CFG.USE_TRAIN:
    # 新しいwandbランを開始
    wandbFineTuningProject = "lmsys-chatbot-arena-fine-tuning"  # プロジェクト名を設定
    runTask1 = wandb.init(project=wandbFineTuningProject, job_type="generation", anonymous="allow")  # W&Bランを初期化
    # W&Bテーブルを定義
    wandbCol1 = ["model", "user query", "modela_ans", "modelb_ans", "label"]  # 記録用のカラムを定義
    wandbFineTuneTable = wandb.Table(columns=wandbCol1)  # W&Bテーブルを作成
```

</div>
</details>

In [None]:
if CFG.USE_WANDB and CFG.USE_TRAIN:
    # 新しいwandbランを開始
    wandbFineTuningProject = "lmsys-chatbot-arena-fine-tuning"  # プロジェクト名を設定
    runTask1 = wandb.init(project=wandbFineTuningProject, job_type="generation", anonymous="allow")  # W&Bランを初期化
    # W&Bテーブルを定義
    wandbCol1 = ["model", "user query", "modela_ans", "modelb_ans", "label"]  # 記録用のカラムを定義
    wandbFineTuneTable = wandb.Table(columns=wandbCol1)  # W&Bテーブルを作成

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN == True: #requred GPU support
    # for LoRA fine tuning
    from trl import SFTTrainer
    from peft import LoraConfig, PeftModel, get_peft_model #, prepare_model_for_kbit_training #prepare_model_for_int8_training
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN == True:  # GPUサポートが必要
    # LoRAファインチューニング用
    from trl import SFTTrainer  # SFTTrainerをインポート
    from peft import LoraConfig, PeftModel, get_peft_model  # LoRA設定、モデル、取得関数をインポート
    # prepare_model_for_kbit_trainingは非推奨、prepare_model_for_int8_trainingもコメントアウトされている。
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN == True:  # GPUサポートが必要
    # LoRAファインチューニング用
    from trl import SFTTrainer  # SFTTrainerをインポート
    from peft import LoraConfig, PeftModel, get_peft_model  # LoRA設定、モデル、取得関数をインポート
    # prepare_model_for_kbit_trainingは非推奨、prepare_model_for_int8_trainingもコメントアウトされている。

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Setup LoRA For Fine tuning

</div>
<div class="column-right">

# 日本語訳

# LoRAファインチューニングの設定

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN:
    #LoRA config 
    lora_config = LoraConfig(
        r=16,
        lora_alpha=32,
        task_type="SEQ_CLS",  # for Sequence Classification 
        target_modules = ["q_proj", "o_proj", "k_proj", "v_proj",
                      "gate_proj", "up_proj", "down_proj"],
        lora_dropout= 0.05,
    )
    
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN:
    # LoRA設定
    lora_config = LoraConfig(
        r=16,  # LoRAのランク
        lora_alpha=32,  # LoRAのスケーリングファクター
        task_type="SEQ_CLS",  # シーケンス分類用
        target_modules=["q_proj", "o_proj", "k_proj", "v_proj",  # ターゲットモジュールのリスト
                        "gate_proj", "up_proj", "down_proj"],
        lora_dropout=0.05,  # LoRAのドロップアウト率
    )
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN:
    # LoRA設定
    lora_config = LoraConfig(
        r=16,  # LoRAのランク
        lora_alpha=32,  # LoRAのスケーリングファクター
        task_type="SEQ_CLS",  # シーケンス分類用
        target_modules=["q_proj", "o_proj", "k_proj", "v_proj",  # ターゲットモジュールのリスト
                        "gate_proj", "up_proj", "down_proj"],
        lora_dropout=0.05,  # LoRAのドロップアウト率
    )

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# if False:#CFG.USE_TRAIN:
#     model = prepare_model_for_kbit_training(model) # convert float32 to int8 # take care will out of memory for T4 GPU
#     model= get_peft_model(model, lora_config) #get Model With LORD  # take care int8 train will out of memory for T4 GPU
#     model.print_trainable_parameters()
    
if False:#True:
    model.config.use_cache = False
    model = prepare_model_for_kbit_training(model)
    model= get_peft_model(model, lora_config)
    model.print_trainable_parameters()
```

</div>
<div class="column-right">

# 日本語訳

```python
# if False: # CFG.USE_TRAIN:
#     model = prepare_model_for_kbit_training(model)  # float32からint8に変換（T4 GPUでメモリ不足に注意）
#     model = get_peft_model(model, lora_config)  # LoRAを用いてモデルを取得
#     model.print_trainable_parameters()  # 学習可能なパラメータを表示する
    
if False:  # True:
    model.config.use_cache = False  # キャッシュの使用を無効化
    model = prepare_model_for_kbit_training(model)  # モデルをkビットトレーニング用に準備
    model = get_peft_model(model, lora_config)  # LoRA設定でモデルを取得
    model.print_trainable_parameters()  # 学習可能なパラメータを表示する
```

</div>
</details>

In [None]:
# if False: # CFG.USE_TRAIN:
#     model = prepare_model_for_kbit_training(model)  # float32からint8に変換（T4 GPUでメモリ不足に注意）
#     model = get_peft_model(model, lora_config)  # LoRAを用いてモデルを取得
#     model.print_trainable_parameters()  # 学習可能なパラメータを表示する
    
if False:  # True:
    model.config.use_cache = False  # キャッシュの使用を無効化
    model = prepare_model_for_kbit_training(model)  # モデルをkビットトレーニング用に準備
    model = get_peft_model(model, lora_config)  # LoRA設定でモデルを取得
    model.print_trainable_parameters()  # 学習可能なパラメータを表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
model
```

</div>
<div class="column-right">

# 日本語訳

```python
model  # 準備したモデルの内容を表示する
```

</div>
</details>

In [None]:
model  # 準備したモデルの内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN:
    # Create a preprocessing function to tokenize train data and truncate sequences 
    def tokenizeProcess(sample):
        return tokenizer(sample["text"],  max_length=CFG.maxToken, padding=True, truncation=True)
    
 
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN:
    # トレーニングデータをトークナイズし、シーケンスを切り捨てるための前処理関数を作成
    def tokenizeProcess(sample):
        return tokenizer(sample["text"], max_length=CFG.maxToken, padding=True, truncation=True)  # テキストをトークナイズし、パディングと切り捨てを適用する
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN:
    # トレーニングデータをトークナイズし、シーケンスを切り捨てるための前処理関数を作成
    def tokenizeProcess(sample):
        return tokenizer(sample["text"], max_length=CFG.maxToken, padding=True, truncation=True)  # テキストをトークナイズし、パディングと切り捨てを適用する

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Create Training/Validation Dataset

</div>
<div class="column-right">

# 日本語訳

# トレーニング/バリデーションデータセットの作成

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
trainDF.describe()
```

</div>
<div class="column-right">

# 日本語訳

```python
trainDF.describe()  # トレーニングデータフレームの統計情報を表示する
```

</div>
</details>

In [None]:
trainDF.describe()  # トレーニングデータフレームの統計情報を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN:
#     maxTrainData = 300#5000#10000#5000 #10000
#     maxEvalData = 20#100 
    tempTrainDF = trainDF[:CFG.maxTrainData]
    tempEvalDF =  trainDF[CFG.maxTrainData: CFG.maxTrainData+ CFG.maxEvalData]
    # convert HuggingFace dataset
    trainDataset = Dataset.from_pandas(tempTrainDF, split="train")
    evalDataset = Dataset.from_pandas(tempEvalDF, split="test")
    
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN:
    #     maxTrainData = 300 # 5000 # 10000 # 最大トレーニングデータ数の設定（コメントアウトされている）
    #     maxEvalData = 20 # 100  # 最大評価データ数の設定（コメントアウトされている）
    tempTrainDF = trainDF[:CFG.maxTrainData]  # トレーニングデータのサンプリング
    tempEvalDF = trainDF[CFG.maxTrainData: CFG.maxTrainData + CFG.maxEvalData]  # 評価データのサンプリング
    # HuggingFaceデータセットに変換
    trainDataset = Dataset.from_pandas(tempTrainDF, split="train")  # トレーニングデータセットを作成
    evalDataset = Dataset.from_pandas(tempEvalDF, split="test")  # 評価データセットを作成
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN:
    #     maxTrainData = 300 # 5000 # 10000 # 最大トレーニングデータ数の設定（コメントアウトされている）
    #     maxEvalData = 20 # 100  # 最大評価データ数の設定（コメントアウトされている）
    tempTrainDF = trainDF[:CFG.maxTrainData]  # トレーニングデータのサンプリング
    tempEvalDF = trainDF[CFG.maxTrainData: CFG.maxTrainData + CFG.maxEvalData]  # 評価データのサンプリング
    # HuggingFaceデータセットに変換
    trainDataset = Dataset.from_pandas(tempTrainDF, split="train")  # トレーニングデータセットを作成
    evalDataset = Dataset.from_pandas(tempEvalDF, split="test")  # 評価データセットを作成

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN:
    print(tempTrainDF["label"].value_counts())
    print(tempEvalDF["label"].value_counts())
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN:
    print(tempTrainDF["label"].value_counts())  # サンプリングしたトレーニングデータのラベルの出現回数を表示
    print(tempEvalDF["label"].value_counts())  # サンプリングした評価データのラベルの出現回数を表示
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN:
    print(tempTrainDF["label"].value_counts())  # サンプリングしたトレーニングデータのラベルの出現回数を表示
    print(tempEvalDF["label"].value_counts())  # サンプリングした評価データのラベルの出現回数を表示

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

### Create Submit Dataset

</div>
<div class="column-right">

# 日本語訳

### 提出用データセットの作成

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
submitDataset = Dataset.from_pandas(testDF, split="test") 
```

</div>
<div class="column-right">

# 日本語訳

```python
submitDataset = Dataset.from_pandas(testDF, split="test")  # テストデータフレームから提出用データセットを作成
```

</div>
</details>

In [None]:
submitDataset = Dataset.from_pandas(testDF, split="test")  # テストデータフレームから提出用データセットを作成

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
submitDataset
```

</div>
<div class="column-right">

# 日本語訳

```python
submitDataset  # 提出用データセットの内容を表示する
```

</div>
</details>

In [None]:
submitDataset  # 提出用データセットの内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN:
    del tempTrainDF
    del tempEvalDF
    print(len(trainDataset), len(evalDataset))
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN:
    del tempTrainDF  # サンプリングしたトレーニングデータを削除
    del tempEvalDF  # サンプリングした評価データを削除
    print(len(trainDataset), len(evalDataset))  # トレーニングデータセットと評価データセットの長さを表示
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN:
    del tempTrainDF  # サンプリングしたトレーニングデータを削除
    del tempEvalDF  # サンプリングした評価データを削除
    print(len(trainDataset), len(evalDataset))  # トレーニングデータセットと評価データセットの長さを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN:
    # convert dataset to  Datasetdict 
    datasetDict= DatasetDict({
        "train": trainDataset,
        'test': evalDataset
    })
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN:
    # データセットをDatasetDictに変換
    datasetDict = DatasetDict({
        "train": trainDataset,  # トレーニングデータセットを設定
        'test': evalDataset  # 評価データセットを設定
    })
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN:
    # データセットをDatasetDictに変換
    datasetDict = DatasetDict({
        "train": trainDataset,  # トレーニングデータセットを設定
        'test': evalDataset  # 評価データセットを設定
    })

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
submitDataDict = DatasetDict({
    "test": submitDataset
})
```

</div>
<div class="column-right">

# 日本語訳

```python
submitDataDict = DatasetDict({
    "test": submitDataset  # 提出用データセットを含むDatasetDictを作成
})
```

</div>
</details>

In [None]:
submitDataDict = DatasetDict({
    "test": submitDataset  # 提出用データセットを含むDatasetDictを作成
})

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
submitDataDict
```

</div>
<div class="column-right">

# 日本語訳

```python
submitDataDict  # 提出用データセットの辞書の内容を表示する
```

</div>
</details>

In [None]:
submitDataDict  # 提出用データセットの辞書の内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN:
    print(datasetDict)
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN:
    print(datasetDict)  # データセット辞書の内容を表示する
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN:
    print(datasetDict)  # データセット辞書の内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN:
    # drop unused column 
#     datasetDict =datasetDict.remove_columns(['id', 'model_a', 'model_b', 'response_a', 'response_b'])
    datasetDict = datasetDict.remove_columns(['id', 'model_a', 'model_b', 'prompt', 'response_a', 'response_b',
                                 'winner_model_a', 'winner_model_b', 'winner_tie'])
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN:
    # 使用しない列を削除
#     datasetDict = datasetDict.remove_columns(['id', 'model_a', 'model_b', 'response_a', 'response_b'])  # コメントアウトされた行
    datasetDict = datasetDict.remove_columns(['id', 'model_a', 'model_b', 'prompt', 'response_a', 'response_b',
                                 'winner_model_a', 'winner_model_b', 'winner_tie'])  # 不要な列を削除して新しいデータセット辞書を設定
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN:
    # 使用しない列を削除
#     datasetDict = datasetDict.remove_columns(['id', 'model_a', 'model_b', 'response_a', 'response_b'])  # コメントアウトされた行
    datasetDict = datasetDict.remove_columns(['id', 'model_a', 'model_b', 'prompt', 'response_a', 'response_b',
                                 'winner_model_a', 'winner_model_b', 'winner_tie'])  # 不要な列を削除して新しいデータセット辞書を設定

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# convert Train dataset into tokenize 
if CFG.USE_TRAIN:
    datasetDict = datasetDict.map(tokenizeProcess, batched=True)
```

</div>
<div class="column-right">

# 日本語訳

```python
# トレーニングデータセットをトークナイズに変換
if CFG.USE_TRAIN:
    datasetDict = datasetDict.map(tokenizeProcess, batched=True)  # 前処理関数をバッチ処理で適用してトークナイズする
```

</div>
</details>

In [None]:
# トレーニングデータセットをトークナイズに変換
if CFG.USE_TRAIN:
    datasetDict = datasetDict.map(tokenizeProcess, batched=True)  # 前処理関数をバッチ処理で適用してトークナイズする

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# datasetDict["train"].remove_columns(['id', 'model_a', 'model_b','winner_model_a', 'winner_model_b', 'winner_tie'])
```

</div>
<div class="column-right">

# 日本語訳

```python
# datasetDict["train"].remove_columns(['id', 'model_a', 'model_b', 'winner_model_a', 'winner_model_b', 'winner_tie'])  # トレーニングデータセットから不要な列を削除するコード（現在コメントアウトされている）
```

</div>
</details>

In [None]:
# datasetDict["train"].remove_columns(['id', 'model_a', 'model_b', 'winner_model_a', 'winner_model_b', 'winner_tie'])  # トレーニングデータセットから不要な列を削除するコード（現在コメントアウトされている）

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
datasetDict
```

</div>
<div class="column-right">

# 日本語訳

```python
datasetDict  # データセット辞書の内容を表示する
```

</div>
</details>

In [None]:
datasetDict  # データセット辞書の内容を表示する

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## Convert Test submisioin datasetDict

</div>
<div class="column-right">

# 日本語訳

## 提出用データセット辞書の変換

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
submitDataDict.map(tokenizeProcess, batched=True)
```

</div>
<div class="column-right">

# 日本語訳

```python
submitDataDict = submitDataDict.map(tokenizeProcess, batched=True)  # 提出用データセットに前処理関数をバッチ処理で適用してトークナイズする
```

</div>
</details>

In [None]:
submitDataDict = submitDataDict.map(tokenizeProcess, batched=True)  # 提出用データセットに前処理関数をバッチ処理で適用してトークナイズする

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
submitDataDict["test"][0]
```

</div>
<div class="column-right">

# 日本語訳

```python
submitDataDict["test"][0]  # 提出用データセットの最初の項目を表示する
```

</div>
</details>

In [None]:
submitDataDict["test"][0]  # 提出用データセットの最初の項目を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
datasetDict["train"][0]
```

</div>
<div class="column-right">

# 日本語訳

```python
datasetDict["train"][0]  # トレーニングデータセットの最初の項目を表示する
```

</div>
</details>

In [None]:
datasetDict["train"][0]  # トレーニングデータセットの最初の項目を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if True:
    datasetDict = datasetDict.rename_column("label", "labels")
```

</div>
<div class="column-right">

# 日本語訳

```python
if True:
    datasetDict = datasetDict.rename_column("label", "labels")  # 「label」列の名前を「labels」に変更する
```

</div>
</details>

In [None]:
if True:
    datasetDict = datasetDict.rename_column("label", "labels")  # 「label」列の名前を「labels」に変更する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
datasetDict
```

</div>
<div class="column-right">

# 日本語訳

```python
datasetDict  # データセット辞書の内容を表示する
```

</div>
</details>

In [None]:
datasetDict  # データセット辞書の内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN:
    accList = []
    f1List = []
    recallList = []
    preciseList = []
    def compute_metrics1(pred):
        logits, labels= pred
        predictions = np.argmax(logits, axis=1) # 
        return {"accuracy": (predictions == labels).mean()}
    
    def compute_metrics2(pred):
        logits, labels= pred
        predictions = np.argmax(logits, axis=-1) # 
        accuracy = (predictions == labels).mean()
        f1score = f1_score(labels, predictions, average='weighted')
        recallScore = recall_score(labels, predictions,  average='weighted')
        precision = precision_score(labels, predictions,  average='weighted')
        accList.append(accuracy)
        f1List.append(f1score)
        recallList.append(recallScore)
        preciseList.append(precision)
        return {"accuracy": accuracy , "recall":  recallScore,  "precision":precision, 'f1-score': f1score }
    
    def compute_metrics3(eval_preds) -> dict:
        preds = eval_preds.predictions
        labels = eval_preds.label_ids
        probs = torch.from_numpy(preds).float().softmax(-1).numpy()
        loss = log_loss(y_true=labels, y_pred=probs)
        acc = accuracy_score(y_true=labels, y_pred=preds.argmax(-1))
        return {"acc": acc, "log_loss": loss}
    
    def formatFuc(sample):
        text = f"{sample['text']}"
        retrun [text]
    
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN:
    accList = []  # 精度リストの初期化
    f1List = []  # F1スコアリストの初期化
    recallList = []  # 再現率リストの初期化
    preciseList = []  # 精度リストの初期化

    def compute_metrics1(pred):
        logits, labels = pred  # 予測とラベルを取得
        predictions = np.argmax(logits, axis=1)  # 予測の最大値インデックスを取得
        return {"accuracy": (predictions == labels).mean()}  # 精度を計算して返す
    
    def compute_metrics2(pred):
        logits, labels = pred  # 予測とラベルを取得
        predictions = np.argmax(logits, axis=-1)  # 予測の最大値インデックスを取得
        accuracy = (predictions == labels).mean()  # 精度を計算
        f1score = f1_score(labels, predictions, average='weighted')  # F1スコアを計算
        recallScore = recall_score(labels, predictions, average='weighted')  # 再現率を計算
        precision = precision_score(labels, predictions, average='weighted')  # 精度を計算
        accList.append(accuracy)  # 精度をリストに追加
        f1List.append(f1score)  # F1スコアをリストに追加
        recallList.append(recallScore)  # 再現率をリストに追加
        preciseList.append(precision)  # 精度をリストに追加
        return {"accuracy": accuracy, "recall": recallScore, "precision": precision, 'f1-score': f1score}  # 各メトリックを返す
    
    def compute_metrics3(eval_preds) -> dict:
        preds = eval_preds.predictions  # 評価結果から予測を取得
        labels = eval_preds.label_ids  # 評価結果からラベルを取得
        probs = torch.from_numpy(preds).float().softmax(-1).numpy()  # 確率を計算
        loss = log_loss(y_true=labels, y_pred=probs)  # ロスを計算
        acc = accuracy_score(y_true=labels, y_pred=preds.argmax(-1))  # 精度を計算
        return {"acc": acc, "log_loss": loss}  # 精度とロスを返す
    
    def formatFuc(sample):
        text = f"{sample['text']}"  # サンプルのテキストをフォーマット
        return [text]  # テキストをリストとして返す
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN:
    accList = []  # 精度リストの初期化
    f1List = []  # F1スコアリストの初期化
    recallList = []  # 再現率リストの初期化
    preciseList = []  # 精度リストの初期化

    def compute_metrics1(pred):
        logits, labels = pred  # 予測とラベルを取得
        predictions = np.argmax(logits, axis=1)  # 予測の最大値インデックスを取得
        return {"accuracy": (predictions == labels).mean()}  # 精度を計算して返す
    
    def compute_metrics2(pred):
        logits, labels = pred  # 予測とラベルを取得
        predictions = np.argmax(logits, axis=-1)  # 予測の最大値インデックスを取得
        accuracy = (predictions == labels).mean()  # 精度を計算
        f1score = f1_score(labels, predictions, average='weighted')  # F1スコアを計算
        recallScore = recall_score(labels, predictions, average='weighted')  # 再現率を計算
        precision = precision_score(labels, predictions, average='weighted')  # 精度を計算
        accList.append(accuracy)  # 精度をリストに追加
        f1List.append(f1score)  # F1スコアをリストに追加
        recallList.append(recallScore)  # 再現率をリストに追加
        preciseList.append(precision)  # 精度をリストに追加
        return {"accuracy": accuracy, "recall": recallScore, "precision": precision, 'f1-score': f1score}  # 各メトリックを返す
    
    def compute_metrics3(eval_preds) -> dict:
        preds = eval_preds.predictions  # 評価結果から予測を取得
        labels = eval_preds.label_ids  # 評価結果からラベルを取得
        probs = torch.from_numpy(preds).float().softmax(-1).numpy()  # 確率を計算
        loss = log_loss(y_true=labels, y_pred=probs)  # ロスを計算
        acc = accuracy_score(y_true=labels, y_pred=preds.argmax(-1))  # 精度を計算
        return {"acc": acc, "log_loss": loss}  # 精度とロスを返す
    
    def formatFuc(sample):
        text = f"{sample['text']}"  # サンプルのテキストをフォーマット
        return [text]  # テキストをリストとして返す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
datasetDict["test"]
```

</div>
<div class="column-right">

# 日本語訳

```python
datasetDict["test"]  # テストデータセットの内容を表示する
```

</div>
</details>

In [None]:
datasetDict["test"]  # テストデータセットの内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if CFG.USE_TRAIN:
    from transformers import DataCollatorWithPadding

    data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
    trainArg = TrainingArguments(
        per_device_train_batch_size=1,
        per_device_eval_batch_size=1,
        gradient_accumulation_steps=4,
        eval_accumulation_steps=1,
        warmup_steps=2,
#         max_steps=300, # , the total number of training steps to perform, overide num_train epochs
        num_train_epochs=1, # set train epochs
        learning_rate=2e-5,
#         evaluation_strategy= 'steps', # older version 
        eval_strategy="steps",
        save_strategy="steps",
        fp16=True,
        logging_steps=CFG.loggingSteps, # 10,#100, #20, #5,#10,
#         save_steps= 100,
        output_dir= '/kaggle/working/lora_model',#"./results",#"outputs",
        optim="paged_adamw_8bit",
        weight_decay=0.01,
        load_best_model_at_end=True,
#         overwrite_output_dir=True,
#         label_names=["label"],
        report_to= reportTo # avoid wnb access token request during training
    )
    
    trainer = SFTTrainer(
        model = model,
        train_dataset=datasetDict["train"],
        eval_dataset= datasetDict["test"],
        args = trainArg,
        max_seq_length=2048,
        peft_config = lora_config,
#         formatting_func = formatFuc, #formatFuc1, #dataset aleader input_ids  
        data_collator=data_collator,
        compute_metrics = compute_metrics2 #compute_metrics1        
    
    )
```

</div>
<div class="column-right">

# 日本語訳

```python
if CFG.USE_TRAIN:
    from transformers import DataCollatorWithPadding  # データコラレーターのインポート

    data_collator = DataCollatorWithPadding(tokenizer=tokenizer)  # パディングを使用するデータコラレーターのインスタンスを作成
    trainArg = TrainingArguments(
        per_device_train_batch_size=1,  # デバイスごとのトレーニングバッチサイズ
        per_device_eval_batch_size=1,  # デバイスごとの評価バッチサイズ
        gradient_accumulation_steps=4,  # 勾配蓄積ステップ数
        eval_accumulation_steps=1,  # 評価の蓄積ステップ数
        warmup_steps=2,  # ウォームアップステップ数
#         max_steps=300,  # トレーニングステップの総数を設定（エポック数を上書き）
        num_train_epochs=1,  # トレーニングのエポック数
        learning_rate=2e-5,  # 学習率
#         evaluation_strategy='steps',  # 古いバージョン
        eval_strategy="steps",  # 評価の戦略
        save_strategy="steps",  # 保存の戦略
        fp16=True,  # 16ビット浮動小数点演算を使用するか
        logging_steps=CFG.loggingSteps,  # ロギングのステップ数
#         save_steps=100,  # 保存ステップ数
        output_dir='/kaggle/working/lora_model',  # 出力先ディレクトリ
        optim="paged_adamw_8bit",  # 最適化手法
        weight_decay=0.01,  # 重み減衰
        load_best_model_at_end=True,  # 最後に最良モデルをロードするか
#         overwrite_output_dir=True,  # 出力ディレクトリを上書きするか
#         label_names=["label"],  # ラベル名（コメントアウトされている）
        report_to=reportTo  # トレーニング中のW&Bトークン要求を回避
    )
    
    trainer = SFTTrainer(
        model=model,  # 使用するモデル
        train_dataset=datasetDict["train"],  # トレーニングデータセット
        eval_dataset=datasetDict["test"],  # 評価データセット
        args=trainArg,  # トレーニング引数
        max_seq_length=2048,  # 最大シーケンス長
        peft_config=lora_config,  # LoRA設定
#         formatting_func=formatFuc,  # フォーマット関数（コメントアウトされている）
        data_collator=data_collator,  # データコラレーター
        compute_metrics=compute_metrics2  # メトリック計算関数
    )
```

</div>
</details>

In [None]:
if CFG.USE_TRAIN:
    from transformers import DataCollatorWithPadding  # データコラレーターのインポート

    data_collator = DataCollatorWithPadding(tokenizer=tokenizer)  # パディングを使用するデータコラレーターのインスタンスを作成
    trainArg = TrainingArguments(
        per_device_train_batch_size=1,  # デバイスごとのトレーニングバッチサイズ
        per_device_eval_batch_size=1,  # デバイスごとの評価バッチサイズ
        gradient_accumulation_steps=4,  # 勾配蓄積ステップ数
        eval_accumulation_steps=1,  # 評価の蓄積ステップ数
        warmup_steps=2,  # ウォームアップステップ数
#         max_steps=300,  # トレーニングステップの総数を設定（エポック数を上書き）
        num_train_epochs=1,  # トレーニングのエポック数
        learning_rate=2e-5,  # 学習率
#         evaluation_strategy='steps',  # 古いバージョン
        eval_strategy="steps",  # 評価の戦略
        save_strategy="steps",  # 保存の戦略
        fp16=True,  # 16ビット浮動小数点演算を使用するか
        logging_steps=CFG.loggingSteps,  # ロギングのステップ数
#         save_steps=100,  # 保存ステップ数
        output_dir='/kaggle/working/lora_model',  # 出力先ディレクトリ
        optim="paged_adamw_8bit",  # 最適化手法
        weight_decay=0.01,  # 重み減衰
        load_best_model_at_end=True,  # 最後に最良モデルをロードするか
#         overwrite_output_dir=True,  # 出力ディレクトリを上書きするか
#         label_names=["label"],  # ラベル名（コメントアウトされている）
        report_to=reportTo  # トレーニング中のW&Bトークン要求を回避
    )
    
    trainer = SFTTrainer(
        model=model,  # 使用するモデル
        train_dataset=datasetDict["train"],  # トレーニングデータセット
        eval_dataset=datasetDict["test"],  # 評価データセット
        args=trainArg,  # トレーニング引数
        max_seq_length=2048,  # 最大シーケンス長
        peft_config=lora_config,  # LoRA設定
#         formatting_func=formatFuc,  # フォーマット関数（コメントアウトされている）
        data_collator=data_collator,  # データコラレーター
        compute_metrics=compute_metrics2  # メトリック計算関数
    )

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
clearMemory()

```

</div>
<div class="column-right">

# 日本語訳

```python
clearMemory()  # メモリをクリアする関数を呼び出す
```

</div>
</details>

In [None]:
clearMemory()  # メモリをクリアする関数を呼び出す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
device
```

</div>
<div class="column-right">

# 日本語訳

```python
device  # 使用しているデバイスを表示する
```

</div>
</details>

In [None]:
device  # 使用しているデバイスを表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time
if CFG.USE_TRAIN:
    print("Training the Model")
    trainer.train()
#     print("Saving the model!")
    # only saves the incremental 🤗 PEFT weights (adapter_model.bin) that were trained, meaning it is super efficient to store, transfer, and load.
#     trainer.model.save_pretrained('fine-tuned-model')
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time
if CFG.USE_TRAIN:
    print("モデルをトレーニング中")
    trainer.train()  # モデルのトレーニングを実行
#     print("モデルを保存中!")
    # トレーニングした増分の🤗 PEFT重み（adapter_model.bin）だけを保存し、保存、転送、ロードが非常に効率的になります。
#     trainer.model.save_pretrained('fine-tuned-model')  # ファインチューニングしたモデルを保存するコード（現在コメントアウトされている）
```

</div>
</details>

In [None]:
%%time
if CFG.USE_TRAIN:
    print("モデルをトレーニング中")
    trainer.train()  # モデルのトレーニングを実行
#     print("モデルを保存中!")
    # トレーニングした増分の🤗 PEFT重み（adapter_model.bin）だけを保存し、保存、転送、ロードが非常に効率的になります。
#     trainer.model.save_pretrained('fine-tuned-model')  # ファインチューニングしたモデルを保存するコード（現在コメントアウトされている）

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# # only saves the incremental 🤗 PEFT weights (adapter_model.bin) that were trained, meaning it is super efficient to store, transfer, and load.
if CFG.USE_TRAIN:
    print("Saving the model!")
    trainer.model.save_pretrained('lora_model')
```

</div>
<div class="column-right">

# 日本語訳

```python
# トレーニングした増分の🤗 PEFT重み（adapter_model.bin）だけを保存し、保存、転送、ロードが非常に効率的になります。
if CFG.USE_TRAIN:
    print("モデルを保存中!")
    trainer.model.save_pretrained('lora_model')  # モデルを指定したディレクトリに保存する
```

</div>
</details>

In [None]:
# トレーニングした増分の🤗 PEFT重み（adapter_model.bin）だけを保存し、保存、転送、ロードが非常に効率的になります。
if CFG.USE_TRAIN:
    print("モデルを保存中!")
    trainer.model.save_pretrained('lora_model')  # モデルを指定したディレクトリに保存する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
clearMemory()
```

</div>
<div class="column-right">

# 日本語訳

```python
clearMemory()  # メモリをクリアする関数を呼び出す
```

</div>
</details>

In [None]:
clearMemory()  # メモリをクリアする関数を呼び出す

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Inference Test

</div>
<div class="column-right">

# 日本語訳

# 推論テスト

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
def getClassifierOutput(text):
        """
        Direct sendtext LLM model, get classification output ,
        
        """
        with torch.no_grad():
            inputIds = tokenizer(text, return_tensors="pt").to(device)
            logits = model(**inputIds).logits
            probabilities = nn.functional.softmax(logits, dim=-1)
            classID = logits.argmax().item()
            return probabilities , classID 
```

</div>
<div class="column-right">

# 日本語訳

```python
def getClassifierOutput(text):
        """
        テキストをLLMモデルに直接送信し、分類出力を取得する関数
        """
        with torch.no_grad():
            inputIds = tokenizer(text, return_tensors="pt").to(device)  # テキストをトークナイズしてテンソル化
            logits = model(**inputIds).logits  # モデルからロジットを取得
            probabilities = nn.functional.softmax(logits, dim=-1)  # ソフトマックス関数で確率を計算
            classID = logits.argmax().item()  # 最大のロジットを持つクラスのIDを取得
            return probabilities, classID  # 確率とクラスIDを返す
```

</div>
</details>

In [None]:
def getClassifierOutput(text):
        """
        テキストをLLMモデルに直接送信し、分類出力を取得する関数
        """
        with torch.no_grad():
            inputIds = tokenizer(text, return_tensors="pt").to(device)  # テキストをトークナイズしてテンソル化
            logits = model(**inputIds).logits  # モデルからロジットを取得
            probabilities = nn.functional.softmax(logits, dim=-1)  # ソフトマックス関数で確率を計算
            classID = logits.argmax().item()  # 最大のロジットを持つクラスのIDを取得
            return probabilities, classID  # 確率とクラスIDを返す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
print(submitDataDict["test"]["text"][0])
```

</div>
<div class="column-right">

# 日本語訳

```python
print(submitDataDict["test"]["text"][0])  # 提出用データセットの最初のテキストを表示する
```

</div>
</details>

In [None]:
print(submitDataDict["test"]["text"][0])  # 提出用データセットの最初のテキストを表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# accList
# f1List
# recallList
# preciseList
```

</div>
<div class="column-right">

# 日本語訳

```python
# accList  # 精度リスト（コメントアウトされている）
# f1List  # F1スコアリスト（コメントアウトされている）
# recallList  # 再現率リスト（コメントアウトされている）
# preciseList  # 精度リスト（コメントアウトされている）
```

</div>
</details>

In [None]:
# accList  # 精度リスト（コメントアウトされている）
# f1List  # F1スコアリスト（コメントアウトされている）
# recallList  # 再現率リスト（コメントアウトされている）
# preciseList  # 精度リスト（コメントアウトされている）

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
list(range(1, len(accList)+1))
```

</div>
<div class="column-right">

# 日本語訳

```python
list(range(1, len(accList) + 1))  # 精度リストの長さに基づいて1からリストを生成する
```

</div>
</details>

In [None]:
list(range(1, len(accList) + 1))  # 精度リストの長さに基づいて1からリストを生成する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import matplotlib.pyplot as plt
```

</div>
<div class="column-right">

# 日本語訳

```python
import matplotlib.pyplot as plt  # データの可視化のためにMatplotlibをインポート
```

</div>
</details>

In [None]:
import matplotlib.pyplot as plt  # データの可視化のためにMatplotlibをインポート

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
plt.plot(list(range(1, len(accList)+1)), accList)
plt.xlabel("Step")
plt.ylabel("Accuary")
plt.title("Accuracy")
plt.show();
```

</div>
<div class="column-right">

# 日本語訳

```python
plt.plot(list(range(1, len(accList) + 1)), accList)  # 精度リストをプロット
plt.xlabel("Step")  # x軸のラベルを設定
plt.ylabel("Accuracy")  # y軸のラベルを設定
plt.title("Accuracy")  # グラフのタイトルを設定
plt.show();  # グラフを表示
```

</div>
</details>

In [None]:
plt.plot(list(range(1, len(accList) + 1)), accList)  # 精度リストをプロット
plt.xlabel("Step")  # x軸のラベルを設定
plt.ylabel("Accuracy")  # y軸のラベルを設定
plt.title("Accuracy")  # グラフのタイトルを設定
plt.show();  # グラフを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
plt.plot(list(range(1, len(f1List)+1)), f1List)
plt.xlabel("Step")
plt.ylabel("F1-Score")
plt.title("F1 Score")
plt.show();
```

</div>
<div class="column-right">

# 日本語訳

```python
plt.plot(list(range(1, len(f1List) + 1)), f1List)  # F1スコアリストをプロット
plt.xlabel("Step")  # x軸のラベルを設定
plt.ylabel("F1-Score")  # y軸のラベルを設定
plt.title("F1 Score")  # グラフのタイトルを設定
plt.show();  # グラフを表示
```

</div>
</details>

In [None]:
plt.plot(list(range(1, len(f1List) + 1)), f1List)  # F1スコアリストをプロット
plt.xlabel("Step")  # x軸のラベルを設定
plt.ylabel("F1-Score")  # y軸のラベルを設定
plt.title("F1 Score")  # グラフのタイトルを設定
plt.show();  # グラフを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
plt.plot(list(range(1, len(recallList)+1)), recallList)
plt.xlabel("Step")
plt.ylabel("Recall")
plt.title("Recall")
plt.show();
```

</div>
<div class="column-right">

# 日本語訳

```python
plt.plot(list(range(1, len(recallList) + 1)), recallList)  # 再現率リストをプロット
plt.xlabel("Step")  # x軸のラベルを設定
plt.ylabel("Recall")  # y軸のラベルを設定
plt.title("Recall")  # グラフのタイトルを設定
plt.show();  # グラフを表示
```

</div>
</details>

In [None]:
plt.plot(list(range(1, len(recallList) + 1)), recallList)  # 再現率リストをプロット
plt.xlabel("Step")  # x軸のラベルを設定
plt.ylabel("Recall")  # y軸のラベルを設定
plt.title("Recall")  # グラフのタイトルを設定
plt.show();  # グラフを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
plt.plot(list(range(1, len(preciseList)+1)), preciseList)
plt.xlabel("Step")
plt.ylabel("Precision")
plt.title("Precision")
plt.show();
```

</div>
<div class="column-right">

# 日本語訳

```python
plt.plot(list(range(1, len(preciseList) + 1)), preciseList)  # 精度リストをプロット
plt.xlabel("Step")  # x軸のラベルを設定
plt.ylabel("Precision")  # y軸のラベルを設定
plt.title("Precision")  # グラフのタイトルを設定
plt.show();  # グラフを表示
```

</div>
</details>

In [None]:
plt.plot(list(range(1, len(preciseList) + 1)), preciseList)  # 精度リストをプロット
plt.xlabel("Step")  # x軸のラベルを設定
plt.ylabel("Precision")  # y軸のラベルを設定
plt.title("Precision")  # グラフのタイトルを設定
plt.show();  # グラフを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
submitDF
```

</div>
<div class="column-right">

# 日本語訳

```python
submitDF  # 提出用データフレームの内容を表示する
```

</div>
</details>

In [None]:
submitDF  # 提出用データフレームの内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
finalDF = submitDF.copy()
finalDF
```

</div>
<div class="column-right">

# 日本語訳

```python
finalDF = submitDF.copy()  # 提出用データフレームのコピーを作成
finalDF  # コピーしたデータフレームの内容を表示する
```

</div>
</details>

In [None]:
finalDF = submitDF.copy()  # 提出用データフレームのコピーを作成
finalDF  # コピーしたデータフレームの内容を表示する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
from torch import nn
```

</div>
<div class="column-right">

# 日本語訳

```python
from torch import nn  # PyTorchのニューラルネットワークモジュールをインポート
```

</div>
</details>

In [None]:
from torch import nn  # PyTorchのニューラルネットワークモジュールをインポート

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
wina , winb , tie =[], [], [] 
for i, text in enumerate(submitDataDict["test"]["text"]):
    probs , classID = getClassifierOutput(text)
#     print("{}: ", probs.tolist()[0])
    rounded_probs = [round(val, 6) for val in probs.tolist()[0]]
    print(rounded_probs)
    print("Classified ID : ", classID)
    wina.append(rounded_probs[0])
    winb.append(rounded_probs[1])
    tie.append(rounded_probs[2])
    #calculate probability
#     print("Probabilities: ", [round(val, 6) for val in probabilities.tolist()[0]])
    #write to submit DF
#     finalDF.iloc[i, 1:] = [round(val, 6) for val in probabilities.tolist()[0]] #logits.tolist()[0] #update column 
finalDF["winner_model_a"] = wina
finalDF["winner_model_b"] = winb
finalDF["winner_tie"] = tie
```

</div>
<div class="column-right">

# 日本語訳

```python
wina, winb, tie = [], [], []  # 各結果を格納するリストを初期化
for i, text in enumerate(submitDataDict["test"]["text"]):
    probs, classID = getClassifierOutput(text)  # テキストから分類出力を取得
#     print("{}: ", probs.tolist()[0])
    rounded_probs = [round(val, 6) for val in probs.tolist()[0]]  # 確率を小数点以下6桁で丸める
    print(rounded_probs)  # 丸めた確率を表示
    print("Classified ID : ", classID)  # 分類されたIDを表示
    wina.append(rounded_probs[0])  # モデルAの勝率をリストに追加
    winb.append(rounded_probs[1])  # モデルBの勝率をリストに追加
    tie.append(rounded_probs[2])  # タイの勝率をリストに追加
    # 確率を計算
#     print("Probabilities: ", [round(val, 6) for val in probabilities.tolist()[0]])
    # 提出DFに書き込み
#     finalDF.iloc[i, 1:] = [round(val, 6) for val in probabilities.tolist()[0]]  # カラムを更新
finalDF["winner_model_a"] = wina  # モデルAの結果をデータフレームに追加
finalDF["winner_model_b"] = winb  # モデルBの結果をデータフレームに追加
finalDF["winner_tie"] = tie  # タイの結果をデータフレームに追加
```

</div>
</details>

In [None]:
wina, winb, tie = [], [], []  # 各結果を格納するリストを初期化
for i, text in enumerate(submitDataDict["test"]["text"]):
    probs, classID = getClassifierOutput(text)  # テキストから分類出力を取得
#     print("{}: ", probs.tolist()[0])
    rounded_probs = [round(val, 6) for val in probs.tolist()[0]]  # 確率を小数点以下6桁で丸める
    print(rounded_probs)  # 丸めた確率を表示
    print("Classified ID : ", classID)  # 分類されたIDを表示
    wina.append(rounded_probs[0])  # モデルAの勝率をリストに追加
    winb.append(rounded_probs[1])  # モデルBの勝率をリストに追加
    tie.append(rounded_probs[2])  # タイの勝率をリストに追加
    # 確率を計算
#     print("Probabilities: ", [round(val, 6) for val in probabilities.tolist()[0]])
    # 提出DFに書き込み
#     finalDF.iloc[i, 1:] = [round(val, 6) for val in probabilities.tolist()[0]]  # カラムを更新
finalDF["winner_model_a"] = wina  # モデルAの結果をデータフレームに追加
finalDF["winner_model_b"] = winb  # モデルBの結果をデータフレームに追加
finalDF["winner_tie"] = tie  # タイの結果をデータフレームに追加

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
finalDF.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
finalDF.head()  # 最初の5行を表示して、最終データフレームの内容を確認する
```

</div>
</details>

In [None]:
finalDF.head()  # 最初の5行を表示して、最終データフレームの内容を確認する

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
finalDF.to_csv('submission.csv' , index=False)
```

</div>
<div class="column-right">

# 日本語訳

```python
finalDF.to_csv('submission.csv', index=False)  # 最終データフレームをCSVファイルとして保存する（インデックスなし）
```

</div>
</details>

In [None]:
finalDF.to_csv('submission.csv', index=False)  # 最終データフレームをCSVファイルとして保存する（インデックスなし）

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# clearMemory()
```

</div>
<div class="column-right">

# 日本語訳

```python
# clearMemory()  # メモリをクリアする関数を呼び出すコード（現在コメントアウトされている）
```

</div>
</details>

In [None]:
# clearMemory()  # メモリをクリアする関数を呼び出すコード（現在コメントアウトされている）