# 要約 
このノートブックは、LMSYS - Chatbot Arenaコンペティションにおける人間による好み予測のためのDeberta-v3 xsmallモデルを使用したスターターコードです。以下に、取り組んでいる問題や使用している手法、ライブラリについての要約を示します。

### 問題
このノートブックでは、異なる分岐によるLLMの応答の優劣を予測することを目的としています。具体的には、与えられたプロンプトに対して生成された応答のうち、どちらのモデルが優れているか（または引き分けか）を予測するモデルを訓練します。

### 手法
1. **モデルの選定**: Deberta-v3 xsmallモデルを使用しています。このモデルは、テキストの埋め込みを計算するために利用され、文脈情報を捉えるのに効果的です。

2. **データ処理**: プロンプトと応答を含むデータセットを処理し、必要なラベルを追加する処理を行っています。「winner_model_a」「winner_model_b」「winner_tie」に基づいてターゲットラベルを生成します。

3. **トークナイジング**: Hugging Faceの`AutoTokenizer`を使用してテキストをトークナイズし、特殊トークンを追加して、応答形式を整えています。

4. **データセットとデータローダー**: `TrainDataset`クラスを定義し、`DataLoader`を利用してミニバッチ処理を行います。

5. **モデルの定義**: `CustomModel`クラスを定義し、Deberta-v3モデルの出力を平均プーリングし、最終的な出力を得るための全結合層を追加しています。

6. **訓練と評価**: 訓練ループを設け、訓練データとバリデーションデータを使用してモデルを訓練しています。損失関数にはクロスエントロピーを使用し、訓練及び評価時にログを取るように設定されています。

### 使用ライブラリ
- **PyTorch**: モデルの構築、訓練、評価に主要に使用。
- **Transformers**: Hugging Faceのライブラリを使用してトークナイジングとモデルを利用。
- **NumPy**および**Pandas**: データ処理や操作に使用。
- **Scikit-learn**: 評価指標としてログロスを計算するために使用。

### 結論
本ノートブックは、自然言語モデルに基づいたチャットボットの応答を比較し、人間の好みに基づく優劣を予測するための基盤を提供しています。Deberta-v3を用いたアプローチは、対応するプロンプトと応答を効果的に処理し、最終的に人間の選好を学習するモデル作りのための重要なステップとされています。

---


# 用語概説 
以下は、示されたJupyter Notebook内で機械学習・深層学習の初心者がつまずきそうな専門用語の簡単な解説です。

1. **gradient_checkpointing（勾配チェックポイント）**:
   - メモリ使用量を削減するためのテクニック。大きなモデルでバックプロパゲーションを行う際、すべての中間結果を保存するのではなく、一部を計算して必要なときに再計算することで、GPUメモリを節約する。

2. **mean pooling（平均プーリング）**:
   - 畳み込みニューラルネットワークやトランスフォーマーモデルで、情報を集約する手法。入力の各特徴ベクトルの平均を取ることで、固定長の出力を得る。特に、注意マスクを使用して、特定の入力位置を考慮することが重要。

3. **pretrained model（事前学習済みモデル）**:
   - 大規模なデータセットであらかじめトレーニングされたモデル。他のタスクに転用することができる。これにより、モデルをゼロから訓練する必要がなく、少ないデータで効果的な結果を得られる。

4. **log_loss（対数損失）**:
   - 確率的な予測の質を測るための指標。分類問題において、実際のラベルと予測の確率分布との間の差異を示し、小さいほど良い。特にマルチクラス問題で有効。

5. **optimizer（オプティマイザ）**:
   - モデルのパラメータを更新するためのアルゴリズム。損失関数を最小化することを目的として、勾配降下法やその変種（例: Adam、SGDなど）を利用する。

6. **scheduler（学習率スケジューラ）**:
   - 学習率を訓練の進捗に応じて調整する仕組み。これにより、モデルの収束を改善したり過学習を防いだりすることができる。例として、線形スケジュールやコサインスケジュールがある。

7. **DataLoader（データローダー）**:
   - バッチ単位でデータを効率的に読み込むためのPyTorchのクラス。データをシャッフルしたり、ミニバッチを作成したりする機能がある。

8. **torch.Tensor（トーチテンソル）**:
   - PyTorchのデータ構造で、NumPy配列に似ているが、GPU上で計算を行う能力を備えている。テンソルの演算は、GPUを使用することで高速化される。

9. **target label（ターゲットラベル）**:
   - モデルが予測を行う際の正解ラベル。または、モデルの学習中に学習データの出力として用いるラベルを指す。

10. **attention mask（注意マスク）**:
    - トランスフォーマーモデルにおいて、入力シーケンスのどの部分に注意を払うべきかを指定するためのもの。特に、パディングされたトークンを無視するために使用される。

これらの用語は、より深く理解するためには、それぞれのコンセプトに関連する背景知識や実装理解も必要になる場合があります。

---


<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# About this notebook
- Deberta-v3 xsmall starter code
- Original notebook is [here](https://www.kaggle.com/code/yasufuminakama/fb3-deberta-v3-base-baseline-train)
- Inference notebook will be updated a little later.
- In this notebook, I just use only prompt so you can use response_a, response_a, etc.



If this notebook is helpful, feel free to upvote.

And please upvote the original notebook :)

`V1` - Run debug mode for test
- only used prompt, you can add more texts

`V2` - Remove existing preprocessing (this part needs more ideas)
- please see [this](https://www.kaggle.com/competitions/learning-agency-lab-automated-essay-scoring-2/discussion/497832)
- changed `max_length = 1024` and `lr = 1e-5`

`V3` - Will be updated for all texts or HuggingFace, etc. 

</div>
<div class="column-right">

# 日本語訳

# このノートブックについて
- Deberta-v3 xsmallのスターターコード
- 元のノートブックは[こちら](https://www.kaggle.com/code/yasufuminakama/fb3-deberta-v3-base-baseline-train)
- 推論ノートブックは後ほど更新されます。
- このノートブックでは、プロンプトのみを使用していますので、response_a、response_bなどを使用できます。

このノートブックが役立った場合は、自由にアップボートしてください。

そして、元のノートブックにもアップボートしてください :)

`V1` - テスト用のデバッグモードを実行
- プロンプトのみを使用しています。さらにテキストを追加できます。

`V2` - 既存の前処理を削除（この部分にはさらなるアイデアが必要です）
- [こちら](https://www.kaggle.com/competitions/learning-agency-lab-automated-essay-scoring-2/discussion/497832)を参照してください。
- `max_length = 1024`と`lr = 1e-5`に変更しました。

`V3` - すべてのテキストまたはHuggingFaceなどに対して更新されます。


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ====================================================
# Directory settings
# ====================================================
import os

OUTPUT_DIR = './'
if not os.path.exists(OUTPUT_DIR):
    os.makedirs(OUTPUT_DIR)
```

</div>
<div class="column-right">

# 日本語訳

```python
# ====================================================
# ディレクトリ設定
# ====================================================
import os

OUTPUT_DIR = './'
if not os.path.exists(OUTPUT_DIR):
    os.makedirs(OUTPUT_DIR)
```

</div>
</details>

In [None]:
# ====================================================
# ディレクトリ設定
# ====================================================
import os

OUTPUT_DIR = './'
if not os.path.exists(OUTPUT_DIR):
    os.makedirs(OUTPUT_DIR)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
!nvidia-smi
```

</div>
<div class="column-right">

# 日本語訳

```python
!nvidia-smi
```

</div>
</details>

In [None]:
!nvidia-smi

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ====================================================
# CFG
# ====================================================
class CFG:
    wandb=False
    competition='LMSYS'
    _wandb_kernel='test'
    debug=True
    apex=True
    print_freq=20
    num_workers=4
    model="microsoft/deberta-v3-xsmall" # ["microsoft/deberta-v3-small, microsoft/deberta-v3-base"]
    gradient_checkpointing=False
    scheduler='cosine' # ['linear', 'cosine']
    batch_scheduler=True
    num_cycles=0.5
    num_warmup_steps=0
    epochs=4
    encoder_lr=1e-5
    decoder_lr=1e-5
    min_lr=1e-5
    eps=1e-6
    betas=(0.9, 0.999)
    batch_size=4
    max_len=2048
    weight_decay=0.01
    gradient_accumulation_steps=1
    max_grad_norm=1000
    target_label=['target']
    target_cols=['winner_model_a', 'winner_model_b', 'winner_tie']
    seed=42
    train=True
    
if CFG.debug:
    CFG.epochs = 2
    CFG.trn_fold = [0, 1]
```

</div>
<div class="column-right">

# 日本語訳

```python
# ====================================================
# CFG
# ====================================================
class CFG:
    wandb=False
    competition='LMSYS'
    _wandb_kernel='test'
    debug=True
    apex=True
    print_freq=20
    num_workers=4
    model="microsoft/deberta-v3-xsmall" # ["microsoft/deberta-v3-small", "microsoft/deberta-v3-base"]
    gradient_checkpointing=False
    scheduler='cosine' # ['linear', 'cosine']
    batch_scheduler=True
    num_cycles=0.5
    num_warmup_steps=0
    epochs=4
    encoder_lr=1e-5
    decoder_lr=1e-5
    min_lr=1e-5
    eps=1e-6
    betas=(0.9, 0.999)
    batch_size=4
    max_len=2048
    weight_decay=0.01
    gradient_accumulation_steps=1
    max_grad_norm=1000
    target_label=['target']
    target_cols=['winner_model_a', 'winner_model_b', 'winner_tie']
    seed=42
    train=True
    
if CFG.debug:
    CFG.epochs = 2
    CFG.trn_fold = [0, 1]
```

</div>
</details>

In [None]:
# ====================================================
# CFG
# ====================================================
class CFG:
    wandb=False
    competition='LMSYS'
    _wandb_kernel='test'
    debug=True
    apex=True
    print_freq=20
    num_workers=4
    model="microsoft/deberta-v3-xsmall" # ["microsoft/deberta-v3-small", "microsoft/deberta-v3-base"]
    gradient_checkpointing=False
    scheduler='cosine' # ['linear', 'cosine']
    batch_scheduler=True
    num_cycles=0.5
    num_warmup_steps=0
    epochs=4
    encoder_lr=1e-5
    decoder_lr=1e-5
    min_lr=1e-5
    eps=1e-6
    betas=(0.9, 0.999)
    batch_size=4
    max_len=2048
    weight_decay=0.01
    gradient_accumulation_steps=1
    max_grad_norm=1000
    target_label=['target']
    target_cols=['winner_model_a', 'winner_model_b', 'winner_tie']
    seed=42
    train=True
    
if CFG.debug:
    CFG.epochs = 2
    CFG.trn_fold = [0, 1]

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ====================================================
# Library
# ====================================================
import os
import gc
import re
import ast
import sys
import copy
import json
import time
import math
import string
import pickle
import random
import joblib
import itertools
import warnings
warnings.filterwarnings("ignore")

import scipy as sp
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
from tqdm.auto import tqdm
from sklearn.metrics import log_loss
from sklearn.model_selection import StratifiedKFold, GroupKFold, KFold

import torch
import torch.nn as nn
from torch.nn import Parameter
import torch.nn.functional as F
from torch.optim import Adam, SGD, AdamW
from torch.utils.data import DataLoader, Dataset

os.system('python -m pip install --no-index --find-links=../input/lmsys-pip-wheels transformers')
os.system('python -m pip install --no-index --find-links=../input/lmsys-pip-wheels tokenizers')

import tokenizers
import transformers
print(f"tokenizers.__version__: {tokenizers.__version__}")
print(f"transformers.__version__: {transformers.__version__}")
from transformers import AutoTokenizer, AutoModel, AutoConfig
from transformers import get_linear_schedule_with_warmup, get_cosine_schedule_with_warmup
%env TOKENIZERS_PARALLELISM=true

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
```

</div>
<div class="column-right">

# 日本語訳

```python
# ====================================================
# ライブラリ
# ====================================================
import os
import gc
import re
import ast
import sys
import copy
import json
import time
import math
import string
import pickle
import random
import joblib
import itertools
import warnings
warnings.filterwarnings("ignore")

import scipy as sp
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
from tqdm.auto import tqdm
from sklearn.metrics import log_loss
from sklearn.model_selection import StratifiedKFold, GroupKFold, KFold

import torch
import torch.nn as nn
from torch.nn import Parameter
import torch.nn.functional as F
from torch.optim import Adam, SGD, AdamW
from torch.utils.data import DataLoader, Dataset

os.system('python -m pip install --no-index --find-links=../input/lmsys-pip-wheels transformers')
os.system('python -m pip install --no-index --find-links=../input/lmsys-pip-wheels tokenizers')

import tokenizers
import transformers
print(f"tokenizers.__version__: {tokenizers.__version__}")
print(f"transformers.__version__: {transformers.__version__}")
from transformers import AutoTokenizer, AutoModel, AutoConfig
from transformers import get_linear_schedule_with_warmup, get_cosine_schedule_with_warmup
%env TOKENIZERS_PARALLELISM=true

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
```

</div>
</details>

In [None]:
# ====================================================
# ライブラリ
# ====================================================
import os
import gc
import re
import ast
import sys
import copy
import json
import time
import math
import string
import pickle
import random
import joblib
import itertools
import warnings
warnings.filterwarnings("ignore")

import scipy as sp
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)
from tqdm.auto import tqdm
from sklearn.metrics import log_loss
from sklearn.model_selection import StratifiedKFold, GroupKFold, KFold

import torch
import torch.nn as nn
from torch.nn import Parameter
import torch.nn.functional as F
from torch.optim import Adam, SGD, AdamW
from torch.utils.data import DataLoader, Dataset

os.system('python -m pip install --no-index --find-links=../input/lmsys-pip-wheels transformers')
os.system('python -m pip install --no-index --find-links=../input/lmsys-pip-wheels tokenizers')

import tokenizers
import transformers
print(f"tokenizers.__version__: {tokenizers.__version__}")
print(f"transformers.__version__: {transformers.__version__}")
from transformers import AutoTokenizer, AutoModel, AutoConfig
from transformers import get_linear_schedule_with_warmup, get_cosine_schedule_with_warmup
%env TOKENIZERS_PARALLELISM=true

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ====================================================
# Utils
# ====================================================
def get_score(y_trues, y_preds):
    score = log_loss(y_trues, y_preds, labels=[0, 1, 2])
    return score


def get_logger(filename=OUTPUT_DIR+'train'):
    from logging import getLogger, INFO, StreamHandler, FileHandler, Formatter
    logger = getLogger(__name__)
    logger.setLevel(INFO)
    handler1 = StreamHandler()
    handler1.setFormatter(Formatter("%(message)s"))
    handler2 = FileHandler(filename=f"{filename}.log")
    handler2.setFormatter(Formatter("%(message)s"))
    logger.addHandler(handler1)
    logger.addHandler(handler2)
    return logger

LOGGER = get_logger()


def seed_everything(seed=42):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True
    
seed_everything(seed=CFG.seed)
```

</div>
<div class="column-right">

# 日本語訳

```python
# ====================================================
# ユーティリティ
# ====================================================
def get_score(y_trues, y_preds):
    # ログロスを計算します
    score = log_loss(y_trues, y_preds, labels=[0, 1, 2])
    return score


def get_logger(filename=OUTPUT_DIR+'train'):
    from logging import getLogger, INFO, StreamHandler, FileHandler, Formatter
    logger = getLogger(__name__)
    logger.setLevel(INFO)
    handler1 = StreamHandler() 
    handler1.setFormatter(Formatter("%(message)s"))  # コンソールに出力されるフォーマット
    handler2 = FileHandler(filename=f"{filename}.log")  # ファイルに出力されるフォーマット
    handler2.setFormatter(Formatter("%(message)s"))
    logger.addHandler(handler1)
    logger.addHandler(handler2)
    return logger

LOGGER = get_logger()

def seed_everything(seed=42):
    # シード値を設定して再現性を持たせるための関数
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True
    
seed_everything(seed=CFG.seed)
```

</div>
</details>

In [None]:
# ====================================================
# ユーティリティ
# ====================================================
def get_score(y_trues, y_preds):
    # ログロスを計算します
    score = log_loss(y_trues, y_preds, labels=[0, 1, 2])
    return score


def get_logger(filename=OUTPUT_DIR+'train'):
    from logging import getLogger, INFO, StreamHandler, FileHandler, Formatter
    logger = getLogger(__name__)
    logger.setLevel(INFO)
    handler1 = StreamHandler() 
    handler1.setFormatter(Formatter("%(message)s"))  # コンソールに出力されるフォーマット
    handler2 = FileHandler(filename=f"{filename}.log")  # ファイルに出力されるフォーマット
    handler2.setFormatter(Formatter("%(message)s"))
    logger.addHandler(handler1)
    logger.addHandler(handler2)
    return logger

LOGGER = get_logger()

def seed_everything(seed=42):
    # シード値を設定して再現性を持たせるための関数
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True
    
seed_everything(seed=CFG.seed)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# =====================================
# We will add targets in dataframs
# =====================================
def add_label(df):
    labels = np.zeros(len(df), dtype=np.int32)
    labels[df['winner_model_a'] == 1] = 0
    labels[df['winner_model_b'] == 1] = 1
    labels[df['winner_tie'] == 1] = 2
    df['target'] = labels
    return df


```

</div>
<div class="column-right">

# 日本語訳

```python
# =====================================
# データフレームにターゲットを追加します
# =====================================
def add_label(df):
    labels = np.zeros(len(df), dtype=np.int32)  # ラベル用の配列を初期化
    labels[df['winner_model_a'] == 1] = 0  # モデルAが勝った場合のラベル
    labels[df['winner_model_b'] == 1] = 1  # モデルBが勝った場合のラベル
    labels[df['winner_tie'] == 1] = 2  # 引き分けの場合のラベル
    df['target'] = labels  # データフレームにターゲット列を追加
    return df
```

</div>
</details>

In [None]:
# =====================================
# データフレームにターゲットを追加します
# =====================================
def add_label(df):
    labels = np.zeros(len(df), dtype=np.int32)  # ラベル用の配列を初期化
    labels[df['winner_model_a'] == 1] = 0  # モデルAが勝った場合のラベル
    labels[df['winner_model_b'] == 1] = 1  # モデルBが勝った場合のラベル
    labels[df['winner_tie'] == 1] = 2  # 引き分けの場合のラベル
    df['target'] = labels  # データフレームにターゲット列を追加
    return df

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')
def process(input_str):
    stripped_str = input_str.strip('[]')
    sentences = [s.strip('"') for s in stripped_str.split('","')]
    return sentences

train.loc[:, 'prompt'] = train['prompt'].apply(process)
train.loc[:, 'response_a'] = train['response_a'].apply(process)
train.loc[:, 'response_b'] = train['response_b'].apply(process)

# Drop 'Null' for training
indexes = train[(train.response_a == 'null') & (train.response_b == 'null')].index
train.drop(indexes, inplace=True)
train.reset_index(inplace=True, drop=True)

print(f"Total {len(indexes)} Null response rows dropped")
print('Total train samples: ', len(train))
```

</div>
<div class="column-right">

# 日本語訳

```python
train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')  # 訓練データを読み込む
def process(input_str):
    # 入力文字列を処理する関数
    stripped_str = input_str.strip('[]')  # 先頭と末尾の[]を削除
    sentences = [s.strip('"') for s in stripped_str.split('","')]  # 各文を抽出
    return sentences

# プロンプトと応答を処理する
train.loc[:, 'prompt'] = train['prompt'].apply(process)
train.loc[:, 'response_a'] = train['response_a'].apply(process)
train.loc[:, 'response_b'] = train['response_b'].apply(process)

# 訓練用に'Null'を削除
indexes = train[(train.response_a == 'null') & (train.response_b == 'null')].index
train.drop(indexes, inplace=True)  # Nullインデックスを削除
train.reset_index(inplace=True, drop=True)

print(f"Total {len(indexes)} Null response rows dropped")  # 削除されたNull行の数を表示
print('Total train samples: ', len(train))  # 訓練サンプルの合計数を表示
```

</div>
</details>

In [None]:
train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')  # 訓練データを読み込む
def process(input_str):
    # 入力文字列を処理する関数
    stripped_str = input_str.strip('[]')  # 先頭と末尾の[]を削除
    sentences = [s.strip('"') for s in stripped_str.split('","')]  # 各文を抽出
    return sentences

# プロンプトと応答を処理する
train.loc[:, 'prompt'] = train['prompt'].apply(process)
train.loc[:, 'response_a'] = train['response_a'].apply(process)
train.loc[:, 'response_b'] = train['response_b'].apply(process)

# 訓練用に'Null'を削除
indexes = train[(train.response_a == 'null') & (train.response_b == 'null')].index
train.drop(indexes, inplace=True)  # Nullインデックスを削除
train.reset_index(inplace=True, drop=True)

print(f"Total {len(indexes)} Null response rows dropped")  # 削除されたNull行の数を表示
print('Total train samples: ', len(train))  # 訓練サンプルの合計数を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
add_label(train).head(5)
```

</div>
<div class="column-right">

# 日本語訳

```python
add_label(train).head(5)  # ターゲットを追加した訓練データの最初の5行を表示
```

</div>
</details>

In [None]:
add_label(train).head(5)  # ターゲットを追加した訓練データの最初の5行を表示

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Tokenizer

</div>
<div class="column-right">

# 日本語訳

# トークナイザー


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ====================================================
# tokenizer
# ====================================================
# Define special tokens
special_tokens = ['[R_STRAT]', '[R_END]', '<PROMPT>', '<RESPONSE>', '[NL]', '[NLNL]']

def preprocess_text(text):
    text = text.replace('\n\n', ' [NLNL] ')
    text = text.replace('\n', ' [NL] ')
    return text

def format_conversation(row):
    conversations = []
    num_turns = min(len(row['prompt']), len(row['response_a']), len(row['response_b']))
    
    for i in range(num_turns):
        prompt = f"<PROMPT> {row['prompt'][i]}"
        response_a = f"<RESPONSE> [R_STRAT] {preprocess_text(row['response_a'][i])} [R_END]"
        response_b = f"[R_STRAT] {preprocess_text(row['response_b'][i])} [R_END]"
        conversations.append(f"{prompt} {response_a} {response_b}")
        
    return ' [NLNL] '.join(conversations)

train['text'] = train.apply(format_conversation, axis=1)

# Add special tokens to tokenizer
tokenizer = AutoTokenizer.from_pretrained(CFG.model)
special_tokens_dict = {'additional_special_tokens': special_tokens}
num_added_toks = tokenizer.add_special_tokens(special_tokens_dict)
CFG.tokenizer = tokenizer
```

</div>
<div class="column-right">

# 日本語訳

```python
# ====================================================
# トークナイザー
# ====================================================
# 特殊トークンを定義
special_tokens = ['[R_STRAT]', '[R_END]', '<PROMPT>', '<RESPONSE>', '[NL]', '[NLNL]']

def preprocess_text(text):
    # テキストを前処理する関数
    text = text.replace('\n\n', ' [NLNL] ')  # 2つの改行を[nl NL]に変換
    text = text.replace('\n', ' [NL] ')  # 1つの改行を[nl]に変換
    return text

def format_conversation(row):
    # 会話形式にフォーマットする関数
    conversations = []
    num_turns = min(len(row['prompt']), len(row['response_a']), len(row['response_b']))  # 最小のターン数を取得
    
    for i in range(num_turns):
        # プロンプトと応答をフォーマット
        prompt = f"<PROMPT> {row['prompt'][i]}"
        response_a = f"<RESPONSE> [R_STRAT] {preprocess_text(row['response_a'][i])} [R_END]"
        response_b = f"[R_STRAT] {preprocess_text(row['response_b'][i])} [R_END]"
        conversations.append(f"{prompt} {response_a} {response_b}")  # 会話を追加
        
    return ' [NLNL] '.join(conversations)  # 会話を連結して返す

# 訓練データに形式を適用
train['text'] = train.apply(format_conversation, axis=1)

# トークナイザーに特殊トークンを追加
tokenizer = AutoTokenizer.from_pretrained(CFG.model)
special_tokens_dict = {'additional_special_tokens': special_tokens}
num_added_toks = tokenizer.add_special_tokens(special_tokens_dict)  # 特殊トークンをトークナイザーに追加
CFG.tokenizer = tokenizer
```

</div>
</details>

In [None]:
# ====================================================
# トークナイザー
# ====================================================
# 特殊トークンを定義
special_tokens = ['[R_STRAT]', '[R_END]', '<PROMPT>', '<RESPONSE>', '[NL]', '[NLNL]']

def preprocess_text(text):
    # テキストを前処理する関数
    text = text.replace('\n\n', ' [NLNL] ')  # 2つの改行を[nl NL]に変換
    text = text.replace('\n', ' [NL] ')  # 1つの改行を[nl]に変換
    return text

def format_conversation(row):
    # 会話形式にフォーマットする関数
    conversations = []
    num_turns = min(len(row['prompt']), len(row['response_a']), len(row['response_b']))  # 最小のターン数を取得
    
    for i in range(num_turns):
        # プロンプトと応答をフォーマット
        prompt = f"<PROMPT> {row['prompt'][i]}"
        response_a = f"<RESPONSE> [R_STRAT] {preprocess_text(row['response_a'][i])} [R_END]"
        response_b = f"[R_STRAT] {preprocess_text(row['response_b'][i])} [R_END]"
        conversations.append(f"{prompt} {response_a} {response_b}")  # 会話を追加
        
    return ' [NLNL] '.join(conversations)  # 会話を連結して返す

# 訓練データに形式を適用
train['text'] = train.apply(format_conversation, axis=1)

# トークナイザーに特殊トークンを追加
tokenizer = AutoTokenizer.from_pretrained(CFG.model)
special_tokens_dict = {'additional_special_tokens': special_tokens}
num_added_toks = tokenizer.add_special_tokens(special_tokens_dict)  # 特殊トークンをトークナイザーに追加
CFG.tokenizer = tokenizer

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
tokenizer.decode(
    tokenizer(
        train['text'][1]
    ).input_ids
)
```

</div>
<div class="column-right">

# 日本語訳

```python
tokenizer.decode(
    tokenizer(
        train['text'][1]
    ).input_ids
)  # トークン化されたテキストをデコードして表示
```

</div>
</details>

In [None]:
tokenizer.decode(
    tokenizer(
        train['text'][1]
    ).input_ids
)  # トークン化されたテキストをデコードして表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ====================================================
# Dataset
# ====================================================
def prepare_input(cfg, text):
    inputs = cfg.tokenizer.encode_plus(
        text, 
        return_tensors=None, 
        add_special_tokens=True, 
        max_length=CFG.max_len,
        pad_to_max_length=True,
        truncation=True
    )
    for k, v in inputs.items():
        inputs[k] = torch.tensor(v, dtype=torch.long)
    return inputs


class TrainDataset(Dataset):
    def __init__(self, cfg, df):
        self.cfg = cfg
        self.texts = df['text'].values # only use prompt, please feel free add other texts
        self.labels = df[cfg.target_label].values.squeeze().tolist()

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, item):
        inputs = prepare_input(self.cfg, self.texts[item])
        label = torch.tensor(self.labels[item], dtype=torch.long)
        return inputs, label
    
    
def collate(inputs):
    mask_len = int(inputs["attention_mask"].sum(axis=1).max())
    for k, v in inputs.items():
        inputs[k] = inputs[k][:,:mask_len]
    return inputs
```

</div>
<div class="column-right">

# 日本語訳

```python
# ====================================================
# データセット
# ====================================================
def prepare_input(cfg, text):
    # 入力を準備する関数
    inputs = cfg.tokenizer.encode_plus(
        text, 
        return_tensors=None, 
        add_special_tokens=True, 
        max_length=CFG.max_len,
        pad_to_max_length=True,
        truncation=True
    )
    for k, v in inputs.items():
        inputs[k] = torch.tensor(v, dtype=torch.long)  # テンソルに変換
    return inputs


class TrainDataset(Dataset):
    def __init__(self, cfg, df):
        self.cfg = cfg
        self.texts = df['text'].values  # テキストを取得
        self.labels = df[cfg.target_label].values.squeeze().tolist()  # ラベルを取得

    def __len__(self):
        return len(self.texts)  # テキストの長さを返す

    def __getitem__(self, item):
        inputs = prepare_input(self.cfg, self.texts[item])  # 入力を準備
        label = torch.tensor(self.labels[item], dtype=torch.long)  # ラベルをテンソルに変換
        return inputs, label  # 入力とラベルを返す
    
    
def collate(inputs):
    mask_len = int(inputs["attention_mask"].sum(axis=1).max())  # 最大のマスク長を取得
    for k, v in inputs.items():
        inputs[k] = inputs[k][:,:mask_len]  # マスク長に合わせて切り詰める
    return inputs
```

</div>
</details>

In [None]:
# ====================================================
# データセット
# ====================================================
def prepare_input(cfg, text):
    # 入力を準備する関数
    inputs = cfg.tokenizer.encode_plus(
        text, 
        return_tensors=None, 
        add_special_tokens=True, 
        max_length=CFG.max_len,
        pad_to_max_length=True,
        truncation=True
    )
    for k, v in inputs.items():
        inputs[k] = torch.tensor(v, dtype=torch.long)  # テンソルに変換
    return inputs


class TrainDataset(Dataset):
    def __init__(self, cfg, df):
        self.cfg = cfg
        self.texts = df['text'].values  # テキストを取得
        self.labels = df[cfg.target_label].values.squeeze().tolist()  # ラベルを取得

    def __len__(self):
        return len(self.texts)  # テキストの長さを返す

    def __getitem__(self, item):
        inputs = prepare_input(self.cfg, self.texts[item])  # 入力を準備
        label = torch.tensor(self.labels[item], dtype=torch.long)  # ラベルをテンソルに変換
        return inputs, label  # 入力とラベルを返す
    
    
def collate(inputs):
    mask_len = int(inputs["attention_mask"].sum(axis=1).max())  # 最大のマスク長を取得
    for k, v in inputs.items():
        inputs[k] = inputs[k][:,:mask_len]  # マスク長に合わせて切り詰める
    return inputs

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ====================================================
# Model
# ====================================================
class MeanPooling(nn.Module):
    def __init__(self):
        super(MeanPooling, self).__init__()
        
    def forward(self, last_hidden_state, attention_mask):
        input_mask_expanded = attention_mask.unsqueeze(-1).expand(last_hidden_state.size()).float()
        sum_embeddings = torch.sum(last_hidden_state * input_mask_expanded, 1)
        sum_mask = input_mask_expanded.sum(1)
        sum_mask = torch.clamp(sum_mask, min=1e-9)
        mean_embeddings = sum_embeddings / sum_mask
        return mean_embeddings
    

class CustomModel(nn.Module):
    def __init__(self, cfg, config_path=None, pretrained=False):
        super().__init__()
        self.cfg = cfg
        if config_path is None:
            self.config = AutoConfig.from_pretrained(cfg.model, output_hidden_states=True)
            self.config.hidden_dropout = 0.
            self.config.hidden_dropout_prob = 0.
            self.config.attention_dropout = 0.
            self.config.attention_probs_dropout_prob = 0.
            LOGGER.info(self.config)
        else:
            self.config = torch.load(config_path)
        if pretrained:
            self.model = AutoModel.from_pretrained(cfg.model, config=self.config)
        else:
            self.model = AutoModel(self.config)
        if self.cfg.gradient_checkpointing:
            self.model.gradient_checkpointing_enable()
        self.pool = MeanPooling()
        self.fc = nn.Linear(self.config.hidden_size, 3)
        self._init_weights(self.fc)
        
    def _init_weights(self, module):
        if isinstance(module, nn.Linear):
            module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
            if module.bias is not None:
                module.bias.data.zero_()
        elif isinstance(module, nn.Embedding):
            module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
            if module.padding_idx is not None:
                module.weight.data[module.padding_idx].zero_()
        elif isinstance(module, nn.LayerNorm):
            module.bias.data.zero_()
            module.weight.data.fill_(1.0)
        
    def feature(self, inputs):
        outputs = self.model(**inputs)
        last_hidden_states = outputs[0]
        feature = self.pool(last_hidden_states, inputs['attention_mask'])
        return feature

    def forward(self, inputs):
        feature = self.feature(inputs)
        output = self.fc(feature)
        return output
```

</div>
<div class="column-right">

# 日本語訳

```python
# ====================================================
# モデル
# ====================================================
class MeanPooling(nn.Module):
    def __init__(self):
        super(MeanPooling, self).__init__()
        
    def forward(self, last_hidden_state, attention_mask):
        # 最後の隠れ状態を平均プーリングする関数
        input_mask_expanded = attention_mask.unsqueeze(-1).expand(last_hidden_state.size()).float()  # マスクを拡張
        sum_embeddings = torch.sum(last_hidden_state * input_mask_expanded, 1)  # 重み付きの埋め込みを合計
        sum_mask = input_mask_expanded.sum(1)
        sum_mask = torch.clamp(sum_mask, min=1e-9)  # マスクの合計を制限
        mean_embeddings = sum_embeddings / sum_mask  # 平均埋め込みを計算
        return mean_embeddings
    

class CustomModel(nn.Module):
    def __init__(self, cfg, config_path=None, pretrained=False):
        super().__init__()
        self.cfg = cfg
        if config_path is None:
            # モデルの設定を読み込む
            self.config = AutoConfig.from_pretrained(cfg.model, output_hidden_states=True)
            self.config.hidden_dropout = 0.  # ドロップアウトを無効にする
            self.config.hidden_dropout_prob = 0. 
            self.config.attention_dropout = 0.
            self.config.attention_probs_dropout_prob = 0.
            LOGGER.info(self.config) 
        else:
            self.config = torch.load(config_path)  # 設定をファイルから読み込む
        if pretrained:
            self.model = AutoModel.from_pretrained(cfg.model, config=self.config)  # 事前学習済みモデルを読み込む
        else:
            self.model = AutoModel(self.config)  # 新しいモデルを作成
        if self.cfg.gradient_checkpointing:
            self.model.gradient_checkpointing_enable()  # 勾配チェックポイントを有効にする
        self.pool = MeanPooling()  # 平均プーリングの定義
        self.fc = nn.Linear(self.config.hidden_size, 3)  # 出力層の定義
        self._init_weights(self.fc)  # 重みを初期化
        
    def _init_weights(self, module):
        # モデルの重みを初期化するメソッド
        if isinstance(module, nn.Linear):
            module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)  # 初期化を設定
            if module.bias is not None:
                module.bias.data.zero_()
        elif isinstance(module, nn.Embedding):
            module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
            if module.padding_idx is not None:
                module.weight.data[module.padding_idx].zero_()
        elif isinstance(module, nn.LayerNorm):
            module.bias.data.zero_()
            module.weight.data.fill_(1.0)
        
    def feature(self, inputs):
        # 特徴を抽出するメソッド
        outputs = self.model(**inputs)  # モデルを実行
        last_hidden_states = outputs[0]  # 最後の隠れ状態を取得
        feature = self.pool(last_hidden_states, inputs['attention_mask'])  # 平均プーリングを行う
        return feature

    def forward(self, inputs):
        # フォワードパスを実行するメソッド
        feature = self.feature(inputs)  # 特徴を抽出
        output = self.fc(feature)  # 出力を計算
        return output  # 出力を返す
```

</div>
</details>

In [None]:
# ====================================================
# モデル
# ====================================================
class MeanPooling(nn.Module):
    def __init__(self):
        super(MeanPooling, self).__init__()
        
    def forward(self, last_hidden_state, attention_mask):
        # 最後の隠れ状態を平均プーリングする関数
        input_mask_expanded = attention_mask.unsqueeze(-1).expand(last_hidden_state.size()).float()  # マスクを拡張
        sum_embeddings = torch.sum(last_hidden_state * input_mask_expanded, 1)  # 重み付きの埋め込みを合計
        sum_mask = input_mask_expanded.sum(1)
        sum_mask = torch.clamp(sum_mask, min=1e-9)  # マスクの合計を制限
        mean_embeddings = sum_embeddings / sum_mask  # 平均埋め込みを計算
        return mean_embeddings
    

class CustomModel(nn.Module):
    def __init__(self, cfg, config_path=None, pretrained=False):
        super().__init__()
        self.cfg = cfg
        if config_path is None:
            # モデルの設定を読み込む
            self.config = AutoConfig.from_pretrained(cfg.model, output_hidden_states=True)
            self.config.hidden_dropout = 0.  # ドロップアウトを無効にする
            self.config.hidden_dropout_prob = 0. 
            self.config.attention_dropout = 0.
            self.config.attention_probs_dropout_prob = 0.
            LOGGER.info(self.config) 
        else:
            self.config = torch.load(config_path)  # 設定をファイルから読み込む
        if pretrained:
            self.model = AutoModel.from_pretrained(cfg.model, config=self.config)  # 事前学習済みモデルを読み込む
        else:
            self.model = AutoModel(self.config)  # 新しいモデルを作成
        if self.cfg.gradient_checkpointing:
            self.model.gradient_checkpointing_enable()  # 勾配チェックポイントを有効にする
        self.pool = MeanPooling()  # 平均プーリングの定義
        self.fc = nn.Linear(self.config.hidden_size, 3)  # 出力層の定義
        self._init_weights(self.fc)  # 重みを初期化
        
    def _init_weights(self, module):
        # モデルの重みを初期化するメソッド
        if isinstance(module, nn.Linear):
            module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)  # 初期化を設定
            if module.bias is not None:
                module.bias.data.zero_()
        elif isinstance(module, nn.Embedding):
            module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
            if module.padding_idx is not None:
                module.weight.data[module.padding_idx].zero_()
        elif isinstance(module, nn.LayerNorm):
            module.bias.data.zero_()
            module.weight.data.fill_(1.0)
        
    def feature(self, inputs):
        # 特徴を抽出するメソッド
        outputs = self.model(**inputs)  # モデルを実行
        last_hidden_states = outputs[0]  # 最後の隠れ状態を取得
        feature = self.pool(last_hidden_states, inputs['attention_mask'])  # 平均プーリングを行う
        return feature

    def forward(self, inputs):
        # フォワードパスを実行するメソッド
        feature = self.feature(inputs)  # 特徴を抽出
        output = self.fc(feature)  # 出力を計算
        return output  # 出力を返す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ====================================================
# Helper functions
# ====================================================
class AverageMeter(object):
    """Computes and stores the average and current value"""
    def __init__(self):
        self.reset()

    def reset(self):
        self.val = 0
        self.avg = 0
        self.sum = 0
        self.count = 0

    def update(self, val, n=1):
        self.val = val
        self.sum += val * n
        self.count += n
        self.avg = self.sum / self.count


def asMinutes(s):
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)


def timeSince(since, percent):
    now = time.time()
    s = now - since
    es = s / (percent)
    rs = es - s
    return '%s (remain %s)' % (asMinutes(s), asMinutes(rs))


def train_fn(train_loader, model, criterion, optimizer, epoch, scheduler, device):
    model.train()
    scaler = torch.cuda.amp.GradScaler(enabled=CFG.apex)
    losses = AverageMeter()
    start = end = time.time()
    global_step = 0
    for step, (inputs, labels) in enumerate(train_loader):
        inputs = collate(inputs)
        for k, v in inputs.items():
            inputs[k] = v.to(device)
        labels = labels.to(device)
        batch_size = labels.size(0)
        with torch.cuda.amp.autocast(enabled=CFG.apex):
            y_preds = model(inputs)
            loss = criterion(y_preds, labels)
        if CFG.gradient_accumulation_steps > 1:
            loss = loss / CFG.gradient_accumulation_steps
        losses.update(loss.item(), batch_size)
        scaler.scale(loss).backward()
        grad_norm = torch.nn.utils.clip_grad_norm_(model.parameters(), CFG.max_grad_norm)
        if (step + 1) % CFG.gradient_accumulation_steps == 0:
            scaler.step(optimizer)
            scaler.update()
            optimizer.zero_grad()
            global_step += 1
            if CFG.batch_scheduler:
                scheduler.step()
        end = time.time()
        if step % CFG.print_freq == 0 or step == (len(train_loader)-1):
            print('Epoch: [{0}][{1}/{2}] '
                  'Elapsed {remain:s} '
                  'Loss: {loss.val:.4f}({loss.avg:.4f}) '
                  'Grad: {grad_norm:.4f}  '
                  'LR: {lr:.8f}  '
                  .format(epoch+1, step, len(train_loader), 
                          remain=timeSince(start, float(step+1)/len(train_loader)),
                          loss=losses,
                          grad_norm=grad_norm,
                          lr=scheduler.get_lr()[0]))
    return losses.avg


def valid_fn(valid_loader, model, criterion, device):
    losses = AverageMeter()
    model.eval()
    preds = []
    start = end = time.time()
    for step, (inputs, labels) in enumerate(valid_loader):
        inputs = collate(inputs)
        for k, v in inputs.items():
            inputs[k] = v.to(device)
        labels = labels.to(device)
        batch_size = labels.size(0)
        with torch.no_grad():
            y_preds = model(inputs)
            loss = criterion(y_preds, labels)
        if CFG.gradient_accumulation_steps > 1:
            loss = loss / CFG.gradient_accumulation_steps
        losses.update(loss.item(), batch_size)
        preds.append(y_preds.softmax(1).to('cpu').numpy())
        end = time.time()
        if step % CFG.print_freq == 0 or step == (len(valid_loader)-1):
            print('EVAL: [{0}/{1}] '
                  'Elapsed {remain:s} '
                  'Loss: {loss.val:.4f}({loss.avg:.4f}) '
                  .format(step, len(valid_loader),
                          loss=losses,
                          remain=timeSince(start, float(step+1)/len(valid_loader))))
    predictions = np.concatenate(preds)
    return losses.avg, predictions
```

</div>
<div class="column-right">

# 日本語訳

```python
# ====================================================
# ヘルパー関数
# ====================================================
class AverageMeter(object):
    """平均と現在の値を計算し、保存します"""
    def __init__(self):
        self.reset()

    def reset(self):
        self.val = 0  # 現在の値
        self.avg = 0  # 平均値
        self.sum = 0  # 合計
        self.count = 0  # カウント

    def update(self, val, n=1):
        self.val = val  # 現在の値を更新
        self.sum += val * n  # 合計を更新
        self.count += n  # カウントを更新
        self.avg = self.sum / self.count  # 平均を再計算


def asMinutes(s):
    # 秒を分と秒に変換します
    m = math.floor(s / 60)  # 分を計算
    s -= m * 60  # 残りの秒を計算
    return '%dm %ds' % (m, s)  # 形式を返します


def timeSince(since, percent):
    # 経過時間と残り時間を計算します
    now = time.time()
    s = now - since  # 経過時間
    es = s / (percent)  # 予想される経過時間
    rs = es - s  # 残り時間
    return '%s (remain %s)' % (asMinutes(s), asMinutes(rs))  # 結果を返します


def train_fn(train_loader, model, criterion, optimizer, epoch, scheduler, device):
    # 訓練を実行する関数
    model.train()  # モデルを訓練モードに設定
    scaler = torch.cuda.amp.GradScaler(enabled=CFG.apex)  # 自動混合精度のスケーラー
    losses = AverageMeter()  # 損失を追跡
    start = end = time.time()  # 時間を記録
    global_step = 0  # グローバルステップ
    for step, (inputs, labels) in enumerate(train_loader):
        inputs = collate(inputs)  # 入力をコラテート
        for k, v in inputs.items():
            inputs[k] = v.to(device)  # デバイスに移動
        labels = labels.to(device)  # ラベルをデバイスに移動
        batch_size = labels.size(0)  # バッチサイズを取得
        with torch.cuda.amp.autocast(enabled=CFG.apex):
            y_preds = model(inputs)  # モデルの予測を取得
            loss = criterion(y_preds, labels)  # 損失を計算
        if CFG.gradient_accumulation_steps > 1:
            loss = loss / CFG.gradient_accumulation_steps  # 勾配蓄積の場合、損失をスケーリング
        losses.update(loss.item(), batch_size)  # 損失を更新
        scaler.scale(loss).backward()  # 後方伝播
        grad_norm = torch.nn.utils.clip_grad_norm_(model.parameters(), CFG.max_grad_norm)  # 勾配のクリッピング
        if (step + 1) % CFG.gradient_accumulation_steps == 0:  # 勾配の更新条件
            scaler.step(optimizer)  # オプティマイザのステップ
            scaler.update()  # スケーラーを更新
            optimizer.zero_grad()  # 勾配をゼロに
            global_step += 1  # グローバルステップを増加
            if CFG.batch_scheduler:
                scheduler.step()  # スケジューラをステップ
                
        end = time.time()
        if step % CFG.print_freq == 0 or step == (len(train_loader)-1):  # ログ出力の条件
            print('Epoch: [{0}][{1}/{2}] '
                  'Elapsed {remain:s} '
                  'Loss: {loss.val:.4f}({loss.avg:.4f}) '
                  'Grad: {grad_norm:.4f}  '
                  'LR: {lr:.8f}  '
                  .format(epoch+1, step, len(train_loader), 
                          remain=timeSince(start, float(step+1)/len(train_loader)),
                          loss=losses,
                          grad_norm=grad_norm,
                          lr=scheduler.get_lr()[0]))  # ログ出力
    return losses.avg  # 平均損失を返す


def valid_fn(valid_loader, model, criterion, device):
    # 評価を実行する関数
    losses = AverageMeter()  # 損失を追跡
    model.eval()  # モデルを評価モードに設定
    preds = []  # 予測を保存
    start = end = time.time()  # 時間を記録
    for step, (inputs, labels) in enumerate(valid_loader):
        inputs = collate(inputs)  # 入力をコラテート
        for k, v in inputs.items():
            inputs[k] = v.to(device)  # デバイスに移動
        labels = labels.to(device)  # ラベルをデバイスに移動
        batch_size = labels.size(0)  # バッチサイズを取得
        with torch.no_grad():  # 勾配計算を無効に
            y_preds = model(inputs)  # モデルの予測を取得
            loss = criterion(y_preds, labels)  # 損失を計算
        if CFG.gradient_accumulation_steps > 1:
            loss = loss / CFG.gradient_accumulation_steps  # 勾配蓄積の場合、損失をスケーリング
        losses.update(loss.item(), batch_size)  # 損失を更新
        preds.append(y_preds.softmax(1).to('cpu').numpy())  # ソフトマックスの予測を保存
        end = time.time()
        if step % CFG.print_freq == 0 or step == (len(valid_loader)-1):  # ログ出力の条件
            print('EVAL: [{0}/{1}] '
                  'Elapsed {remain:s} '
                  'Loss: {loss.val:.4f}({loss.avg:.4f}) '
                  .format(step, len(valid_loader),
                          loss=losses,
                          remain=timeSince(start, float(step+1)/len(valid_loader))))  # ログ出力
    predictions = np.concatenate(preds)  # すべての予測を連結
    return losses.avg, predictions  # 平均損失と予測を返す
```

</div>
</details>

In [None]:
# ====================================================
# ヘルパー関数
# ====================================================
class AverageMeter(object):
    """平均と現在の値を計算し、保存します"""
    def __init__(self):
        self.reset()

    def reset(self):
        self.val = 0  # 現在の値
        self.avg = 0  # 平均値
        self.sum = 0  # 合計
        self.count = 0  # カウント

    def update(self, val, n=1):
        self.val = val  # 現在の値を更新
        self.sum += val * n  # 合計を更新
        self.count += n  # カウントを更新
        self.avg = self.sum / self.count  # 平均を再計算


def asMinutes(s):
    # 秒を分と秒に変換します
    m = math.floor(s / 60)  # 分を計算
    s -= m * 60  # 残りの秒を計算
    return '%dm %ds' % (m, s)  # 形式を返します


def timeSince(since, percent):
    # 経過時間と残り時間を計算します
    now = time.time()
    s = now - since  # 経過時間
    es = s / (percent)  # 予想される経過時間
    rs = es - s  # 残り時間
    return '%s (remain %s)' % (asMinutes(s), asMinutes(rs))  # 結果を返します


def train_fn(train_loader, model, criterion, optimizer, epoch, scheduler, device):
    # 訓練を実行する関数
    model.train()  # モデルを訓練モードに設定
    scaler = torch.cuda.amp.GradScaler(enabled=CFG.apex)  # 自動混合精度のスケーラー
    losses = AverageMeter()  # 損失を追跡
    start = end = time.time()  # 時間を記録
    global_step = 0  # グローバルステップ
    for step, (inputs, labels) in enumerate(train_loader):
        inputs = collate(inputs)  # 入力をコラテート
        for k, v in inputs.items():
            inputs[k] = v.to(device)  # デバイスに移動
        labels = labels.to(device)  # ラベルをデバイスに移動
        batch_size = labels.size(0)  # バッチサイズを取得
        with torch.cuda.amp.autocast(enabled=CFG.apex):
            y_preds = model(inputs)  # モデルの予測を取得
            loss = criterion(y_preds, labels)  # 損失を計算
        if CFG.gradient_accumulation_steps > 1:
            loss = loss / CFG.gradient_accumulation_steps  # 勾配蓄積の場合、損失をスケーリング
        losses.update(loss.item(), batch_size)  # 損失を更新
        scaler.scale(loss).backward()  # 後方伝播
        grad_norm = torch.nn.utils.clip_grad_norm_(model.parameters(), CFG.max_grad_norm)  # 勾配のクリッピング
        if (step + 1) % CFG.gradient_accumulation_steps == 0:  # 勾配の更新条件
            scaler.step(optimizer)  # オプティマイザのステップ
            scaler.update()  # スケーラーを更新
            optimizer.zero_grad()  # 勾配をゼロに
            global_step += 1  # グローバルステップを増加
            if CFG.batch_scheduler:
                scheduler.step()  # スケジューラをステップ
                
        end = time.time()
        if step % CFG.print_freq == 0 or step == (len(train_loader)-1):  # ログ出力の条件
            print('Epoch: [{0}][{1}/{2}] '
                  'Elapsed {remain:s} '
                  'Loss: {loss.val:.4f}({loss.avg:.4f}) '
                  'Grad: {grad_norm:.4f}  '
                  'LR: {lr:.8f}  '
                  .format(epoch+1, step, len(train_loader), 
                          remain=timeSince(start, float(step+1)/len(train_loader)),
                          loss=losses,
                          grad_norm=grad_norm,
                          lr=scheduler.get_lr()[0]))  # ログ出力
    return losses.avg  # 平均損失を返す


def valid_fn(valid_loader, model, criterion, device):
    # 評価を実行する関数
    losses = AverageMeter()  # 損失を追跡
    model.eval()  # モデルを評価モードに設定
    preds = []  # 予測を保存
    start = end = time.time()  # 時間を記録
    for step, (inputs, labels) in enumerate(valid_loader):
        inputs = collate(inputs)  # 入力をコラテート
        for k, v in inputs.items():
            inputs[k] = v.to(device)  # デバイスに移動
        labels = labels.to(device)  # ラベルをデバイスに移動
        batch_size = labels.size(0)  # バッチサイズを取得
        with torch.no_grad():  # 勾配計算を無効に
            y_preds = model(inputs)  # モデルの予測を取得
            loss = criterion(y_preds, labels)  # 損失を計算
        if CFG.gradient_accumulation_steps > 1:
            loss = loss / CFG.gradient_accumulation_steps  # 勾配蓄積の場合、損失をスケーリング
        losses.update(loss.item(), batch_size)  # 損失を更新
        preds.append(y_preds.softmax(1).to('cpu').numpy())  # ソフトマックスの予測を保存
        end = time.time()
        if step % CFG.print_freq == 0 or step == (len(valid_loader)-1):  # ログ出力の条件
            print('EVAL: [{0}/{1}] '
                  'Elapsed {remain:s} '
                  'Loss: {loss.val:.4f}({loss.avg:.4f}) '
                  .format(step, len(valid_loader),
                          loss=losses,
                          remain=timeSince(start, float(step+1)/len(valid_loader))))  # ログ出力
    predictions = np.concatenate(preds)  # すべての予測を連結
    return losses.avg, predictions  # 平均損失と予測を返す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ====================================================
# train loop
# ====================================================
def train_loop(train_df, valid_df):
    
    LOGGER.info(f"========== training ==========")

    # ====================================================
    # loader
    # ====================================================
    valid_labels = valid_df[CFG.target_label].values
    
    train_dataset = TrainDataset(CFG, train_df)
    valid_dataset = TrainDataset(CFG, valid_df)

    train_loader = DataLoader(train_dataset,
                              batch_size=CFG.batch_size,
                              shuffle=True,
                              num_workers=CFG.num_workers, pin_memory=True, drop_last=True)
    valid_loader = DataLoader(valid_dataset,
                              batch_size=CFG.batch_size * 2,
                              shuffle=False,
                              num_workers=CFG.num_workers, pin_memory=True, drop_last=False)

    # ====================================================
    # model & optimizer
    # ====================================================
    model = CustomModel(CFG, config_path=None, pretrained=True)
    torch.save(model.config, OUTPUT_DIR+'config.pth')
    model.to(device)
    
    def get_optimizer_params(model, encoder_lr, decoder_lr, weight_decay=0.0):
        param_optimizer = list(model.named_parameters())
        no_decay = ["bias", "LayerNorm.bias", "LayerNorm.weight"]
        optimizer_parameters = [
            {'params': [p for n, p in model.model.named_parameters() if not any(nd in n for nd in no_decay)],
             'lr': encoder_lr, 'weight_decay': weight_decay},
            {'params': [p for n, p in model.model.named_parameters() if any(nd in n for nd in no_decay)],
             'lr': encoder_lr, 'weight_decay': 0.0},
            {'params': [p for n, p in model.named_parameters() if "model" not in n],
             'lr': decoder_lr, 'weight_decay': 0.0}
        ]
        return optimizer_parameters

    optimizer_parameters = get_optimizer_params(model,
                                                encoder_lr=CFG.encoder_lr, 
                                                decoder_lr=CFG.decoder_lr,
                                                weight_decay=CFG.weight_decay)
    optimizer = AdamW(optimizer_parameters, lr=CFG.encoder_lr, eps=CFG.eps, betas=CFG.betas)
    
    # ====================================================
    # scheduler
    # ====================================================
    def get_scheduler(cfg, optimizer, num_train_steps):
        if cfg.scheduler == 'linear':
            scheduler = get_linear_schedule_with_warmup(
                optimizer, num_warmup_steps=cfg.num_warmup_steps, num_training_steps=num_train_steps
            )
        elif cfg.scheduler == 'cosine':
            scheduler = get_cosine_schedule_with_warmup(
                optimizer, num_warmup_steps=cfg.num_warmup_steps, num_training_steps=num_train_steps, num_cycles=cfg.num_cycles
            )
        return scheduler
    
    num_train_steps = int(len(train_df) / CFG.batch_size * CFG.epochs)
    scheduler = get_scheduler(CFG, optimizer, num_train_steps)

    # ====================================================
    # loop
    # ====================================================
    criterion = nn.CrossEntropyLoss()
    
    best_score = np.inf

    for epoch in range(CFG.epochs):

        start_time = time.time()

        # train
        avg_loss = train_fn(train_loader, model, criterion, optimizer, epoch, scheduler, device)

        # eval
        avg_val_loss, predictions = valid_fn(valid_loader, model, criterion, device)
        
        # scoring
        score = get_score(valid_labels, predictions)

        elapsed = time.time() - start_time

        LOGGER.info(f'Epoch {epoch+1} - avg_train_loss: {avg_loss:.4f}  avg_val_loss: {avg_val_loss:.4f}  time: {elapsed:.0f}s')
        LOGGER.info(f'Epoch {epoch+1} - Score: {score:.4f}')
        if CFG.wandb:
            wandb.log({"epoch": epoch+1, 
                       "avg_train_loss": avg_loss, 
                       "avg_val_loss": avg_val_loss,
                       "score": score})
        
        if best_score > score:
            best_score = score
            LOGGER.info(f'Epoch {epoch+1} - Save Best Score: {best_score:.4f} Model')
            torch.save({'model': model.state_dict(),
                        'predictions': predictions},
                        OUTPUT_DIR+f"{CFG.model.replace('/', '-')}_best.pth")

    predictions = torch.load(OUTPUT_DIR+f"{CFG.model.replace('/', '-')}_best.pth", 
                             map_location=torch.device('cpu'))['predictions']
    valid_df[[f"pred_{c}" for c in CFG.target_cols]] = predictions

    torch.cuda.empty_cache()
    gc.collect()
    
    return valid_df
```

</div>
<div class="column-right">

# 日本語訳

```python
# ====================================================
# 訓練ループ
# ====================================================
def train_loop(train_df, valid_df):
    
    LOGGER.info(f"========== 訓練 ==========")

    # ====================================================
    # ローダー
    # ====================================================
    valid_labels = valid_df[CFG.target_label].values  # バリデーションラベルを取得
    
    train_dataset = TrainDataset(CFG, train_df)  # 訓練データセットを準備
    valid_dataset = TrainDataset(CFG, valid_df)  # バリデーションデータセットを準備

    train_loader = DataLoader(train_dataset,
                              batch_size=CFG.batch_size,
                              shuffle=True,
                              num_workers=CFG.num_workers, pin_memory=True, drop_last=True)  # 訓練ローダー
    valid_loader = DataLoader(valid_dataset,
                              batch_size=CFG.batch_size * 2,
                              shuffle=False,
                              num_workers=CFG.num_workers, pin_memory=True, drop_last=False)  # バリデーションローダー

    # ====================================================
    # モデルとオプティマイザ
    # ====================================================
    model = CustomModel(CFG, config_path=None, pretrained=True)  # モデルを初期化
    torch.save(model.config, OUTPUT_DIR+'config.pth')  # モデルの設定を保存
    model.to(device)  # モデルをデバイスに移動
    
    def get_optimizer_params(model, encoder_lr, decoder_lr, weight_decay=0.0):
        # オプティマイザのパラメータを取得する関数
        param_optimizer = list(model.named_parameters())  # パラメータをリストに格納
        no_decay = ["bias", "LayerNorm.bias", "LayerNorm.weight"]
        optimizer_parameters = [
            {'params': [p for n, p in model.model.named_parameters() if not any(nd in n for nd in no_decay)],
             'lr': encoder_lr, 'weight_decay': weight_decay},
            {'params': [p for n, p in model.model.named_parameters() if any(nd in n for nd in no_decay)],
             'lr': encoder_lr, 'weight_decay': 0.0},
            {'params': [p for n, p in model.named_parameters() if "model" not in n],
             'lr': decoder_lr, 'weight_decay': 0.0}
        ]
        return optimizer_parameters

    optimizer_parameters = get_optimizer_params(model,
                                                encoder_lr=CFG.encoder_lr, 
                                                decoder_lr=CFG.decoder_lr,
                                                weight_decay=CFG.weight_decay)  # オプティマイザのパラメータを取得
    optimizer = AdamW(optimizer_parameters, lr=CFG.encoder_lr, eps=CFG.eps, betas=CFG.betas)  # オプティマイザの初期化
    
    # ====================================================
    # スケジューラ
    # ====================================================
    def get_scheduler(cfg, optimizer, num_train_steps):
        # スケジューラを取得する関数
        if cfg.scheduler == 'linear':
            scheduler = get_linear_schedule_with_warmup(
                optimizer, num_warmup_steps=cfg.num_warmup_steps, num_training_steps=num_train_steps
            )
        elif cfg.scheduler == 'cosine':
            scheduler = get_cosine_schedule_with_warmup(
                optimizer, num_warmup_steps=cfg.num_warmup_steps, num_training_steps=num_train_steps, num_cycles=cfg.num_cycles
            )
        return scheduler
    
    num_train_steps = int(len(train_df) / CFG.batch_size * CFG.epochs)  # トレーニングステップ数を計算
    scheduler = get_scheduler(CFG, optimizer, num_train_steps)  # スケジューラの初期化

    # ====================================================
    # ループ
    # ====================================================
    criterion = nn.CrossEntropyLoss()  # 損失関数を定義
    
    best_score = np.inf  # 最良スコアを無限大で初期化

    for epoch in range(CFG.epochs):

        start_time = time.time()  # 開始時間を記録

        # 訓練
        avg_loss = train_fn(train_loader, model, criterion, optimizer, epoch, scheduler, device)  # 訓練を実行

        # 評価
        avg_val_loss, predictions = valid_fn(valid_loader, model, criterion, device)  # バリデーションを実行
        
        # スコアリング
        score = get_score(valid_labels, predictions)  # スコアを計算

        elapsed = time.time() - start_time  # 経過時間を計算

        LOGGER.info(f'Epoch {epoch+1} - avg_train_loss: {avg_loss:.4f}  avg_val_loss: {avg_val_loss:.4f}  time: {elapsed:.0f}s')
        LOGGER.info(f'Epoch {epoch+1} - Score: {score:.4f}')  # ログ出力
        if CFG.wandb:
            wandb.log({"epoch": epoch+1, 
                       "avg_train_loss": avg_loss, 
                       "avg_val_loss": avg_val_loss,
                       "score": score})  # wandbにログを記録
            
        if best_score > score:  # 新しいベストスコアかどうか
            best_score = score  # ベストスコアを更新
            LOGGER.info(f'Epoch {epoch+1} - Save Best Score: {best_score:.4f} Model')  # モデルを保存
            torch.save({'model': model.state_dict(),
                        'predictions': predictions},  # モデルの状態を保存
                        OUTPUT_DIR+f"{CFG.model.replace('/', '-')}_best.pth")  # 最良モデルを保存

    predictions = torch.load(OUTPUT_DIR+f"{CFG.model.replace('/', '-')}_best.pth", 
                             map_location=torch.device('cpu'))['predictions']  # 最良モデルの予測をロード
    valid_df[[f"pred_{c}" for c in CFG.target_cols]] = predictions  # バリデーションデータフレームに予測を追加

    torch.cuda.empty_cache()  # CUDAメモリを空に
    gc.collect()  # ガーベジコレクションを実行
    
    return valid_df  # バリデーションデータフレームを返す
```

</div>
</details>

In [None]:
# ====================================================
# 訓練ループ
# ====================================================
def train_loop(train_df, valid_df):
    
    LOGGER.info(f"========== 訓練 ==========")

    # ====================================================
    # ローダー
    # ====================================================
    valid_labels = valid_df[CFG.target_label].values  # バリデーションラベルを取得
    
    train_dataset = TrainDataset(CFG, train_df)  # 訓練データセットを準備
    valid_dataset = TrainDataset(CFG, valid_df)  # バリデーションデータセットを準備

    train_loader = DataLoader(train_dataset,
                              batch_size=CFG.batch_size,
                              shuffle=True,
                              num_workers=CFG.num_workers, pin_memory=True, drop_last=True)  # 訓練ローダー
    valid_loader = DataLoader(valid_dataset,
                              batch_size=CFG.batch_size * 2,
                              shuffle=False,
                              num_workers=CFG.num_workers, pin_memory=True, drop_last=False)  # バリデーションローダー

    # ====================================================
    # モデルとオプティマイザ
    # ====================================================
    model = CustomModel(CFG, config_path=None, pretrained=True)  # モデルを初期化
    torch.save(model.config, OUTPUT_DIR+'config.pth')  # モデルの設定を保存
    model.to(device)  # モデルをデバイスに移動
    
    def get_optimizer_params(model, encoder_lr, decoder_lr, weight_decay=0.0):
        # オプティマイザのパラメータを取得する関数
        param_optimizer = list(model.named_parameters())  # パラメータをリストに格納
        no_decay = ["bias", "LayerNorm.bias", "LayerNorm.weight"]
        optimizer_parameters = [
            {'params': [p for n, p in model.model.named_parameters() if not any(nd in n for nd in no_decay)],
             'lr': encoder_lr, 'weight_decay': weight_decay},
            {'params': [p for n, p in model.model.named_parameters() if any(nd in n for nd in no_decay)],
             'lr': encoder_lr, 'weight_decay': 0.0},
            {'params': [p for n, p in model.named_parameters() if "model" not in n],
             'lr': decoder_lr, 'weight_decay': 0.0}
        ]
        return optimizer_parameters

    optimizer_parameters = get_optimizer_params(model,
                                                encoder_lr=CFG.encoder_lr, 
                                                decoder_lr=CFG.decoder_lr,
                                                weight_decay=CFG.weight_decay)  # オプティマイザのパラメータを取得
    optimizer = AdamW(optimizer_parameters, lr=CFG.encoder_lr, eps=CFG.eps, betas=CFG.betas)  # オプティマイザの初期化
    
    # ====================================================
    # スケジューラ
    # ====================================================
    def get_scheduler(cfg, optimizer, num_train_steps):
        # スケジューラを取得する関数
        if cfg.scheduler == 'linear':
            scheduler = get_linear_schedule_with_warmup(
                optimizer, num_warmup_steps=cfg.num_warmup_steps, num_training_steps=num_train_steps
            )
        elif cfg.scheduler == 'cosine':
            scheduler = get_cosine_schedule_with_warmup(
                optimizer, num_warmup_steps=cfg.num_warmup_steps, num_training_steps=num_train_steps, num_cycles=cfg.num_cycles
            )
        return scheduler
    
    num_train_steps = int(len(train_df) / CFG.batch_size * CFG.epochs)  # トレーニングステップ数を計算
    scheduler = get_scheduler(CFG, optimizer, num_train_steps)  # スケジューラの初期化

    # ====================================================
    # ループ
    # ====================================================
    criterion = nn.CrossEntropyLoss()  # 損失関数を定義
    
    best_score = np.inf  # 最良スコアを無限大で初期化

    for epoch in range(CFG.epochs):

        start_time = time.time()  # 開始時間を記録

        # 訓練
        avg_loss = train_fn(train_loader, model, criterion, optimizer, epoch, scheduler, device)  # 訓練を実行

        # 評価
        avg_val_loss, predictions = valid_fn(valid_loader, model, criterion, device)  # バリデーションを実行
        
        # スコアリング
        score = get_score(valid_labels, predictions)  # スコアを計算

        elapsed = time.time() - start_time  # 経過時間を計算

        LOGGER.info(f'Epoch {epoch+1} - avg_train_loss: {avg_loss:.4f}  avg_val_loss: {avg_val_loss:.4f}  time: {elapsed:.0f}s')
        LOGGER.info(f'Epoch {epoch+1} - Score: {score:.4f}')  # ログ出力
        if CFG.wandb:
            wandb.log({"epoch": epoch+1, 
                       "avg_train_loss": avg_loss, 
                       "avg_val_loss": avg_val_loss,
                       "score": score})  # wandbにログを記録
            
        if best_score > score:  # 新しいベストスコアかどうか
            best_score = score  # ベストスコアを更新
            LOGGER.info(f'Epoch {epoch+1} - Save Best Score: {best_score:.4f} Model')  # モデルを保存
            torch.save({'model': model.state_dict(),
                        'predictions': predictions},  # モデルの状態を保存
                        OUTPUT_DIR+f"{CFG.model.replace('/', '-')}_best.pth")  # 最良モデルを保存

    predictions = torch.load(OUTPUT_DIR+f"{CFG.model.replace('/', '-')}_best.pth", 
                             map_location=torch.device('cpu'))['predictions']  # 最良モデルの予測をロード
    valid_df[[f"pred_{c}" for c in CFG.target_cols]] = predictions  # バリデーションデータフレームに予測を追加

    torch.cuda.empty_cache()  # CUDAメモリを空に
    gc.collect()  # ガーベジコレクションを実行
    
    return valid_df  # バリデーションデータフレームを返す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if __name__ == '__main__':
    
    def get_result(oof_df):
        labels = oof_df[CFG.target_cols].values
        labels = np.argmax(labels, axis=1)
        preds = oof_df[[f"pred_{c}" for c in CFG.target_cols]].values
        score = get_score(labels, preds)
        LOGGER.info(f'Score: {score:<.4f}')
    
    if CFG.train:
        # Split data into train and validation (80% train, 20% validation)
        train_df = train.sample(frac=0.8, random_state=CFG.seed).reset_index(drop=True)
        valid_df = train.drop(train_df.index).reset_index(drop=True)

        _oof_df = train_loop(train_df, valid_df)
        LOGGER.info(f"========== result ==========")
        get_result(_oof_df)
        _oof_df.to_pickle(OUTPUT_DIR+'oof_df.pkl')
        
    if CFG.wandb:
        wandb.finish()
```

</div>
<div class="column-right">

# 日本語訳

```python
if __name__ == '__main__':
    
    def get_result(oof_df):
        # 結果を取得する関数
        labels = oof_df[CFG.target_cols].values  # ラベルを取得
        labels = np.argmax(labels, axis=1)  # ラベルの最大値のインデックスを取得
        preds = oof_df[[f"pred_{c}" for c in CFG.target_cols]].values  # 予測を取得
        score = get_score(labels, preds)  # スコアを計算
        LOGGER.info(f'Score: {score:<.4f}')  # ログ出力
    
    if CFG.train:
        # データを訓練とバリデーションに分割（80%訓練、20%バリデーション）
        train_df = train.sample(frac=0.8, random_state=CFG.seed).reset_index(drop=True)  # 訓練データをサンプリング
        valid_df = train.drop(train_df.index).reset_index(drop=True)  # 残りをバリデーションデータに設定

        _oof_df = train_loop(train_df, valid_df)  # 訓練ループを実行
        LOGGER.info(f"========== 結果 ==========")
        get_result(_oof_df)  # 結果を取得
        _oof_df.to_pickle(OUTPUT_DIR+'oof_df.pkl')  # 結果を保存
        
    if CFG.wandb:
        wandb.finish()  # wandbの終了
```

</div>
</details>

In [None]:
if __name__ == '__main__':
    
    def get_result(oof_df):
        # 結果を取得する関数
        labels = oof_df[CFG.target_cols].values  # ラベルを取得
        labels = np.argmax(labels, axis=1)  # ラベルの最大値のインデックスを取得
        preds = oof_df[[f"pred_{c}" for c in CFG.target_cols]].values  # 予測を取得
        score = get_score(labels, preds)  # スコアを計算
        LOGGER.info(f'Score: {score:<.4f}')  # ログ出力
    
    if CFG.train:
        # データを訓練とバリデーションに分割（80%訓練、20%バリデーション）
        train_df = train.sample(frac=0.8, random_state=CFG.seed).reset_index(drop=True)  # 訓練データをサンプリング
        valid_df = train.drop(train_df.index).reset_index(drop=True)  # 残りをバリデーションデータに設定

        _oof_df = train_loop(train_df, valid_df)  # 訓練ループを実行
        LOGGER.info(f"========== 結果 ==========")
        get_result(_oof_df)  # 結果を取得
        _oof_df.to_pickle(OUTPUT_DIR+'oof_df.pkl')  # 結果を保存
        
    if CFG.wandb:
        wandb.finish()  # wandbの終了