# 要約 
このJupyter Notebookは、LMSYS - Chatbot Arenaコンペティションにおいて、ユーザーのプロンプトに対する2つの異なる応答のいずれが好まれるかを予測する問題に取り組んでいます。具体的には、機械学習モデルを用いて、人工知能チャットボットの応答の選好を学習します。

### 問題の概要
Notebook内での主な目的は、与えられたプロンプトに対して2つの応答モデル（応答Aと応答B）のいずれが好まれるかの確率を予測することです。予測は、訓練データセットとテストデータセットを使用して行われます。

### 手法とライブラリ
この問題を解決するために、以下の手法とライブラリが使用されています：

1. **ライブラリ**
   - **PyTorch**: 深層学習フレームワークで、モデルの構築と訓練に使用されています。
   - **Transformers**: 事前訓練済みの言語モデルを取得するためのライブラリで、チャットボットの応答生成に利用されています。
   - **Pandas**: データ操作と処理のためのライブラリで、データセットの読み込みや前処理に使用されています。
   - **NumPy**: 数値計算を補助するためのライブラリで、ベクトル計算などに活用されています。

2. **モデルアーキテクチャ**
   - **EmbeddingModel**: プロンプトと応答を埋め込みベクトルに変換し、それらのベクトルを統合するためのクラス。
   - **Model**: 埋め込み出力をLSTMとCNNで処理し、その後全結合層を通してクラス（勝者モデル）を出力するニューラルネットワークの定義。
   - **Datasetクラス**: データのサンプリングを行うためのカスタムデータセットクラス。

3. **トレーニングプロセス**
   - データセットの読み込み後、トレーニングデータをDataLoaderを用いてバッチ処理し、モデルの訓練を行います。
   - 損失関数には交差エントロピー損失が使用され、Adamオプティマイザーでモデルのパラメータの更新を行います。
   - トレーニングはエポック数に基づいて繰り返され、各エポックの損失と精度が記録されます。

4. **テストと評価**
   - 学習済みモデルを用いてテストデータに対する予測を実施し、予測結果をデータフレームにまとめて出力します。

このNotebookは、機械学習アルゴリズムを用いて言語モデルの応答に対するユーザーの好みを科学的に予測し、人間とAIのインタラクションを改善するための重要なステップを示しています。

---


# 用語概説 
以下は、Jupyter Notebook内で使用されている専門用語や概念に関する解説です。初心者がつまずきそうなマイナーなものや特有のドメイン知識に焦点を当てています。

1. **tqdm**:
   - プログレスバーを提供するライブラリで、ループ処理の進行状況を視覚化するために使用されます。長時間かかる処理の進行を示し、ユーザーに操作中であることを伝えるために便利です。

2. **AutoModel**:
   - Hugging Faceの`transformers`ライブラリから提供されるクラスで、事前訓練された大規模な言語モデルを簡単にロードするためのものです。特定のモデルを指定でき、異なるプロンプトや応答を埋め込むために使われます。

3. **埋め込み (Embedding)**:
   - テキストデータをベクトル空間に変換する手法です。自然言語処理において、単語や文を数値で表現するために使用され、モデルが計算しやすくするための重要な技術です。

4. **LSTM (Long Short-Term Memory)**:
   - 特徴の時系列データを処理するためのリカレントニューラルネットワーク（RNN）の一種です。長期的な依存関係を保持するためのセル状態を持ち、自然言語処理の分野で広く使用されます。

5. **Conv1d (1次元畳み込み)**:
   - 1次元のデータ（例えば、時間系列データやシーケンスデータ）に対して適用される畳み込み層です。隣接する入力データを結合して特徴を抽出し、効率的な情報処理を行います。

6. **ドロップアウト (Dropout)**:
   - モデルの過学習を防ぐための手法です。トレーニング中にランダムに一定割合のニューロンを無効にし、モデルが特定のパターンに依存しないようにします。

7. **パディング (Padding)**:
   - 畳み込み層やLSTMレイヤーに入力する際に、入力データを指定した形状に合わせるためにゼロなどで埋める処理です。データのサイズを揃える必要があるため、重要な技術です。

8. **JSON（JavaScript Object Notation）**:
   - 軽量なデータ交換フォーマットで、人間にも読みやすく、プログラムからも容易に読み書きできる形式です。特にAPIなどでデータをやり取りする際によく使われます。

9. **カスタムデータセット (Custom Dataset)**:
   - PyTorchで作成したさまざまなデータ処理のために独自に定義した`Dataset`クラスです。特定のデータの構造や形式に応じてデータを扱う方法を提供します。

10. **ミニバッチ (Mini-batch)**:
    - 一度に処理するデータの小さなグループです。これはモデルの訓練効率を高め、メモリ使用量を抑えるための一般的な手法です。

11. **勾配 (Gradient)**:
    - ニュートン法に基づく最適化アルゴリズムで、モデルの重みを更新するために使用される値です。損失関数の変化率を表し、最適化のステップサイズを決定します。

12. **Cross Entropy Loss**:
    - モデルの予測確率と実際のラベルとの違いを測定するために使用される損失関数です。特に多クラス分類問題で一般的に使われます。また、モデルの出力が確率であることを考慮します。

これらの用語は、機械学習や深層学習の実践において重要ですが、初心者にとっては専門的な背景が必要な場合があります。理解を深めるために、各概念を補完する文献やリソースを参照することをお勧めします。

---


<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
from tqdm import tqdm
import pandas as pd
import json
import torch
from transformers import AutoModel
from numpy.linalg import norm
import torch.nn as nn
import numpy as np
from torch.utils.data import Dataset, DataLoader
import torch.nn.functional as F
import re
```

</div>
<div class="column-right">

# 日本語訳

```python
# tqdmをインポートします。これはプログレスバーを提供するライブラリです。
from tqdm import tqdm
# データ処理のためにpandasをインポートします。
import pandas as pd
# JSONファイルを読み込むためのjsonライブラリをインポートします。
import json
# PyTorchライブラリをインポートします。深層学習を行うためのフレームワークです。
import torch
# 事前訓練済みのモデルを取り扱うためにtransformersライブラリからAutoModelをインポートします。
from transformers import AutoModel
# numpyの線形代数機能からnorm関数をインポートします。ベクトルのノルム計算に使用します。
from numpy.linalg import norm
# PyTorchのニューラルネットワークモジュールをインポートします。
import torch.nn as nn
# numpyをインポートします。数値計算に使用されるライブラリです。
import numpy as np
# PyTorchのデータセットおよびデータローダーをインポートします。データを扱うための便利なツールです。
from torch.utils.data import Dataset, DataLoader
# PyTorchの関数型APIをインポートします。ニューラルネットワークの活性化関数などに使用されます。
import torch.nn.functional as F
# 正規表現を扱うためのreライブラリをインポートします。
import re
```

</div>
</details>

In [None]:
# tqdmをインポートします。これはプログレスバーを提供するライブラリです。
from tqdm import tqdm
# データ処理のためにpandasをインポートします。
import pandas as pd
# JSONファイルを読み込むためのjsonライブラリをインポートします。
import json
# PyTorchライブラリをインポートします。深層学習を行うためのフレームワークです。
import torch
# 事前訓練済みのモデルを取り扱うためにtransformersライブラリからAutoModelをインポートします。
from transformers import AutoModel
# numpyの線形代数機能からnorm関数をインポートします。ベクトルのノルム計算に使用します。
from numpy.linalg import norm
# PyTorchのニューラルネットワークモジュールをインポートします。
import torch.nn as nn
# numpyをインポートします。数値計算に使用されるライブラリです。
import numpy as np
# PyTorchのデータセットおよびデータローダーをインポートします。データを扱うための便利なツールです。
from torch.utils.data import Dataset, DataLoader
# PyTorchの関数型APIをインポートします。ニューラルネットワークの活性化関数などに使用されます。
import torch.nn.functional as F
# 正規表現を扱うためのreライブラリをインポートします。
import re

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
device = "cuda" if torch.cuda.is_available else "cpu"
device
```

</div>
<div class="column-right">

# 日本語訳

```python
# 使用可能なデバイスを確認し、CUDA（GPU）が利用可能であればそれを使用します。
# そうでない場合は、CPUを使用します。
device = "cuda" if torch.cuda.is_available() else "cpu"
# 現在のデバイス（GPUまたはCPU）を表示します。
device
```

</div>
</details>

In [None]:
# 使用可能なデバイスを確認し、CUDA（GPU）が利用可能であればそれを使用します。
# そうでない場合は、CPUを使用します。
device = "cuda" if torch.cuda.is_available() else "cpu"
# 現在のデバイス（GPUまたはCPU）を表示します。
device

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
tokenizer = AutoModel.from_pretrained('/kaggle/input/jinaai/pytorch/default/4')
```

</div>
<div class="column-right">

# 日本語訳

```python
# 事前訓練済みのモデルを指定したパスからロードします。
# AutoModelを使用して、指定されたディレクトリのモデルを取得し、トークナイザーとして設定します。
tokenizer = AutoModel.from_pretrained('/kaggle/input/jinaai/pytorch/default/4')
```

</div>
</details>

In [None]:
# 事前訓練済みのモデルを指定したパスからロードします。
# AutoModelを使用して、指定されたディレクトリのモデルを取得し、トークナイザーとして設定します。
tokenizer = AutoModel.from_pretrained('/kaggle/input/jinaai/pytorch/default/4')

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
class EmbeddingModel(nn.Module):
    def __init__(self, embedding_model, max_sequences):
        super(EmbeddingModel, self).__init__()
        self.embedding = embedding_model
        self.max_seq_length = max_sequences
        self.device = device

    def forward(self, prompts, responses_a, responses_b):
        batch_features_a = []
        batch_features_b = []

        for prompt, response_a, response_b in zip(prompts, responses_a, responses_b):
            prompt = json.loads(prompt)
            response_a = json.loads(response_a)
            response_b = json.loads(response_b)
            
            prompt = ["" if p is None else p for p in prompt]
            response_a = ["" if r is None else r for r in response_a]
            response_b = ["" if r is None else r for r in response_b]
            
            
            embedded_prompt = torch.from_numpy(self.embedding.encode(prompt)).to(self.device)
           
            embedded_response_a = torch.from_numpy(self.embedding.encode(response_a)).to(self.device)
            embedded_response_b = torch.from_numpy(self.embedding.encode(response_b)).to(self.device)

            features_a = []
            features_b = []
            for i in range(len(embedded_prompt)):
                combined_a = torch.cat((embedded_prompt[i], embedded_response_a[i]), dim=0)
                combined_b = torch.cat((embedded_prompt[i], embedded_response_b[i]), dim=0)

                features_a.append(combined_a)
                features_b.append(combined_b)

            features_a = torch.stack(features_a) if features_a else torch.tensor([]).to(self.device)
            features_b = torch.stack(features_b) if features_b else torch.tensor([]).to(self.device)

            features_a = self.pad_to_shape(features_a, (self.max_seq_length, 768 * 2))
            features_b = self.pad_to_shape(features_b, (self.max_seq_length, 768 * 2))

            batch_features_a.append(features_a)
            batch_features_b.append(features_b)

        return torch.stack(batch_features_a).to(self.device), torch.stack(batch_features_b).to(self.device)

    def pad_to_shape(self, tensor, shape):
        current_shape = tensor.shape
        padding = [(0, max(s - cs, 0)) for cs, s in zip(current_shape, shape)]
        padded_tensor = F.pad(tensor, pad=[p for pair in reversed(padding) for p in pair], mode='constant', value=0)
        return padded_tensor[:shape[0], :shape[1]]

class Model(nn.Module):
    def __init__(self, embedding_model, max_sequences=64, hidden_dim=512, dropout=0.3):
        super(Model, self).__init__()
        self.device = device
        self.embedding = EmbeddingModel(embedding_model, max_sequences)
        self.lstm_input_a = nn.LSTM(768 * 2, hidden_dim, batch_first=True).to(self.device)
        self.lstm_input_b = nn.LSTM(768 * 2, hidden_dim, batch_first=True).to(self.device)

        self.conv_input_a = nn.Conv1d(768 * 2, hidden_dim, kernel_size=3, padding=1).to(self.device)
        self.conv_input_b = nn.Conv1d(768 * 2, hidden_dim, kernel_size=3, padding=1).to(self.device)

        self.fc = nn.Sequential(
            nn.Linear(hidden_dim * 2 + hidden_dim * 2, 256),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(256, 128),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(128, 3),
            nn.Softmax()
        ).to(self.device)

    def forward(self, prompts, responses_a, responses_b):
        batch_a, batch_b = self.embedding(prompts, responses_a, responses_b)

        batch_a_lstm, _ = self.lstm_input_a(batch_a)  # (batch, 64, hidden_dim)
        batch_b_lstm, _ = self.lstm_input_b(batch_b)  # (batch, 64, hidden_dim)

        batch_a_cnn = self.conv_input_a(batch_a.permute(0, 2, 1)).permute(0, 2, 1)  # (batch, 64, hidden_dim)
        batch_b_cnn = self.conv_input_b(batch_b.permute(0, 2, 1)).permute(0, 2, 1)  # (batch, 64, hidden_dim)

        batch_a_lstm = batch_a_lstm[:, -1, :] 
        batch_b_lstm = batch_b_lstm[:, -1, :]  
        batch_a_cnn = batch_a_cnn[:, -1, :]    
        batch_b_cnn = batch_b_cnn[:, -1, :]
        
        combined = torch.cat([batch_a_lstm, batch_a_cnn, batch_b_lstm, batch_b_cnn], dim=1)
        flattened = combined.view(combined.size(0), -1)

        output = self.fc(flattened)
        return output
    
class DatasetLMSYS(Dataset):
    def __init__(self, data):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        sample = self.data.iloc[idx]
        prompt = sample['prompt']
        response_a = sample['response_a']
        response_b = sample['response_b']
        label = sample['model_result']
        return prompt, response_a, response_b, label
    
class DatasetLMSYSTest(Dataset):
    def __init__(self, data):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        sample = self.data.iloc[idx]
        _id = sample['id']
        _prompt = sample['prompt']
        _response_a = sample['response_a']
        _response_b = sample['response_b']
        return _id, _prompt, _response_a, _response_b
```

</div>
<div class="column-right">

# 日本語訳

```python
# 埋め込みモデルを定義するクラス
class EmbeddingModel(nn.Module):
    def __init__(self, embedding_model, max_sequences):
        super(EmbeddingModel, self).__init__()
        self.embedding = embedding_model  # 埋め込みモデルを指定
        self.max_seq_length = max_sequences  # 最大シーケンス長を設定
        self.device = device  # 使用するデバイスを指定

    def forward(self, prompts, responses_a, responses_b):
        batch_features_a = []  # 応答Aの特徴を格納するリスト
        batch_features_b = []  # 応答Bの特徴を格納するリスト

        # 各プロンプトと応答を処理するループ
        for prompt, response_a, response_b in zip(prompts, responses_a, responses_b):
            prompt = json.loads(prompt)  # プロンプトをJSONから読み込む
            response_a = json.loads(response_a)  # 応答AをJSONから読み込む
            response_b = json.loads(response_b)  # 応答BをJSONから読み込む
            
            prompt = ["" if p is None else p for p in prompt]  # Noneの場合は空文字に変換
            response_a = ["" if r is None else r for r in response_a]  # Noneの場合は空文字に変換
            response_b = ["" if r is None else r for r in response_b]  # Noneの場合は空文字に変換
            
            # プロンプトを埋め込む
            embedded_prompt = torch.from_numpy(self.embedding.encode(prompt)).to(self.device)
           
            # 応答Aを埋め込む
            embedded_response_a = torch.from_numpy(self.embedding.encode(response_a)).to(self.device)
            # 応答Bを埋め込む
            embedded_response_b = torch.from_numpy(self.embedding.encode(response_b)).to(self.device)

            features_a = []  # 応答Aの特徴を格納するリスト
            features_b = []  # 応答Bの特徴を格納するリスト
            # 各埋め込みを結合して特徴を作成
            for i in range(len(embedded_prompt)):
                combined_a = torch.cat((embedded_prompt[i], embedded_response_a[i]), dim=0)
                combined_b = torch.cat((embedded_prompt[i], embedded_response_b[i]), dim=0)

                features_a.append(combined_a)  # 応答Aの特徴を追加
                features_b.append(combined_b)  # 応答Bの特徴を追加

            features_a = torch.stack(features_a) if features_a else torch.tensor([]).to(self.device)
            features_b = torch.stack(features_b) if features_b else torch.tensor([]).to(self.device)

            # 特徴を指定の形状にパディングする
            features_a = self.pad_to_shape(features_a, (self.max_seq_length, 768 * 2))
            features_b = self.pad_to_shape(features_b, (self.max_seq_length, 768 * 2))

            batch_features_a.append(features_a)  # バッチに応答Aの特徴を追加
            batch_features_b.append(features_b)  # バッチに応答Bの特徴を追加

        return torch.stack(batch_features_a).to(self.device), torch.stack(batch_features_b).to(self.device)

    def pad_to_shape(self, tensor, shape):
        current_shape = tensor.shape  # 現在のテンソルの形状を取得
        padding = [(0, max(s - cs, 0)) for cs, s in zip(current_shape, shape)]  # パディングサイズを計算
        # テンソルにパディングを適用
        padded_tensor = F.pad(tensor, pad=[p for pair in reversed(padding) for p in pair], mode='constant', value=0)
        return padded_tensor[:shape[0], :shape[1]]  # 指定した形状に合わせてトリミング

# 全体のモデルを定義するクラス
class Model(nn.Module):
    def __init__(self, embedding_model, max_sequences=64, hidden_dim=512, dropout=0.3):
        super(Model, self).__init__()
        self.device = device  # デバイスを指定
        self.embedding = EmbeddingModel(embedding_model, max_sequences)  # 埋め込みモデルを作成
        # LSTMレイヤーを初期化
        self.lstm_input_a = nn.LSTM(768 * 2, hidden_dim, batch_first=True).to(self.device)
        self.lstm_input_b = nn.LSTM(768 * 2, hidden_dim, batch_first=True).to(self.device)

        # 畳み込みレイヤーを初期化
        self.conv_input_a = nn.Conv1d(768 * 2, hidden_dim, kernel_size=3, padding=1).to(self.device)
        self.conv_input_b = nn.Conv1d(768 * 2, hidden_dim, kernel_size=3, padding=1).to(self.device)

        # 全結合層の定義
        self.fc = nn.Sequential(
            nn.Linear(hidden_dim * 2 + hidden_dim * 2, 256),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(256, 128),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(128, 3),  # 出力は3クラス
            nn.Softmax()
        ).to(self.device)

    def forward(self, prompts, responses_a, responses_b):
        batch_a, batch_b = self.embedding(prompts, responses_a, responses_b)  # 埋め込みを計算

        # LSTMを通す
        batch_a_lstm, _ = self.lstm_input_a(batch_a)  # (バッチ, 64, hidden_dim)
        batch_b_lstm, _ = self.lstm_input_b(batch_b)  # (バッチ, 64, hidden_dim)

        # 畳み込み層を通す
        batch_a_cnn = self.conv_input_a(batch_a.permute(0, 2, 1)).permute(0, 2, 1)  # (バッチ, 64, hidden_dim)
        batch_b_cnn = self.conv_input_b(batch_b.permute(0, 2, 1)).permute(0, 2, 1)  # (バッチ, 64, hidden_dim)

        # LSTMの最終出力を取得
        batch_a_lstm = batch_a_lstm[:, -1, :] 
        batch_b_lstm = batch_b_lstm[:, -1, :]  
        # 畳み込みの最終出力を取得
        batch_a_cnn = batch_a_cnn[:, -1, :]    
        batch_b_cnn = batch_b_cnn[:, -1, :]
        
        # 特徴を結合
        combined = torch.cat([batch_a_lstm, batch_a_cnn, batch_b_lstm, batch_b_cnn], dim=1)
        flattened = combined.view(combined.size(0), -1)  # 転置して線形層に適した形状にする

        output = self.fc(flattened)  # 全結合層を通す
        return output  # 出力を返す

# 学習データセット用のクラス
class DatasetLMSYS(Dataset):
    def __init__(self, data):
        self.data = data  # データを保存

    def __len__(self):
        return len(self.data)  # データの長さを返す

    def __getitem__(self, idx):
        sample = self.data.iloc[idx]  # データフレームからサンプルを取得
        prompt = sample['prompt']  # プロンプトを取得
        response_a = sample['response_a']  # 応答Aを取得
        response_b = sample['response_b']  # 応答Bを取得
        label = sample['model_result']  # ラベルを取得
        return prompt, response_a, response_b, label  # プロンプト、応答A、応答B、およびラベルを返す
    
# テストデータセット用のクラス
class DatasetLMSYSTest(Dataset):
    def __init__(self, data):
        self.data = data  # データを保存

    def __len__(self):
        return len(self.data)  # データの長さを返す

    def __getitem__(self, idx):
        sample = self.data.iloc[idx]  # データフレームからサンプルを取得
        _id = sample['id']  # IDを取得
        _prompt = sample['prompt']  # プロンプトを取得
        _response_a = sample['response_a']  # 応答Aを取得
        _response_b = sample['response_b']  # 応答Bを取得
        return _id, _prompt, _response_a, _response_b  # ID、プロンプト、応答A、および応答Bを返す
```

</div>
</details>

In [None]:
# 埋め込みモデルを定義するクラス
class EmbeddingModel(nn.Module):
    def __init__(self, embedding_model, max_sequences):
        super(EmbeddingModel, self).__init__()
        self.embedding = embedding_model  # 埋め込みモデルを指定
        self.max_seq_length = max_sequences  # 最大シーケンス長を設定
        self.device = device  # 使用するデバイスを指定

    def forward(self, prompts, responses_a, responses_b):
        batch_features_a = []  # 応答Aの特徴を格納するリスト
        batch_features_b = []  # 応答Bの特徴を格納するリスト

        # 各プロンプトと応答を処理するループ
        for prompt, response_a, response_b in zip(prompts, responses_a, responses_b):
            prompt = json.loads(prompt)  # プロンプトをJSONから読み込む
            response_a = json.loads(response_a)  # 応答AをJSONから読み込む
            response_b = json.loads(response_b)  # 応答BをJSONから読み込む
            
            prompt = ["" if p is None else p for p in prompt]  # Noneの場合は空文字に変換
            response_a = ["" if r is None else r for r in response_a]  # Noneの場合は空文字に変換
            response_b = ["" if r is None else r for r in response_b]  # Noneの場合は空文字に変換
            
            # プロンプトを埋め込む
            embedded_prompt = torch.from_numpy(self.embedding.encode(prompt)).to(self.device)
           
            # 応答Aを埋め込む
            embedded_response_a = torch.from_numpy(self.embedding.encode(response_a)).to(self.device)
            # 応答Bを埋め込む
            embedded_response_b = torch.from_numpy(self.embedding.encode(response_b)).to(self.device)

            features_a = []  # 応答Aの特徴を格納するリスト
            features_b = []  # 応答Bの特徴を格納するリスト
            # 各埋め込みを結合して特徴を作成
            for i in range(len(embedded_prompt)):
                combined_a = torch.cat((embedded_prompt[i], embedded_response_a[i]), dim=0)
                combined_b = torch.cat((embedded_prompt[i], embedded_response_b[i]), dim=0)

                features_a.append(combined_a)  # 応答Aの特徴を追加
                features_b.append(combined_b)  # 応答Bの特徴を追加

            features_a = torch.stack(features_a) if features_a else torch.tensor([]).to(self.device)
            features_b = torch.stack(features_b) if features_b else torch.tensor([]).to(self.device)

            # 特徴を指定の形状にパディングする
            features_a = self.pad_to_shape(features_a, (self.max_seq_length, 768 * 2))
            features_b = self.pad_to_shape(features_b, (self.max_seq_length, 768 * 2))

            batch_features_a.append(features_a)  # バッチに応答Aの特徴を追加
            batch_features_b.append(features_b)  # バッチに応答Bの特徴を追加

        return torch.stack(batch_features_a).to(self.device), torch.stack(batch_features_b).to(self.device)

    def pad_to_shape(self, tensor, shape):
        current_shape = tensor.shape  # 現在のテンソルの形状を取得
        padding = [(0, max(s - cs, 0)) for cs, s in zip(current_shape, shape)]  # パディングサイズを計算
        # テンソルにパディングを適用
        padded_tensor = F.pad(tensor, pad=[p for pair in reversed(padding) for p in pair], mode='constant', value=0)
        return padded_tensor[:shape[0], :shape[1]]  # 指定した形状に合わせてトリミング

# 全体のモデルを定義するクラス
class Model(nn.Module):
    def __init__(self, embedding_model, max_sequences=64, hidden_dim=512, dropout=0.3):
        super(Model, self).__init__()
        self.device = device  # デバイスを指定
        self.embedding = EmbeddingModel(embedding_model, max_sequences)  # 埋め込みモデルを作成
        # LSTMレイヤーを初期化
        self.lstm_input_a = nn.LSTM(768 * 2, hidden_dim, batch_first=True).to(self.device)
        self.lstm_input_b = nn.LSTM(768 * 2, hidden_dim, batch_first=True).to(self.device)

        # 畳み込みレイヤーを初期化
        self.conv_input_a = nn.Conv1d(768 * 2, hidden_dim, kernel_size=3, padding=1).to(self.device)
        self.conv_input_b = nn.Conv1d(768 * 2, hidden_dim, kernel_size=3, padding=1).to(self.device)

        # 全結合層の定義
        self.fc = nn.Sequential(
            nn.Linear(hidden_dim * 2 + hidden_dim * 2, 256),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(256, 128),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(128, 3),  # 出力は3クラス
            nn.Softmax()
        ).to(self.device)

    def forward(self, prompts, responses_a, responses_b):
        batch_a, batch_b = self.embedding(prompts, responses_a, responses_b)  # 埋め込みを計算

        # LSTMを通す
        batch_a_lstm, _ = self.lstm_input_a(batch_a)  # (バッチ, 64, hidden_dim)
        batch_b_lstm, _ = self.lstm_input_b(batch_b)  # (バッチ, 64, hidden_dim)

        # 畳み込み層を通す
        batch_a_cnn = self.conv_input_a(batch_a.permute(0, 2, 1)).permute(0, 2, 1)  # (バッチ, 64, hidden_dim)
        batch_b_cnn = self.conv_input_b(batch_b.permute(0, 2, 1)).permute(0, 2, 1)  # (バッチ, 64, hidden_dim)

        # LSTMの最終出力を取得
        batch_a_lstm = batch_a_lstm[:, -1, :] 
        batch_b_lstm = batch_b_lstm[:, -1, :]  
        # 畳み込みの最終出力を取得
        batch_a_cnn = batch_a_cnn[:, -1, :]    
        batch_b_cnn = batch_b_cnn[:, -1, :]
        
        # 特徴を結合
        combined = torch.cat([batch_a_lstm, batch_a_cnn, batch_b_lstm, batch_b_cnn], dim=1)
        flattened = combined.view(combined.size(0), -1)  # 転置して線形層に適した形状にする

        output = self.fc(flattened)  # 全結合層を通す
        return output  # 出力を返す

# 学習データセット用のクラス
class DatasetLMSYS(Dataset):
    def __init__(self, data):
        self.data = data  # データを保存

    def __len__(self):
        return len(self.data)  # データの長さを返す

    def __getitem__(self, idx):
        sample = self.data.iloc[idx]  # データフレームからサンプルを取得
        prompt = sample['prompt']  # プロンプトを取得
        response_a = sample['response_a']  # 応答Aを取得
        response_b = sample['response_b']  # 応答Bを取得
        label = sample['model_result']  # ラベルを取得
        return prompt, response_a, response_b, label  # プロンプト、応答A、応答B、およびラベルを返す
    
# テストデータセット用のクラス
class DatasetLMSYSTest(Dataset):
    def __init__(self, data):
        self.data = data  # データを保存

    def __len__(self):
        return len(self.data)  # データの長さを返す

    def __getitem__(self, idx):
        sample = self.data.iloc[idx]  # データフレームからサンプルを取得
        _id = sample['id']  # IDを取得
        _prompt = sample['prompt']  # プロンプトを取得
        _response_a = sample['response_a']  # 応答Aを取得
        _response_b = sample['response_b']  # 応答Bを取得
        return _id, _prompt, _response_a, _response_b  # ID、プロンプト、応答A、および応答Bを返す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
model = Model(tokenizer).to(device)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 定義したモデルをインスタンス化します。
# 事前訓練済みのトークナイザーを渡し、指定したデバイス（GPUまたはCPU）に移動させます。
model = Model(tokenizer).to(device)
```

</div>
</details>

In [None]:
# 定義したモデルをインスタンス化します。
# 事前訓練済みのトークナイザーを渡し、指定したデバイス（GPUまたはCPU）に移動させます。
model = Model(tokenizer).to(device)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
batch_size = 128
learning_rate = 0.001
epochs = 5
```

</div>
<div class="column-right">

# 日本語訳

```python
# ミニバッチのサイズを設定します。これは一度に処理するデータの数です。
batch_size = 128
# 学習率を設定します。これはモデルの重みの更新に使用されるステップサイズです。
learning_rate = 0.001
# エポック数を設定します。エポックとは、全データセットを1回学習させることを指します。
epochs = 5
```

</div>
</details>

In [None]:
# ミニバッチのサイズを設定します。これは一度に処理するデータの数です。
batch_size = 128
# 学習率を設定します。これはモデルの重みの更新に使用されるステップサイズです。
learning_rate = 0.001
# エポック数を設定します。エポックとは、全データセットを1回学習させることを指します。
epochs = 5

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
file_data = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')
file_data['model_result'] = file_data.apply(lambda row: 0 if row['winner_model_a'] == 1 else (1 if row['winner_model_b'] == 1 else 2), axis=1)
file_data = file_data[['prompt', 'response_a', 'response_b', 'model_result']]
train_loader = DataLoader(
    dataset=DatasetLMSYS(file_data),
    batch_size=batch_size,
    shuffle=True
)

file_test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')
test_loader = DataLoader(
    dataset=DatasetLMSYSTest(file_test),
    batch_size=batch_size,
    shuffle=False
)
```

</div>
<div class="column-right">

# 日本語訳

```python
# トレーニングデータをCSVファイルから読み込みます。
file_data = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')
# モデルの結果を計算します。winner_model_aが1なら0、winner_model_bが1なら1、どちらでもなければ2を設定します。
file_data['model_result'] = file_data.apply(lambda row: 0 if row['winner_model_a'] == 1 else (1 if row['winner_model_b'] == 1 else 2), axis=1)
# 使用するカラムを指定します。プロンプト、応答A、応答B、モデルの結果のみを残します。
file_data = file_data[['prompt', 'response_a', 'response_b', 'model_result']]
# データローダーを作成します。これによりミニバッチでデータを効率的に処理できます。
train_loader = DataLoader(
    dataset=DatasetLMSYS(file_data),  # 自作のDatasetを使用
    batch_size=batch_size,  # バッチサイズを指定
    shuffle=True  # データをランダムにシャッフルします
)

# テストデータをCSVファイルから読み込みます。
file_test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')
# テストデータ用のデータローダーを作成します。
test_loader = DataLoader(
    dataset=DatasetLMSYSTest(file_test),  # 自作のテストDatasetを使用
    batch_size=batch_size,  # バッチサイズを指定
    shuffle=False  # テストデータはシャッフルしません
)
```

</div>
</details>

In [None]:
# トレーニングデータをCSVファイルから読み込みます。
file_data = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')
# モデルの結果を計算します。winner_model_aが1なら0、winner_model_bが1なら1、どちらでもなければ2を設定します。
file_data['model_result'] = file_data.apply(lambda row: 0 if row['winner_model_a'] == 1 else (1 if row['winner_model_b'] == 1 else 2), axis=1)
# 使用するカラムを指定します。プロンプト、応答A、応答B、モデルの結果のみを残します。
file_data = file_data[['prompt', 'response_a', 'response_b', 'model_result']]
# データローダーを作成します。これによりミニバッチでデータを効率的に処理できます。
train_loader = DataLoader(
    dataset=DatasetLMSYS(file_data),  # 自作のDatasetを使用
    batch_size=batch_size,  # バッチサイズを指定
    shuffle=True  # データをランダムにシャッフルします
)

# テストデータをCSVファイルから読み込みます。
file_test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')
# テストデータ用のデータローダーを作成します。
test_loader = DataLoader(
    dataset=DatasetLMSYSTest(file_test),  # 自作のテストDatasetを使用
    batch_size=batch_size,  # バッチサイズを指定
    shuffle=False  # テストデータはシャッフルしません
)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 損失関数を設定します。ここでは交差エントロピー損失を使用します。
criterion = nn.CrossEntropyLoss()
# 最適化手法としてAdamを選択し、モデルのパラメータに対して学習率を設定します。
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)
```

</div>
</details>

In [None]:
# 損失関数を設定します。ここでは交差エントロピー損失を使用します。
criterion = nn.CrossEntropyLoss()
# 最適化手法としてAdamを選択し、モデルのパラメータに対して学習率を設定します。
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
for epoch in range(epochs):
    print(f"Epoch {epoch + 1}/{epochs}")
    running_loss = 0
    total_train = 0
    correct_train = 0
    # Train
    model.train()
    for batch in tqdm(train_loader):
        prompts, responses_a, responses_b, labels = batch
        labels = labels.to(device)

        outputs = model(prompts, responses_a, responses_b)
        _, predicted_idx = torch.max(outputs.data, 1)

        loss = criterion(outputs, labels)
        optimizer.zero_grad()

        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        total_train += labels.size(0)
        correct_train += (predicted_idx == labels).sum().item()

        del labels, outputs
        
    train_accuracy = 100 * correct_train / total_train
    print(f"\nTraining Loss: {running_loss/len(train_loader):.4f} | Training Accuracy: {train_accuracy:.2f}%")
print("\n==> Training finished!")
```

</div>
<div class="column-right">

# 日本語訳

```python
# エポック数分ループします。各エポックは1回の学習サイクルを示します。
for epoch in range(epochs):
    print(f"Epoch {epoch + 1}/{epochs}")  # 現在のエポック数を表示
    running_loss = 0  # 現在の損失の累積値
    total_train = 0  # 総トレーニングサンプル数
    correct_train = 0  # 正しく分類されたサンプルの数

    # モデルをトレーニングモードに設定
    model.train()
    # トレーニングデータローダーからバッチを取得
    for batch in tqdm(train_loader):
        prompts, responses_a, responses_b, labels = batch  # バッチからデータを取得
        labels = labels.to(device)  # ラベルをデバイスに移動

        # モデルの出力を計算
        outputs = model(prompts, responses_a, responses_b)
        # 最大値を持つインデックスを取得
        _, predicted_idx = torch.max(outputs.data, 1)

        # 損失を計算
        loss = criterion(outputs, labels)
        # 勾配をゼロに設定
        optimizer.zero_grad()

        # 損失に基づいて勾配を計算
        loss.backward()
        # パラメータを更新
        optimizer.step()

        # 損失の累積値を更新
        running_loss += loss.item()
        total_train += labels.size(0)  # トレーニングサンプル数を増加
        correct_train += (predicted_idx == labels).sum().item()  # 正解をカウント

        # メモリ管理のためにラベルと出力を削除
        del labels, outputs
        
    # トレーニング精度を計算
    train_accuracy = 100 * correct_train / total_train
    # トレーニング損失と精度を表示
    print(f"\nTraining Loss: {running_loss/len(train_loader):.4f} | Training Accuracy: {train_accuracy:.2f}%")
print("\n==> Training finished!")  # トレーニング終了のメッセージを表示
```

</div>
</details>

In [None]:
# エポック数分ループします。各エポックは1回の学習サイクルを示します。
for epoch in range(epochs):
    print(f"Epoch {epoch + 1}/{epochs}")  # 現在のエポック数を表示
    running_loss = 0  # 現在の損失の累積値
    total_train = 0  # 総トレーニングサンプル数
    correct_train = 0  # 正しく分類されたサンプルの数

    # モデルをトレーニングモードに設定
    model.train()
    # トレーニングデータローダーからバッチを取得
    for batch in tqdm(train_loader):
        prompts, responses_a, responses_b, labels = batch  # バッチからデータを取得
        labels = labels.to(device)  # ラベルをデバイスに移動

        # モデルの出力を計算
        outputs = model(prompts, responses_a, responses_b)
        # 最大値を持つインデックスを取得
        _, predicted_idx = torch.max(outputs.data, 1)

        # 損失を計算
        loss = criterion(outputs, labels)
        # 勾配をゼロに設定
        optimizer.zero_grad()

        # 損失に基づいて勾配を計算
        loss.backward()
        # パラメータを更新
        optimizer.step()

        # 損失の累積値を更新
        running_loss += loss.item()
        total_train += labels.size(0)  # トレーニングサンプル数を増加
        correct_train += (predicted_idx == labels).sum().item()  # 正解をカウント

        # メモリ管理のためにラベルと出力を削除
        del labels, outputs
        
    # トレーニング精度を計算
    train_accuracy = 100 * correct_train / total_train
    # トレーニング損失と精度を表示
    print(f"\nTraining Loss: {running_loss/len(train_loader):.4f} | Training Accuracy: {train_accuracy:.2f}%")
print("\n==> Training finished!")  # トレーニング終了のメッセージを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
def test(model, test_loader, device):
    model.eval() 
    results = [] 
    with torch.no_grad(): 
        for batch in tqdm(test_loader):
            ids, prompts, responses_a, responses_b = batch
            outputs = model(prompts, responses_a, responses_b)
            _, predicted_idx = torch.max(outputs.data, 1)
            
            for idx, output, prediction in zip(ids, outputs, predicted_idx):
                results.append({
                    'id': idx.item(),
                    'winner_model_a': output[0].item(),
                    'winner_model_b': output[1].item(),
                    'winner_tie': output[2].item()
                })
    df_results = pd.DataFrame(results)
    return df_results

df_results = test(model, test_loader, device)
df_results
```

</div>
<div class="column-right">

# 日本語訳

```python
# モデルのテストを行う関数を定義します。
def test(model, test_loader, device):
    model.eval()  # モデルを評価モードに設定
    results = []  # 結果を格納するリスト
    with torch.no_grad():  # 勾配計算を無効にしてメモリを節約
        # テストデータローダーからバッチを取得
        for batch in tqdm(test_loader):
            ids, prompts, responses_a, responses_b = batch  # バッチからデータを取得
            # モデルの出力を計算
            outputs = model(prompts, responses_a, responses_b)
            # 最大値のインデックスを取得
            _, predicted_idx = torch.max(outputs.data, 1)
            
            # 結果をリストに追加
            for idx, output, prediction in zip(ids, outputs, predicted_idx):
                results.append({
                    'id': idx.item(),  # IDを追加
                    'winner_model_a': output[0].item(),  # モデルAの勝者確率を追加
                    'winner_model_b': output[1].item(),  # モデルBの勝者確率を追加
                    'winner_tie': output[2].item()  # 引き分けの確率を追加
                })
    df_results = pd.DataFrame(results)  # 結果をデータフレームに変換
    return df_results  # データフレームを返す

# テスト関数を呼び出し、結果を取得
df_results = test(model, test_loader, device)
# 結果を表示
df_results
```

</div>
</details>

In [None]:
# モデルのテストを行う関数を定義します。
def test(model, test_loader, device):
    model.eval()  # モデルを評価モードに設定
    results = []  # 結果を格納するリスト
    with torch.no_grad():  # 勾配計算を無効にしてメモリを節約
        # テストデータローダーからバッチを取得
        for batch in tqdm(test_loader):
            ids, prompts, responses_a, responses_b = batch  # バッチからデータを取得
            # モデルの出力を計算
            outputs = model(prompts, responses_a, responses_b)
            # 最大値のインデックスを取得
            _, predicted_idx = torch.max(outputs.data, 1)
            
            # 結果をリストに追加
            for idx, output, prediction in zip(ids, outputs, predicted_idx):
                results.append({
                    'id': idx.item(),  # IDを追加
                    'winner_model_a': output[0].item(),  # モデルAの勝者確率を追加
                    'winner_model_b': output[1].item(),  # モデルBの勝者確率を追加
                    'winner_tie': output[2].item()  # 引き分けの確率を追加
                })
    df_results = pd.DataFrame(results)  # 結果をデータフレームに変換
    return df_results  # データフレームを返す

# テスト関数を呼び出し、結果を取得
df_results = test(model, test_loader, device)
# 結果を表示
df_results