# 要約 
このJupyter Notebookは、LMSYS - Chatbot Arenaコンペティションにおいて、ユーザーが生成した応答のどちらが好まれるかを予測するための機械学習モデルを構築することに取り組んでいます。具体的には、Siamese LSTM（Long Short-Term Memory）ネットワークを使用して、二つのチャットボットの応答を比較し、どちらのモデルが好まれるかを分類するタスクを行います。

### 問題の概要
- 目標は、ユーザーがどちらの応答（モデルAまたはモデルB）を選ぶか、または引き分けかを予測することです。この目的のために、提供されたトレーニングデータセットを使用して、3種類の出力（モデルAの勝利、モデルBの勝利、引き分け）を分類します。

### 使用されている手法とライブラリ
- **トランスフォーマーモデル**: `transformers`ライブラリを使用してBERTトークナイザーを利用しています。このトークナイザーは、テキストをトークン化してモデルに入力する際の前処理を行います。
- **データセットの準備**: `datasets`ライブラリを使用して、トレーニングデータセットとテストデータセットの読み込みと処理が行われます。
- **Siamese LSTMモデル**: PyTorchを用いてSiameseネットワークを実装し、二つの応答をLSTMで処理し、最終的に全結合層でクラスを予測します。モデルの構成には、埋め込み層、LSTM層、および出力層が含まれます。
- **データローダー**: DataLoaderを使用して、バッチ処理を行い、トレーニングデータとテストデータを効率的に処理します。
- **損失関数とオプティマイザー**: モデルの学習にはクロスエントロピー損失を用い、Adamオプティマイザーでパラメータを最適化します。

### トレーニングプロセス
- モデルは指定されたエポック数でトレーニングされ、各エポックで損失が計算され、学習が進む様子が表示されます。
- トレーニングの後、テストデータに対して推論を行い、各応答の勝者の確率を予測します。

### 結果の保存
- 最終的に、テストデータに対する予測結果をCSV形式で保存し、提出フォーマットに従った結果を生成します。予測結果には、各応答に対する確率（モデルAが勝つ、モデルBが勝つ、引き分け）が含まれています。

このNotebookは、機械学習モデルの設計、実装、トレーニング、評価、及び提出のための一連の作業を示しています。

---


# 用語概説 
以下に、Jupyter Notebook内での機械学習・深層学習特有の用語や概念について、初心者がつまずきそうなものの簡単な解説を列挙します。 

1. **トランスフォーマー (Transformer)**:
   トランスフォーマーは、自然言語処理で用いられる深層学習モデルの一種で、自己注意機構を使用して文脈を捉えます。このアーキテクチャは、従来のリカレントネットワーク（RNN）よりも並列処理が可能で、より大きなデータセットに対応しやすいです。

2. **埋め込み層 (Embedding Layer)**:
   埋め込み層は、入力データを密なベクトル形式に変換する層です。例えば、単語をベクトル空間にマッピングすることで、意味的に近い単語が互いに近い距離に配置されるようにします。

3. **LSTM (Long Short-Term Memory)**:
   LSTMは、長期依存性を持つデータを処理するためのリカレントニューラルネットワークの一種です。通常のRNNが抱える勾配消失問題を解決するために、忘却ゲート、入力ゲート、出力ゲートを持っています。

4. **Siameseネットワーク (Siamese Network)**:
   Siameseネットワークは、2つの同じ構造のサブネットワークを持ち、入力データのペアを同時に処理することで、類似性を比較するために設計されています。この手法は、主に類似度の評価や分類タスクに使われます。

5. **アテンションマスク (Attention Mask)**:
   アテンションマスクは、トランスフォーマーモデルにおいて、どのトークンに注意を向けるかを示すために用いられます。例えば、パディングされたトークンは無視するようにマスクします。

6. **クロスエントロピー損失 (Cross Entropy Loss)**:
   クロスエントロピー損失は、分類問題においてよく使用される損失関数で、モデルの予測した確率分布と実際のラベルとの間の不一致を評価します。この値が小さいほど、モデルの予測が正確であることを示します。

7. **ソフトマックス関数 (Softmax Function)**:
   ソフトマックス関数は、多クラス分類問題の出力層で用いられる関数で、入力された実数のベクトルを確率分布に変換します。これにより、出力の和が1になるように調整されます。

8. **バックプロパゲーション (Backpropagation)**:
   バックプロパゲーションは、ニューラルネットワークを訓練するためのアルゴリズムで、ネットワークの出力から誤差を逆伝播させて各重みの更新に必要な勾配を計算します。

9. **データローダー (DataLoader)**:
   データローダーは、データセットからバッチを取り出して訓練中にモデルに入力するための便利なクラスです。データのシャッフルや並列化をサポートする機能を持っています。

10. **トークナイザー (Tokenizer)**:
    トークナイザーは、テキストデータをトークン（単語やサブワード）に分割し、それぞれに整数IDを割り当てるツールです。この過程は、自然言語処理の前処理の重要なステップです。

これらの用語や概念は、初心者が深層学習や機械学習のノートブックを理解する上で重要なポイントとなります。特に、これらの技術がどのように結びついているかを把握することは、実務での応用にも役立つでしょう。

---


<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python

```

</div>
<div class="column-right">

# 日本語訳

```python
# 特にコードが記載されていないため、翻訳する内容がありません。
```

</div>
</details>

In [None]:
# 特にコードが記載されていないため、翻訳する内容がありません。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
pip install transformers datasets
```

</div>
<div class="column-right">

# 日本語訳

```python
# transformersとdatasetsライブラリをインストールします。
# transformersライブラリは、トランスフォーマーベースのモデルの使用を容易にします。
# datasetsライブラリは、さまざまなデータセットを簡単にダウンロードして利用できるようにします。
pip install transformers datasets
```

</div>
</details>

In [None]:
# transformersとdatasetsライブラリをインストールします。
# transformersライブラリは、トランスフォーマーベースのモデルの使用を容易にします。
# datasetsライブラリは、さまざまなデータセットを簡単にダウンロードして利用できるようにします。
pip install transformers datasets

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import pandas as pd
import torch
from torch.utils.data import Dataset, DataLoader
from transformers import BertTokenizer
import torch.nn as nn
from tqdm import tqdm
from sklearn.metrics import log_loss

# Define the SiameseLSTM class
class SiameseLSTM(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers):
        super(SiameseLSTM, self).__init__()
        self.embedding = nn.Embedding(input_size, hidden_size)
        self.lstm = nn.LSTM(hidden_size, hidden_size, num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, 3)  # Output size 3 for 3 classes: model A wins, model B wins, tie

    def forward_one(self, x):
        x = self.embedding(x)
        _, (h, _) = self.lstm(x)
        return h[-1]

    def forward(self, x1, x2):
        h1 = self.forward_one(x1)
        h2 = self.forward_one(x2)
        return self.fc(torch.abs(h1 - h2))

# Step 1: Load your training dataset
df_train = pd.read_csv('/kaggle/input/datasetcomp/train.csv')

# Filter out invalid cases and prepare data
data = df_train[['response_a', 'response_b', 'winner_model_a', 'winner_model_b', 'winner_tie']].values

def determine_label(row):
    if row[2] == 1:
        return 0  # model A wins
    elif row[3] == 1:
        return 1  # model B wins
    elif row[4] == 1:
        return 2  # tie
    else:
        return -1  # Invalid or unclear case

labels = [determine_label(row) for row in data if determine_label(row) != -1]
data = [row[:2] for row in data if determine_label(row) != -1]

# Step 2: Define a custom Dataset class
class SiameseDataset(Dataset):
    def __init__(self, data, labels, tokenizer, max_length):
        self.data = data
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        pair = self.data[idx]
        response_a = pair[0]
        response_b = pair[1]
        label = self.labels[idx]

        tokens_a = self.tokenizer(response_a, padding="max_length", truncation=True, max_length=self.max_length)
        tokens_b = self.tokenizer(response_b, padding="max_length", truncation=True, max_length=self.max_length)

        return {
            'input_ids_a': torch.tensor(tokens_a['input_ids']),
            'attention_mask_a': torch.tensor(tokens_a['attention_mask']),
            'input_ids_b': torch.tensor(tokens_b['input_ids']),
            'attention_mask_b': torch.tensor(tokens_b['attention_mask']),
            'label': torch.tensor(label, dtype=torch.long)
        }

# Step 3: Initialize BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('/kaggle/input/bert-base-uncased/')
max_length = 128  # Adjust according to your dataset

# Step 4: Create instances of Dataset and DataLoader for training
train_dataset = SiameseDataset(data, labels, tokenizer, max_length)
batch_size = 32
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

# Step 5: Define the Siamese network model
input_size = len(tokenizer)
hidden_size = 300
num_layers = 1
model = SiameseLSTM(input_size, hidden_size, num_layers)

# Step 6: Define loss function and optimizer
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

# Step 7: Training loop
num_epochs = 5  # Adjust as needed
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)

for epoch in range(num_epochs):
    model.train()
    total_loss = 0
    for batch in tqdm(train_loader, desc=f'Epoch {epoch+1}/{num_epochs}'):
        input_ids_a = batch['input_ids_a'].to(device)
        attention_mask_a = batch['attention_mask_a'].to(device)
        input_ids_b = batch['input_ids_b'].to(device)
        attention_mask_b = batch['attention_mask_b'].to(device)
        labels = batch['label'].to(device)

        optimizer.zero_grad()
        outputs = model(input_ids_a, input_ids_b)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        total_loss += loss.item()

    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {total_loss / len(train_loader)}')

# Load your test dataset
df_test = pd.read_csv('/kaggle/input/datasetcomp/test.csv')

# Define a custom Dataset class for testing
class SiameseTestDataset(Dataset):
    def __init__(self, data, tokenizer, max_length):
        self.data = data
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        pair = self.data[idx]
        response_a = pair[0]
        response_b = pair[1]

        tokens_a = self.tokenizer(response_a, padding="max_length", truncation=True, max_length=self.max_length)
        tokens_b = self.tokenizer(response_b, padding="max_length", truncation=True, max_length=self.max_length)

        return {
            'input_ids_a': torch.tensor(tokens_a['input_ids']),
            'attention_mask_a': torch.tensor(tokens_a['attention_mask']),
            'input_ids_b': torch.tensor(tokens_b['input_ids']),
            'attention_mask_b': torch.tensor(tokens_b['attention_mask']),
        }

# Prepare test data
test_data = df_test[['response_a', 'response_b']].values.tolist()

# Create instance of SiameseTestDataset
test_dataset = SiameseTestDataset(test_data, tokenizer, max_length)

# Create DataLoader for the test dataset
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

# Load the saved model
model.load_state_dict(torch.load('/kaggle/input/datasetcomp/siamese_model.pth'))
model.eval()  # Set model to evaluation mode

# Perform inference on the test data and generate predictions
all_preds = []
with torch.no_grad():
    for batch in tqdm(test_loader, desc='Testing'):
        input_ids_a = batch['input_ids_a'].to(device)
        attention_mask_a = batch['attention_mask_a'].to(device)
        input_ids_b = batch['input_ids_b'].to(device)
        attention_mask_b = batch['attention_mask_b'].to(device)

        outputs = model(input_ids_a, input_ids_b)
        probabilities = nn.Softmax(dim=1)(outputs)
        all_preds.extend(probabilities.cpu().numpy().tolist())

# Create a DataFrame for predictions
pred_df = pd.DataFrame(all_preds, columns=['winner_model_a', 'winner_model_b', 'winner_tie'])
pred_df['id'] = df_test['id']

# Reorder columns to match the required format
pred_df = pred_df[['id', 'winner_model_a', 'winner_model_b', 'winner_tie']]

# Save predictions to CSV for submission
pred_df.to_csv('submission.csv', index=False)
print(pred_df.head())

```

</div>
<div class="column-right">

# 日本語訳

```python
import pandas as pd
import torch
from torch.utils.data import Dataset, DataLoader
from transformers import BertTokenizer
import torch.nn as nn
from tqdm import tqdm
from sklearn.metrics import log_loss

# SiameseLSTMクラスを定義します
class SiameseLSTM(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers):
        super(SiameseLSTM, self).__init__()
        self.embedding = nn.Embedding(input_size, hidden_size)  # 入力層の埋め込み層
        self.lstm = nn.LSTM(hidden_size, hidden_size, num_layers, batch_first=True)  # LSTM層
        self.fc = nn.Linear(hidden_size, 3)  # 出力層：3クラス（モデルAが勝つ、モデルBが勝つ、引き分け）

    def forward_one(self, x):
        x = self.embedding(x)  # 入力を埋め込みに変換
        _, (h, _) = self.lstm(x)  # LSTMを通して隠れ状態を取得
        return h[-1]  # 最後の隠れ状態を返す

    def forward(self, x1, x2):
        h1 = self.forward_one(x1)  # 最初の入力の出力を取得
        h2 = self.forward_one(x2)  # 二つ目の入力の出力を取得
        return self.fc(torch.abs(h1 - h2))  # 二つの隠れ状態の絶対差を計算し、全結合層に渡す

# ステップ1：トレーニングデータセットを読み込む
df_train = pd.read_csv('/kaggle/input/datasetcomp/train.csv')

# 無効なケースをフィルタリングし、データを準備する
data = df_train[['response_a', 'response_b', 'winner_model_a', 'winner_model_b', 'winner_tie']].values

def determine_label(row):
    if row[2] == 1:
        return 0  # モデルAが勝つ
    elif row[3] == 1:
        return 1  # モデルBが勝つ
    elif row[4] == 1:
        return 2  # 引き分け
    else:
        return -1  # 無効または不明なケース

labels = [determine_label(row) for row in data if determine_label(row) != -1]  # ラベルをリストに格納
data = [row[:2] for row in data if determine_label(row) != -1]  # 有効なデータペアを取得

# ステップ2：カスタムDatasetクラスを定義します
class SiameseDataset(Dataset):
    def __init__(self, data, labels, tokenizer, max_length):
        self.data = data
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.data)  # データの長さを返す

    def __getitem__(self, idx):
        pair = self.data[idx]
        response_a = pair[0]
        response_b = pair[1]
        label = self.labels[idx]

        # トークナイザーを使用してテキストをトークン化
        tokens_a = self.tokenizer(response_a, padding="max_length", truncation=True, max_length=self.max_length)
        tokens_b = self.tokenizer(response_b, padding="max_length", truncation=True, max_length=self.max_length)

        return {
            'input_ids_a': torch.tensor(tokens_a['input_ids']),  # モデルAの入力ID
            'attention_mask_a': torch.tensor(tokens_a['attention_mask']),  # モデルAのアテンションマスク
            'input_ids_b': torch.tensor(tokens_b['input_ids']),  # モデルBの入力ID
            'attention_mask_b': torch.tensor(tokens_b['attention_mask']),  # モデルBのアテンションマスク
            'label': torch.tensor(label, dtype=torch.long)  # ラベル
        }

# ステップ3：BERTトークナイザーを初期化します
tokenizer = BertTokenizer.from_pretrained('/kaggle/input/bert-base-uncased/')
max_length = 128  # データセットに応じて調整

# ステップ4：トレーニング用のDatasetとDataLoaderのインスタンスを作成します
train_dataset = SiameseDataset(data, labels, tokenizer, max_length)
batch_size = 32  # バッチサイズを32に設定
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)  # データローダーを作成

# ステップ5：Siameseネットワークモデルを定義します
input_size = len(tokenizer)  # トークナイザーのサイズを入力サイズに設定
hidden_size = 300  # 隠れ層のサイズを300に設定
num_layers = 1  # LSTMのレイヤー数
model = SiameseLSTM(input_size, hidden_size, num_layers)

# ステップ6：損失関数とオプティマイザーを定義します
criterion = nn.CrossEntropyLoss()  # クロスエントロピー損失
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)  # Adamオプティマイザー

# ステップ7：トレーニングループ
num_epochs = 5  # 必要に応じて調整
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # GPUが利用可能であればGPUを使用
model.to(device)  # モデルをデバイスに転送

for epoch in range(num_epochs):
    model.train()  # モデルを訓練モードに設定
    total_loss = 0
    for batch in tqdm(train_loader, desc=f'Epoch {epoch+1}/{num_epochs}'):
        input_ids_a = batch['input_ids_a'].to(device)
        attention_mask_a = batch['attention_mask_a'].to(device)
        input_ids_b = batch['input_ids_b'].to(device)
        attention_mask_b = batch['attention_mask_b'].to(device)
        labels = batch['label'].to(device)

        optimizer.zero_grad()  # 勾配を初期化
        outputs = model(input_ids_a, input_ids_b)  # モデルに入力を渡して出力を取得
        loss = criterion(outputs, labels)  # 損失を計算
        loss.backward()  # バックプロパゲーションで勾配を計算
        optimizer.step()  # オプティマイザーで重みを更新

        total_loss += loss.item()  # 累積損失を加算

    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {total_loss / len(train_loader)}')  # エポックごとの損失を表示

# テストデータセットを読み込む
df_test = pd.read_csv('/kaggle/input/datasetcomp/test.csv')

# テスト用のカスタムDatasetクラスを定義します
class SiameseTestDataset(Dataset):
    def __init__(self, data, tokenizer, max_length):
        self.data = data
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.data)  # データの長さを返す

    def __getitem__(self, idx):
        pair = self.data[idx]
        response_a = pair[0]
        response_b = pair[1]

        # トークナイザーを使用してテキストをトークン化
        tokens_a = self.tokenizer(response_a, padding="max_length", truncation=True, max_length=self.max_length)
        tokens_b = self.tokenizer(response_b, padding="max_length", truncation=True, max_length=self.max_length)

        return {
            'input_ids_a': torch.tensor(tokens_a['input_ids']),  # モデルAの入力ID
            'attention_mask_a': torch.tensor(tokens_a['attention_mask']),  # モデルAのアテンションマスク
            'input_ids_b': torch.tensor(tokens_b['input_ids']),  # モデルBの入力ID
            'attention_mask_b': torch.tensor(tokens_b['attention_mask']),  # モデルBのアテンションマスク
        }

# テストデータを準備する
test_data = df_test[['response_a', 'response_b']].values.tolist()

# SiameseTestDatasetのインスタンスを作成
test_dataset = SiameseTestDataset(test_data, tokenizer, max_length)

# テストデータセットのデータローダーを作成
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

# 保存したモデルを読み込む
model.load_state_dict(torch.load('/kaggle/input/datasetcomp/siamese_model.pth'))
model.eval()  # モデルを評価モードに設定

# テストデータに対して推論を行い、予測を生成する
all_preds = []
with torch.no_grad():  # 勾配計算を無効にする
    for batch in tqdm(test_loader, desc='Testing'):
        input_ids_a = batch['input_ids_a'].to(device)
        attention_mask_a = batch['attention_mask_a'].to(device)
        input_ids_b = batch['input_ids_b'].to(device)
        attention_mask_b = batch['attention_mask_b'].to(device)

        outputs = model(input_ids_a, input_ids_b)  # モデルに入力を渡して出力を取得
        probabilities = nn.Softmax(dim=1)(outputs)  # ソフトマックス関数を適用して確率を計算
        all_preds.extend(probabilities.cpu().numpy().tolist())  # 確率をリストに追加

# 予測結果のDataFrameを作成
pred_df = pd.DataFrame(all_preds, columns=['winner_model_a', 'winner_model_b', 'winner_tie'])
pred_df['id'] = df_test['id']  # テストデータのIDを追加

# 必要な形式に列を再配置
pred_df = pred_df[['id', 'winner_model_a', 'winner_model_b', 'winner_tie']]

# 提出用に予測結果をCSVに保存
pred_df.to_csv('submission.csv', index=False)
print(pred_df.head())  # 予測結果の先頭部分を表示
```

</div>
</details>

In [None]:
import pandas as pd
import torch
from torch.utils.data import Dataset, DataLoader
from transformers import BertTokenizer
import torch.nn as nn
from tqdm import tqdm
from sklearn.metrics import log_loss

# SiameseLSTMクラスを定義します
class SiameseLSTM(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers):
        super(SiameseLSTM, self).__init__()
        self.embedding = nn.Embedding(input_size, hidden_size)  # 入力層の埋め込み層
        self.lstm = nn.LSTM(hidden_size, hidden_size, num_layers, batch_first=True)  # LSTM層
        self.fc = nn.Linear(hidden_size, 3)  # 出力層：3クラス（モデルAが勝つ、モデルBが勝つ、引き分け）

    def forward_one(self, x):
        x = self.embedding(x)  # 入力を埋め込みに変換
        _, (h, _) = self.lstm(x)  # LSTMを通して隠れ状態を取得
        return h[-1]  # 最後の隠れ状態を返す

    def forward(self, x1, x2):
        h1 = self.forward_one(x1)  # 最初の入力の出力を取得
        h2 = self.forward_one(x2)  # 二つ目の入力の出力を取得
        return self.fc(torch.abs(h1 - h2))  # 二つの隠れ状態の絶対差を計算し、全結合層に渡す

# ステップ1：トレーニングデータセットを読み込む
df_train = pd.read_csv('/kaggle/input/datasetcomp/train.csv')

# 無効なケースをフィルタリングし、データを準備する
data = df_train[['response_a', 'response_b', 'winner_model_a', 'winner_model_b', 'winner_tie']].values

def determine_label(row):
    if row[2] == 1:
        return 0  # モデルAが勝つ
    elif row[3] == 1:
        return 1  # モデルBが勝つ
    elif row[4] == 1:
        return 2  # 引き分け
    else:
        return -1  # 無効または不明なケース

labels = [determine_label(row) for row in data if determine_label(row) != -1]  # ラベルをリストに格納
data = [row[:2] for row in data if determine_label(row) != -1]  # 有効なデータペアを取得

# ステップ2：カスタムDatasetクラスを定義します
class SiameseDataset(Dataset):
    def __init__(self, data, labels, tokenizer, max_length):
        self.data = data
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.data)  # データの長さを返す

    def __getitem__(self, idx):
        pair = self.data[idx]
        response_a = pair[0]
        response_b = pair[1]
        label = self.labels[idx]

        # トークナイザーを使用してテキストをトークン化
        tokens_a = self.tokenizer(response_a, padding="max_length", truncation=True, max_length=self.max_length)
        tokens_b = self.tokenizer(response_b, padding="max_length", truncation=True, max_length=self.max_length)

        return {
            'input_ids_a': torch.tensor(tokens_a['input_ids']),  # モデルAの入力ID
            'attention_mask_a': torch.tensor(tokens_a['attention_mask']),  # モデルAのアテンションマスク
            'input_ids_b': torch.tensor(tokens_b['input_ids']),  # モデルBの入力ID
            'attention_mask_b': torch.tensor(tokens_b['attention_mask']),  # モデルBのアテンションマスク
            'label': torch.tensor(label, dtype=torch.long)  # ラベル
        }

# ステップ3：BERTトークナイザーを初期化します
tokenizer = BertTokenizer.from_pretrained('/kaggle/input/bert-base-uncased/')
max_length = 128  # データセットに応じて調整

# ステップ4：トレーニング用のDatasetとDataLoaderのインスタンスを作成します
train_dataset = SiameseDataset(data, labels, tokenizer, max_length)
batch_size = 32  # バッチサイズを32に設定
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)  # データローダーを作成

# ステップ5：Siameseネットワークモデルを定義します
input_size = len(tokenizer)  # トークナイザーのサイズを入力サイズに設定
hidden_size = 300  # 隠れ層のサイズを300に設定
num_layers = 1  # LSTMのレイヤー数
model = SiameseLSTM(input_size, hidden_size, num_layers)

# ステップ6：損失関数とオプティマイザーを定義します
criterion = nn.CrossEntropyLoss()  # クロスエントロピー損失
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)  # Adamオプティマイザー

# ステップ7：トレーニングループ
num_epochs = 5  # 必要に応じて調整
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # GPUが利用可能であればGPUを使用
model.to(device)  # モデルをデバイスに転送

for epoch in range(num_epochs):
    model.train()  # モデルを訓練モードに設定
    total_loss = 0
    for batch in tqdm(train_loader, desc=f'Epoch {epoch+1}/{num_epochs}'):
        input_ids_a = batch['input_ids_a'].to(device)
        attention_mask_a = batch['attention_mask_a'].to(device)
        input_ids_b = batch['input_ids_b'].to(device)
        attention_mask_b = batch['attention_mask_b'].to(device)
        labels = batch['label'].to(device)

        optimizer.zero_grad()  # 勾配を初期化
        outputs = model(input_ids_a, input_ids_b)  # モデルに入力を渡して出力を取得
        loss = criterion(outputs, labels)  # 損失を計算
        loss.backward()  # バックプロパゲーションで勾配を計算
        optimizer.step()  # オプティマイザーで重みを更新

        total_loss += loss.item()  # 累積損失を加算

    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {total_loss / len(train_loader)}')  # エポックごとの損失を表示

# テストデータセットを読み込む
df_test = pd.read_csv('/kaggle/input/datasetcomp/test.csv')

# テスト用のカスタムDatasetクラスを定義します
class SiameseTestDataset(Dataset):
    def __init__(self, data, tokenizer, max_length):
        self.data = data
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.data)  # データの長さを返す

    def __getitem__(self, idx):
        pair = self.data[idx]
        response_a = pair[0]
        response_b = pair[1]

        # トークナイザーを使用してテキストをトークン化
        tokens_a = self.tokenizer(response_a, padding="max_length", truncation=True, max_length=self.max_length)
        tokens_b = self.tokenizer(response_b, padding="max_length", truncation=True, max_length=self.max_length)

        return {
            'input_ids_a': torch.tensor(tokens_a['input_ids']),  # モデルAの入力ID
            'attention_mask_a': torch.tensor(tokens_a['attention_mask']),  # モデルAのアテンションマスク
            'input_ids_b': torch.tensor(tokens_b['input_ids']),  # モデルBの入力ID
            'attention_mask_b': torch.tensor(tokens_b['attention_mask']),  # モデルBのアテンションマスク
        }

# テストデータを準備する
test_data = df_test[['response_a', 'response_b']].values.tolist()

# SiameseTestDatasetのインスタンスを作成
test_dataset = SiameseTestDataset(test_data, tokenizer, max_length)

# テストデータセットのデータローダーを作成
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

# 保存したモデルを読み込む
model.load_state_dict(torch.load('/kaggle/input/datasetcomp/siamese_model.pth'))
model.eval()  # モデルを評価モードに設定

# テストデータに対して推論を行い、予測を生成する
all_preds = []
with torch.no_grad():  # 勾配計算を無効にする
    for batch in tqdm(test_loader, desc='Testing'):
        input_ids_a = batch['input_ids_a'].to(device)
        attention_mask_a = batch['attention_mask_a'].to(device)
        input_ids_b = batch['input_ids_b'].to(device)
        attention_mask_b = batch['attention_mask_b'].to(device)

        outputs = model(input_ids_a, input_ids_b)  # モデルに入力を渡して出力を取得
        probabilities = nn.Softmax(dim=1)(outputs)  # ソフトマックス関数を適用して確率を計算
        all_preds.extend(probabilities.cpu().numpy().tolist())  # 確率をリストに追加

# 予測結果のDataFrameを作成
pred_df = pd.DataFrame(all_preds, columns=['winner_model_a', 'winner_model_b', 'winner_tie'])
pred_df['id'] = df_test['id']  # テストデータのIDを追加

# 必要な形式に列を再配置
pred_df = pred_df[['id', 'winner_model_a', 'winner_model_b', 'winner_tie']]

# 提出用に予測結果をCSVに保存
pred_df.to_csv('submission.csv', index=False)
print(pred_df.head())  # 予測結果の先頭部分を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python

```

</div>
<div class="column-right">

# 日本語訳

```python
# 特にコードが記載されていないため、翻訳する内容がありません。
```

</div>
</details>

In [None]:
# 特にコードが記載されていないため、翻訳する内容がありません。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python

```

</div>
<div class="column-right">

# 日本語訳

```python
# 特にコードが記載されていないため、翻訳する内容がありません。
```

</div>
</details>

In [None]:
# 特にコードが記載されていないため、翻訳する内容がありません。