# 要約 
このJupyter Notebookは、LMSYS - Chatbot Arenaコンペティションにおける人間による好み予測の問題に取り組んでいます。この目的のために、ユーザーが二つの異なる言語モデルからの応答の中でどちらを好むかを予測するためのモデルを構築しています。

### 問題の概要
与えられたデータセットからユーザーのプロンプトと応答を処理し、各応答の優劣を予測することが課題です。具体的には、ユーザーがどちらのモデルの応答を選ぶか、または両方を同等に評価するか（引き分け）を予測します。

### 使用されている手法とライブラリ
1. **データの前処理**: pandasを用いてトレーニングデータを読み込み、プロンプトや応答のテキストを整形。この際、不要な'null'応答を削除し、応答を連結して新しいテキストフォーマットを作成しています。

2. **トークナイザー**: Hugging Faceの`BertTokenizer`を利用して、テキストをトークン化します。トークン化には、パディングや特別なトークンの設定が含まれています。

3. **モデルの構築**: Kerasを用いて、畳み込みニューラルネットワーク（CNN）と長短期記憶（LSTM）を組み合わせたモデルを設計しています。具体的には、1D畳み込み層とLSTM層を用いて、テキスト分類のための深層学習モデルを構築し、最終的にソフトマックスで出力する多クラス分類器を定義します。

4. **モデルトレーニング**: 定義したモデルに対して、トレーニングデータを用いて学習を行い、モデルのパラメータを最適化します。また、学習過程でモデルの性能を評価し、最良のモデルを保存しています。

5. **予測と提出ファイルの作成**: テストデータを処理し、同様にトークン化及びパディングを行った後、トレーニングしたモデルを使用して予測を行い、最終的に提出用のCSVファイルを生成しています。

### 結論
このノートブックは、言語モデルの応答の優劣を予測するための深層学習モデルを構築し、詳細なデータ前処理と評価手法を適用しています。また、最適化の余地が残っており、さらなるパフォーマンス向上が期待されます。

---


# 用語概説 
以下に、Jupyter Notebookの内容から初心者がつまずきやすい専門用語を解説します。

1. **トークナイザー (Tokenizer)**:
   トークナイザーはテキストを一定の「トークン」（単語やサブワードなどの単位）に分割するためのツールです。モデルに入力するための前処理として行われ、トークン化することで、自然言語を数値的に表現することが可能になります。

2. **パディング (Padding)**:
   テキストデータの長さを揃えるために、短いテキストの終わりに特定のトークン（通常は0）を追加することを指します。これによって、バッチ処理を行う際に、すべての入力が同じ長さになり、効率的に処理できるようになります。

3. **アテンションマスク (Attention Mask)**:
   トークン化したデータにおいて、パディングトークンを無視するためのマスクです。1はモデルが計算すべきトークン、0はパディングトークンを示します。このマスクを使用することで、モデルは無関係な情報を考慮せずに有用なトークンにだけフォーカスすることができます。

4. **埋め込み層 (Embedding Layer)**:
   言葉やトークンをベクトルとして表現する層です。この層では、各トークンを連続値のベクトルに変換し、モデルが単語の意味を理解できるようにします。言葉の類似性を反映させるため、近い意味の単語は近いベクトル表現を持ちます。

5. **畳み込み層 (Convolutional Layer)**:
   主に画像処理で用いられるが、テキストデータにも適用可能な層です。文の特徴を抽出するために、フィルターを用いて周囲のトークンを考慮しながら局所的なパターンを捉えます。この層が持つフィルターのサイズや数によって、どのような特徴が抜き出されるかが変わります。

6. **グローバル最大プーリング (Global Max Pooling)**:
   畳み込み層の出力から特徴を集約する手法の一つ。得られた特徴マップの中から最大値を選び、次の層に渡すことで、情報の重要な部分を保持しつつ次元を削減します。

7. **LSTM (Long Short-Term Memory)**:
   RNN（リカレントニューラルネットワーク）の一種で、長期的な依存関係を学習するのに特化したモデルです。時間的な情報を保持するための特別な構造を持っており、系列データの処理に向いています。

8. **ドロップアウト (Dropout)**:
   ニューラルネットワークの過学習を防ぐために用いられる手法で、トレーニング中に特定のニューロンをランダムに無効にすることで、モデルが特定のニューロンに依存しすぎないようにします。

9. **モデルチェックポイント (Model Checkpoint)**:
   トレーニング中に一定の条件（例えば精度が向上した場合）でモデルの状態を保存する処理です。これにより、トレーニングが中断されても、進行状況を保持し、再開時にその状態からスタートすることが可能になります。

10. **エポック (Epoch)**:
    データセット全体をモデルが1回通過することを指します。通常、複数のエポックを通じてトレーニングを行い、モデルがデータのパターンを学習します。

これらの用語は深層学習の実装や理解の中でしばしば登場しますが、新しい環境に馴染みがないときは特に混乱を招くことがあります。これらの説明が、理解の助けとなれば幸いです。

---


<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Import libs 

</div>
<div class="column-right">

# 日本語訳

# ライブラリのインポート


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import os
import gc
import re
from time import time
import random
import warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from tqdm.auto import tqdm

import torch
import transformers
from sklearn.metrics import accuracy_score
from transformers import AutoTokenizer, LlamaModel, LlamaForSequenceClassification
import torch.nn.functional as F
```

</div>
<div class="column-right">

# 日本語訳

```python
import os
import gc
import re
from time import time
import random
import warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from tqdm.auto import tqdm

import torch
import transformers
from sklearn.metrics import accuracy_score
from transformers import AutoTokenizer, LlamaModel, LlamaForSequenceClassification
import torch.nn.functional as F
```

</div>
</details>

In [None]:
import os
import gc
import re
from time import time
import random
import warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from tqdm.auto import tqdm

import torch
import transformers
from sklearn.metrics import accuracy_score
from transformers import AutoTokenizer, LlamaModel, LlamaForSequenceClassification
import torch.nn.functional as F

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Tokenizer

</div>
<div class="column-right">

# 日本語訳

# トークナイザー


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('/kaggle/input/bert/tensorflow2/bert-en-uncased-l-10-h-128-a-2/2')

tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = 'right'
tokenizer.add_eos_token = True
# save tokenizer to load offline during inference
tokenizer.save_pretrained('tokenizer')
```

</div>
<div class="column-right">

# 日本語訳

```python
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('/kaggle/input/bert/tensorflow2/bert-en-uncased-l-10-h-128-a-2/2')

tokenizer.pad_token = tokenizer.eos_token  # パディングトークンをEOSトークンに設定
tokenizer.padding_side = 'right'  # 右側にパディング
tokenizer.add_eos_token = True  # EOSトークンを追加
# オフラインで推論時にロードするためにトークナイザーを保存
tokenizer.save_pretrained('tokenizer')
```

</div>
</details>

In [None]:
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('/kaggle/input/bert/tensorflow2/bert-en-uncased-l-10-h-128-a-2/2')

tokenizer.pad_token = tokenizer.eos_token  # パディングトークンをEOSトークンに設定
tokenizer.padding_side = 'right'  # 右側にパディング
tokenizer.add_eos_token = True  # EOSトークンを追加
# オフラインで推論時にロードするためにトークナイザーを保存
tokenizer.save_pretrained('tokenizer')

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Utility function giving token length
def get_token_lengths(texts):
    # tokenize and receive input_ids for reach text
    input_ids = tokenizer(texts.tolist(), return_tensors='np')['input_ids']
    # return length of inputs_ids for each text
    return [len(t) for t in input_ids]
```

</div>
<div class="column-right">

# 日本語訳

```python
# トークンの長さを返すユーティリティ関数
def get_token_lengths(texts):
    # テキストをトークン化して各テキストのinput_idsを取得
    input_ids = tokenizer(texts.tolist(), return_tensors='np')['input_ids']
    # 各テキストのinput_idsの長さを返す
    return [len(t) for t in input_ids]
```

</div>
</details>

In [None]:
# トークンの長さを返すユーティリティ関数
def get_token_lengths(texts):
    # テキストをトークン化して各テキストのinput_idsを取得
    input_ids = tokenizer(texts.tolist(), return_tensors='np')['input_ids']
    # 各テキストのinput_idsの長さを返す
    return [len(t) for t in input_ids]

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Prepare train


</div>
<div class="column-right">

# 日本語訳

# トレーニングデータの準備


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')
def process(input_str):
    stripped_str = input_str.strip('[]')
    sentences = [s.strip('"') for s in stripped_str.split('","')]
    return  ' '.join(sentences)

train.loc[:, 'prompt'] = train['prompt'].apply(process)
train.loc[:, 'response_a'] = train['response_a'].apply(process)
train.loc[:, 'response_b'] = train['response_b'].apply(process)

# Drop 'Null' for training
indexes = train[(train.response_a == 'null') & (train.response_b == 'null')].index
train.drop(indexes, inplace=True)
train.reset_index(inplace=True, drop=True)

print(f"Total {len(indexes)} Null response rows dropped")
print('Total train samples: ', len(train))
```

</div>
<div class="column-right">

# 日本語訳

```python
train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')
def process(input_str):
    stripped_str = input_str.strip('[]')
    sentences = [s.strip('"') for s in stripped_str.split('","')]
    return  ' '.join(sentences)

train.loc[:, 'prompt'] = train['prompt'].apply(process)  # プロンプトを処理
train.loc[:, 'response_a'] = train['response_a'].apply(process)  # モデルAの応答を処理
train.loc[:, 'response_b'] = train['response_b'].apply(process)  # モデルBの応答を処理

# トレーニングのために'Null'を削除
indexes = train[(train.response_a == 'null') & (train.response_b == 'null')].index
train.drop(indexes, inplace=True)  # 'null'応答の行を削除
train.reset_index(inplace=True, drop=True)  # インデックスをリセット

print(f"Total {len(indexes)} Null response rows dropped")  # 削除した'Null'の行数を表示
print('Total train samples: ', len(train))  # トレーニングデータのサンプル数を表示
```

</div>
</details>

In [None]:
train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')
def process(input_str):
    stripped_str = input_str.strip('[]')
    sentences = [s.strip('"') for s in stripped_str.split('","')]
    return  ' '.join(sentences)

train.loc[:, 'prompt'] = train['prompt'].apply(process)  # プロンプトを処理
train.loc[:, 'response_a'] = train['response_a'].apply(process)  # モデルAの応答を処理
train.loc[:, 'response_b'] = train['response_b'].apply(process)  # モデルBの応答を処理

# トレーニングのために'Null'を削除
indexes = train[(train.response_a == 'null') & (train.response_b == 'null')].index
train.drop(indexes, inplace=True)  # 'null'応答の行を削除
train.reset_index(inplace=True, drop=True)  # インデックスをリセット

print(f"Total {len(indexes)} Null response rows dropped")  # 削除した'Null'の行数を表示
print('Total train samples: ', len(train))  # トレーニングデータのサンプル数を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
train.head(5)
```

</div>
<div class="column-right">

# 日本語訳

```python
train.head(5)  # トレーニングデータの最初の5行を表示
```

</div>
</details>

In [None]:
train.head(5)  # トレーニングデータの最初の5行を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
train['text'] = 'User prompt: ' + train['prompt'] +  '\n\nModel A :\n' + train['response_a'] +'\n\n--------\n\nModel B:\n'  + train['response_b']
print(train['text'][4])
```

</div>
<div class="column-right">

# 日本語訳

```python
train['text'] = 'User prompt: ' + train['prompt'] +  '\n\nModel A :\n' + train['response_a'] +'\n\n--------\n\nModel B:\n'  + train['response_b']
print(train['text'][4])  # 4番目のテキストを表示
```

</div>
</details>

In [None]:
train['text'] = 'User prompt: ' + train['prompt'] +  '\n\nModel A :\n' + train['response_a'] +'\n\n--------\n\nModel B:\n'  + train['response_b']
print(train['text'][4])  # 4番目のテキストを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Train with only take 50% train dataset
train = train[:int(len(train) * 1)]

train.loc[:, 'token_count'] = get_token_lengths(train['text'])

# prepare label for model
train.loc[:, 'label'] = np.argmax(train[['winner_model_a','winner_model_b','winner_tie']].values, axis=1)

# Display data
display(train.head())
```

</div>
<div class="column-right">

# 日本語訳

```python
# データセットの50%を使用してトレーニング
train = train[:int(len(train) * 1)]  # 指定された割合までのデータを使用

train.loc[:, 'token_count'] = get_token_lengths(train['text'])  # トークン数をカウントする

# モデル用にラベルを準備
train.loc[:, 'label'] = np.argmax(train[['winner_model_a','winner_model_b','winner_tie']].values, axis=1)

# データを表示
display(train.head())
```

</div>
</details>

In [None]:
# データセットの50%を使用してトレーニング
train = train[:int(len(train) * 1)]  # 指定された割合までのデータを使用

train.loc[:, 'token_count'] = get_token_lengths(train['text'])  # トークン数をカウントする

# モデル用にラベルを準備
train.loc[:, 'label'] = np.argmax(train[['winner_model_a','winner_model_b','winner_tie']].values, axis=1)

# データを表示
display(train.head())

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
train.label.value_counts()
```

</div>
<div class="column-right">

# 日本語訳

```python
train.label.value_counts()  # 各ラベルの数をカウント
```

</div>
</details>

In [None]:
train.label.value_counts()  # 各ラベルの数をカウント

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# token Count
display(train['token_count'].describe().to_frame().astype(int))
```

</div>
<div class="column-right">

# 日本語訳

```python
# トークン数
display(train['token_count'].describe().to_frame().astype(int))  # トークン数の統計を表示
```

</div>
</details>

In [None]:
# トークン数
display(train['token_count'].describe().to_frame().astype(int))  # トークン数の統計を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# get length of tokens which covers 90% of data, we'll still take 1024 length!
np.percentile(train['token_count'], 90)
```

</div>
<div class="column-right">

# 日本語訳

```python
# データの90%をカバーするトークンの長さを取得、長さは1024を使用
np.percentile(train['token_count'], 90)  # 90パーセンタイルのトークン数を出力
```

</div>
</details>

In [None]:
# データの90%をカバーするトークンの長さを取得、長さは1024を使用
np.percentile(train['token_count'], 90)  # 90パーセンタイルのトークン数を出力

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Tokenize

</div>
<div class="column-right">

# 日本語訳

# トークン化


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Tokenize Data
tokens = tokenizer(
    train['text'].tolist(), 
    max_length=1024, 
    truncation=True, 
    return_tensors='np')

# Input IDs are the token IDs
INPUT_IDS = tokens['input_ids']
# Attention Masks to Ignore Padding Tokens
ATTENTION_MASKS = tokens['attention_mask']
# Label of Texts
LABELS = train[['winner_model_a','winner_model_b','winner_tie']].values

print(f'INPUT_IDS shape: {INPUT_IDS.shape}, ATTENTION_MASKS shape: {ATTENTION_MASKS.shape}')
print(f'LABELS shape: {LABELS.shape}')
```

</div>
<div class="column-right">

# 日本語訳

```python
# データをトークン化
tokens = tokenizer(
    train['text'].tolist(), 
    max_length=1024, 
    truncation=True, 
    return_tensors='np')  # トークン化の設定

# 入力IDはトークンのID
INPUT_IDS = tokens['input_ids']
# パディングトークンを無視するためのアテンションマスク
ATTENTION_MASKS = tokens['attention_mask']
# テキストのラベル
LABELS = train[['winner_model_a','winner_model_b','winner_tie']].values

print(f'INPUT_IDS shape: {INPUT_IDS.shape}, ATTENTION_MASKS shape: {ATTENTION_MASKS.shape}')  # 入力とアテンションマスクの形状を表示
print(f'LABELS shape: {LABELS.shape}')  # ラベルの形状を表示
```

</div>
</details>

In [None]:
# データをトークン化
tokens = tokenizer(
    train['text'].tolist(), 
    max_length=1024, 
    truncation=True, 
    return_tensors='np')  # トークン化の設定

# 入力IDはトークンのID
INPUT_IDS = tokens['input_ids']
# パディングトークンを無視するためのアテンションマスク
ATTENTION_MASKS = tokens['attention_mask']
# テキストのラベル
LABELS = train[['winner_model_a','winner_model_b','winner_tie']].values

print(f'INPUT_IDS shape: {INPUT_IDS.shape}, ATTENTION_MASKS shape: {ATTENTION_MASKS.shape}')  # 入力とアテンションマスクの形状を表示
print(f'LABELS shape: {LABELS.shape}')  # ラベルの形状を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
max_features = 21540#14300
maxlen = 1024
batch_size = 16
embedding_dims = 200
nb_filter = 150
filter_length = 3
hidden_dims = 100
nb_epoch = 14
```

</div>
<div class="column-right">

# 日本語訳

```python
max_features = 21540  # 最大特徴数
maxlen = 1024  # 最大長さ
batch_size = 16  # バッチサイズ
embedding_dims = 200  # 埋め込み次元
nb_filter = 150  # フィルター数
filter_length = 3  # フィルターの長さ
hidden_dims = 100  # 隠れ層次元
nb_epoch = 14  # エポック数
```

</div>
</details>

In [None]:
max_features = 21540  # 最大特徴数
maxlen = 1024  # 最大長さ
batch_size = 16  # バッチサイズ
embedding_dims = 200  # 埋め込み次元
nb_filter = 150  # フィルター数
filter_length = 3  # フィルターの長さ
hidden_dims = 100  # 隠れ層次元
nb_epoch = 14  # エポック数

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
from __future__ import print_function
import numpy as np

from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Lambda
from keras.layers import Embedding
from keras.layers import Convolution1D, LSTM
from keras.datasets import imdb
from keras import backend as K
from keras.optimizers import Adadelta
from keras.preprocessing import sequence as sq

from keras.layers import Dense, Dropout, Activation, Lambda,Input,TimeDistributed,Flatten
from keras.models import Model
from keras.callbacks import ModelCheckpoint

from tensorflow.python.keras.backend import set_session as K
X_train = sq.pad_sequences(INPUT_IDS, maxlen=maxlen)
y_train = LABELS
```

</div>
<div class="column-right">

# 日本語訳

```python
from __future__ import print_function
import numpy as np

from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Lambda
from keras.layers import Embedding
from keras.layers import Convolution1D, LSTM
from keras.datasets import imdb
from keras import backend as K
from keras.optimizers import Adadelta
from keras.preprocessing import sequence as sq

from keras.layers import Dense, Dropout, Activation, Lambda, Input, TimeDistributed, Flatten
from keras.models import Model
from keras.callbacks import ModelCheckpoint

from tensorflow.python.keras.backend import set_session as K
X_train = sq.pad_sequences(INPUT_IDS, maxlen=maxlen)  # 入力IDをパディング
y_train = LABELS  # ラベル
```

</div>
</details>

In [None]:
from __future__ import print_function
import numpy as np

from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Lambda
from keras.layers import Embedding
from keras.layers import Convolution1D, LSTM
from keras.datasets import imdb
from keras import backend as K
from keras.optimizers import Adadelta
from keras.preprocessing import sequence as sq

from keras.layers import Dense, Dropout, Activation, Lambda, Input, TimeDistributed, Flatten
from keras.models import Model
from keras.callbacks import ModelCheckpoint

from tensorflow.python.keras.backend import set_session as K
X_train = sq.pad_sequences(INPUT_IDS, maxlen=maxlen)  # 入力IDをパディング
y_train = LABELS  # ラベル

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
X_train = np.array(X_train)
y_train = np.array(y_train)
```

</div>
<div class="column-right">

# 日本語訳

```python
X_train = np.array(X_train)  # 入力をNumPy配列に変換
y_train = np.array(y_train)  # ラベルをNumPy配列に変換
```

</div>
</details>

In [None]:
X_train = np.array(X_train)  # 入力をNumPy配列に変換
y_train = np.array(y_train)  # ラベルをNumPy配列に変換

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Define Model

</div>
<div class="column-right">

# 日本語訳

# モデルの定義


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
'''This example demonstrates the use of Convolution1D for text classification.
Gets to 0.88 test accuracy after 2 epochs.
90s/epoch on Intel i5 2.4Ghz CPU.
10s/epoch on Tesla K40 GPU.
'''
from keras.layers import Concatenate
from keras.layers import  GlobalMaxPooling1D

#config = K.tf.ConfigProto(intra_op_parallelism_threads=16, inter_op_parallelism_threads=16, \
#                        allow_soft_placement=True, device_count = {'CPU': 1})


# tf_config = K.tf.ConfigProto()
# tf_config.gpu_options.allow_growth = True
# session = K.tf.Session(config=tf_config)
# K.set_session(session)

# config = K.tf.ConfigProto(intra_op_parallelism_threads=4, inter_op_parallelism_threads=4, \
#                         allow_soft_placement=True, device_count = {'CPU': 4})
# session = K.tf.Session(config=config)
# K.set_session(session)



model = Sequential()

input_layer = Input(shape=(maxlen,),dtype='int64', name='main_input')
emb_layer = Embedding(max_features,
                      embedding_dims,
                      input_length=maxlen
                      )(input_layer)
def max_1d(X):
    return K.max(X, axis=1)

# we add a Convolution1D, which will learn nb_filter
# word group filters of size 3:

con3_layer = Convolution1D(filters=nb_filter,
                    padding='valid',
                    activation='relu',
                    kernel_size =3,
                    strides=1)(emb_layer)

pool_con3_layer = GlobalMaxPooling1D()(con3_layer)


# we add a Convolution1D, which will learn nb_filter
# word group filters of size 4:

con4_layer = Convolution1D(filters=nb_filter,
                    kernel_size=5,
                    padding='valid',
                    activation='relu',
                    strides=1)(emb_layer)

pool_con4_layer = GlobalMaxPooling1D()(con4_layer)


# we add a Convolution1D, which will learn nb_filter
# word group filters of size 5:

con5_layer = Convolution1D(filters=nb_filter,
                    kernel_size=7,
                    padding='valid',
                    activation='relu',
                    strides=1)(emb_layer)

pool_con5_layer = GlobalMaxPooling1D()(con5_layer)


cnn_layer =Concatenate()([pool_con3_layer, pool_con5_layer, pool_con4_layer])


#LSTM


x = Embedding(max_features, embedding_dims, input_length=maxlen)(input_layer)
lstm_layer = LSTM(128)(x)

cnn_lstm_layer = Concatenate()([lstm_layer, cnn_layer])

dense_layer = Dense(hidden_dims*2, activation='sigmoid')(cnn_lstm_layer)
output_layer= Dropout(0.2)(dense_layer)
output_layer = Dense(3, trainable=True,activation='softmax')(output_layer)




model = Model(inputs=[input_layer], outputs=[output_layer])
adadelta = Adadelta(learning_rate=1.0, rho=0.95, epsilon=1e-06)

model.compile(loss='categorical_crossentropy',
              optimizer="adamax",
              metrics=['accuracy'])
model.summary()

```

</div>
<div class="column-right">

# 日本語訳

```python
'''この例はテキスト分類のためのConvolution1Dの使用を示しています。
2エポック後にテスト精度0.88に達します。
Intel i5 2.4Ghz CPUで90秒/エポック、Tesla K40 GPUで10秒/エポック。'''
from keras.layers import Concatenate
from keras.layers import GlobalMaxPooling1D

#config = K.tf.ConfigProto(intra_op_parallelism_threads=16, inter_op_parallelism_threads=16, \
#                        allow_soft_placement=True, device_count = {'CPU': 1})

# tf_config = K.tf.ConfigProto()
# tf_config.gpu_options.allow_growth = True
# session = K.tf.Session(config=tf_config)
# K.set_session(session)

# config = K.tf.ConfigProto(intra_op_parallelism_threads=4, inter_op_parallelism_threads=4, \
#                         allow_soft_placement=True, device_count = {'CPU': 4})
# session = K.tf.Session(config=config)
# K.set_session(session)

model = Sequential()  # シーケンシャルモデルを作成

input_layer = Input(shape=(maxlen,),dtype='int64', name='main_input')  # 入力レイヤー
emb_layer = Embedding(max_features,
                      embedding_dims,
                      input_length=maxlen
                      )(input_layer)  # 埋め込み層を追加
def max_1d(X):
    return K.max(X, axis=1)  # 1次元の最大値を求める関数

# 3のサイズのフィルターを持つConvolution1Dを追加
con3_layer = Convolution1D(filters=nb_filter,
                    padding='valid',
                    activation='relu',
                    kernel_size=3,
                    strides=1)(emb_layer)

pool_con3_layer = GlobalMaxPooling1D()(con3_layer)  # グローバル最大プーリング

# 4のサイズのフィルターを持つConvolution1Dを追加
con4_layer = Convolution1D(filters=nb_filter,
                    kernel_size=5,
                    padding='valid',
                    activation='relu',
                    strides=1)(emb_layer)

pool_con4_layer = GlobalMaxPooling1D()(con4_layer)  # グローバル最大プーリング

# 5のサイズのフィルターを持つConvolution1Dを追加
con5_layer = Convolution1D(filters=nb_filter,
                    kernel_size=7,
                    padding='valid',
                    activation='relu',
                    strides=1)(emb_layer)

pool_con5_layer = GlobalMaxPooling1D()(con5_layer)  # グローバル最大プーリング

cnn_layer = Concatenate()([pool_con3_layer, pool_con5_layer, pool_con4_layer])  # 畳み込み層の出力を結合

# LSTM層を追加
x = Embedding(max_features, embedding_dims, input_length=maxlen)(input_layer)  # 埋め込み層
lstm_layer = LSTM(128)(x)  # LSTM層

cnn_lstm_layer = Concatenate()([lstm_layer, cnn_layer])  # LSTM層とCNN層を結合

dense_layer = Dense(hidden_dims*2, activation='sigmoid')(cnn_lstm_layer)  # 密なレイヤー
output_layer = Dropout(0.2)(dense_layer)  # ドロップアウト層
output_layer = Dense(3, trainable=True, activation='softmax')(output_layer)  # 出力層


model = Model(inputs=[input_layer], outputs=[output_layer])  # モデルを定義
adadelta = Adadelta(learning_rate=1.0, rho=0.95, epsilon=1e-06)  # Adadeltaオプティマイザーを定義

model.compile(loss='categorical_crossentropy',
              optimizer="adamax",
              metrics=['accuracy'])  # モデルをコンパイル
model.summary()  # モデルの概要を表示
```

</div>
</details>

In [None]:
'''この例はテキスト分類のためのConvolution1Dの使用を示しています。
2エポック後にテスト精度0.88に達します。
Intel i5 2.4Ghz CPUで90秒/エポック、Tesla K40 GPUで10秒/エポック。'''
from keras.layers import Concatenate
from keras.layers import GlobalMaxPooling1D

#config = K.tf.ConfigProto(intra_op_parallelism_threads=16, inter_op_parallelism_threads=16, \
#                        allow_soft_placement=True, device_count = {'CPU': 1})

# tf_config = K.tf.ConfigProto()
# tf_config.gpu_options.allow_growth = True
# session = K.tf.Session(config=tf_config)
# K.set_session(session)

# config = K.tf.ConfigProto(intra_op_parallelism_threads=4, inter_op_parallelism_threads=4, \
#                         allow_soft_placement=True, device_count = {'CPU': 4})
# session = K.tf.Session(config=config)
# K.set_session(session)

model = Sequential()  # シーケンシャルモデルを作成

input_layer = Input(shape=(maxlen,),dtype='int64', name='main_input')  # 入力レイヤー
emb_layer = Embedding(max_features,
                      embedding_dims,
                      input_length=maxlen
                      )(input_layer)  # 埋め込み層を追加
def max_1d(X):
    return K.max(X, axis=1)  # 1次元の最大値を求める関数

# 3のサイズのフィルターを持つConvolution1Dを追加
con3_layer = Convolution1D(filters=nb_filter,
                    padding='valid',
                    activation='relu',
                    kernel_size=3,
                    strides=1)(emb_layer)

pool_con3_layer = GlobalMaxPooling1D()(con3_layer)  # グローバル最大プーリング

# 4のサイズのフィルターを持つConvolution1Dを追加
con4_layer = Convolution1D(filters=nb_filter,
                    kernel_size=5,
                    padding='valid',
                    activation='relu',
                    strides=1)(emb_layer)

pool_con4_layer = GlobalMaxPooling1D()(con4_layer)  # グローバル最大プーリング

# 5のサイズのフィルターを持つConvolution1Dを追加
con5_layer = Convolution1D(filters=nb_filter,
                    kernel_size=7,
                    padding='valid',
                    activation='relu',
                    strides=1)(emb_layer)

pool_con5_layer = GlobalMaxPooling1D()(con5_layer)  # グローバル最大プーリング

cnn_layer = Concatenate()([pool_con3_layer, pool_con5_layer, pool_con4_layer])  # 畳み込み層の出力を結合

# LSTM層を追加
x = Embedding(max_features, embedding_dims, input_length=maxlen)(input_layer)  # 埋め込み層
lstm_layer = LSTM(128)(x)  # LSTM層

cnn_lstm_layer = Concatenate()([lstm_layer, cnn_layer])  # LSTM層とCNN層を結合

dense_layer = Dense(hidden_dims*2, activation='sigmoid')(cnn_lstm_layer)  # 密なレイヤー
output_layer = Dropout(0.2)(dense_layer)  # ドロップアウト層
output_layer = Dense(3, trainable=True, activation='softmax')(output_layer)  # 出力層


model = Model(inputs=[input_layer], outputs=[output_layer])  # モデルを定義
adadelta = Adadelta(learning_rate=1.0, rho=0.95, epsilon=1e-06)  # Adadeltaオプティマイザーを定義

model.compile(loss='categorical_crossentropy',
              optimizer="adamax",
              metrics=['accuracy'])  # モデルをコンパイル
model.summary()  # モデルの概要を表示

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Training

</div>
<div class="column-right">

# 日本語訳

# トレーニング


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
checkpoint = ModelCheckpoint('CNN-LSTM-weights/weights.keras',
                                 monitor='val_acc', verbose=0, save_best_only=True,
                                 mode='max')
model.fit(X_train, y_train,
          batch_size=16,
          epochs=nb_epoch,
          callbacks=[checkpoint])

model.compile(loss='categorical_crossentropy',
              optimizer="adamax",
              metrics=['accuracy'])
```

</div>
<div class="column-right">

# 日本語訳

```python
checkpoint = ModelCheckpoint('CNN-LSTM-weights/weights.keras',
                                 monitor='val_acc', verbose=0, save_best_only=True,
                                 mode='max')  # モデルのチェックポイントを定義
model.fit(X_train, y_train,
          batch_size=16,
          epochs=nb_epoch,
          callbacks=[checkpoint])  # モデルのトレーニング

model.compile(loss='categorical_crossentropy',
              optimizer="adamax",
              metrics=['accuracy'])  # モデルを再コンパイル
```

</div>
</details>

In [None]:
checkpoint = ModelCheckpoint('CNN-LSTM-weights/weights.keras',
                                 monitor='val_acc', verbose=0, save_best_only=True,
                                 mode='max')  # モデルのチェックポイントを定義
model.fit(X_train, y_train,
          batch_size=16,
          epochs=nb_epoch,
          callbacks=[checkpoint])  # モデルのトレーニング

model.compile(loss='categorical_crossentropy',
              optimizer="adamax",
              metrics=['accuracy'])  # モデルを再コンパイル

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
model.save('model_LSTM_mix_CNN.keras')  # Lưu toàn bộ model
```

</div>
<div class="column-right">

# 日本語訳

```python
model.save('model_LSTM_mix_CNN.keras')  # モデル全体を保存
```

</div>
</details>

In [None]:
model.save('model_LSTM_mix_CNN.keras')  # モデル全体を保存

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
model.predict(X_train)
```

</div>
<div class="column-right">

# 日本語訳

```python
model.predict(X_train)  # トレーニングデータに対する予測を行う
```

</div>
</details>

In [None]:
model.predict(X_train)  # トレーニングデータに対する予測を行う

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Test Model


</div>
<div class="column-right">

# 日本語訳

# モデルのテスト


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')


test.loc[:, 'prompt'] = test['prompt'].apply(process)
test.loc[:, 'response_a'] = test['response_a'].apply(process)
test.loc[:, 'response_b'] = test['response_b'].apply(process)

# Drop 'Null' for training
indexes = test[(test.response_a == 'null') & (test.response_b == 'null')].index
test.drop(indexes, inplace=True)
test.reset_index(inplace=True, drop=True)

print(f"Total {len(indexes)} Null response rows dropped")
print('Total train samples: ', len(test))
```

</div>
<div class="column-right">

# 日本語訳

```python
test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')


test.loc[:, 'prompt'] = test['prompt'].apply(process)  # プロンプトを処理
test.loc[:, 'response_a'] = test['response_a'].apply(process)  # モデルAの応答を処理
test.loc[:, 'response_b'] = test['response_b'].apply(process)  # モデルBの応答を処理

# トレーニングのために'Null'を削除
indexes = test[(test.response_a == 'null') & (test.response_b == 'null')].index
test.drop(indexes, inplace=True)  # 'null'応答の行を削除
test.reset_index(inplace=True, drop=True)  # インデックスをリセット

print(f"Total {len(indexes)} Null response rows dropped")  # 削除した'Null'の行数を表示
print('Total train samples: ', len(test))  # テストデータのサンプル数を表示
```

</div>
</details>

In [None]:
test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')


test.loc[:, 'prompt'] = test['prompt'].apply(process)  # プロンプトを処理
test.loc[:, 'response_a'] = test['response_a'].apply(process)  # モデルAの応答を処理
test.loc[:, 'response_b'] = test['response_b'].apply(process)  # モデルBの応答を処理

# トレーニングのために'Null'を削除
indexes = test[(test.response_a == 'null') & (test.response_b == 'null')].index
test.drop(indexes, inplace=True)  # 'null'応答の行を削除
test.reset_index(inplace=True, drop=True)  # インデックスをリセット

print(f"Total {len(indexes)} Null response rows dropped")  # 削除した'Null'の行数を表示
print('Total train samples: ', len(test))  # テストデータのサンプル数を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
test.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
test.head()  # テストデータの最初の5行を表示
```

</div>
</details>

In [None]:
test.head()  # テストデータの最初の5行を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
test['text'] = 'User prompt: ' + test['prompt'] +  '\n\nModel A :\n' + test['response_a'] +'\n\n--------\n\nModel B:\n'  + train['response_b']
print(test['text'])
```

</div>
<div class="column-right">

# 日本語訳

```python
test['text'] = 'User prompt: ' + test['prompt'] +  '\n\nModel A :\n' + test['response_a'] +'\n\n--------\n\nModel B:\n'  + train['response_b']
print(test['text'])  # テキストを表示
```

</div>
</details>

In [None]:
test['text'] = 'User prompt: ' + test['prompt'] +  '\n\nModel A :\n' + test['response_a'] +'\n\n--------\n\nModel B:\n'  + train['response_b']
print(test['text'])  # テキストを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Tokenize Data
tokens_test = tokenizer(
    test['text'].tolist(), 
    max_length=1024, 
    truncation=True, 
    return_tensors='np')

# Input IDs are the token IDs
INPUT_test = tokens_test['input_ids']
# Attention Masks to Ignore Padding Tokens
ATTENTION_MASKS2 = tokens_test['attention_mask']


print(f'INPUT_IDS shape: {INPUT_test.shape}, ATTENTION_MASKS shape: {ATTENTION_MASKS2.shape}')
```

</div>
<div class="column-right">

# 日本語訳

```python
# データをトークン化
tokens_test = tokenizer(
    test['text'].tolist(), 
    max_length=1024, 
    truncation=True, 
    return_tensors='np')  # トークン化の設定

# 入力IDはトークンのID
INPUT_test = tokens_test['input_ids']
# パディングトークンを無視するためのアテンションマスク
ATTENTION_MASKS2 = tokens_test['attention_mask']

print(f'INPUT_IDS shape: {INPUT_test.shape}, ATTENTION_MASKS shape: {ATTENTION_MASKS2.shape}')  # 入力とアテンションマスクの形状を表示
```

</div>
</details>

In [None]:
# データをトークン化
tokens_test = tokenizer(
    test['text'].tolist(), 
    max_length=1024, 
    truncation=True, 
    return_tensors='np')  # トークン化の設定

# 入力IDはトークンのID
INPUT_test = tokens_test['input_ids']
# パディングトークンを無視するためのアテンションマスク
ATTENTION_MASKS2 = tokens_test['attention_mask']

print(f'INPUT_IDS shape: {INPUT_test.shape}, ATTENTION_MASKS shape: {ATTENTION_MASKS2.shape}')  # 入力とアテンションマスクの形状を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
X_test = sq.pad_sequences(INPUT_test, maxlen=maxlen)
```

</div>
<div class="column-right">

# 日本語訳

```python
X_test = sq.pad_sequences(INPUT_test, maxlen=maxlen)  # テストデータの入力をパディング
```

</div>
</details>

In [None]:
X_test = sq.pad_sequences(INPUT_test, maxlen=maxlen)  # テストデータの入力をパディング

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
test
```

</div>
<div class="column-right">

# 日本語訳

```python
test  # テストデータを表示
```

</div>
</details>

In [None]:
test  # テストデータを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
y_predict = model.predict(X_test)
y_predict
```

</div>
<div class="column-right">

# 日本語訳

```python
y_predict = model.predict(X_test)  # テストデータに対する予測を行う
y_predict  # 予測結果を表示
```

</div>
</details>

In [None]:
y_predict = model.predict(X_test)  # テストデータに対する予測を行う
y_predict  # 予測結果を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
winner_df = pd.DataFrame(y_predict, columns=['winner_model_a', 'winner_model_b', 'winner_tie'])
result_df = pd.concat([test['id'], winner_df], axis=1)
```

</div>
<div class="column-right">

# 日本語訳

```python
winner_df = pd.DataFrame(y_predict, columns=['winner_model_a', 'winner_model_b', 'winner_tie'])  # 予測結果をデータフレームに変換
result_df = pd.concat([test['id'], winner_df], axis=1)  # テストデータのIDと予測結果を結合
```

</div>
</details>

In [None]:
winner_df = pd.DataFrame(y_predict, columns=['winner_model_a', 'winner_model_b', 'winner_tie'])  # 予測結果をデータフレームに変換
result_df = pd.concat([test['id'], winner_df], axis=1)  # テストデータのIDと予測結果を結合

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
result_df.to_csv('submission.csv', index=False)
```

</div>
<div class="column-right">

# 日本語訳

```python
result_df.to_csv('submission.csv', index=False)  # 結果をCSVファイルに保存
```

</div>
</details>

In [None]:
result_df.to_csv('submission.csv', index=False)  # 結果をCSVファイルに保存

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
result_df
```

</div>
<div class="column-right">

# 日本語訳

```python
result_df  # 結果データフレームを表示
```

</div>
</details>

In [None]:
result_df  # 結果データフレームを表示

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Conclusion 

There is still alot of room to speed up and optimize training! Try out more data, different batch size, lr... All the best!

</div>
<div class="column-right">

# 日本語訳

# 結論

トレーニングの速度を上げて最適化する余地がまだたくさんあります！より多くのデータや異なるバッチサイズ、学習率を試してみてください... 頑張ってください！

</div>