# 要約 
このJupyter Notebookは、Kaggleの「LMSYS - Chatbot Arena」コンペティションにおける、人間が好む応答を予測するための機械学習モデルの構築を目的としています。具体的には、異なる言語モデル（LLM）が生成した応答に基づき、どちらのモデルの応答が優れているかを予測する問題に取り組んでいます。

### 手法
ノートブックでは、次の手法やライブラリが使用されています。

1. **データ前処理**:
   - NLTKやSpaCyを用いてテキストデータのトークン化、ストップワードの除去、類似度の計算を行っています。
   - 特徴量エンジニアリングにより、応答の長さ、文の多様性、共通単語数などを特徴量として抽出しています。

2. **モデルの構築**:
   - 勾配ブースティングアルゴリズムを使用し、XGBoost、CatBoost、GradientBoostingClassifierなどのモデルが選定されています。
   - データセットは80:20の比率で訓練データと検証データに分割され、層別交差検証を適用してモデルの検証が行われています。

3. **モデルの評価**:
   - モデルのパフォーマンスは、対数損失（log loss）を使用して評価されています。
   - 各モデルの平均ロスを比較し、最良のモデルのハイパーパラメータチューニングにはグリッドサーチが利用されています。

4. **結果の予測と提出**:
   - 最終的に得られたモデルを用いてテストデータに対する予測を行い、その結果を提出用フォーマットに整形しています。

### 使用ライブラリ
ノートブックでは、以下の主要なライブラリがインポートされています：
- **Pandas** と **NumPy**: データ操作と数値計算のため。
- **Matplotlib** と **Seaborn**: データの可視化のため。
- **Scikit-learn**: 機械学習モデル、評価指標、データ分割のため。
- **XGBoost** と **CatBoost**: 高効率な勾配ブースティングアルゴリズムのため。
- **NLTK** と **SpaCy**: 自然言語処理のためのライブラリです。

このノートブックは、応答の優劣を判別するモデルの作成を通じて、ユーザーの好みを予測することに注力しており、様々な特徴量をデータから抽出し、機械学習技術を駆使して問題解決に取り組んでいます。

---


# 用語概説 
以下は、Jupyter Notebookの内容から、機械学習・深層学習の初心者がつまずきそうな専門用語の簡単な解説です。有名なものや簡単なものは含まれていません。

1. **ブースティング**
   - 複数の「弱い」機械学習モデル（精度の低いモデル）を結合して「強い」モデルを作成する手法。弱いモデルの予測誤差を次のモデルが学習し修正することを目的とする。

2. **XGBoost**
   - 勾配ブースティングに基づくアルゴリズムで、決定木を用いた高性能な分類器。特に計算速度とパフォーマンスに優れ、高速な学習が可能。

3. **CatBoost**
   - カテゴリカルデータ（文字列やカテゴリー型データ）を効果的に処理するために設計された勾配ブースティングアルゴリズム。デフォルトでオーバーフィッティングを防ぐ機能があり、前処理の手間を減らす特徴がある。

4. **ストップワード**
   - 自然言語処理において、意味が薄かったり頻繁に使われるため情報価値が低い単語（例：the, is, atなど）。これらを分析から除外することで、重要な情報に焦点を当てる。

5. **トークン化**
   - テキストデータを単語や文といった小さな部分（トークン）に分割するプロセス。自然言語処理の前処理で行われ、モデルが入力を理解する助けとなる。

6. **ステミング**
   - 単語の語幹を取り出す処理。例えば、"running" や "ran" はどちらも "run" に変換される。単語の基本形に揃えることで、同じ意味の単語を統一して扱うことができる。

7. **レmmatization**
   - ステミングに似ているが、文脈に応じて言葉を正しい形に変換するより高度なプロセス。辞書に基づいた変換を行うため、より自然な結果が得られる。

8. **探索的分析**
   - データの特性やパターン、関係性を視覚化や統計的手法を用いて探るプロセス。機械学習モデルを構築する前に重要なステップ。

9. **クロスバリデーション**
   - モデルの性能をより正確に評価するための手法。データセットをいくつかのサブセットに分割し、各サブセットをテストデータとして使用してモデルの一般化能力を確認する。

10. **ハイパーパラメータ**
    - 機械学習アルゴリズムの設定値で、モデルの学習プロセスに影響を及ぼす。これらの値は学習によって決定されるのではなく、事前に設定する必要がある。

11. **グリッドサーチ**
    - 複数のハイパーパラメータの組み合わせを試して、最適なパラメータセットを探す手法。各組み合わせにおいてモデルを評価し、最も性能が良いものを選択する。

12. **メトリクス**
    - モデルの性能を評価するための指標。例えば、精度、再現率、F1スコア、ログ損失などがある。

13. **類似度**
    - 2つのテキストの関連性や一致度を示す指標。自然言語処理でこの概念は、応答とプロンプト間の関係を測るのに用いられる。

これらの用語は、特に実務経験がない初心者には馴染みが薄いことが多く、理解を深めるために重要です。

---


<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# LMSys Chatbot Arena

Propose, document and defend a solution that can determine which answer is better, or if there is a tie, based on criteria you define..  


**Proposal**: Boosting is a machine learning technique that combines the results of several weak model trainings to create a strong model. The process uses a sequence of interactions, where weights are used for the errors obtained in each training session.

**Example**: XGBoost is a machine learning algorithm based on gradient boosting and using decision trees, where each tree tries to correct the errors of the previous tree.

**Features**: For this problem, we will use features extracted from the texts in our dataset.

In this case, we can use exploratory analysis to establish features add to our classification, such as:
- Size of the texts;
- Words present in the question and answears;
- Difference between answears, etc.

## 1 - Pre-processing

</div>
<div class="column-right">

# 日本語訳

# LMSys Chatbot Arena

提案、文書作成、そして定義した基準に基づいてどの回答が優れているか、または引き分けかを判断するソリューションを擁護します。  

**提案**: ブースティングは、複数の弱いモデルのトレーニング結果を組み合わせて強いモデルを作成する機械学習手法です。このプロセスでは、一連の相互作用が使用され、各トレーニングセッションで得られた誤差に重みが付けられます。

**例**: XGBoostは、勾配ブースティングに基づく機械学習アルゴリズムであり、決定木を使用します。各木は前の木の誤差を修正しようとします。

**特徴**: この問題に対して、私たちのデータセットに含まれるテキストから抽出した特徴を使用します。

この場合、特徴を確立するために探査的分析を使用し、分類に追加できる要素としては以下のようなものがあります：
- テキストのサイズ；
- 質問と回答に存在する単語；
- 回答間の違いなど。

## 1 - 前処理

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Librarys
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = 14,5

import seaborn as sns
sns.set_style = 'whitegrid'

import plotly.express as px
px.defaults.template = "plotly_dark"

from sklearn import metrics
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import GridSearchCV

# Classification models
from sklearn.ensemble import GradientBoostingClassifier
from xgboost import XGBClassifier
from catboost import CatBoostClassifier

import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer

from gensim.models import Word2Vec
import spacy
nlp = spacy.load('en_core_web_sm')

import re
import string

from warnings import filterwarnings
filterwarnings('ignore')
```

</div>
<div class="column-right">

# 日本語訳

```python
# ライブラリのインポート
import pandas as pd  # データ操作のためのPandasライブラリをインポートします。
import numpy as np  # 数値計算のためのNumPyライブラリをインポートします。
import matplotlib.pyplot as plt  # グラフ作成のためのMatplotlibライブラリをインポートします。
plt.rcParams['figure.figsize'] = 14,5  # グラフのサイズを14x5に設定します。

import seaborn as sns  # データ可視化のためのSeabornライブラリをインポートします。
sns.set_style = 'whitegrid'  # グラフのスタイルを白いグリッドに設定します。

import plotly.express as px  # インタラクティブなグラフ作成のためのPlotly Expressライブラリをインポートします。
px.defaults.template = "plotly_dark"  # グラフのテンプレートをダークテーマに設定します。

from sklearn import metrics  # 評価指標を提供するScikit-learnのmetricsモジュールをインポートします。
from sklearn.model_selection import train_test_split  # データを訓練用とテスト用に分割するための関数をインポートします。
from sklearn.model_selection import StratifiedKFold  # 層別交差検証のためのクラスをインポートします。
from sklearn.model_selection import GridSearchCV  # ハイパーパラメータのチューニングを行うためのクラスをインポートします。

# 分類モデル
from sklearn.ensemble import GradientBoostingClassifier  # 勾配ブースティング分類器をインポートします。
from xgboost import XGBClassifier  # XGBoost分類器をインポートします。
from catboost import CatBoostClassifier  # CatBoost分類器をインポートします。

import nltk  # 自然言語処理のためのNLTKライブラリをインポートします。
from nltk.tokenize import word_tokenize, sent_tokenize  # 単語と文のトークン化を行うための関数をインポートします。
from nltk.corpus import stopwords  # ストップワードを提供するNLTKのコーパスをインポートします。
from nltk.stem import PorterStemmer  # ステミングに使用するポーターステマーをインポートします。
from nltk.stem import WordNetLemmatizer  # レmmatizationに使用するWordNetレmmatizerをインポートします。

from gensim.models import Word2Vec  # Word2Vecモデルをインポートします。
import spacy  # SpaCyライブラリをインポートします。
nlp = spacy.load('en_core_web_sm')  # 英語用のSpaCyモデルをロードします。

import re  # 正規表現処理のためのreライブラリをインポートします。
import string  # 文字列処理のためのstringライブラリをインポートします。

from warnings import filterwarnings  # 警告のフィルタリングを行うための関数をインポートします。
filterwarnings('ignore')  # 警告を無視するように設定します。
```

</div>
</details>

In [None]:
# ライブラリのインポート
import pandas as pd  # データ操作のためのPandasライブラリをインポートします。
import numpy as np  # 数値計算のためのNumPyライブラリをインポートします。
import matplotlib.pyplot as plt  # グラフ作成のためのMatplotlibライブラリをインポートします。
plt.rcParams['figure.figsize'] = 14,5  # グラフのサイズを14x5に設定します。

import seaborn as sns  # データ可視化のためのSeabornライブラリをインポートします。
sns.set_style = 'whitegrid'  # グラフのスタイルを白いグリッドに設定します。

import plotly.express as px  # インタラクティブなグラフ作成のためのPlotly Expressライブラリをインポートします。
px.defaults.template = "plotly_dark"  # グラフのテンプレートをダークテーマに設定します。

from sklearn import metrics  # 評価指標を提供するScikit-learnのmetricsモジュールをインポートします。
from sklearn.model_selection import train_test_split  # データを訓練用とテスト用に分割するための関数をインポートします。
from sklearn.model_selection import StratifiedKFold  # 層別交差検証のためのクラスをインポートします。
from sklearn.model_selection import GridSearchCV  # ハイパーパラメータのチューニングを行うためのクラスをインポートします。

# 分類モデル
from sklearn.ensemble import GradientBoostingClassifier  # 勾配ブースティング分類器をインポートします。
from xgboost import XGBClassifier  # XGBoost分類器をインポートします。
from catboost import CatBoostClassifier  # CatBoost分類器をインポートします。

import nltk  # 自然言語処理のためのNLTKライブラリをインポートします。
from nltk.tokenize import word_tokenize, sent_tokenize  # 単語と文のトークン化を行うための関数をインポートします。
from nltk.corpus import stopwords  # ストップワードを提供するNLTKのコーパスをインポートします。
from nltk.stem import PorterStemmer  # ステミングに使用するポーターステマーをインポートします。
from nltk.stem import WordNetLemmatizer  # レmmatizationに使用するWordNetレmmatizerをインポートします。

from gensim.models import Word2Vec  # Word2Vecモデルをインポートします。
import spacy  # SpaCyライブラリをインポートします。
nlp = spacy.load('en_core_web_sm')  # 英語用のSpaCyモデルをロードします。

import re  # 正規表現処理のためのreライブラリをインポートします。
import string  # 文字列処理のためのstringライブラリをインポートします。

from warnings import filterwarnings  # 警告のフィルタリングを行うための関数をインポートします。
filterwarnings('ignore')  # 警告を無視するように設定します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# loading datasets
df_train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')
df_test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')
df_submission = df_test.copy()
sample_example = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/sample_submission.csv')
df_train.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
# データセットの読み込み
df_train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')  # 訓練データをCSVファイルから読み込みます。
df_test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')  # テストデータをCSVファイルから読み込みます。
df_submission = df_test.copy()  # テストデータのコピーを提出用データフレームとして作成します。
sample_example = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/sample_submission.csv')  # サンプル提出ファイルを読み込みます。
df_train.head()  # 訓練データの最初の5行を表示します。
```

</div>
</details>

In [None]:
# データセットの読み込み
df_train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')  # 訓練データをCSVファイルから読み込みます。
df_test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')  # テストデータをCSVファイルから読み込みます。
df_submission = df_test.copy()  # テストデータのコピーを提出用データフレームとして作成します。
sample_example = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/sample_submission.csv')  # サンプル提出ファイルを読み込みます。
df_train.head()  # 訓練データの最初の5行を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Sample example visualization
sample_example.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
# サンプル例の可視化
sample_example.head()  # サンプル提出ファイルの最初の5行を表示します。
```

</div>
</details>

In [None]:
# サンプル例の可視化
sample_example.head()  # サンプル提出ファイルの最初の5行を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# train dataset
df_test.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
# テストデータセットの表示
df_test.head()  # テストデータの最初の5行を表示します。
```

</div>
</details>

In [None]:
# テストデータセットの表示
df_test.head()  # テストデータの最初の5行を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Dataset's shape
print(f'Train dataset shape: {df_train.shape}')
print(f'Test dataset shape: {df_test.shape}')
```

</div>
<div class="column-right">

# 日本語訳

```python
# データセットの形状を表示
print(f'Train dataset shape: {df_train.shape}')  # 訓練データの形状（行数と列数）を表示します。
print(f'Test dataset shape: {df_test.shape}')  # テストデータの形状（行数と列数）を表示します。
```

</div>
</details>

In [None]:
# データセットの形状を表示
print(f'Train dataset shape: {df_train.shape}')  # 訓練データの形状（行数と列数）を表示します。
print(f'Test dataset shape: {df_test.shape}')  # テストデータの形状（行数と列数）を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Dataset info
df_train.info()
```

</div>
<div class="column-right">

# 日本語訳

```python
# データセットの情報を表示
df_train.info()  # 訓練データの情報（各列のデータ型や欠損値の数など）を表示します。
```

</div>
</details>

In [None]:
# データセットの情報を表示
df_train.info()  # 訓練データの情報（各列のデータ型や欠損値の数など）を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Null values train
df_train.isnull().sum()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 訓練データの欠損値を確認
df_train.isnull().sum()  # 訓練データの各列に存在する欠損値の数を表示します。
```

</div>
</details>

In [None]:
# 訓練データの欠損値を確認
df_train.isnull().sum()  # 訓練データの各列に存在する欠損値の数を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Null values test
df_test.isnull().sum()
```

</div>
<div class="column-right">

# 日本語訳

```python
# テストデータの欠損値を確認
df_test.isnull().sum()  # テストデータの各列に存在する欠損値の数を表示します。
```

</div>
</details>

In [None]:
# テストデータの欠損値を確認
df_test.isnull().sum()  # テストデータの各列に存在する欠損値の数を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Text Preprocessing 
def preprocess(string):
    strip = string.strip('[]')
    parts = [x.strip('"') for x in strip.split('","')]
    return ''.join(parts)
columns = ['prompt','response_a','response_b']

for colum in df_train[columns]:
    df_train[colum] = df_train[colum].apply(preprocess)
    
for colum in df_test[columns]:
    df_test[colum] = df_test[colum].apply(preprocess)
    
df_train.head(2)
```

</div>
<div class="column-right">

# 日本語訳

```python
# テキストの前処理
def preprocess(string):  # 前処理を行う関数を定義します。
    strip = string.strip('[]')  # 文字列の両端から'[]'を削除します。
    parts = [x.strip('"') for x in strip.split('","')]  # 文字列を'","'で分割し、各部分から'"'を削除します。
    return ''.join(parts)  # 部分を結合して一つの文字列を返します。

columns = ['prompt', 'response_a', 'response_b']  # 前処理を行う列を指定します。

# 訓練データの各指定列に対して前処理を適用
for colum in df_train[columns]:
    df_train[colum] = df_train[colum].apply(preprocess)  # 各列に前処理関数を適用します。

# テストデータの各指定列に対して前処理を適用
for colum in df_test[columns]:
    df_test[colum] = df_test[colum].apply(preprocess)  # 各列に前処理関数を適用します。

df_train.head(2)  # 訓練データの最初の2行を表示します。
```

</div>
</details>

In [None]:
# テキストの前処理
def preprocess(string):  # 前処理を行う関数を定義します。
    strip = string.strip('[]')  # 文字列の両端から'[]'を削除します。
    parts = [x.strip('"') for x in strip.split('","')]  # 文字列を'","'で分割し、各部分から'"'を削除します。
    return ''.join(parts)  # 部分を結合して一つの文字列を返します。

columns = ['prompt', 'response_a', 'response_b']  # 前処理を行う列を指定します。

# 訓練データの各指定列に対して前処理を適用
for colum in df_train[columns]:
    df_train[colum] = df_train[colum].apply(preprocess)  # 各列に前処理関数を適用します。

# テストデータの各指定列に対して前処理を適用
for colum in df_test[columns]:
    df_test[colum] = df_test[colum].apply(preprocess)  # 各列に前処理関数を適用します。

df_train.head(2)  # 訓練データの最初の2行を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# create new columns for data exploration
columns = ['winner_model_a', 'winner_model_b', 'winner_tie']

def class_label(df):
    df['class_label'] = None
    
    for index, row in df.iterrows():
        for col in columns:
            if row[col] == 1:
                df.at[index, 'class_label'] = col
                break

# Call the function on your DataFrame
class_label(df_train)
```

</div>
<div class="column-right">

# 日本語訳

```python
# データ探索のための新しい列を作成
columns = ['winner_model_a', 'winner_model_b', 'winner_tie']  # 勝者モデルを示す列を指定します。

def class_label(df):  # クラスラベルを設定する関数を定義します。
    df['class_label'] = None  # 新しい列'class_label'をNoneで初期化します。
    
    # データフレーム内の各行に対して処理を行います。
    for index, row in df.iterrows():
        for col in columns:  # 指定した各列をチェックします。
            if row[col] == 1:  # 列の値が1の場合
                df.at[index, 'class_label'] = col  # 'class_label'列に該当する列名を設定します。
                break  # 一度設定したらループを抜けます。

# データフレームに対して関数を呼び出す
class_label(df_train)  # 訓練データに対してクラスラベルを設定します。
```

</div>
</details>

In [None]:
# データ探索のための新しい列を作成
columns = ['winner_model_a', 'winner_model_b', 'winner_tie']  # 勝者モデルを示す列を指定します。

def class_label(df):  # クラスラベルを設定する関数を定義します。
    df['class_label'] = None  # 新しい列'class_label'をNoneで初期化します。
    
    # データフレーム内の各行に対して処理を行います。
    for index, row in df.iterrows():
        for col in columns:  # 指定した各列をチェックします。
            if row[col] == 1:  # 列の値が1の場合
                df.at[index, 'class_label'] = col  # 'class_label'列に該当する列名を設定します。
                break  # 一度設定したらループを抜けます。

# データフレームに対して関数を呼び出す
class_label(df_train)  # 訓練データに対してクラスラベルを設定します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Define class number
class_number = {'winner_model_a':0 ,'winner_model_b':1,'winner_tie':2}

df_train['class'] = df_train['class_label'].map(class_number)
df_train.head(2)
```

</div>
<div class="column-right">

# 日本語訳

```python
# クラス番号を定義
class_number = {'winner_model_a': 0, 'winner_model_b': 1, 'winner_tie': 2}  # 勝者モデルのクラス番号を定義します。

df_train['class'] = df_train['class_label'].map(class_number)  # 'class_label'から対応するクラス番号を新しい列'class'にマッピングします。
df_train.head(2)  # 訓練データの最初の2行を表示します。
```

</div>
</details>

In [None]:
# クラス番号を定義
class_number = {'winner_model_a': 0, 'winner_model_b': 1, 'winner_tie': 2}  # 勝者モデルのクラス番号を定義します。

df_train['class'] = df_train['class_label'].map(class_number)  # 'class_label'から対応するクラス番号を新しい列'class'にマッピングします。
df_train.head(2)  # 訓練データの最初の2行を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Which model was chosen
def chose_model(row):
    if row['class'] == 0:
        return row['model_a']
    elif row['class'] == 1:
        return row['model_b']
    else:
        return 'tie'

df_train['chose_model'] = df_train.apply(chose_model, axis=1)
df_train.head(2)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 選ばれたモデルを決定する関数
def chose_model(row):  # 行に基づいて選ばれたモデルを返す関数を定義します。
    if row['class'] == 0:  # クラスが0の場合
        return row['model_a']  # model_aを返します。
    elif row['class'] == 1:  # クラスが1の場合
        return row['model_b']  # model_bを返します。
    else:
        return 'tie'  # それ以外（引き分け）の場合は'tie'を返します。

# データフレームの各行に対して関数を適用し、新しい列'chose_model'を作成
df_train['chose_model'] = df_train.apply(chose_model, axis=1)  # 各行に関数を適用して選ばれたモデルを列に設定します。
df_train.head(2)  # 訓練データの最初の2行を表示します。
```

</div>
</details>

In [None]:
# 選ばれたモデルを決定する関数
def chose_model(row):  # 行に基づいて選ばれたモデルを返す関数を定義します。
    if row['class'] == 0:  # クラスが0の場合
        return row['model_a']  # model_aを返します。
    elif row['class'] == 1:  # クラスが1の場合
        return row['model_b']  # model_bを返します。
    else:
        return 'tie'  # それ以外（引き分け）の場合は'tie'を返します。

# データフレームの各行に対して関数を適用し、新しい列'chose_model'を作成
df_train['chose_model'] = df_train.apply(chose_model, axis=1)  # 各行に関数を適用して選ばれたモデルを列に設定します。
df_train.head(2)  # 訓練データの最初の2行を表示します。

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## 2 - Data Exploration

</div>
<div class="column-right">

# 日本語訳

## 2 - データ探索

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
df_train[['winner_model_a','winner_model_b','winner_tie']].mean()
```

</div>
<div class="column-right">

# 日本語訳

```python
df_train[['winner_model_a', 'winner_model_b', 'winner_tie']].mean()  # 各モデルの勝率の平均を計算して表示します。
```

</div>
</details>

In [None]:
df_train[['winner_model_a', 'winner_model_b', 'winner_tie']].mean()  # 各モデルの勝率の平均を計算して表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Analysing class distribuitions
# Objective: is the base balanced?
fig = px.pie(df_train[['winner_model_a','winner_model_b','winner_tie']].mean(), names=df_train['class_label'], title='Class distribuition')
fig.update_layout(width=600, height=400)
fig.show()
```

</div>
<div class="column-right">

# 日本語訳

```python
# クラス分布の分析
# 目的: 基本がバランスされているかどうかを確認します。
fig = px.pie(df_train[['winner_model_a', 'winner_model_b', 'winner_tie']].mean(), names=df_train['class_label'], title='クラス分布')  # 各モデルの勝率に基づいて円グラフを作成します。
fig.update_layout(width=600, height=400)  # グラフのサイズを設定します。
fig.show()  # グラフを表示します。
```

</div>
</details>

In [None]:
# クラス分布の分析
# 目的: 基本がバランスされているかどうかを確認します。
fig = px.pie(df_train[['winner_model_a', 'winner_model_b', 'winner_tie']].mean(), names=df_train['class_label'], title='クラス分布')  # 各モデルの勝率に基づいて円グラフを作成します。
fig.update_layout(width=600, height=400)  # グラフのサイズを設定します。
fig.show()  # グラフを表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Models distribuitions
# Objective: The winningest models in the comparison
df_models = df_train.groupby('chose_model')['class'].count().reset_index().sort_values(by='class',ascending=False)
df_models.rename(columns={'chose_model':'model'}, inplace=True)

# Results Graphs
fig = px.bar(df_models[1:11].sort_values(by='class'), y='model', x='class', title='Top 10 Most Chosen Models', text_auto='.3s')
fig.update_layout(width=600, height=400)
fig.show()
```

</div>
<div class="column-right">

# 日本語訳

```python
# モデルの分布
# 目的: 比較における最も勝利したモデルを確認します。
df_models = df_train.groupby('chose_model')['class'].count().reset_index().sort_values(by='class', ascending=False)  # 選ばれたモデルごとにカウントし、降順にソートします。
df_models.rename(columns={'chose_model': 'model'}, inplace=True)  # 列名を' ch ose_model'から'model'に変更します。

# 結果のグラフ
fig = px.bar(df_models[1:11].sort_values(by='class'), y='model', x='class', title='最も選ばれたモデルTOP10', text_auto='.3s')  # 上位10モデルの棒グラフを作成します。
fig.update_layout(width=600, height=400)  # グラフのサイズを設定します。
fig.show()  # グラフを表示します。
```

</div>
</details>

In [None]:
# モデルの分布
# 目的: 比較における最も勝利したモデルを確認します。
df_models = df_train.groupby('chose_model')['class'].count().reset_index().sort_values(by='class', ascending=False)  # 選ばれたモデルごとにカウントし、降順にソートします。
df_models.rename(columns={'chose_model': 'model'}, inplace=True)  # 列名を' ch ose_model'から'model'に変更します。

# 結果のグラフ
fig = px.bar(df_models[1:11].sort_values(by='class'), y='model', x='class', title='最も選ばれたモデルTOP10', text_auto='.3s')  # 上位10モデルの棒グラフを作成します。
fig.update_layout(width=600, height=400)  # グラフのサイズを設定します。
fig.show()  # グラフを表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Models chosen from those mentioned
# Objective: The most of these models
df_uni1 = df_train.groupby('model_a')['id'].count().reset_index().sort_values('id', ascending=False)
df_uni1.rename(columns={'model_a':'model'}, inplace=True)
df_uni2 = df_train.groupby('model_b')['id'].count().reset_index().sort_values('id', ascending=False)
df_uni2.rename(columns={'model_b':'model'}, inplace=True)

df_uni = df_uni1.merge(df_uni2, how='left', on = 'model')
df_uni['total_mentions'] = df_uni['id_x'] + df_uni['id_y']
mentions = df_uni['total_mentions'].sum()
df_uni['%mentions'] = (df_uni['total_mentions'] / mentions) * 100

df_uni = df_uni.merge(df_models, how='left', on = 'model')
df_uni['chose_in_mentions'] = (df_uni['class'] / df_uni['total_mentions']) * 100
df_uni = df_uni.sort_values(by = 'chose_in_mentions', ascending=False)[:10]
df_uni.head(3)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 語及されたモデルの選択
# 目的: これらのモデルの中で最も選ばれたものを確認します。
df_uni1 = df_train.groupby('model_a')['id'].count().reset_index().sort_values('id', ascending=False)  # model_aごとの出現回数をカウントし、降順でソートします。
df_uni1.rename(columns={'model_a': 'model'}, inplace=True)  # 列名を'model_a'から'model'に変更します。
df_uni2 = df_train.groupby('model_b')['id'].count().reset_index().sort_values('id', ascending=False)  # model_bごとの出現回数をカウントし、降順でソートします。
df_uni2.rename(columns={'model_b': 'model'}, inplace=True)  # 列名を'model_b'から'model'に変更します。

# model_aとmodel_bのデータをマージして統一データフレームを作成
df_uni = df_uni1.merge(df_uni2, how='left', on='model')  # 左外部結合でデータを統合します。
df_uni['total_mentions'] = df_uni['id_x'] + df_uni['id_y']  # id_xとid_yの合計を新しい列'total_mentions'に格納します。
mentions = df_uni['total_mentions'].sum()  # 総出現回数を計算します。
df_uni['%mentions'] = (df_uni['total_mentions'] / mentions) * 100  # 出現割合を計算します。

# モデルの選出割合を追加
df_uni = df_uni.merge(df_models, how='left', on='model')  # df_modelsとマージして選出回数を追加します。
df_uni['chose_in_mentions'] = (df_uni['class'] / df_uni['total_mentions']) * 100  # 選出回数の割合を計算します。
df_uni = df_uni.sort_values(by='chose_in_mentions', ascending=False)[:10]  # 選出回数の割合でソートし上位10件を取得します。
df_uni.head(3)  # 上位3件を表示します。
```

</div>
</details>

In [None]:
# 語及されたモデルの選択
# 目的: これらのモデルの中で最も選ばれたものを確認します。
df_uni1 = df_train.groupby('model_a')['id'].count().reset_index().sort_values('id', ascending=False)  # model_aごとの出現回数をカウントし、降順でソートします。
df_uni1.rename(columns={'model_a': 'model'}, inplace=True)  # 列名を'model_a'から'model'に変更します。
df_uni2 = df_train.groupby('model_b')['id'].count().reset_index().sort_values('id', ascending=False)  # model_bごとの出現回数をカウントし、降順でソートします。
df_uni2.rename(columns={'model_b': 'model'}, inplace=True)  # 列名を'model_b'から'model'に変更します。

# model_aとmodel_bのデータをマージして統一データフレームを作成
df_uni = df_uni1.merge(df_uni2, how='left', on='model')  # 左外部結合でデータを統合します。
df_uni['total_mentions'] = df_uni['id_x'] + df_uni['id_y']  # id_xとid_yの合計を新しい列'total_mentions'に格納します。
mentions = df_uni['total_mentions'].sum()  # 総出現回数を計算します。
df_uni['%mentions'] = (df_uni['total_mentions'] / mentions) * 100  # 出現割合を計算します。

# モデルの選出割合を追加
df_uni = df_uni.merge(df_models, how='left', on='model')  # df_modelsとマージして選出回数を追加します。
df_uni['chose_in_mentions'] = (df_uni['class'] / df_uni['total_mentions']) * 100  # 選出回数の割合を計算します。
df_uni = df_uni.sort_values(by='chose_in_mentions', ascending=False)[:10]  # 選出回数の割合でソートし上位10件を取得します。
df_uni.head(3)  # 上位3件を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Results - Graphs
fig = px.bar(df_uni.sort_values('chose_in_mentions'), y='model', x='chose_in_mentions', title='% Top 10 Most Chosen Models',
             text_auto='.3s')
fig.update_layout(width=600, height=400)
fig.show()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 結果 - グラフ
fig = px.bar(df_uni.sort_values('chose_in_mentions'), y='model', x='chose_in_mentions', title='% 最も選ばれたモデルTOP10',
             text_auto='.3s')  # 上位10モデルの選出割合の棒グラフを作成します。
fig.update_layout(width=600, height=400)  # グラフのサイズを設定します。
fig.show()  # グラフを表示します。
```

</div>
</details>

In [None]:
# 結果 - グラフ
fig = px.bar(df_uni.sort_values('chose_in_mentions'), y='model', x='chose_in_mentions', title='% 最も選ばれたモデルTOP10',
             text_auto='.3s')  # 上位10モデルの選出割合の棒グラフを作成します。
fig.update_layout(width=600, height=400)  # グラフのサイズを設定します。
fig.show()  # グラフを表示します。

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## 3 Modeling

</div>
<div class="column-right">

# 日本語訳

## 3 モデリング

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time

df = df_train.copy()

# Word Processing
stopwords_list = stopwords.words('english')

def word_processing(text):
    '''Process text: remove special characters, convert to lowercase, tokenize, and remove stopwords'''
    text = re.sub(r'[/<>()|\+\-\$%&#@\'\"]+', ' ', text)  # Remove special characters
    text = text.lower()  # Convert to lowercase
    tokens = word_tokenize(text)  # Tokenize the text
    filtered_tokens = [token for token in tokens if token not in stopwords_list]  # Remove stopwords
    return filtered_tokens

# Features engineering
def count_token(tokens):
    '''Count number of tokens'''
    return len(tokens)

def diff_response(tokens1, tokens2):
    '''Difference in token count between responses'''
    len_1 = len(tokens1)
    len_2 = len(tokens2)
    diff = abs(len_1 - len_2)
    return len_1, len_2, diff

def prompt_u_response(text1, text2):
    '''Common words between the prompt and the responses'''
    conj1 = set(text1.split())
    conj2 = set(text2.split())
    intersec = conj1.intersection(conj2)
    return len(intersec)

def aUb(text1, text2):
    '''Common words between the responses'''
    conj1 = set(text1.split())
    conj2 = set(text2.split())
    intersec = conj1.intersection(conj2)
    return len(intersec)

def lexical_diversity(text):
    '''Proportion of unique words'''
    return len(set(text)) / len(text) if text else 0

def avg_words_per_sentence(text):
    '''Calculate average number of words per sentence'''
    sentences = sent_tokenize(text)
    word_count = sum(len(word_tokenize(sentence)) for sentence in sentences)
    return word_count / len(sentences) if sentences else 0

def sentence_diversity(text):
    '''Calculate sentence diversity (variety in sentence length)'''
    sentences = sent_tokenize(text)
    lengths = [len(word_tokenize(sentence)) for sentence in sentences]
    return len(set(lengths)) / len(lengths) if lengths else 0

def Simylarity(text1, text2):
    '''Calculate the similaty between prompt and responses'''
    tokenA = nlp(text1)
    tokenB = nlp(text2)
    return tokenA.similarity(tokenB)

df['similaty_promptUresponse_a'] = df.apply(lambda row: Simylarity(row['prompt'],row['response_a']), axis=1)
df['similaty_promptUresponse_b'] = df.apply(lambda row: Simylarity(row['prompt'],row['response_b']), axis=1)


# Applying word processing to columns
for col in ['prompt', 'response_a', 'response_b']:
    df[col] = df[col].apply(word_processing)
    df[f'{col}_count_token'] = df[col].apply(count_token)

# Applying additional features
for index, row in df.iterrows():
    for col in ['response_a', 'response_b']:
        tokens = row[col]
        text = ' '.join(tokens)
        
        df.at[index, f'{col}_lexical_diversity'] = lexical_diversity(tokens)
        df.at[index, f'{col}_avg_words_per_sentence'] = avg_words_per_sentence(text)
        #df.at[index, f'{col}_keyword_usage'] = keyword_usage(text, keywords)
        df.at[index, f'{col}_sentence_diversity'] = sentence_diversity(text)
        
        # Existing features
        df.at[index, f'{col}_count_token'] = count_token(tokens)

# Applying diferences functions in the train dataframe 
for index, row in df.iterrows():
    response_a_tokens = row['response_a']
    response_b_tokens = row['response_b']
    response_a_text = ' '.join(response_a_tokens)
    response_b_text = ' '.join(response_b_tokens)
    
    len_a, len_b, diff = diff_response(response_a_tokens, response_b_tokens)
    df.at[index, 'response_len_a'] = len_a
    df.at[index, 'response_len_b'] = len_b
    df.at[index, 'response_diff'] = diff
    
    common_words_ab = aUb(response_a_text, response_b_text)
    df.at[index, 'common_words_ab'] = common_words_ab
    
    prompt_tokens = row['prompt']
    prompt_text = ' '.join(prompt_tokens)
    common_words_prompt_a = prompt_u_response(prompt_text, response_a_text)
    common_words_prompt_b = prompt_u_response(prompt_text, response_b_text)
    df.at[index, 'common_words_prompt_a'] = common_words_prompt_a
    df.at[index, 'common_words_prompt_b'] = common_words_prompt_b
    

df.head(2)
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time

df = df_train.copy()  # 訓練データのコピーを作成します。

# 単語処理のためのストップワードリストを取得
stopwords_list = stopwords.words('english')

def word_processing(text):  # テキストを処理する関数を定義します。
    '''テキストを処理します: 特殊文字を削除し、小文字に変換し、トークン化し、ストップワードを削除します'''
    text = re.sub(r'[/<>()|\+\-\$%&#@\'\"]+', ' ', text)  # 特殊文字を削除します。
    text = text.lower()  # 小文字に変換します。
    tokens = word_tokenize(text)  # テキストをトークン化します。
    filtered_tokens = [token for token in tokens if token not in stopwords_list]  # ストップワードを削除します。
    return filtered_tokens

# 特徴量エンジニアリング
def count_token(tokens):  # トークンの数をカウントする関数
    '''トークンの数をカウントします'''
    return len(tokens)

def diff_response(tokens1, tokens2):  # 二つの応答のトークン数の違いを計算する関数
    '''応答間のトークン数の違い'''
    len_1 = len(tokens1)
    len_2 = len(tokens2)
    diff = abs(len_1 - len_2)  # 二つの応答のトークン数の差の絶対値を計算します。
    return len_1, len_2, diff

def prompt_u_response(text1, text2):  # プロンプトと応答間の共通単語を計算する関数
    '''プロンプトと応答間の共通単語'''
    conj1 = set(text1.split())
    conj2 = set(text2.split())
    intersec = conj1.intersection(conj2)  # 二つの集合の共通部分を計算します。
    return len(intersec)  # 共通部分の長さを返します。

def aUb(text1, text2):  # 応答間の共通単語を計算する関数
    '''応答間の共通単語'''
    conj1 = set(text1.split())
    conj2 = set(text2.split())
    intersec = conj1.intersection(conj2)  # 二つの集合の共通部分を計算します。
    return len(intersec)  # 共通部分の長さを返します。

def lexical_diversity(text):  # 単語の多様性を計算する関数
    '''ユニークな単語の比率'''
    return len(set(text)) / len(text) if text else 0  # ユニークな単語の数を全体の単語数で割ります。

def avg_words_per_sentence(text):  # 文章あたりの単語数の平均を計算する関数
    '''文あたりの平均単語数を計算します'''
    sentences = sent_tokenize(text)  # 文をトークン化します。
    word_count = sum(len(word_tokenize(sentence)) for sentence in sentences)  # 各文の単語数をカウントします。
    return word_count / len(sentences) if sentences else 0  # 平均を返します。

def sentence_diversity(text):  # 文の多様性を計算する関数
    '''文の多様性を計算します（文の長さのバリエーション）'''
    sentences = sent_tokenize(text)  # 文をトークン化します。
    lengths = [len(word_tokenize(sentence)) for sentence in sentences]  # 各文の単語数をカウントします。
    return len(set(lengths)) / len(lengths) if lengths else 0  # 文の長さのユニークな値の比率を返します。

def Simylarity(text1, text2):  # プロンプトと応答の類似度を計算する関数
    '''プロンプトと応答間の類似度を計算します'''
    tokenA = nlp(text1)  # テキストをSpaCyでトークン化します。
    tokenB = nlp(text2)  # テキストをSpaCyでトークン化します。
    return tokenA.similarity(tokenB)  # 類似度を計算して返します。

# プロンプトと応答間の類似度を新しい列に追加
df['similaty_promptUresponse_a'] = df.apply(lambda row: Simylarity(row['prompt'], row['response_a']), axis=1)
df['similaty_promptUresponse_b'] = df.apply(lambda row: Simylarity(row['prompt'], row['response_b']), axis=1)

# 指定した列に対して単語処理を適用
for col in ['prompt', 'response_a', 'response_b']:
    df[col] = df[col].apply(word_processing)  # 各列に前処理を適用します。
    df[f'{col}_count_token'] = df[col].apply(count_token)  # トークンの数をカウントします。

# 追加の特徴を適用
for index, row in df.iterrows():
    for col in ['response_a', 'response_b']:
        tokens = row[col]
        text = ' '.join(tokens)  # トークンを結合してテキストを再構築します。
        
        df.at[index, f'{col}_lexical_diversity'] = lexical_diversity(tokens)  # 単語の多様性を計算して設定します。
        df.at[index, f'{col}_avg_words_per_sentence'] = avg_words_per_sentence(text)  # 文章あたりの平均単語数を計算して設定します。
        #df.at[index, f'{col}_keyword_usage'] = keyword_usage(text, keywords)  # キーワード使用の計算を行う（コメントアウト中）。
        df.at[index, f'{col}_sentence_diversity'] = sentence_diversity(text)  # 文の多様性を計算して設定します。
        
        # 既存の特徴も設定
        df.at[index, f'{col}_count_token'] = count_token(tokens)  # トークンのカウントを設定します。

# 訓練データフレームにおける差異関数を適用
for index, row in df.iterrows():
    response_a_tokens = row['response_a']
    response_b_tokens = row['response_b']
    response_a_text = ' '.join(response_a_tokens)  # トークンを結合してテキストを再構築します。
    response_b_text = ' '.join(response_b_tokens)  # トークンを結合してテキストを再構築します。
    
    len_a, len_b, diff = diff_response(response_a_tokens, response_b_tokens)  # 応答の長さと差を計算します。
    df.at[index, 'response_len_a'] = len_a  # 応答Aのトークン数を設定します。
    df.at[index, 'response_len_b'] = len_b  # 応答Bのトークン数を設定します。
    df.at[index, 'response_diff'] = diff  # 応答間のトークン数の差を設定します。
    
    common_words_ab = aUb(response_a_text, response_b_text)  # 応答間の共通単語数を計算します。
    df.at[index, 'common_words_ab'] = common_words_ab  # 共通単語数を設定します。
    
    prompt_tokens = row['prompt']
    prompt_text = ' '.join(prompt_tokens)  # プロンプトのトークンを結合してテキストを再構築します。
    common_words_prompt_a = prompt_u_response(prompt_text, response_a_text)  # プロンプトと応答Aの共通単語数を計算します。
    common_words_prompt_b = prompt_u_response(prompt_text, response_b_text)  # プロンプトと応答Bの共通単語数を計算します。
    df.at[index, 'common_words_prompt_a'] = common_words_prompt_a  # 共通単語数を設定します。
    df.at[index, 'common_words_prompt_b'] = common_words_prompt_b  # 共通単語数を設定します。

df.head(2)  # 訓練データの最初の2行を表示します。
```

</div>
</details>

In [None]:
%%time

df = df_train.copy()  # 訓練データのコピーを作成します。

# 単語処理のためのストップワードリストを取得
stopwords_list = stopwords.words('english')

def word_processing(text):  # テキストを処理する関数を定義します。
    '''テキストを処理します: 特殊文字を削除し、小文字に変換し、トークン化し、ストップワードを削除します'''
    text = re.sub(r'[/<>()|\+\-\$%&#@\'\"]+', ' ', text)  # 特殊文字を削除します。
    text = text.lower()  # 小文字に変換します。
    tokens = word_tokenize(text)  # テキストをトークン化します。
    filtered_tokens = [token for token in tokens if token not in stopwords_list]  # ストップワードを削除します。
    return filtered_tokens

# 特徴量エンジニアリング
def count_token(tokens):  # トークンの数をカウントする関数
    '''トークンの数をカウントします'''
    return len(tokens)

def diff_response(tokens1, tokens2):  # 二つの応答のトークン数の違いを計算する関数
    '''応答間のトークン数の違い'''
    len_1 = len(tokens1)
    len_2 = len(tokens2)
    diff = abs(len_1 - len_2)  # 二つの応答のトークン数の差の絶対値を計算します。
    return len_1, len_2, diff

def prompt_u_response(text1, text2):  # プロンプトと応答間の共通単語を計算する関数
    '''プロンプトと応答間の共通単語'''
    conj1 = set(text1.split())
    conj2 = set(text2.split())
    intersec = conj1.intersection(conj2)  # 二つの集合の共通部分を計算します。
    return len(intersec)  # 共通部分の長さを返します。

def aUb(text1, text2):  # 応答間の共通単語を計算する関数
    '''応答間の共通単語'''
    conj1 = set(text1.split())
    conj2 = set(text2.split())
    intersec = conj1.intersection(conj2)  # 二つの集合の共通部分を計算します。
    return len(intersec)  # 共通部分の長さを返します。

def lexical_diversity(text):  # 単語の多様性を計算する関数
    '''ユニークな単語の比率'''
    return len(set(text)) / len(text) if text else 0  # ユニークな単語の数を全体の単語数で割ります。

def avg_words_per_sentence(text):  # 文章あたりの単語数の平均を計算する関数
    '''文あたりの平均単語数を計算します'''
    sentences = sent_tokenize(text)  # 文をトークン化します。
    word_count = sum(len(word_tokenize(sentence)) for sentence in sentences)  # 各文の単語数をカウントします。
    return word_count / len(sentences) if sentences else 0  # 平均を返します。

def sentence_diversity(text):  # 文の多様性を計算する関数
    '''文の多様性を計算します（文の長さのバリエーション）'''
    sentences = sent_tokenize(text)  # 文をトークン化します。
    lengths = [len(word_tokenize(sentence)) for sentence in sentences]  # 各文の単語数をカウントします。
    return len(set(lengths)) / len(lengths) if lengths else 0  # 文の長さのユニークな値の比率を返します。

def Simylarity(text1, text2):  # プロンプトと応答の類似度を計算する関数
    '''プロンプトと応答間の類似度を計算します'''
    tokenA = nlp(text1)  # テキストをSpaCyでトークン化します。
    tokenB = nlp(text2)  # テキストをSpaCyでトークン化します。
    return tokenA.similarity(tokenB)  # 類似度を計算して返します。

# プロンプトと応答間の類似度を新しい列に追加
df['similaty_promptUresponse_a'] = df.apply(lambda row: Simylarity(row['prompt'], row['response_a']), axis=1)
df['similaty_promptUresponse_b'] = df.apply(lambda row: Simylarity(row['prompt'], row['response_b']), axis=1)

# 指定した列に対して単語処理を適用
for col in ['prompt', 'response_a', 'response_b']:
    df[col] = df[col].apply(word_processing)  # 各列に前処理を適用します。
    df[f'{col}_count_token'] = df[col].apply(count_token)  # トークンの数をカウントします。

# 追加の特徴を適用
for index, row in df.iterrows():
    for col in ['response_a', 'response_b']:
        tokens = row[col]
        text = ' '.join(tokens)  # トークンを結合してテキストを再構築します。
        
        df.at[index, f'{col}_lexical_diversity'] = lexical_diversity(tokens)  # 単語の多様性を計算して設定します。
        df.at[index, f'{col}_avg_words_per_sentence'] = avg_words_per_sentence(text)  # 文章あたりの平均単語数を計算して設定します。
        #df.at[index, f'{col}_keyword_usage'] = keyword_usage(text, keywords)  # キーワード使用の計算を行う（コメントアウト中）。
        df.at[index, f'{col}_sentence_diversity'] = sentence_diversity(text)  # 文の多様性を計算して設定します。
        
        # 既存の特徴も設定
        df.at[index, f'{col}_count_token'] = count_token(tokens)  # トークンのカウントを設定します。

# 訓練データフレームにおける差異関数を適用
for index, row in df.iterrows():
    response_a_tokens = row['response_a']
    response_b_tokens = row['response_b']
    response_a_text = ' '.join(response_a_tokens)  # トークンを結合してテキストを再構築します。
    response_b_text = ' '.join(response_b_tokens)  # トークンを結合してテキストを再構築します。
    
    len_a, len_b, diff = diff_response(response_a_tokens, response_b_tokens)  # 応答の長さと差を計算します。
    df.at[index, 'response_len_a'] = len_a  # 応答Aのトークン数を設定します。
    df.at[index, 'response_len_b'] = len_b  # 応答Bのトークン数を設定します。
    df.at[index, 'response_diff'] = diff  # 応答間のトークン数の差を設定します。
    
    common_words_ab = aUb(response_a_text, response_b_text)  # 応答間の共通単語数を計算します。
    df.at[index, 'common_words_ab'] = common_words_ab  # 共通単語数を設定します。
    
    prompt_tokens = row['prompt']
    prompt_text = ' '.join(prompt_tokens)  # プロンプトのトークンを結合してテキストを再構築します。
    common_words_prompt_a = prompt_u_response(prompt_text, response_a_text)  # プロンプトと応答Aの共通単語数を計算します。
    common_words_prompt_b = prompt_u_response(prompt_text, response_b_text)  # プロンプトと応答Bの共通単語数を計算します。
    df.at[index, 'common_words_prompt_a'] = common_words_prompt_a  # 共通単語数を設定します。
    df.at[index, 'common_words_prompt_b'] = common_words_prompt_b  # 共通単語数を設定します。

df.head(2)  # 訓練データの最初の2行を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
df[['similaty_promptUresponse_a','similaty_promptUresponse_b']].describe().T
```

</div>
<div class="column-right">

# 日本語訳

```python
df[['similaty_promptUresponse_a', 'similaty_promptUresponse_b']].describe().T  # プロンプトと応答間の類似度の統計情報を表示します。
```

</div>
</details>

In [None]:
df[['similaty_promptUresponse_a', 'similaty_promptUresponse_b']].describe().T  # プロンプトと応答間の類似度の統計情報を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time

# features and target selection
X = df.drop(['id','model_a','model_b','prompt','response_a','response_b','winner_model_a','winner_model_b','winner_tie',
            'class_label','chose_model','class'], axis=1).values
y = df['class'].values

# Split train and valid
X_train,X_valid,y_train, y_valid = train_test_split(X, y, test_size = 0.2, random_state=42, stratify=y)

# Models use
models = {
    'XGBoost': XGBClassifier(random_state=42),
    'GradientBoosting': GradientBoostingClassifier(random_state=42),
    'CatBoost': CatBoostClassifier(random_state=42,verbose=False)
}

# Trainning the models
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)


# Metrics
result_loss = []
result_models = []

for model_name, model in models.items():
    i = 0
    print(f'Model {model_name}')

    model_losses = []  # Loss Models List
    
    for train_index, valid_index in skf.split(X, y):
        X_train_fold, X_test_fold = X[train_index], X[valid_index]
        y_train_fold, y_test_fold = y[train_index], y[valid_index]
        
        # Training the model
        model.fit(X_train_fold, y_train_fold)
        
        # Metrics evaluation
        y_test_pred_proba = model.predict_proba(X_test_fold)
        loss = metrics.log_loss(y_test_fold, y_test_pred_proba)
        model_losses.append(loss)  # Add loss in list
        
        # Display the results
        print(f'Fold {i} | Log Loss: {loss}')
        i += 1
        
        mean_loss = np.mean(model_losses)
        result_loss.append(model_losses)
        result_models.append((model_name, model_losses))

    print(f'Mean Loss for model {model_name} is {mean_loss}')
    print('---' * 30)
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time

# 特徴量とターゲットの選択
X = df.drop(['id', 'model_a', 'model_b', 'prompt', 'response_a', 'response_b', 'winner_model_a', 'winner_model_b', 'winner_tie',
            'class_label', 'chose_model', 'class'], axis=1).values  # 特徴量を選択します。
y = df['class'].values  # ターゲットのクラスを選択します。

# 訓練データと検証データの分割
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)  # データを80:20で分割します。

# 使用するモデル
models = {
    'XGBoost': XGBClassifier(random_state=42),  # XGBoostモデルを定義します。
    'GradientBoosting': GradientBoostingClassifier(random_state=42),  # 勾配ブースティングモデルを定義します。
    'CatBoost': CatBoostClassifier(random_state=42, verbose=False)  # CatBoostモデルを定義します（出力を抑制します）。
}

# モデルのトレーニング
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)  # 層別交差検証を設定します。

# メトリクス
result_loss = []  # 各モデルのロスを記録するリスト
result_models = []  # 各モデルの結果を記録するリスト

# 各モデルに対するトレーニング
for model_name, model in models.items():
    i = 0
    print(f'Model {model_name}')  # 現在のモデル名を表示します。

    model_losses = []  # ロスを記録するリスト
    
    for train_index, valid_index in skf.split(X, y):  # クロスバリデーションの分割
        X_train_fold, X_test_fold = X[train_index], X[valid_index]  # 学習データと検証データを分割します。
        y_train_fold, y_test_fold = y[train_index], y[valid_index]  # ターゲットを分割します。
        
        # モデルのトレーニング
        model.fit(X_train_fold, y_train_fold)  # 学習データでモデルを訓練します。
        
        # メトリクスの評価
        y_test_pred_proba = model.predict_proba(X_test_fold)  # 検証データに対する予測確率を計算します。
        loss = metrics.log_loss(y_test_fold, y_test_pred_proba)  # ロスを計算します。
        model_losses.append(loss)  # ロスをリストに追加します。
        
        # 結果を表示
        print(f'Fold {i} | Log Loss: {loss}')  # 各フォールドのロスを表示します。
        i += 1
        
    mean_loss = np.mean(model_losses)  # 各モデルの平均ロスを計算します。
    result_loss.append(model_losses)  # モデルごとのロスを結果に追加します。
    result_models.append((model_name, model_losses))  # モデル名とロスをペアで結果に追加します。

    print(f'Mean Loss for model {model_name} is {mean_loss}')  # 各モデルの平均ロスを表示します。
    print('---' * 30)  # 区切り線を表示します。
```

</div>
</details>

In [None]:
%%time

# 特徴量とターゲットの選択
X = df.drop(['id', 'model_a', 'model_b', 'prompt', 'response_a', 'response_b', 'winner_model_a', 'winner_model_b', 'winner_tie',
            'class_label', 'chose_model', 'class'], axis=1).values  # 特徴量を選択します。
y = df['class'].values  # ターゲットのクラスを選択します。

# 訓練データと検証データの分割
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)  # データを80:20で分割します。

# 使用するモデル
models = {
    'XGBoost': XGBClassifier(random_state=42),  # XGBoostモデルを定義します。
    'GradientBoosting': GradientBoostingClassifier(random_state=42),  # 勾配ブースティングモデルを定義します。
    'CatBoost': CatBoostClassifier(random_state=42, verbose=False)  # CatBoostモデルを定義します（出力を抑制します）。
}

# モデルのトレーニング
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)  # 層別交差検証を設定します。

# メトリクス
result_loss = []  # 各モデルのロスを記録するリスト
result_models = []  # 各モデルの結果を記録するリスト

# 各モデルに対するトレーニング
for model_name, model in models.items():
    i = 0
    print(f'Model {model_name}')  # 現在のモデル名を表示します。

    model_losses = []  # ロスを記録するリスト
    
    for train_index, valid_index in skf.split(X, y):  # クロスバリデーションの分割
        X_train_fold, X_test_fold = X[train_index], X[valid_index]  # 学習データと検証データを分割します。
        y_train_fold, y_test_fold = y[train_index], y[valid_index]  # ターゲットを分割します。
        
        # モデルのトレーニング
        model.fit(X_train_fold, y_train_fold)  # 学習データでモデルを訓練します。
        
        # メトリクスの評価
        y_test_pred_proba = model.predict_proba(X_test_fold)  # 検証データに対する予測確率を計算します。
        loss = metrics.log_loss(y_test_fold, y_test_pred_proba)  # ロスを計算します。
        model_losses.append(loss)  # ロスをリストに追加します。
        
        # 結果を表示
        print(f'Fold {i} | Log Loss: {loss}')  # 各フォールドのロスを表示します。
        i += 1
        
    mean_loss = np.mean(model_losses)  # 各モデルの平均ロスを計算します。
    result_loss.append(model_losses)  # モデルごとのロスを結果に追加します。
    result_models.append((model_name, model_losses))  # モデル名とロスをペアで結果に追加します。

    print(f'Mean Loss for model {model_name} is {mean_loss}')  # 各モデルの平均ロスを表示します。
    print('---' * 30)  # 区切り線を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Plot results
data_dict = {'CV': list(range(0, 5))}

for model, values in result_models:
    data_dict[model] = values

results_df = pd.DataFrame(data_dict)

fig = px.line(results_df, x='CV', y=['XGBoost','GradientBoosting','CatBoost'], title='Loss Models')
fig.update_layout(width=600, height=400)
fig.show()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 結果のプロット
data_dict = {'CV': list(range(0, 5))}  # クロスバリデーションのフォールド番号を作成します。

for model, values in result_models:  # 各モデルとその値のペアをループします。
    data_dict[model] = values  # モデル名をキーとしてロスの値を辞書に追加します。

results_df = pd.DataFrame(data_dict)  # 辞書からデータフレームを作成します。

# モデルロスの線グラフを作成
fig = px.line(results_df, x='CV', y=['XGBoost', 'GradientBoosting', 'CatBoost'], title='モデルロスの比較')
fig.update_layout(width=600, height=400)  # グラフのサイズを設定します。
fig.show()  # グラフを表示します。
```

</div>
</details>

In [None]:
# 結果のプロット
data_dict = {'CV': list(range(0, 5))}  # クロスバリデーションのフォールド番号を作成します。

for model, values in result_models:  # 各モデルとその値のペアをループします。
    data_dict[model] = values  # モデル名をキーとしてロスの値を辞書に追加します。

results_df = pd.DataFrame(data_dict)  # 辞書からデータフレームを作成します。

# モデルロスの線グラフを作成
fig = px.line(results_df, x='CV', y=['XGBoost', 'GradientBoosting', 'CatBoost'], title='モデルロスの比較')
fig.update_layout(width=600, height=400)  # グラフのサイズを設定します。
fig.show()  # グラフを表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time
# The best model are GradientBoosting
# Now, we'll use the gridsearch for tunning hyperparametros
model_grad = GradientBoostingClassifier()
params = {
    'n_estimators':[100, 150, 170],
    'max_depth': [1, 3, 5],
    'learning_rate': [0.1, 0.01]
}

grid = GridSearchCV(model_grad, params, n_jobs=-1, cv=5, scoring='neg_log_loss', verbose=False)
grid.fit(X_train, y_train)
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time
# 最良のモデルはGradientBoostingです
# ハイパーパラメータのチューニングのためにグリッドサーチを使用します
model_grad = GradientBoostingClassifier()  # GradientBoostingのインスタンスを作成します。
params = {  # ハイパーパラメータの候補を設定します。
    'n_estimators': [100, 150, 170],  # 決定木の数の候補リスト。
    'max_depth': [1, 3, 5],  # 各決定木の最大深さの候補リスト。
    'learning_rate': [0.1, 0.01]  # 学習率の候補リスト。
}

# グリッドサーチの設定
grid = GridSearchCV(model_grad, params, n_jobs=-1, cv=5, scoring='neg_log_loss', verbose=False)  # グリッドサーチを設定します。
grid.fit(X_train, y_train)  # 訓練データでグリッドサーチを実行します。
```

</div>
</details>

In [None]:
%%time
# 最良のモデルはGradientBoostingです
# ハイパーパラメータのチューニングのためにグリッドサーチを使用します
model_grad = GradientBoostingClassifier()  # GradientBoostingのインスタンスを作成します。
params = {  # ハイパーパラメータの候補を設定します。
    'n_estimators': [100, 150, 170],  # 決定木の数の候補リスト。
    'max_depth': [1, 3, 5],  # 各決定木の最大深さの候補リスト。
    'learning_rate': [0.1, 0.01]  # 学習率の候補リスト。
}

# グリッドサーチの設定
grid = GridSearchCV(model_grad, params, n_jobs=-1, cv=5, scoring='neg_log_loss', verbose=False)  # グリッドサーチを設定します。
grid.fit(X_train, y_train)  # 訓練データでグリッドサーチを実行します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
print(f'The best params {grid.best_params_}')
```

</div>
<div class="column-right">

# 日本語訳

```python
print(f'最良のハイパーパラメータは {grid.best_params_} です。')  # 最良のハイパーパラメータを表示します。
```

</div>
</details>

In [None]:
print(f'最良のハイパーパラメータは {grid.best_params_} です。')  # 最良のハイパーパラメータを表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Selection the best model
best_model = grid.best_estimator_
```

</div>
<div class="column-right">

# 日本語訳

```python
# 最良のモデルを選択
best_model = grid.best_estimator_  # グリッドサーチで得られた最良のモデルを選択します。
```

</div>
</details>

In [None]:
# 最良のモデルを選択
best_model = grid.best_estimator_  # グリッドサーチで得られた最良のモデルを選択します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Avaluation the best model
y_predict_valid_prob = best_model.predict_proba(X_valid)

logloss = metrics.log_loss(y_valid, y_predict_valid_prob)

print(f'LogLoss the Best Models with GridSearch: {logloss}')
```

</div>
<div class="column-right">

# 日本語訳

```python
# 最良モデルの評価
y_predict_valid_prob = best_model.predict_proba(X_valid)  # 検証データに対する予測確率を計算します。

logloss = metrics.log_loss(y_valid, y_predict_valid_prob)  # 検証データに対するロス（LogLoss）を計算します。

print(f'グリッドサーチによる最良モデルのLogLoss: {logloss}')  # 最良モデルのロスを表示します。
```

</div>
</details>

In [None]:
# 最良モデルの評価
y_predict_valid_prob = best_model.predict_proba(X_valid)  # 検証データに対する予測確率を計算します。

logloss = metrics.log_loss(y_valid, y_predict_valid_prob)  # 検証データに対するロス（LogLoss）を計算します。

print(f'グリッドサーチによる最良モデルのLogLoss: {logloss}')  # 最良モデルのロスを表示します。

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

There was no significant improvement with GridSearch

</div>
<div class="column-right">

# 日本語訳

グリッドサーチによる改善は見られませんでした。

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Features importance
features_importance = best_model.feature_importances_
features_names = ['prompt_count_token', 'response_a_count_token',
       'response_b_count_token', 'response_a_lexical_diversity',
       'response_a_avg_words_per_sentence', 'response_a_sentence_diversity',
       'response_b_lexical_diversity', 'response_b_avg_words_per_sentence',
       'response_b_sentence_diversity', 'response_len_a', 'response_len_b',
       'response_diff', 'common_words_ab', 'common_words_prompt_a',
       'common_words_prompt_b','similaty_promptUresponse_a', 'similaty_promptUresponse_b']

fig = px.bar(y=features_names, x=features_importance, color=features_importance, title='Features Importance')
scale = px.colors.sequential.BuGn
fig.update_traces(marker=dict(colorscale=scale))
fig.update_layout(width=800, height=500)
fig.show()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 特徴量の重要度
features_importance = best_model.feature_importances_  # 最良モデルから特徴量の重要度を取得します。
features_names = ['prompt_count_token', 'response_a_count_token',
       'response_b_count_token', 'response_a_lexical_diversity',
       'response_a_avg_words_per_sentence', 'response_a_sentence_diversity',
       'response_b_lexical_diversity', 'response_b_avg_words_per_sentence',
       'response_b_sentence_diversity', 'response_len_a', 'response_len_b',
       'response_diff', 'common_words_ab', 'common_words_prompt_a',
       'common_words_prompt_b', 'similaty_promptUresponse_a', 'similaty_promptUresponse_b']  # 特徴量名のリストを定義します。

fig = px.bar(y=features_names, x=features_importance, color=features_importance, title='特徴量の重要度')  # 特徴量の重要度を棒グラフで可視化します。
scale = px.colors.sequential.BuGn  # カラーグラデーションを設定します。
fig.update_traces(marker=dict(colorscale=scale))  # グラフの色を設定します。
fig.update_layout(width=800, height=500)  # グラフのサイズを設定します。
fig.show()  # グラフを表示します。
```

</div>
</details>

In [None]:
# 特徴量の重要度
features_importance = best_model.feature_importances_  # 最良モデルから特徴量の重要度を取得します。
features_names = ['prompt_count_token', 'response_a_count_token',
       'response_b_count_token', 'response_a_lexical_diversity',
       'response_a_avg_words_per_sentence', 'response_a_sentence_diversity',
       'response_b_lexical_diversity', 'response_b_avg_words_per_sentence',
       'response_b_sentence_diversity', 'response_len_a', 'response_len_b',
       'response_diff', 'common_words_ab', 'common_words_prompt_a',
       'common_words_prompt_b', 'similaty_promptUresponse_a', 'similaty_promptUresponse_b']  # 特徴量名のリストを定義します。

fig = px.bar(y=features_names, x=features_importance, color=features_importance, title='特徴量の重要度')  # 特徴量の重要度を棒グラフで可視化します。
scale = px.colors.sequential.BuGn  # カラーグラデーションを設定します。
fig.update_traces(marker=dict(colorscale=scale))  # グラフの色を設定します。
fig.update_layout(width=800, height=500)  # グラフのサイズを設定します。
fig.show()  # グラフを表示します。

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

Above we can see the most important features for the model

</div>
<div class="column-right">

# 日本語訳

上記のグラフでは、モデルにおける最も重要な特徴量を確認できます。

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Preparing the test data to predict
df_test['similaty_promptUresponse_a'] = df_test.apply(lambda row: Simylarity(row['prompt'],row['response_a']), axis=1)
df_test['similaty_promptUresponse_b'] = df_test.apply(lambda row: Simylarity(row['prompt'],row['response_b']), axis=1)



# Applying word processing to columns
for col in ['prompt', 'response_a', 'response_b']:
    df_test[col] = df_test[col].apply(word_processing)
    df_test[f'{col}_count_token'] = df_test[col].apply(count_token)

# Applying additional features
for index, row in df_test.iterrows():
    for col in ['response_a', 'response_b']:
        tokens = row[col]
        text = ' '.join(tokens)
        
        df_test.at[index, f'{col}_lexical_diversity'] = lexical_diversity(tokens)
        df_test.at[index, f'{col}_avg_words_per_sentence'] = avg_words_per_sentence(text)
        #df.at[index, f'{col}_keyword_usage'] = keyword_usage(text, keywords)
        df_test.at[index, f'{col}_sentence_diversity'] = sentence_diversity(text)
        
        # Existing features
        df_test.at[index, f'{col}_count_token'] = count_token(tokens)


# Applying diferences functions in the test dataframe 
for index, row in df_test.iterrows():
    response_a_tokens = row['response_a']
    response_b_tokens = row['response_b']
    response_a_text = ' '.join(response_a_tokens)
    response_b_text = ' '.join(response_b_tokens)
    
    len_a, len_b, diff = diff_response(response_a_tokens, response_b_tokens)
    df_test.at[index, 'response_len_a'] = len_a
    df_test.at[index, 'response_len_b'] = len_b
    df_test.at[index, 'response_diff'] = diff
    
    common_words_ab = aUb(response_a_text, response_b_text)
    df_test.at[index, 'common_words_ab'] = common_words_ab
    
    prompt_tokens = row['prompt']
    prompt_text = ' '.join(prompt_tokens)
    common_words_prompt_a = prompt_u_response(prompt_text, response_a_text)
    common_words_prompt_b = prompt_u_response(prompt_text, response_b_text)
    df_test.at[index, 'common_words_prompt_a'] = common_words_prompt_a
    df_test.at[index, 'common_words_prompt_b'] = common_words_prompt_b

df_test.drop(columns = ['id','prompt','response_a','response_b'], axis=1, inplace=True)
df_test.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 予測のためのテストデータの準備
df_test['similaty_promptUresponse_a'] = df_test.apply(lambda row: Simylarity(row['prompt'], row['response_a']), axis=1)  # プロンプトと応答A間の類似度を計算します。
df_test['similaty_promptUresponse_b'] = df_test.apply(lambda row: Simylarity(row['prompt'], row['response_b']), axis=1)  # プロンプトと応答B間の類似度を計算します。

# 指定した列に対して単語処理を適用
for col in ['prompt', 'response_a', 'response_b']:
    df_test[col] = df_test[col].apply(word_processing)  # 各列に前処理を適用します。
    df_test[f'{col}_count_token'] = df_test[col].apply(count_token)  # トークンの数をカウントします。

# 追加の特徴を適用
for index, row in df_test.iterrows():
    for col in ['response_a', 'response_b']:
        tokens = row[col]
        text = ' '.join(tokens)  # トークンを結合してテキストを再構築します。
        
        df_test.at[index, f'{col}_lexical_diversity'] = lexical_diversity(tokens)  # 単語の多様性を計算して設定します。
        df_test.at[index, f'{col}_avg_words_per_sentence'] = avg_words_per_sentence(text)  # 文章あたりの平均単語数を計算して設定します。
        # df_test.at[index, f'{col}_keyword_usage'] = keyword_usage(text, keywords)  # キーワード使用の計算を行う（コメントアウト中）。
        df_test.at[index, f'{col}_sentence_diversity'] = sentence_diversity(text)  # 文の多様性を計算して設定します。
        
        # 既存の特徴も設定
        df_test.at[index, f'{col}_count_token'] = count_token(tokens)  # トークンのカウントを設定します。

# テストデータフレームにおける差異関数を適用
for index, row in df_test.iterrows():
    response_a_tokens = row['response_a']
    response_b_tokens = row['response_b']
    response_a_text = ' '.join(response_a_tokens)  # トークンを結合してテキストを再構築します。
    response_b_text = ' '.join(response_b_tokens)  # トークンを結合してテキストを再構築します。
    
    len_a, len_b, diff = diff_response(response_a_tokens, response_b_tokens)  # 応答の長さと差を計算します。
    df_test.at[index, 'response_len_a'] = len_a  # 応答Aのトークン数を設定します。
    df_test.at[index, 'response_len_b'] = len_b  # 応答Bのトークン数を設定します。
    df_test.at[index, 'response_diff'] = diff  # 応答間のトークン数の差を設定します。
    
    common_words_ab = aUb(response_a_text, response_b_text)  # 応答間の共通単語数を計算します。
    df_test.at[index, 'common_words_ab'] = common_words_ab  # 共通単語数を設定します。
    
    prompt_tokens = row['prompt']
    prompt_text = ' '.join(prompt_tokens)  # プロンプトのトークンを結合してテキストを再構築します。
    common_words_prompt_a = prompt_u_response(prompt_text, response_a_text)  # プロンプトと応答Aの共通単語数を計算します。
    common_words_prompt_b = prompt_u_response(prompt_text, response_b_text)  # プロンプトと応答Bの共通単語数を計算します。
    df_test.at[index, 'common_words_prompt_a'] = common_words_prompt_a  # 共通単語数を設定します。
    df_test.at[index, 'common_words_prompt_b'] = common_words_prompt_b  # 共通単語数を設定します。

df_test.drop(columns=['id', 'prompt', 'response_a', 'response_b'], axis=1, inplace=True)  # 不要な列を削除します。
df_test.head()  # テストデータの最初の5行を表示します。
```

</div>
</details>

In [None]:
# 予測のためのテストデータの準備
df_test['similaty_promptUresponse_a'] = df_test.apply(lambda row: Simylarity(row['prompt'], row['response_a']), axis=1)  # プロンプトと応答A間の類似度を計算します。
df_test['similaty_promptUresponse_b'] = df_test.apply(lambda row: Simylarity(row['prompt'], row['response_b']), axis=1)  # プロンプトと応答B間の類似度を計算します。

# 指定した列に対して単語処理を適用
for col in ['prompt', 'response_a', 'response_b']:
    df_test[col] = df_test[col].apply(word_processing)  # 各列に前処理を適用します。
    df_test[f'{col}_count_token'] = df_test[col].apply(count_token)  # トークンの数をカウントします。

# 追加の特徴を適用
for index, row in df_test.iterrows():
    for col in ['response_a', 'response_b']:
        tokens = row[col]
        text = ' '.join(tokens)  # トークンを結合してテキストを再構築します。
        
        df_test.at[index, f'{col}_lexical_diversity'] = lexical_diversity(tokens)  # 単語の多様性を計算して設定します。
        df_test.at[index, f'{col}_avg_words_per_sentence'] = avg_words_per_sentence(text)  # 文章あたりの平均単語数を計算して設定します。
        # df_test.at[index, f'{col}_keyword_usage'] = keyword_usage(text, keywords)  # キーワード使用の計算を行う（コメントアウト中）。
        df_test.at[index, f'{col}_sentence_diversity'] = sentence_diversity(text)  # 文の多様性を計算して設定します。
        
        # 既存の特徴も設定
        df_test.at[index, f'{col}_count_token'] = count_token(tokens)  # トークンのカウントを設定します。

# テストデータフレームにおける差異関数を適用
for index, row in df_test.iterrows():
    response_a_tokens = row['response_a']
    response_b_tokens = row['response_b']
    response_a_text = ' '.join(response_a_tokens)  # トークンを結合してテキストを再構築します。
    response_b_text = ' '.join(response_b_tokens)  # トークンを結合してテキストを再構築します。
    
    len_a, len_b, diff = diff_response(response_a_tokens, response_b_tokens)  # 応答の長さと差を計算します。
    df_test.at[index, 'response_len_a'] = len_a  # 応答Aのトークン数を設定します。
    df_test.at[index, 'response_len_b'] = len_b  # 応答Bのトークン数を設定します。
    df_test.at[index, 'response_diff'] = diff  # 応答間のトークン数の差を設定します。
    
    common_words_ab = aUb(response_a_text, response_b_text)  # 応答間の共通単語数を計算します。
    df_test.at[index, 'common_words_ab'] = common_words_ab  # 共通単語数を設定します。
    
    prompt_tokens = row['prompt']
    prompt_text = ' '.join(prompt_tokens)  # プロンプトのトークンを結合してテキストを再構築します。
    common_words_prompt_a = prompt_u_response(prompt_text, response_a_text)  # プロンプトと応答Aの共通単語数を計算します。
    common_words_prompt_b = prompt_u_response(prompt_text, response_b_text)  # プロンプトと応答Bの共通単語数を計算します。
    df_test.at[index, 'common_words_prompt_a'] = common_words_prompt_a  # 共通単語数を設定します。
    df_test.at[index, 'common_words_prompt_b'] = common_words_prompt_b  # 共通単語数を設定します。

df_test.drop(columns=['id', 'prompt', 'response_a', 'response_b'], axis=1, inplace=True)  # 不要な列を削除します。
df_test.head()  # テストデータの最初の5行を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Predict proba in test
y_sub_proba = best_model.predict_proba(df_test)
y_sub_proba
```

</div>
<div class="column-right">

# 日本語訳

```python
# テストデータに対する予測確率を計算
y_sub_proba = best_model.predict_proba(df_test)  # 最良モデルを使用してテストデータに対する予測確率を計算します。
y_sub_proba  # 予測確率を表示します。
```

</div>
</details>

In [None]:
# テストデータに対する予測確率を計算
y_sub_proba = best_model.predict_proba(df_test)  # 最良モデルを使用してテストデータに対する予測確率を計算します。
y_sub_proba  # 予測確率を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Submission df
submission = pd.DataFrame({
    'id':df_submission['id'],
    'winner_model_a': y_sub_proba[:, 0],
    'winner_model_b': y_sub_proba[:, 1],
    'winner_tie': y_sub_proba[:, 2]
})

submission.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 提出用データフレームの作成
submission = pd.DataFrame({
    'id': df_submission['id'],  # 提出用のID列を設定します。
    'winner_model_a': y_sub_proba[:, 0],  # モデルAの勝者確率を設定します。
    'winner_model_b': y_sub_proba[:, 1],  # モデルBの勝者確率を設定します。
    'winner_tie': y_sub_proba[:, 2]  # 引き分けの確率を設定します。
})

submission.head()  # 提出用データフレームの最初の5行を表示します。
```

</div>
</details>

In [None]:
# 提出用データフレームの作成
submission = pd.DataFrame({
    'id': df_submission['id'],  # 提出用のID列を設定します。
    'winner_model_a': y_sub_proba[:, 0],  # モデルAの勝者確率を設定します。
    'winner_model_b': y_sub_proba[:, 1],  # モデルBの勝者確率を設定します。
    'winner_tie': y_sub_proba[:, 2]  # 引き分けの確率を設定します。
})

submission.head()  # 提出用データフレームの最初の5行を表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
submission.to_csv('/kaggle/working/submission.csv', index=False)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 提出ファイルの保存
submission.to_csv('/kaggle/working/submission.csv', index=False)  # 提出用データフレームをCSVファイルとして保存します。
```

</div>
</details>

In [None]:
# 提出ファイルの保存
submission.to_csv('/kaggle/working/submission.csv', index=False)  # 提出用データフレームをCSVファイルとして保存します。