# 要約 
このJupyter Notebookは、Kaggleの「LMSYS - Chatbot Arena」コンペティションにおけるXGBoostを使用したベースラインモデルを構築することを目的としています。このコンペティションでは、異なる大規模言語モデル（LLM）によるチャットボットの応答に対して、どちらがユーザーに好まれるかを予測するタスクに取り組んでいます。

### 主な内容

1. **ライブラリのインポート**:
   - NumPy、Pandas、nltk、Matplotlib、Seaborn、XGBoostなどのライブラリを使用し、データの前処理や特徴抽出、モデルの構築・評価を行います。

2. **データのロード**:
   - チャットボットのデータセットをトレーニングとテストの2つに分けて読み込み、必要に応じてデータを事前処理します。特に、テキスト内の不要な形式を整える関数を適用します。

3. **特徴エンジニアリング**:
   - `Preprocessor`クラスを用いて、コサイン類似度やジャッカード類似度を計算するメソッドを定義します。また、テキストに含まれる引用、改行、箇条書きの数などの特徴量を抽出します。
   - ユニグラム、バイグラム、トライグラムのオーバーラップを特徴量として計算し、データフレームに追加します。

4. **モデリング**:
   - XGBoost分類器を用いて、層化Kフォールド交差検証を行い、モデルのパフォーマンスを評価します。各フォールドのログ損失を計算し、最終的なテスト予測を生成します。
   - 特徴量の重要度を評価し、上位の重要な特徴量を可視化します。

5. **提出ファイルの作成**:
   - 最終的なテスト予測をサンプル提出ファイルに格納し、「submission.csv」として保存します。

### 使用される手法とライブラリ

- **手法**: XGBoostによるマルチクラス分類、層化Kフォールド交差検証、特徴量抽出に基づくテキストの類似度評価。
- **ライブラリ**: NumPy、Pandas、nltk、Matplotlib、Seaborn、XGBoost、Scikit-learn。

このノートブックは、コンペティションにおける参加者が独自のモデルを開発するための出発点として活用できます。

---


# 用語概説 
以下は、初心者が理解するのに役立つ、ノートブック特有のドメイン知識やマイナーな専門用語の簡単な解説です。

1. **ガーベジコレクション (Garbage Collection)**:
   - メモリ管理手法の一つで、不要になったオブジェクトを自動的に解放するプロセスを指します。これにより、メモリリークを防ぎます。

2. **TF-IDF (Term Frequency-Inverse Document Frequency)**:
   - テキストデータの特徴抽出手法の一つで、特定の単語がある文書にどれだけ重要であるかを計算するために使用されます。高いTF-IDF値を持つ単語は、文書内での出現頻度が高く、他の文書での出現頻度が低いことを示します。

3. **n-grams**:
   - 文字列（通常はテキスト）をn個の連続した単語や文字の組み合わせに分割したものです。例えば、トライグラムは3つの連続した単語からなります。n-gramは、文脈や文の類似性を測る際に使用されます。

4. **コサイン類似度 (Cosine Similarity)**:
   - ベクトルの間の角度を測定する手法で、主にテキストや文書の類似性を比較するために用いられます。1に近いほど類似度が高いことを示します。

5. **ジャッカード類似度 (Jaccard Similarity)**:
   - 2つの集合の間の類似性を測る指標で、共通部分のサイズを和集合のサイズで割ったものです。値は0から1までの範囲で、1に近いほど集合が似ていることを意味します。

6. **層化交差検証 (Stratified K-Fold Cross Validation)**:
   - データセットを層（クラス）で均等に分割する交差検証手法です。これにより、各フォールドにおけるクラス分布が維持され、モデルの性能評価が安定します。

7. **ハイパーパラメータ (Hyperparameter)**:
   - モデルの学習前に設定する必要のあるパラメータで、モデル自体の構造や学習プロセスに影響を与えるものです。例として、学習率や決定木の深さなどがあります。

8. **早期停止 (Early Stopping)**:
   - モデルがバリデーションデータに対して最良の性能を示した時点で訓練を終了するテクニックです。過剰適合（オーバーフィッティング）を防ぐ目的があります。

9. **特徴量の重要度 (Feature Importance)**:
   - モデルが予測する際に、各特徴量がどの程度重要であるかを示す指標です。重要度が高い特徴量は、モデルの予測に大きく寄与します。

10. **マルチクラスログ損失 (Multi-class Log Loss)**:
    - 複数のクラスがある場合のモデルの予測精度を評価するための指標で、実際のクラスと予測した確率を基に計算されます。値が低いほどモデルの性能が良いことを示します。

これらの用語はノートブックの内容に特有であり、実際の業務や学問の場での応用において重要となるものです。

---


<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# LMSYS | XGB Baseline

(original notebook: https://www.kaggle.com/code/sercanyesiloz/lmsys-xgb-baseline)

# 1. Libraries

</div>
<div class="column-right">

# 日本語訳

# LMSYS | XGBベースライン

(元のノートブック: https://www.kaggle.com/code/sercanyesiloz/lmsys-xgb-baseline)

# 1. ライブラリ

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import gc
import os
import re
import numpy as np
import pandas as pd

import nltk
from nltk.util import ngrams
from collections import Counter
import matplotlib.pyplot as plt
import seaborn as sns

import xgboost as xgb
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import log_loss
```

</div>
<div class="column-right">

# 日本語訳

```python
import gc  # ガーベジコレクションをインポートします。メモリを解放するのに役立ちます。
import os  # OS関連の機能を提供するモジュールをインポートします。
import re  # 正規表現操作に使用するモジュールをインポートします。
import numpy as np  # 数値計算のためのライブラリであるNumPyをインポートします。
import pandas as pd  # データ操作と解析のためのPandasをインポートします。

import nltk  # 自然言語処理のためのライブラリであるnltkをインポートします。
from nltk.util import ngrams  # n-gramsの生成に使用します。
from collections import Counter  # 要素のカウントに使用するCounterをインポートします。
import matplotlib.pyplot as plt  # データの可視化のためのMatplotlibをインポートします。
import seaborn as sns  # 高度なデータビジュアライゼーションのためのSeabornをインポートします。

import xgboost as xgb  # XGBoostライブラリをインポートします。機械学習のためのツールです。
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer  # テキストの特徴抽出に必要なベクトライザをインポートします。
from sklearn.metrics.pairwise import cosine_similarity  # コサイン類似度を計算するための関数をインポートします。
from sklearn.model_selection import StratifiedKFold  # StratifiedKFoldを用いた交差検証を行います。
from sklearn.metrics import log_loss  # ログ損失を計算するための関数をインポートします。
```

</div>
</details>

In [None]:
import gc  # ガーベジコレクションをインポートします。メモリを解放するのに役立ちます。
import os  # OS関連の機能を提供するモジュールをインポートします。
import re  # 正規表現操作に使用するモジュールをインポートします。
import numpy as np  # 数値計算のためのライブラリであるNumPyをインポートします。
import pandas as pd  # データ操作と解析のためのPandasをインポートします。

import nltk  # 自然言語処理のためのライブラリであるnltkをインポートします。
from nltk.util import ngrams  # n-gramsの生成に使用します。
from collections import Counter  # 要素のカウントに使用するCounterをインポートします。
import matplotlib.pyplot as plt  # データの可視化のためのMatplotlibをインポートします。
import seaborn as sns  # 高度なデータビジュアライゼーションのためのSeabornをインポートします。

import xgboost as xgb  # XGBoostライブラリをインポートします。機械学習のためのツールです。
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer  # テキストの特徴抽出に必要なベクトライザをインポートします。
from sklearn.metrics.pairwise import cosine_similarity  # コサイン類似度を計算するための関数をインポートします。
from sklearn.model_selection import StratifiedKFold  # StratifiedKFoldを用いた交差検証を行います。
from sklearn.metrics import log_loss  # ログ損失を計算するための関数をインポートします。

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# 2. Configuration

</div>
<div class="column-right">

# 日本語訳

# 2. 設定

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
class config:
    root = "/kaggle/input/lmsys-chatbot-arena/"
    train_path = os.path.join(root, "train.csv")
    test_path = os.path.join(root, "test.csv")
    sample_submission_path = os.path.join(root, "sample_submission.csv")
    seed = 42
    n_splits = 10
```

</div>
<div class="column-right">

# 日本語訳

```python
class config:
    root = "/kaggle/input/lmsys-chatbot-arena/"  # データセットのルートディレクトリを指定します。
    train_path = os.path.join(root, "train.csv")  # トレーニングデータのファイルパスを設定します。
    test_path = os.path.join(root, "test.csv")  # テストデータのファイルパスを設定します。
    sample_submission_path = os.path.join(root, "sample_submission.csv")  # 提出ファイルのサンプルのパスを設定します。
    seed = 42  # 再現性のための乱数シードを設定します。
    n_splits = 10  # クロスバリデーションの分割数を設定します。
```

</div>
</details>

In [None]:
class config:
    root = "/kaggle/input/lmsys-chatbot-arena/"  # データセットのルートディレクトリを指定します。
    train_path = os.path.join(root, "train.csv")  # トレーニングデータのファイルパスを設定します。
    test_path = os.path.join(root, "test.csv")  # テストデータのファイルパスを設定します。
    sample_submission_path = os.path.join(root, "sample_submission.csv")  # 提出ファイルのサンプルのパスを設定します。
    seed = 42  # 再現性のための乱数シードを設定します。
    n_splits = 10  # クロスバリデーションの分割数を設定します。

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# 3. Loading Data

</div>
<div class="column-right">

# 日本語訳

# 3. データのロード

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Read the training, test, and sample submission datasets from the specified paths
train = pd.read_csv(config.train_path)
test = pd.read_csv(config.test_path)
sample_submission = pd.read_csv(config.sample_submission_path)

# If the test dataset has fewer than 10 rows, limit the training dataset to the first 10,000 rows
if test.shape[0] < 10:
    train = train.iloc[:10000]

# Define a function to process strings by removing brackets and splitting sentences
# NOTE: Another way would be to convert to JSON and then join, but this is probably most efficient in Python
def process(input_str):
    stripped_str = input_str.strip('[]')  # Remove leading and trailing square brackets
    sentences = [s.strip('"') for s in stripped_str.split('","')]  # Split by "," and remove surrounding quotes
    return ' '.join(sentences)  # Join the sentences with a space

# Apply the `process` function to the prompt and response columns in the train dataset
train["prompt"] = train["prompt"].apply(process)
train["response_a"] = train["response_a"].apply(process)
train["response_b"] = train["response_b"].apply(process)

# Apply the `process` function to the prompt and response columns in the test dataset
test["prompt"] = test["prompt"].apply(process)
test["response_a"] = test["response_a"].apply(process)
test["response_b"] = test["response_b"].apply(process)

# Print the shapes of the train and test datasets
print(f"train shape: {train.shape}")
print(f"test shape: {test.shape}")
print("-"*90)

# Print the total number of missing values in the train and test datasets
print(f"train missing values: {train.isnull().sum().sum()}")
print(f"test missing values: {test.isnull().sum().sum()}")
print("-"*90)

# Display the first few rows of the train dataset
train.head()

```

</div>
<div class="column-right">

# 日本語訳

```python
# 指定されたパスからトレーニング、テスト、サンプル提出データセットを読み込みます
train = pd.read_csv(config.train_path)  # トレーニングデータを読み込みます
test = pd.read_csv(config.test_path)  # テストデータを読み込みます
sample_submission = pd.read_csv(config.sample_submission_path)  # サンプル提出データを読み込みます

# テストデータセットの行数が10未満の場合、トレーニングデータセットを最初の10,000行に制限します
if test.shape[0] < 10:
    train = train.iloc[:10000]  # 最初の10,000行をトレーニングデータとして使用します

# 文字列を処理する関数を定義します。括弧を削除し、文を分割します
# 注意: 別の方法としてJSONに変換して結合することもできますが、これはPythonにおいて効率的だと思われます
def process(input_str):
    stripped_str = input_str.strip('[]')  # 先頭と末尾の角括弧を削除
    sentences = [s.strip('"') for s in stripped_str.split('","')]  # ","で分割し、周囲の引用符を削除
    return ' '.join(sentences)  # 文をスペースで結合して返します

# トレーニングデータセットのプロンプトとレスポンスの列に`process`関数を適用します
train["prompt"] = train["prompt"].apply(process)  # プロンプトの列を処理します
train["response_a"] = train["response_a"].apply(process)  # レスポンスAの列を処理します
train["response_b"] = train["response_b"].apply(process)  # レスポンスBの列を処理します

# テストデータセットのプロンプトとレスポンスの列に`process`関数を適用します
test["prompt"] = test["prompt"].apply(process)  # プロンプトの列を処理します
test["response_a"] = test["response_a"].apply(process)  # レスポンスAの列を処理します
test["response_b"] = test["response_b"].apply(process)  # レスポンスBの列を処理します

# トレーニングデータとテストデータの形状を表示します
print(f"train shape: {train.shape}")  # トレーニングデータの形状を表示します
print(f"test shape: {test.shape}")  # テストデータの形状を表示します
print("-"*90)

# トレーニングデータとテストデータの欠損値の合計を表示します
print(f"train missing values: {train.isnull().sum().sum()}")  # トレーニングデータの欠損値の数を表示します
print(f"test missing values: {test.isnull().sum().sum()}")  # テストデータの欠損値の数を表示します
print("-"*90)

# トレーニングデータの最初の数行を表示します
train.head()  # トレーニングデータの先頭行を表示します
```

</div>
</details>

In [None]:
# 指定されたパスからトレーニング、テスト、サンプル提出データセットを読み込みます
train = pd.read_csv(config.train_path)  # トレーニングデータを読み込みます
test = pd.read_csv(config.test_path)  # テストデータを読み込みます
sample_submission = pd.read_csv(config.sample_submission_path)  # サンプル提出データを読み込みます

# テストデータセットの行数が10未満の場合、トレーニングデータセットを最初の10,000行に制限します
if test.shape[0] < 10:
    train = train.iloc[:10000]  # 最初の10,000行をトレーニングデータとして使用します

# 文字列を処理する関数を定義します。括弧を削除し、文を分割します
# 注意: 別の方法としてJSONに変換して結合することもできますが、これはPythonにおいて効率的だと思われます
def process(input_str):
    stripped_str = input_str.strip('[]')  # 先頭と末尾の角括弧を削除
    sentences = [s.strip('"') for s in stripped_str.split('","')]  # ","で分割し、周囲の引用符を削除
    return ' '.join(sentences)  # 文をスペースで結合して返します

# トレーニングデータセットのプロンプトとレスポンスの列に`process`関数を適用します
train["prompt"] = train["prompt"].apply(process)  # プロンプトの列を処理します
train["response_a"] = train["response_a"].apply(process)  # レスポンスAの列を処理します
train["response_b"] = train["response_b"].apply(process)  # レスポンスBの列を処理します

# テストデータセットのプロンプトとレスポンスの列に`process`関数を適用します
test["prompt"] = test["prompt"].apply(process)  # プロンプトの列を処理します
test["response_a"] = test["response_a"].apply(process)  # レスポンスAの列を処理します
test["response_b"] = test["response_b"].apply(process)  # レスポンスBの列を処理します

# トレーニングデータとテストデータの形状を表示します
print(f"train shape: {train.shape}")  # トレーニングデータの形状を表示します
print(f"test shape: {test.shape}")  # テストデータの形状を表示します
print("-"*90)

# トレーニングデータとテストデータの欠損値の合計を表示します
print(f"train missing values: {train.isnull().sum().sum()}")  # トレーニングデータの欠損値の数を表示します
print(f"test missing values: {test.isnull().sum().sum()}")  # テストデータの欠損値の数を表示します
print("-"*90)

# トレーニングデータの最初の数行を表示します
train.head()  # トレーニングデータの先頭行を表示します

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# 4. Feature Engineering

</div>
<div class="column-right">

# 日本語訳

# 4. 特徴エンジニアリング

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
class Preprocessor:

    # Calculate cosine similarity between two texts
    def cosine_sim(self, text1: str, text2: str):
        try:
            vectorizer = TfidfVectorizer(ngram_range=(1, 3))  # Create a TF-IDF vectorizer (word-importance) with n-grams from 1 to 3
            vectorizer.fit([text1, text2])  # Fit the vectorizer on both texts
            output = vectorizer.transform([text1, text2]).toarray()  # Transform texts to TF-IDF vectors
            cos_sim = cosine_similarity(output)  # Calculate cosine similarity between vectors
            return cos_sim[0][1]  # Return the similarity score between text1 and text2
        except:
            print(f"cosine_sim exception with '{text1}' and '{text2}'")
            return np.nan  # Return NaN in case of an exception

    # Calculate Jaccard similarity between two texts
    def jaccard_sim(self, text1: str, text2: str):
        set1 = set(text1.split())  # Split text1 into set of words
        set2 = set(text2.split())  # Split text2 into set of words
        intersection = set1.intersection(set2)  # Find intersection of both sets
        union = set1.union(set2)  # Find union of both sets
        return len(intersection) / len(union)  # Return Jaccard similarity score
    
    # Count the number of quoted segments in a text
    def count_quotes(self, text: str) -> int:
        single_quote_pattern = r"'(.*?)'"  # Pattern for single quotes
        double_quote_pattern = r'"(.*?)"'  # Pattern for double quotes
        single_quotes = re.findall(single_quote_pattern, text)  # Find all single-quoted segments
        double_quotes = re.findall(double_quote_pattern, text)  # Find all double-quoted segments
        total_quotes = len(single_quotes) + len(double_quotes)  # Sum the counts of both types of quotes
        return total_quotes  # Return the total count of quoted segments
    
    # Count the number of new-lines in a text
    def count_new_lines(self, text: str) -> int:
        return text.count('\\n')  # Return the count of newline characters in the text
    
    # Count the number of bulleted lists in the text
    def count_bulleted_lists(self, text: str) -> int:
        bullet_pattern = r'(\\n|^)[\*\-\+]\s'  # Pattern for bulleted list items
        return len(re.findall(bullet_pattern, text))  # Return the count of bulleted list items
    
    # Tokenize text into lowercase words
    def tokenize(self, text: str):
        return nltk.word_tokenize(text.lower())

    # Generate n-grams from the tokenized text
    def generate_ngrams(self, text: str, n: int):
        tokens = self.tokenize(text)  # Tokenize the text
        return list(ngrams(tokens, n))  # Generate n-grams from tokens

    # Count overlapping n-grams between two texts
    def count_ngram_overlaps(self, text1: str, text2: str, n: int) -> int:
        try:
            ngrams1 = self.generate_ngrams(text1, n)  # Generate n-grams for text1
            ngrams2 = self.generate_ngrams(text2, n)  # Generate n-grams for text2
            counter1 = Counter(ngrams1)  # Count n-grams in text1
            counter2 = Counter(ngrams2)  # Count n-grams in text2
            overlap = counter1 & counter2  # Find the overlap between the two counters
            overlap_count = sum(overlap.values())  # Sum the counts of overlapping n-grams
            return overlap_count  # Return the overlap count
        except:
            return 0  # Return 0 in case of an exception
        
    # Run preprocessing on the data
    def run(self, data: pd.DataFrame) -> pd.DataFrame:
        
        # Calculate unigram, bigram, and trigram overlaps between response_a and response_b
        data["respa_respb_overlap_unigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["response_b"], 1), axis=1)
        data["respa_respb_overlap_bigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["response_b"], 2), axis=1)
        data["respa_respb_overlap_trigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["response_b"], 3), axis=1)

        # Calculate unigram, bigram, and trigram overlaps between response_a and prompt
        data["respa_prompt_overlap_unigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["prompt"], 1), axis=1)
        data["respa_prompt_overlap_bigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["prompt"], 2), axis=1)
        data["respa_prompt_overlap_trigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["prompt"], 3), axis=1)

        # Calculate unigram, bigram, and trigram overlaps between response_b and prompt
        data["respb_prompt_overlap_unigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_b"], x["prompt"], 1), axis=1)
        data["respb_prompt_overlap_bigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_b"], x["prompt"], 2), axis=1)
        data["respb_prompt_overlap_trigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_b"], x["prompt"], 3), axis=1)
        
        # Calculate the length of tokenized texts
        data["respa_len"] = data["response_a"].apply(lambda x: len(self.tokenize(x)))
        data["respb_len"] = data["response_b"].apply(lambda x: len(self.tokenize(x)))
        data["prompt_len"] = data["prompt"].apply(lambda x: len(self.tokenize(x)))
        
        # Calculate length ratios between response_a, response_b, and prompt
        data["respa_prompt_len_ratio"] = data["respa_len"] / data["prompt_len"]
        data["respb_prompt_len_ratio"] = data["respb_len"] / data["prompt_len"]
        data["respa_respb_len_ratio"] = data["respa_len"] / data["respb_len"]
        
        # Calculate length differences between response_a, response_b, and prompt
        data["respa_respb_len_diff"] = data["respa_len"] - data["respb_len"]
        data["respa_prompt_len_diff"] = data["respa_len"] - data["prompt_len"]
        data["respb_prompt_len_diff"] = data["respb_len"] - data["prompt_len"]
        
        # Calculate overlap ratios for unigrams, bigrams, and trigrams between response_a and prompt
        data["respa_prompt_overlap_unigram_ratio"] = data["respa_prompt_overlap_unigram"] / data["prompt_len"]
        data["respa_prompt_overlap_bigram_ratio"] = data["respa_prompt_overlap_bigram"] / data["prompt_len"]
        data["respa_prompt_overlap_trigram_ratio"] = data["respa_prompt_overlap_trigram"] / data["prompt_len"]

        # Calculate overlap ratios for unigrams, bigrams, and trigrams between response_b and prompt
        data["respb_prompt_overlap_unigram_ratio"] = data["respb_prompt_overlap_unigram"] / data["prompt_len"]
        data["respb_prompt_overlap_bigram_ratio"] = data["respb_prompt_overlap_bigram"] / data["prompt_len"]
        data["respb_prompt_overlap_trigram_ratio"] = data["respb_prompt_overlap_trigram"] / data["prompt_len"]
        
        # Count the number of quotes in response_a, response_b, and prompt
        data["respa_quotes"] = data["response_a"].apply(lambda x: self.count_quotes(x))
        data["respb_quotes"] = data["response_b"].apply(lambda x: self.count_quotes(x))
        data["prompt_quotes"] = data["prompt"].apply(lambda x: self.count_quotes(x))

        # Count the number of new-lines in response_a, response_b, and prompt
        data["respa_new_lines"] = data["response_a"].apply(lambda x: self.count_new_lines(x))
        data["respb_new_lines"] = data["response_b"].apply(lambda x: self.count_new_lines(x))
        data["prompt_new_lines"] = data["prompt"].apply(lambda x: self.count_new_lines(x))

        # Count the number of bulleted lists in response_a, response_b, and prompt
        data["respa_bullets"] = data["response_a"].apply(lambda x: self.count_bulleted_lists(x))
        data["respb_bullets"] = data["response_b"].apply(lambda x: self.count_bulleted_lists(x))
        data["prompt_bullets"] = data["prompt"].apply(lambda x: self.count_bulleted_lists(x))
        
        # Calculate cosine and Jaccard similarities between response_a and response_b
        data["respa_respb_cosine_sim"] = data.apply(lambda x: self.cosine_sim(x["response_a"], x["response_b"]), axis=1)
        data["respa_respb_jaccard_sim"] = data.apply(lambda x: self.jaccard_sim(x["response_a"], x["response_b"]), axis=1)
        
        # Calculate cosine and Jaccard similarities between response_a and prompt
        data["respa_prompt_cosine_sim"] = data.apply(lambda x: self.cosine_sim(x["response_a"], x["prompt"]), axis=1)
        data["respa_prompt_jaccard_sim"] = data.apply(lambda x: self.jaccard_sim(x["response_a"], x["prompt"]), axis=1)
        
        # Calculate cosine and Jaccard similarities between response_b and prompt
        data["respb_prompt_cosine_sim"] = data.apply(lambda x: self.cosine_sim(x["response_b"], x["prompt"]), axis=1)
        data["respb_prompt_jaccard_sim"] = data.apply(lambda x: self.jaccard_sim(x["response_b"], x["prompt"]), axis=1)
        
        return data  # Return the processed dataframe

```

</div>
<div class="column-right">

# 日本語訳

```python
class Preprocessor:

    # 2つのテキスト間のコサイン類似度を計算します
    def cosine_sim(self, text1: str, text2: str):
        try:
            vectorizer = TfidfVectorizer(ngram_range=(1, 3))  # n-gramを1から3まで考慮したTF-IDFベクトライザを作成します
            vectorizer.fit([text1, text2])  # 2つのテキストにベクトライザをフィットさせます
            output = vectorizer.transform([text1, text2]).toarray()  # テキストをTF-IDFベクトルに変換します
            cos_sim = cosine_similarity(output)  # ベクトル間のコサイン類似度を計算します
            return cos_sim[0][1]  # text1とtext2の類似度スコアを返します
        except:
            print(f"cosine_sim exception with '{text1}' and '{text2}'")
            return np.nan  # 例外が発生した場合はNaNを返します

    # 2つのテキスト間のジャッカード類似度を計算します
    def jaccard_sim(self, text1: str, text2: str):
        set1 = set(text1.split())  # text1を単語の集合に分割します
        set2 = set(text2.split())  # text2を単語の集合に分割します
        intersection = set1.intersection(set2)  # 2つの集合の共通部分を見つけます
        union = set1.union(set2)  # 2つの集合の和を見つけます
        return len(intersection) / len(union)  # ジャッカード類似度スコアを返します
    
    # テキスト内の引用されたセグメントの数をカウントします
    def count_quotes(self, text: str) -> int:
        single_quote_pattern = r"'(.*?)'"  # 単一引用符のパターン
        double_quote_pattern = r'"(.*?)"'  # 二重引用符のパターン
        single_quotes = re.findall(single_quote_pattern, text)  # 単一引用符で囲まれた部分をすべて見つけます
        double_quotes = re.findall(double_quote_pattern, text)  # 二重引用符で囲まれた部分をすべて見つけます
        total_quotes = len(single_quotes) + len(double_quotes)  # 両方のカウントを合計します
        return total_quotes  # 引用されたセグメントの合計数を返します
    
    # テキスト内の改行の数をカウントします
    def count_new_lines(self, text: str) -> int:
        return text.count('\\n')  # テキスト内の改行文字の数を返します
    
    # テキスト内の箇条書きリストの数をカウントします
    def count_bulleted_lists(self, text: str) -> int:
        bullet_pattern = r'(\\n|^)[\*\-\+]\s'  # 箇条書き項目のパターン
        return len(re.findall(bullet_pattern, text))  # 箇条書き項目の数を返します
    
    # テキストを小文字の単語にトークン化します
    def tokenize(self, text: str):
        return nltk.word_tokenize(text.lower())  # テキストをトークン化し、小文字に変換します

    # トークン化されたテキストからn-gramを生成します
    def generate_ngrams(self, text: str, n: int):
        tokens = self.tokenize(text)  # テキストをトークン化します
        return list(ngrams(tokens, n))  # トークンからn-gramを生成して返します

    # 2つのテキスト間のオーバーラップn-gramの数をカウントします
    def count_ngram_overlaps(self, text1: str, text2: str, n: int) -> int:
        try:
            ngrams1 = self.generate_ngrams(text1, n)  # text1のn-gramを生成します
            ngrams2 = self.generate_ngrams(text2, n)  # text2のn-gramを生成します
            counter1 = Counter(ngrams1)  # text1のn-gramをカウントします
            counter2 = Counter(ngrams2)  # text2のn-gramをカウントします
            overlap = counter1 & counter2  # 2つのカウンタのオーバーラップを見つけます
            overlap_count = sum(overlap.values())  # オーバーラップしたn-gramのカウントを合計します
            return overlap_count  # オーバーラップの数を返します
        except:
            return 0  # 例外が発生した場合は0を返します
        
    # データに対する前処理を実行します
    def run(self, data: pd.DataFrame) -> pd.DataFrame:
        
        # response_aとresponse_b間のユニグラム、バイグラム、およびトライグラムのオーバーラップを計算します
        data["respa_respb_overlap_unigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["response_b"], 1), axis=1)
        data["respa_respb_overlap_bigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["response_b"], 2), axis=1)
        data["respa_respb_overlap_trigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["response_b"], 3), axis=1)

        # response_aとプロンプト間のユニグラム、バイグラム、およびトライグラムのオーバーラップを計算します
        data["respa_prompt_overlap_unigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["prompt"], 1), axis=1)
        data["respa_prompt_overlap_bigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["prompt"], 2), axis=1)
        data["respa_prompt_overlap_trigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["prompt"], 3), axis=1)

        # response_bとプロンプト間のユニグラム、バイグラム、およびトライグラムのオーバーラップを計算します
        data["respb_prompt_overlap_unigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_b"], x["prompt"], 1), axis=1)
        data["respb_prompt_overlap_bigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_b"], x["prompt"], 2), axis=1)
        data["respb_prompt_overlap_trigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_b"], x["prompt"], 3), axis=1)
        
        # トークン化されたテキストの長さを計算します
        data["respa_len"] = data["response_a"].apply(lambda x: len(self.tokenize(x)))  # response_aのトークン数を計算します
        data["respb_len"] = data["response_b"].apply(lambda x: len(self.tokenize(x)))  # response_bのトークン数を計算します
        data["prompt_len"] = data["prompt"].apply(lambda x: len(self.tokenize(x)))  # プロンプトのトークン数を計算します
        
        # response_a、response_b、プロンプト間の長さ比を計算します
        data["respa_prompt_len_ratio"] = data["respa_len"] / data["prompt_len"]  # response_aとプロンプトの長さ比
        data["respb_prompt_len_ratio"] = data["respb_len"] / data["prompt_len"]  # response_bとプロンプトの長さ比
        data["respa_respb_len_ratio"] = data["respa_len"] / data["respb_len"]  # response_aとresponse_bの長さ比
        
        # response_a、response_b、プロンプト間の長さの差を計算します
        data["respa_respb_len_diff"] = data["respa_len"] - data["respb_len"]  # response_aとresponse_bの長さの差
        data["respa_prompt_len_diff"] = data["respa_len"] - data["prompt_len"]  # response_aとプロンプトの長さの差
        data["respb_prompt_len_diff"] = data["respb_len"] - data["prompt_len"]  # response_bとプロンプトの長さの差
        
        # response_aとプロンプト間のユニグラム、バイグラム、トライグラムのオーバーラップ比を計算します
        data["respa_prompt_overlap_unigram_ratio"] = data["respa_prompt_overlap_unigram"] / data["prompt_len"]  # ユニグラムのオーバーラップ比
        data["respa_prompt_overlap_bigram_ratio"] = data["respa_prompt_overlap_bigram"] / data["prompt_len"]  # バイグラムのオーバーラップ比
        data["respa_prompt_overlap_trigram_ratio"] = data["respa_prompt_overlap_trigram"] / data["prompt_len"]  # トライグラムのオーバーラップ比

        # response_bとプロンプト間のユニグラム、バイグラム、トライグラムのオーバーラップ比を計算します
        data["respb_prompt_overlap_unigram_ratio"] = data["respb_prompt_overlap_unigram"] / data["prompt_len"]  # ユニグラムのオーバーラップ比
        data["respb_prompt_overlap_bigram_ratio"] = data["respb_prompt_overlap_bigram"] / data["prompt_len"]  # バイグラムのオーバーラップ比
        data["respb_prompt_overlap_trigram_ratio"] = data["respb_prompt_overlap_trigram"] / data["prompt_len"]  # トライグラムのオーバーラップ比
        
        # response_a、response_b、プロンプト内の引用の数をカウントします
        data["respa_quotes"] = data["response_a"].apply(lambda x: self.count_quotes(x))  # response_aの引用数
        data["respb_quotes"] = data["response_b"].apply(lambda x: self.count_quotes(x))  # response_bの引用数
        data["prompt_quotes"] = data["prompt"].apply(lambda x: self.count_quotes(x))  # プロンプトの引用数

        # response_a、response_b、プロンプト内の改行の数をカウントします
        data["respa_new_lines"] = data["response_a"].apply(lambda x: self.count_new_lines(x))  # response_aの改行数
        data["respb_new_lines"] = data["response_b"].apply(lambda x: self.count_new_lines(x))  # response_bの改行数
        data["prompt_new_lines"] = data["prompt"].apply(lambda x: self.count_new_lines(x))  # プロンプトの改行数

        # response_a、response_b、プロンプト内の箇条書きリストの数をカウントします
        data["respa_bullets"] = data["response_a"].apply(lambda x: self.count_bulleted_lists(x))  # response_aの箇条書き数
        data["respb_bullets"] = data["response_b"].apply(lambda x: self.count_bulleted_lists(x))  # response_bの箇条書き数
        data["prompt_bullets"] = data["prompt"].apply(lambda x: self.count_bulleted_lists(x))  # プロンプトの箇条書き数
        
        # response_aとresponse_b間のコサインとジャッカードの類似度を計算します
        data["respa_respb_cosine_sim"] = data.apply(lambda x: self.cosine_sim(x["response_a"], x["response_b"]), axis=1)  # コサイン類似度
        data["respa_respb_jaccard_sim"] = data.apply(lambda x: self.jaccard_sim(x["response_a"], x["response_b"]), axis=1)  # ジャッカード類似度
        
        # response_aとプロンプト間のコサインとジャッカードの類似度を計算します
        data["respa_prompt_cosine_sim"] = data.apply(lambda x: self.cosine_sim(x["response_a"], x["prompt"]), axis=1)  # コサイン類似度
        data["respa_prompt_jaccard_sim"] = data.apply(lambda x: self.jaccard_sim(x["response_a"], x["prompt"]), axis=1)  # ジャッカード類似度
        
        # response_bとプロンプト間のコサインとジャッカードの類似度を計算します
        data["respb_prompt_cosine_sim"] = data.apply(lambda x: self.cosine_sim(x["response_b"], x["prompt"]), axis=1)  # コサイン類似度
        data["respb_prompt_jaccard_sim"] = data.apply(lambda x: self.jaccard_sim(x["response_b"], x["prompt"]), axis=1)  # ジャッカード類似度
        
        return data  # 処理されたデータフレームを返します
```

</div>
</details>

In [None]:
class Preprocessor:

    # 2つのテキスト間のコサイン類似度を計算します
    def cosine_sim(self, text1: str, text2: str):
        try:
            vectorizer = TfidfVectorizer(ngram_range=(1, 3))  # n-gramを1から3まで考慮したTF-IDFベクトライザを作成します
            vectorizer.fit([text1, text2])  # 2つのテキストにベクトライザをフィットさせます
            output = vectorizer.transform([text1, text2]).toarray()  # テキストをTF-IDFベクトルに変換します
            cos_sim = cosine_similarity(output)  # ベクトル間のコサイン類似度を計算します
            return cos_sim[0][1]  # text1とtext2の類似度スコアを返します
        except:
            print(f"cosine_sim exception with '{text1}' and '{text2}'")
            return np.nan  # 例外が発生した場合はNaNを返します

    # 2つのテキスト間のジャッカード類似度を計算します
    def jaccard_sim(self, text1: str, text2: str):
        set1 = set(text1.split())  # text1を単語の集合に分割します
        set2 = set(text2.split())  # text2を単語の集合に分割します
        intersection = set1.intersection(set2)  # 2つの集合の共通部分を見つけます
        union = set1.union(set2)  # 2つの集合の和を見つけます
        return len(intersection) / len(union)  # ジャッカード類似度スコアを返します
    
    # テキスト内の引用されたセグメントの数をカウントします
    def count_quotes(self, text: str) -> int:
        single_quote_pattern = r"'(.*?)'"  # 単一引用符のパターン
        double_quote_pattern = r'"(.*?)"'  # 二重引用符のパターン
        single_quotes = re.findall(single_quote_pattern, text)  # 単一引用符で囲まれた部分をすべて見つけます
        double_quotes = re.findall(double_quote_pattern, text)  # 二重引用符で囲まれた部分をすべて見つけます
        total_quotes = len(single_quotes) + len(double_quotes)  # 両方のカウントを合計します
        return total_quotes  # 引用されたセグメントの合計数を返します
    
    # テキスト内の改行の数をカウントします
    def count_new_lines(self, text: str) -> int:
        return text.count('\\n')  # テキスト内の改行文字の数を返します
    
    # テキスト内の箇条書きリストの数をカウントします
    def count_bulleted_lists(self, text: str) -> int:
        bullet_pattern = r'(\\n|^)[\*\-\+]\s'  # 箇条書き項目のパターン
        return len(re.findall(bullet_pattern, text))  # 箇条書き項目の数を返します
    
    # テキストを小文字の単語にトークン化します
    def tokenize(self, text: str):
        return nltk.word_tokenize(text.lower())  # テキストをトークン化し、小文字に変換します

    # トークン化されたテキストからn-gramを生成します
    def generate_ngrams(self, text: str, n: int):
        tokens = self.tokenize(text)  # テキストをトークン化します
        return list(ngrams(tokens, n))  # トークンからn-gramを生成して返します

    # 2つのテキスト間のオーバーラップn-gramの数をカウントします
    def count_ngram_overlaps(self, text1: str, text2: str, n: int) -> int:
        try:
            ngrams1 = self.generate_ngrams(text1, n)  # text1のn-gramを生成します
            ngrams2 = self.generate_ngrams(text2, n)  # text2のn-gramを生成します
            counter1 = Counter(ngrams1)  # text1のn-gramをカウントします
            counter2 = Counter(ngrams2)  # text2のn-gramをカウントします
            overlap = counter1 & counter2  # 2つのカウンタのオーバーラップを見つけます
            overlap_count = sum(overlap.values())  # オーバーラップしたn-gramのカウントを合計します
            return overlap_count  # オーバーラップの数を返します
        except:
            return 0  # 例外が発生した場合は0を返します
        
    # データに対する前処理を実行します
    def run(self, data: pd.DataFrame) -> pd.DataFrame:
        
        # response_aとresponse_b間のユニグラム、バイグラム、およびトライグラムのオーバーラップを計算します
        data["respa_respb_overlap_unigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["response_b"], 1), axis=1)
        data["respa_respb_overlap_bigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["response_b"], 2), axis=1)
        data["respa_respb_overlap_trigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["response_b"], 3), axis=1)

        # response_aとプロンプト間のユニグラム、バイグラム、およびトライグラムのオーバーラップを計算します
        data["respa_prompt_overlap_unigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["prompt"], 1), axis=1)
        data["respa_prompt_overlap_bigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["prompt"], 2), axis=1)
        data["respa_prompt_overlap_trigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_a"], x["prompt"], 3), axis=1)

        # response_bとプロンプト間のユニグラム、バイグラム、およびトライグラムのオーバーラップを計算します
        data["respb_prompt_overlap_unigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_b"], x["prompt"], 1), axis=1)
        data["respb_prompt_overlap_bigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_b"], x["prompt"], 2), axis=1)
        data["respb_prompt_overlap_trigram"] = data.apply(lambda x: self.count_ngram_overlaps(x["response_b"], x["prompt"], 3), axis=1)
        
        # トークン化されたテキストの長さを計算します
        data["respa_len"] = data["response_a"].apply(lambda x: len(self.tokenize(x)))  # response_aのトークン数を計算します
        data["respb_len"] = data["response_b"].apply(lambda x: len(self.tokenize(x)))  # response_bのトークン数を計算します
        data["prompt_len"] = data["prompt"].apply(lambda x: len(self.tokenize(x)))  # プロンプトのトークン数を計算します
        
        # response_a、response_b、プロンプト間の長さ比を計算します
        data["respa_prompt_len_ratio"] = data["respa_len"] / data["prompt_len"]  # response_aとプロンプトの長さ比
        data["respb_prompt_len_ratio"] = data["respb_len"] / data["prompt_len"]  # response_bとプロンプトの長さ比
        data["respa_respb_len_ratio"] = data["respa_len"] / data["respb_len"]  # response_aとresponse_bの長さ比
        
        # response_a、response_b、プロンプト間の長さの差を計算します
        data["respa_respb_len_diff"] = data["respa_len"] - data["respb_len"]  # response_aとresponse_bの長さの差
        data["respa_prompt_len_diff"] = data["respa_len"] - data["prompt_len"]  # response_aとプロンプトの長さの差
        data["respb_prompt_len_diff"] = data["respb_len"] - data["prompt_len"]  # response_bとプロンプトの長さの差
        
        # response_aとプロンプト間のユニグラム、バイグラム、トライグラムのオーバーラップ比を計算します
        data["respa_prompt_overlap_unigram_ratio"] = data["respa_prompt_overlap_unigram"] / data["prompt_len"]  # ユニグラムのオーバーラップ比
        data["respa_prompt_overlap_bigram_ratio"] = data["respa_prompt_overlap_bigram"] / data["prompt_len"]  # バイグラムのオーバーラップ比
        data["respa_prompt_overlap_trigram_ratio"] = data["respa_prompt_overlap_trigram"] / data["prompt_len"]  # トライグラムのオーバーラップ比

        # response_bとプロンプト間のユニグラム、バイグラム、トライグラムのオーバーラップ比を計算します
        data["respb_prompt_overlap_unigram_ratio"] = data["respb_prompt_overlap_unigram"] / data["prompt_len"]  # ユニグラムのオーバーラップ比
        data["respb_prompt_overlap_bigram_ratio"] = data["respb_prompt_overlap_bigram"] / data["prompt_len"]  # バイグラムのオーバーラップ比
        data["respb_prompt_overlap_trigram_ratio"] = data["respb_prompt_overlap_trigram"] / data["prompt_len"]  # トライグラムのオーバーラップ比
        
        # response_a、response_b、プロンプト内の引用の数をカウントします
        data["respa_quotes"] = data["response_a"].apply(lambda x: self.count_quotes(x))  # response_aの引用数
        data["respb_quotes"] = data["response_b"].apply(lambda x: self.count_quotes(x))  # response_bの引用数
        data["prompt_quotes"] = data["prompt"].apply(lambda x: self.count_quotes(x))  # プロンプトの引用数

        # response_a、response_b、プロンプト内の改行の数をカウントします
        data["respa_new_lines"] = data["response_a"].apply(lambda x: self.count_new_lines(x))  # response_aの改行数
        data["respb_new_lines"] = data["response_b"].apply(lambda x: self.count_new_lines(x))  # response_bの改行数
        data["prompt_new_lines"] = data["prompt"].apply(lambda x: self.count_new_lines(x))  # プロンプトの改行数

        # response_a、response_b、プロンプト内の箇条書きリストの数をカウントします
        data["respa_bullets"] = data["response_a"].apply(lambda x: self.count_bulleted_lists(x))  # response_aの箇条書き数
        data["respb_bullets"] = data["response_b"].apply(lambda x: self.count_bulleted_lists(x))  # response_bの箇条書き数
        data["prompt_bullets"] = data["prompt"].apply(lambda x: self.count_bulleted_lists(x))  # プロンプトの箇条書き数
        
        # response_aとresponse_b間のコサインとジャッカードの類似度を計算します
        data["respa_respb_cosine_sim"] = data.apply(lambda x: self.cosine_sim(x["response_a"], x["response_b"]), axis=1)  # コサイン類似度
        data["respa_respb_jaccard_sim"] = data.apply(lambda x: self.jaccard_sim(x["response_a"], x["response_b"]), axis=1)  # ジャッカード類似度
        
        # response_aとプロンプト間のコサインとジャッカードの類似度を計算します
        data["respa_prompt_cosine_sim"] = data.apply(lambda x: self.cosine_sim(x["response_a"], x["prompt"]), axis=1)  # コサイン類似度
        data["respa_prompt_jaccard_sim"] = data.apply(lambda x: self.jaccard_sim(x["response_a"], x["prompt"]), axis=1)  # ジャッカード類似度
        
        # response_bとプロンプト間のコサインとジャッカードの類似度を計算します
        data["respb_prompt_cosine_sim"] = data.apply(lambda x: self.cosine_sim(x["response_b"], x["prompt"]), axis=1)  # コサイン類似度
        data["respb_prompt_jaccard_sim"] = data.apply(lambda x: self.jaccard_sim(x["response_b"], x["prompt"]), axis=1)  # ジャッカード類似度
        
        return data  # 処理されたデータフレームを返します

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time

preprocessor = Preprocessor()
train = preprocessor.run(train)
test = preprocessor.run(test)
train.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time  # 処理にかかる時間を計測します

preprocessor = Preprocessor()  # Preprocessorクラスのインスタンスを作成します
train = preprocessor.run(train)  # トレーニングデータに対して前処理を実行します
test = preprocessor.run(test)  # テストデータに対して前処理を実行します
train.head()  # トレーニングデータの先頭行を表示します
```

</div>
</details>

In [None]:
%%time  # 処理にかかる時間を計測します

preprocessor = Preprocessor()  # Preprocessorクラスのインスタンスを作成します
train = preprocessor.run(train)  # トレーニングデータに対して前処理を実行します
test = preprocessor.run(test)  # テストデータに対して前処理を実行します
train.head()  # トレーニングデータの先頭行を表示します

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# List of columns to drop from the dataset
drop_cols = ["id", "response_a", "response_b", "prompt"]

# List of target columns indicating the winner
target_cols = ["winner_model_a", "winner_model_b", "winner_tie"]

# Name of the final target column
target = "target"

# Initialize the target column with NaN values
train[target] = np.nan

# Iterate over the target columns and set the corresponding index in the target column
for idx, t in enumerate(target_cols):
    train.loc[train[t] == 1, target] = idx  # Set target column to the index where target column value is 1

# Convert the target column to integer type
train[target] = train[target].astype("int32")

# Display the first few rows of the updated dataframe
train.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
# データセットから削除する列のリスト
drop_cols = ["id", "response_a", "response_b", "prompt"]  # 不要な列を指定します

# 勝者を示すターゲット列のリスト
target_cols = ["winner_model_a", "winner_model_b", "winner_tie"]  # 勝者に関する列を指定します

# 最終的なターゲット列の名前
target = "target"  # ターゲット列の名前を設定します

# ターゲット列をNaNで初期化します
train[target] = np.nan  # ターゲット列を初期化します

# ターゲット列をループして、対応するインデックスをターゲット列に設定します
for idx, t in enumerate(target_cols):
    train.loc[train[t] == 1, target] = idx  # ターゲット列の値が1のインデックスを設定します

# ターゲット列を整数型に変換します
train[target] = train[target].astype("int32")  # ターゲット列をint32型に変換します

# 更新されたデータフレームの最初の数行を表示します
train.head()  # データフレームの先頭行を表示します
```

</div>
</details>

In [None]:
# データセットから削除する列のリスト
drop_cols = ["id", "response_a", "response_b", "prompt"]  # 不要な列を指定します

# 勝者を示すターゲット列のリスト
target_cols = ["winner_model_a", "winner_model_b", "winner_tie"]  # 勝者に関する列を指定します

# 最終的なターゲット列の名前
target = "target"  # ターゲット列の名前を設定します

# ターゲット列をNaNで初期化します
train[target] = np.nan  # ターゲット列を初期化します

# ターゲット列をループして、対応するインデックスをターゲット列に設定します
for idx, t in enumerate(target_cols):
    train.loc[train[t] == 1, target] = idx  # ターゲット列の値が1のインデックスを設定します

# ターゲット列を整数型に変換します
train[target] = train[target].astype("int32")  # ターゲット列をint32型に変換します

# 更新されたデータフレームの最初の数行を表示します
train.head()  # データフレームの先頭行を表示します

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# 5. Modeling

</div>
<div class="column-right">

# 日本語訳

# 5. モデリング

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Drop specified columns from the training dataset and assign the result to X
X = train.drop(columns=target_cols + drop_cols + [target] + ["model_a", "model_b"], axis=1)

# Assign the target column to y
y = train[target]

# Drop specified columns from the test dataset and assign the result to X_test
X_test = test.drop(columns=drop_cols, axis=1)

# Replace infinite values (-inf and inf) with NaN in the training feature set
X = X.replace([-np.inf, np.inf], np.nan)

# Replace infinite values (-inf and inf) with NaN in the test feature set
X_test = X_test.replace([-np.inf, np.inf], np.nan)
```

</div>
<div class="column-right">

# 日本語訳

```python
# トレーニングデータセットから指定した列を削除し、結果をXに割り当てます
X = train.drop(columns=target_cols + drop_cols + [target] + ["model_a", "model_b"], axis=1)  # 不要な列を削除します

# ターゲット列をyに割り当てます
y = train[target]  # ターゲット列をyに設定します

# テストデータセットから指定した列を削除し、結果をX_testに割り当てます
X_test = test.drop(columns=drop_cols, axis=1)  # 不要な列を削除してテストデータを準備します

# トレーニング特徴セットの無限大の値（-infとinf）をNaNに置き換えます
X = X.replace([-np.inf, np.inf], np.nan)  # 無限大の値をNaNに置き換えます

# テスト特徴セットの無限大の値（-infとinf）をNaNに置き換えます
X_test = X_test.replace([-np.inf, np.inf], np.nan)  # 無限大の値をNaNに置き換えます
```

</div>
</details>

In [None]:
# トレーニングデータセットから指定した列を削除し、結果をXに割り当てます
X = train.drop(columns=target_cols + drop_cols + [target] + ["model_a", "model_b"], axis=1)  # 不要な列を削除します

# ターゲット列をyに割り当てます
y = train[target]  # ターゲット列をyに設定します

# テストデータセットから指定した列を削除し、結果をX_testに割り当てます
X_test = test.drop(columns=drop_cols, axis=1)  # 不要な列を削除してテストデータを準備します

# トレーニング特徴セットの無限大の値（-infとinf）をNaNに置き換えます
X = X.replace([-np.inf, np.inf], np.nan)  # 無限大の値をNaNに置き換えます

# テスト特徴セットの無限大の値（-infとinf）をNaNに置き換えます
X_test = X_test.replace([-np.inf, np.inf], np.nan)  # 無限大の値をNaNに置き換えます

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Set up stratified cross-validation with the specified number of splits, shuffle, and seed
cv = StratifiedKFold(n_splits=config.n_splits, shuffle=True, random_state=config.seed)

# Initialize an array to store the average predictions for the test set
test_preds = np.zeros(shape=(X_test.shape[0], y.nunique()))

# Initialize a list to store cross-validation scores (log loss) for each fold
cv_scores = list()

# Get the list of feature names
features = X.columns.tolist()

# Prepare a DataFrame to store feature importances for each fold
feat_imp_df = pd.DataFrame({"feature": features})

# Loop over each fold in the cross-validation
for idx, (train_idx, val_idx) in enumerate(cv.split(X, y)):
    print(f"| Fold {idx+1} |".center(90, "="))  # Print the fold number

    # Split the data into training and validation sets for the current fold
    X_train, y_train = X.loc[train_idx], y.loc[train_idx]
    X_val, y_val = X.loc[val_idx], y.loc[val_idx]

    # Print the shapes of the training and validation sets
    print(f'train: {X_train.shape}')
    print(f'val: {X_val.shape}')
    
    # Initialize the XGBoost classifier with specified hyperparameters
    model = xgb.XGBClassifier(
        objective='multi:softprob',
        num_class=3,
        eval_metric='mlogloss',
        subsample=0.8,
        n_estimators=650,
        learning_rate=0.045,
        max_depth=5,
        random_state=config.seed,
        device="gpu"
    )
    
    # Train the model with early stopping on the validation set
    model.fit(
        X_train,
        y_train,
        eval_set=[(X_train, y_train), (X_val, y_val)],
        early_stopping_rounds=75,
        verbose=75
    )
    
    # Predict probabilities on the validation set
    val_preds = model.predict_proba(X_val)

    # Calculate the log loss for the validation set
    val_log_loss = log_loss(y_val, val_preds, eps="auto")
    print(f"val log loss: {val_log_loss:.5f}")

    # Append the log loss to the list of cross-validation scores
    cv_scores.append(val_log_loss)
    
    # Update test predictions with the current fold's predictions, averaged over all folds
    test_preds += model.predict_proba(X_test) / cv.get_n_splits()
    
    # Merge the current fold's feature importances into the DataFrame
    feat_imp_df = feat_imp_df.merge(
        pd.DataFrame(
            {
                "feature": features,
                f"fold_{idx+1}_feat_imp": model.feature_importances_,
            }
        ),
        on=["feature"],
        how="left",
    )

# Print a separator line and the average cross-validated log loss
print("="*90)
print(f"CV: {np.mean(cv_scores):.5f}")

# Calculate the average feature importance across all folds
feat_imp_df["avg_importance"] = feat_imp_df.iloc[:, 1:].mean(axis=1)

# Plot the top 50 features by average importance
plt.figure(figsize=(12, 10))
sns.barplot(
    data=feat_imp_df.sort_values(by="avg_importance", ascending=False).iloc[
        :50
    ],
    x="avg_importance",
    y="feature",
    color="royalblue",
    width=0.75,
)
plt.title("Average Feature Importances for All Folds", size=12)
plt.show()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 指定された分割数、シャッフルオプション、シードを使って層化交差検証を設定します
cv = StratifiedKFold(n_splits=config.n_splits, shuffle=True, random_state=config.seed)  # 層化Kフォールドの初期化

# テストセットの平均予測を格納するための配列を初期化します
test_preds = np.zeros(shape=(X_test.shape[0], y.nunique()))  # テスト予測用の配列を生成します

# 各フォールドの交差検証スコア（ログ損失）を格納するためのリストを初期化します
cv_scores = list()  # ログ損失スコアを格納するリスト

# 特徴量名のリストを取得します
features = X.columns.tolist()  # 特徴量のリストを作成します

# 各フォールドの特徴量の重要度を格納するためのデータフレームを準備します
feat_imp_df = pd.DataFrame({"feature": features})  # 特徴量の重要度を格納するデータフレームを初期化します

# 交差検証の各フォールドをループします
for idx, (train_idx, val_idx) in enumerate(cv.split(X, y)):
    print(f"| Fold {idx+1} |".center(90, "="))  # フォールド番号を表示します

    # 現在のフォールドのトレーニングおよびバリデーションセットにデータを分割します
    X_train, y_train = X.loc[train_idx], y.loc[train_idx]  # トレーニングデータを分割します
    X_val, y_val = X.loc[val_idx], y.loc[val_idx]  # バリデーションデータを分割します

    # トレーニングセットとバリデーションセットの形状を表示します
    print(f'train: {X_train.shape}')  # トレーニングデータの形状
    print(f'val: {X_val.shape}')  # バリデーションデータの形状
    
    # 指定されたハイパーパラメータでXGBoost分類器を初期化します
    model = xgb.XGBClassifier(
        objective='multi:softprob',  # マルチクラス確率を取得する目的
        num_class=3,  # クラス数
        eval_metric='mlogloss',  # 評価指標としてのマルチクラスログ損失
        subsample=0.8,  # サブサンプリングの割合
        n_estimators=650,  # 使用する木の数
        learning_rate=0.045,  # 学習率
        max_depth=5,  # 木の最大深さ
        random_state=config.seed,  # 乱数シード
        device="gpu"  # GPUを使用するための設定
    )
    
    # バリデーションセットに対して早期停止を設定してモデルを訓練します
    model.fit(
        X_train,
        y_train,
        eval_set=[(X_train, y_train), (X_val, y_val)],  # トレーニングおよびバリデーションセット
        early_stopping_rounds=75,  # 75ラウンドで早期停止
        verbose=75  # 詳細出力の設定
    )
    
    # バリデーションセットの確率を予測します
    val_preds = model.predict_proba(X_val)  # バリデーションセットに対する予測確率

    # バリデーションセットのログ損失を計算します
    val_log_loss = log_loss(y_val, val_preds, eps="auto")  # ログ損失の計算
    print(f"val log loss: {val_log_loss:.5f}")  # バリデーションログ損失を表示します

    # 交差検証スコアのリストにログ損失を追加します
    cv_scores.append(val_log_loss)  # スコアを追加します
    
    # 現在のフォールドの予測でテスト予測を更新します（すべてのフォールドの平均）
    test_preds += model.predict_proba(X_test) / cv.get_n_splits()  # テスト予測を更新します
    
    # 現在のフォールドの特徴量の重要度をデータフレームに統合します
    feat_imp_df = feat_imp_df.merge(
        pd.DataFrame(
            {
                "feature": features,  # 特徴量名
                f"fold_{idx+1}_feat_imp": model.feature_importances_,  # 特徴量の重要度
            }
        ),
        on=["feature"],
        how="left",
    )

# セパレータ行を印刷し、交差検証されたログ損失の平均を表示します
print("="*90)
print(f"CV: {np.mean(cv_scores):.5f}")  # 交差検証のスコアの平均を表示します

# すべてのフォールドの平均特徴量重要度を計算します
feat_imp_df["avg_importance"] = feat_imp_df.iloc[:, 1:].mean(axis=1)  # 各特徴量の平均重要度を計算

# 平均重要度が最も高い上位50の特徴量をプロットします
plt.figure(figsize=(12, 10))  # プロットのサイズを設定します
sns.barplot(
    data=feat_imp_df.sort_values(by="avg_importance", ascending=False).iloc[
        :50  # 上位50の特徴量を選択します
    ],
    x="avg_importance",  # x軸に平均重要度
    y="feature",  # y軸に特徴量
    color="royalblue",  # バーの色
    width=0.75,  # バーの幅
)
plt.title("Average Feature Importances for All Folds", size=12)  # プロットタイトル
plt.show()  # プロットを表示します
```

</div>
</details>

In [None]:
# 指定された分割数、シャッフルオプション、シードを使って層化交差検証を設定します
cv = StratifiedKFold(n_splits=config.n_splits, shuffle=True, random_state=config.seed)  # 層化Kフォールドの初期化

# テストセットの平均予測を格納するための配列を初期化します
test_preds = np.zeros(shape=(X_test.shape[0], y.nunique()))  # テスト予測用の配列を生成します

# 各フォールドの交差検証スコア（ログ損失）を格納するためのリストを初期化します
cv_scores = list()  # ログ損失スコアを格納するリスト

# 特徴量名のリストを取得します
features = X.columns.tolist()  # 特徴量のリストを作成します

# 各フォールドの特徴量の重要度を格納するためのデータフレームを準備します
feat_imp_df = pd.DataFrame({"feature": features})  # 特徴量の重要度を格納するデータフレームを初期化します

# 交差検証の各フォールドをループします
for idx, (train_idx, val_idx) in enumerate(cv.split(X, y)):
    print(f"| Fold {idx+1} |".center(90, "="))  # フォールド番号を表示します

    # 現在のフォールドのトレーニングおよびバリデーションセットにデータを分割します
    X_train, y_train = X.loc[train_idx], y.loc[train_idx]  # トレーニングデータを分割します
    X_val, y_val = X.loc[val_idx], y.loc[val_idx]  # バリデーションデータを分割します

    # トレーニングセットとバリデーションセットの形状を表示します
    print(f'train: {X_train.shape}')  # トレーニングデータの形状
    print(f'val: {X_val.shape}')  # バリデーションデータの形状
    
    # 指定されたハイパーパラメータでXGBoost分類器を初期化します
    model = xgb.XGBClassifier(
        objective='multi:softprob',  # マルチクラス確率を取得する目的
        num_class=3,  # クラス数
        eval_metric='mlogloss',  # 評価指標としてのマルチクラスログ損失
        subsample=0.8,  # サブサンプリングの割合
        n_estimators=650,  # 使用する木の数
        learning_rate=0.045,  # 学習率
        max_depth=5,  # 木の最大深さ
        random_state=config.seed,  # 乱数シード
        device="gpu"  # GPUを使用するための設定
    )
    
    # バリデーションセットに対して早期停止を設定してモデルを訓練します
    model.fit(
        X_train,
        y_train,
        eval_set=[(X_train, y_train), (X_val, y_val)],  # トレーニングおよびバリデーションセット
        early_stopping_rounds=75,  # 75ラウンドで早期停止
        verbose=75  # 詳細出力の設定
    )
    
    # バリデーションセットの確率を予測します
    val_preds = model.predict_proba(X_val)  # バリデーションセットに対する予測確率

    # バリデーションセットのログ損失を計算します
    val_log_loss = log_loss(y_val, val_preds, eps="auto")  # ログ損失の計算
    print(f"val log loss: {val_log_loss:.5f}")  # バリデーションログ損失を表示します

    # 交差検証スコアのリストにログ損失を追加します
    cv_scores.append(val_log_loss)  # スコアを追加します
    
    # 現在のフォールドの予測でテスト予測を更新します（すべてのフォールドの平均）
    test_preds += model.predict_proba(X_test) / cv.get_n_splits()  # テスト予測を更新します
    
    # 現在のフォールドの特徴量の重要度をデータフレームに統合します
    feat_imp_df = feat_imp_df.merge(
        pd.DataFrame(
            {
                "feature": features,  # 特徴量名
                f"fold_{idx+1}_feat_imp": model.feature_importances_,  # 特徴量の重要度
            }
        ),
        on=["feature"],
        how="left",
    )

# セパレータ行を印刷し、交差検証されたログ損失の平均を表示します
print("="*90)
print(f"CV: {np.mean(cv_scores):.5f}")  # 交差検証のスコアの平均を表示します

# すべてのフォールドの平均特徴量重要度を計算します
feat_imp_df["avg_importance"] = feat_imp_df.iloc[:, 1:].mean(axis=1)  # 各特徴量の平均重要度を計算

# 平均重要度が最も高い上位50の特徴量をプロットします
plt.figure(figsize=(12, 10))  # プロットのサイズを設定します
sns.barplot(
    data=feat_imp_df.sort_values(by="avg_importance", ascending=False).iloc[
        :50  # 上位50の特徴量を選択します
    ],
    x="avg_importance",  # x軸に平均重要度
    y="feature",  # y軸に特徴量
    color="royalblue",  # バーの色
    width=0.75,  # バーの幅
)
plt.title("Average Feature Importances for All Folds", size=12)  # プロットタイトル
plt.show()  # プロットを表示します

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# 6. Saving Submission

</div>
<div class="column-right">

# 日本語訳

# 6. 提出ファイルの保存

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
for idx, t in enumerate(target_cols):
    sample_submission[t] = test_preds[:, idx]
sample_submission.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
for idx, t in enumerate(target_cols):
    sample_submission[t] = test_preds[:, idx]  # テスト予測をサンプル提出ファイルに割り当てます
sample_submission.head()  # サンプル提出ファイルの先頭行を表示します
```

</div>
</details>

In [None]:
for idx, t in enumerate(target_cols):
    sample_submission[t] = test_preds[:, idx]  # テスト予測をサンプル提出ファイルに割り当てます
sample_submission.head()  # サンプル提出ファイルの先頭行を表示します

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
sample_submission.to_csv("submission.csv", index=False)
```

</div>
<div class="column-right">

# 日本語訳

```python
sample_submission.to_csv("submission.csv", index=False)  # サンプル提出ファイルをCSV形式で保存します（インデックスなし）
```

</div>
</details>

In [None]:
sample_submission.to_csv("submission.csv", index=False)  # サンプル提出ファイルをCSV形式で保存します（インデックスなし）