# 要約 
このJupyterノートブックは、ユーザーに対する大規模言語モデル（LLM）の応答の好みを予測するための機械学習モデルを構築することを目的としています。主に、LightGBMとTF-IDF（Term Frequency-Inverse Document Frequency）を用いるアプローチが採用されています。

### 問題に取り組む内容
ノートブックでは、ユーザーからのプロンプトに対する二つのLLMの応答の中で、どちらが好まれるかを予測するためのタスクが中心です。具体的には、次のステップが含まれています。

1. **データの読み込みと探索的データ分析（EDA）**: データを読み込んで、基本的な統計情報や分布を確認します。
2. **TF-IDFベクトル化**: テキストデータを数値フォーマットに変換するためにTF-IDFを用います。この手法は、重要な単語を特定し、文書の類似性を測定するために使われます。
3. **データの前処理**: 各応答の情報を含む特徴量を追加し、類似性や距離を計算します。
4. **モデルの訓練**: LightGBMを用いてデータを訓練し、交差検証を行いながら性能を評価します。
5. **モデルの推論**: テストデータに対して予測を行い、結果を元に混同行列を作成し評価します。
6. **提出用ファイルの生成**: 予測結果を適切なフォーマットでCSVファイルとして保存します。

### 使用している主な手法とライブラリ
- **LightGBM**: 勾配ブースティングフレームワークを使用してモデルを訓練します。これは大容量のデータセットに対して効率的かつ効果的に学習を行えるライブラリです。
- **TF-IDF**: テキストデータを数値ベクトルに変換するために使用されています。具体的には、単語の重要性を測定するための手法です。
- **Label Encoding**: 複数のラベルを単一のラベルに統合するためのカスタム関数が定義されています。
- **混同行列**: モデルのパフォーマンスを評価するために使用されています。

全体として、このノートブックはチャットボットの応答の好みを予測するために高度な機械学習を実装しており、ユーザーのニーズに対してより優れた応答を生成するための強力なフレームワークを提供しています。

---


# 用語概説 
以下に、機械学習・深層学習の初心者がつまずきそうな専門用語の簡単な解説を挙げます。特に、このノートブック特有のドメイン知識や、実務を経験していないと馴染みのないものに焦点を当てています。

1. **LightGBM**:
   - 概要: Microsoftによって開発された勾配ブースティングアルゴリズムの一種で、大規模なデータセットで高速に動作し、メモリ効率が良いのが特徴です。
   - 特徴: 決定木の葉の分割による学習を行い、トレーニング時間を大幅に短縮することができます。

2. **TF-IDF (Term Frequency-Inverse Document Frequency)**:
   - 概要: テキストデータを数値化する手法の一つで、特定の単語が文書内でどれくらい重要であるかを評価します。
   - ドメイン特有のポイント: TFは単語の出現頻度を示し、IDFは単語の一般的な重要性を示すため、両者を掛け算することで、文書の内容に応じた重要な単語を特定できます。

3. **n-grams**:
   - 概要: テキストにおける連続したn個の単語（またはトークン）の組み合わせを指します。1つの単語からなる1-gram（unigram）、2つの単語からなる2-gram（bigram）などがあります。
   - ドメイン特有のポイント: 文脈を捉える力が向上し、単語単位だけでは捉えきれない意味を抽出するのに役立つ。

4. **StratifiedKFold**:
   - 概要: K分割交差検証の一種で、各フォールドにおいてクラスの分布を維持します。
   - ドメイン特有のポイント: クラス不均衡があるデータセットにおいて、モデルの評価をより正確に行うために使用されます。

5. **トランケイテッド SVD (Truncated Singular Value Decomposition)**:
   - 概要: 行列の次元削減技術で、大きなデータを小さくし、重要な情報を保持しつつ余計な情報を取り除きます。
   - ドメイン特有のポイント: TF-IDFで得られた高次元の特徴空間をより小さな空間に圧縮する際に用いられます。

6. **混同行列 (Confusion Matrix)**:
   - 概要: 分類モデルの性能を評価するための表で、実際のラベルと予測されたラベルを比較するものです。
   - ドメイン特有のポイント: 正しい予測と誤った予測の数を示し、各クラスの精度や再現率を計算する際に使用されます。

7. **コサイン類似度 (Cosine Similarity)**:
   - 概要: 2つのベクトル間の角度を使って、その類似性を測定する尺度です。1に近いほど、類似していることを示します。
   - ドメイン特有のポイント: テキストの類似性を測定する際によく使用され、TF-IDFベクトルの比較に利用されます。

8. **ユークリッド距離 (Euclidean Distance)**:
   - 概要: 二点間の直線距離を計測する方法で、平面上の点同士の最短距離を示します。
   - ドメイン特有のポイント: 特徴空間内でのデータポイント間の距離を測定し、分類やクラスタリングに役立ちます。

9. **ラプラシアン カーネル (Laplacian Kernel)**:
   - 概要: データポイント間の隣接関係をモデル化し、特にグラフデータに基づいた距離を評価するためのカーネル関数です。
   - ドメイン特有のポイント: 特徴間の非線形関係を捉えたり、データの局所的な構造を考慮した距離計算に役立ちます。

これらの用語の理解が進むことで、ノートブックの内容や機械学習の実務により自信を持って取り組めるようになるでしょう。

---


<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Introduction 📜

</div>
<div class="column-right">

# 日本語訳

# イントロダクション 📜

✔️ このノートブックの目的は何ですか？

目標は、LightGBMとTF-IDFベクトル化を使用して、ユーザーのLLM応答への好みを予測するための堅牢で効率的なソリューションを作成することです。

---

✔️ このノートブックでは何が扱われていますか？

- `データの読み込みと探索的データ分析（EDA）`

- `TF-IDFの理論`

- `データの前処理`

- `モデルの訓練`

- `モデルの推論`
     
# インポート 📦

</div>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

✔️ What is the objective of this notebook?

The goal is to create a robust and efficient solution to predict users' preference of LLM responses using LightGBM and TF-IDF vectorization.

---

✔️ What does this notebook cover?

- `Data Loading & EDA`

- `Theory behind TF-IDF`

- `Data Preprocessing`

- `Model Training`
       
- `Model Inference`
     

</div>
<div class="column-right">

# 日本語訳

# 警告メッセージを処理する
import warnings
# 警告を無視する設定を行います
warnings.filterwarnings('ignore')  # これにより、実行時に表示される警告が表示されなくなります

</div>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Imports 📦

</div>
<div class="column-right">

# 日本語訳

# データの前処理
import numpy as np  # NumPyライブラリをインポート。数値計算や配列操作に使います。
import pandas as pd  # pandasライブラリをインポート。データフレーム作成や操作に使用します。
from pathlib import Path  # パス操作用のPathライブラリをインポート

# データの視覚化
import plotly.graph_objects as go  # Plotlyライブラリをインポート。インタラクティブなグラフ作成に使用します。
from sklearn.metrics import confusion_matrix  # 混同行列の計算用のメトリクスをインポート

# モデルの開発
import lightgbm as lgb  # LightGBMライブラリをインポート。勾配ブースティングを用いたモデル作成に使用します。
from sklearn.model_selection import StratifiedKFold  # 層化Kフォールド交差検証用のクラスをインポート

# TF-IDFベクトル化
from sklearn.decomposition import TruncatedSVD  # 次元削減用のトランケイテッドSVDをインポート
from sklearn.feature_extraction.text import TfidfVectorizer  # TF-IDFベクトル化のためのクラスをインポート

# TF-IDFベクトルの類似性/距離特徴
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances, laplacian_kernel  # コサイン類似度、ユークリッド距離、ラプラシアンカーネルの計算用メトリクスをインポート

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Handle warning messages
import warnings
warnings.filterwarnings('ignore')
```

</div>
<div class="column-right">

# 日本語訳

```python
# 設定 ⚙️
```

</div>
</details>

# 設定 ⚙️

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Data preprocessing
import numpy as np
import pandas as pd
from pathlib import Path

# Data visualization
import plotly.graph_objects as go
from sklearn.metrics import confusion_matrix

# Model development
import lightgbm as lgb
from sklearn.model_selection import StratifiedKFold

# TF-IDF Vectorization
from sklearn.decomposition import TruncatedSVD
from sklearn.feature_extraction.text import TfidfVectorizer

# Similarity/distance features for TF-IDF vectors
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances, laplacian_kernel
```

</div>
<div class="column-right">

# 日本語訳

```python
class CFG:
    # コンペティションデータへのパス
    train_data = Path("/kaggle/input/lmsys-chatbot-arena/train.csv")  # トレーニングデータのパス
    test_data = Path("/kaggle/input/lmsys-chatbot-arena/test.csv")    # テストデータのパス
    subm_data = Path("/kaggle/input/lmsys-chatbot-arena/sample_submission.csv")  # 提出ファイルのサンプルパス
    
    # 混同行列のカラースケール
    colorscale = "peach"  # 混同行列を表示する際のカラースケール設定
    
    # TF-IDFベクトル化のパラメータ
    components = 32  # 次元削減で保持する成分の数
    ngrams = (1, 7)  # 使用するn-gramの範囲
    max_freq = 0.95  # 95%以上の文書に出現する単語は除外
    min_freq = 10    # 10文書未満に出現する単語は除外
    
    # トレーニングの引数
    num_classes = 3   # 分類するクラスの数
    early_stop = 50   # 早期終了のためのイテレーション数
    log_steps = 100   # ログを記録するステップ数
    
    # LightGBMのパラメータ
    params = {
        "objective": "multiclass",  # マルチクラス分類を指定
        "colsample_bytree": 0.8,     # 木のサンプリング比率
        "colsample_bynode": 0.8,      # ノードでのサンプリング比率
        "metric": "multiclass",      # 評価指標をマルチクラスに設定
        "learning_rate": 0.02,        # 学習率
        "extra_trees": True,          # 追加の木を使用するかどうか
        "num_rounds": 3000,           # 学習のラウンド数
        "reg_lambda": 1.3,            # L2正則化
        "num_classes": 3,             # 分類するクラス数
        "num_leaves": 64,             # 葉の数
        "reg_alpha": 0.1,             # L1正則化
        "device": "cpu",              # デバイスはCPUを指定
        "max_depth": 6,               # 木の最大深さ
        "max_bin": 128,               # 最大ビンの数
        "verbose": -1,                # 出力の詳細度設定
        "seed": 42                    # 再現性のためのシード値
    }
```

</div>
</details>

In [None]:
class CFG:
    # コンペティションデータへのパス
    train_data = Path("/kaggle/input/lmsys-chatbot-arena/train.csv")  # トレーニングデータのパス
    test_data = Path("/kaggle/input/lmsys-chatbot-arena/test.csv")    # テストデータのパス
    subm_data = Path("/kaggle/input/lmsys-chatbot-arena/sample_submission.csv")  # 提出ファイルのサンプルパス
    
    # 混同行列のカラースケール
    colorscale = "peach"  # 混同行列を表示する際のカラースケール設定
    
    # TF-IDFベクトル化のパラメータ
    components = 32  # 次元削減で保持する成分の数
    ngrams = (1, 7)  # 使用するn-gramの範囲
    max_freq = 0.95  # 95%以上の文書に出現する単語は除外
    min_freq = 10    # 10文書未満に出現する単語は除外
    
    # トレーニングの引数
    num_classes = 3   # 分類するクラスの数
    early_stop = 50   # 早期終了のためのイテレーション数
    log_steps = 100   # ログを記録するステップ数
    
    # LightGBMのパラメータ
    params = {
        "objective": "multiclass",  # マルチクラス分類を指定
        "colsample_bytree": 0.8,     # 木のサンプリング比率
        "colsample_bynode": 0.8,      # ノードでのサンプリング比率
        "metric": "multiclass",      # 評価指標をマルチクラスに設定
        "learning_rate": 0.02,        # 学習率
        "extra_trees": True,          # 追加の木を使用するかどうか
        "num_rounds": 3000,           # 学習のラウンド数
        "reg_lambda": 1.3,            # L2正則化
        "num_classes": 3,             # 分類するクラス数
        "num_leaves": 64,             # 葉の数
        "reg_alpha": 0.1,             # L1正則化
        "device": "cpu",              # デバイスはCPUを指定
        "max_depth": 6,               # 木の最大深さ
        "max_bin": 128,               # 最大ビンの数
        "verbose": -1,                # 出力の詳細度設定
        "seed": 42                    # 再現性のためのシード値
    }

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Configuration ⚙️

</div>
<div class="column-right">

# 日本語訳

# 探索的データ分析（EDA） 🗃️

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
class CFG:
    # Paths to competition data
    train_data = Path("/kaggle/input/lmsys-chatbot-arena/train.csv")
    test_data = Path("/kaggle/input/lmsys-chatbot-arena/test.csv")
    subm_data = Path("/kaggle/input/lmsys-chatbot-arena/sample_submission.csv")
    
    # Colorscale for confusion matrix
    colorscale = "peach"
    
    # TF-IDF Vectorization parameters
    components = 32
    ngrams = (1, 7) 
    max_freq = 0.95 # Words that occur in more than 95% of the documents are omitted
    min_freq = 10   # Words that occur in less than 10 documents are omitted
    
    # Training arguments
    num_classes = 3
    early_stop = 50
    log_steps = 100
    
    # LightGBM parameters
    params = {
        "objective": "multiclass",
        "colsample_bytree": 0.8,
        "colsample_bynode": 0.8,
        "metric": "multiclass",
        "learning_rate": 0.02,
        "extra_trees": True,
        "num_rounds": 3000,
        "reg_lambda": 1.3,
        "num_classes": 3,
        "num_leaves": 64,
        "reg_alpha": 0.1,
        "device": "cpu",
        "max_depth": 6,
        "max_bin": 128,
        "verbose": -1,
        "seed": 42
    }
```

</div>
<div class="column-right">

# 日本語訳

```python
class EDA:
    def read_data(self, path):
        # 指定したパスからデータフレームを読み込み
        df = pd.read_csv(path)
        
        # データフレームの形状と最初の3行を表示
        print(f"データフレームの形状は: {df.shape}です")
        display(df.head(3))  # データの最初の3行を表示
        
        return df  # 読み込んだデータフレームを返す
    
    def pie_chart(self, data):
        # 各勝者の列のカウントを計算
        counts = {
            'winner_model_a': data['winner_model_a'].sum(),  # モデルAの勝ち数
            'winner_model_b': data['winner_model_b'].sum(),  # モデルBの勝ち数
            'winner_tie': data['winner_tie'].sum()           # 引き分けの数
        }

        # カラーを定義
        colors = ['#a89192', '#8083a8', '#a8c28c']  # クリーム、ライトブルー、ミント
        identifiers = ['Creme', 'Light Blue', 'Mint']  # 各色の識別子
        
        # 円グラフを作成
        fig = go.Figure(data=[go.Pie(labels=identifiers, 
                                     values=list(counts.values()), 
                                     textinfo='percent', 
                                     hole=0.1,
                                     marker=dict(colors=colors, line=dict(color='#FFFFFF')))])
        
        # 背景を透明にし、円グラフを左寄せにするためにレイアウトを更新
        fig.update_layout(plot_bgcolor='rgba(0,0,0,0)', 
                          paper_bgcolor='rgba(0,0,0,0)', 
                          margin=dict(l=0, r=0, t=0, b=0))
        
        # 凡例を非表示にする
        fig.update_layout(showlegend=False)
        
        # プロットを表示
        fig.show()

        # カウントをテーブルとして表示
        counts_df = pd.DataFrame(list(counts.items()), columns=['クラス', 'カウント'])
        counts_df['識別子'] = identifiers
        display(counts_df)  # カウントテーブルを表示
        
    def response_length(self, data):
        # 元のデータを変更しないためにデータフレームのコピーを作成
        data_copy = data.copy()
        
        # 各応答の単語数を計算
        data_copy['word_count_a'] = data_copy['response_a'].apply(lambda x: len(str(x).split()))  # モデルAの単語数
        data_copy['word_count_b'] = data_copy['response_b'].apply(lambda x: len(str(x).split()))  # モデルBの単語数
        
        # 各勝者クラスの平均単語数を計算
        word_counts = {
            'winner_model_a': int(
                data_copy[data_copy['winner_model_a'] == 1][
                    ['word_count_a', 
                     'word_count_b']
                ].mean().mean()  # モデルAの平均単語数
            ),
            
            'winner_model_b': int(
                data_copy[data_copy['winner_model_b'] == 1][
                    ['word_count_a', 
                     'word_count_b']
                ].mean().mean()  # モデルBの平均単語数
            ),
            
            'winner_tie': int(
                data_copy[data_copy['winner_tie'] == 1][
                    ['word_count_a', 
                     'word_count_b']
                ].mean().mean()  # 引き分けの平均単語数
            )
        }
        
        # カスタムホバーテキストを作成
        hover_texts = [f"単語数: {value}<br>{key}" for key, value in word_counts.items()]
        
        # 棒グラフを作成
        fig = go.Figure(data=[go.Bar(
            x=list(word_counts.keys()),  # 勝者クラスラベルをx軸に
            y=list(word_counts.values()),  # 単語数をy軸に
            marker=dict(color=['#a89192', '#8083a8', '#a8c28c']),
            hovertext=hover_texts,  # ホバー時のテキスト
            hoverinfo='text',
            orientation='v'  # 棒を縦にする
        )])
        
        # レイアウトを更新
        fig.update_layout(
            title='勝者クラスによる平均応答単語数',
            xaxis_title='',
            yaxis_title='平均応答単語数',
            plot_bgcolor='rgba(0,0,0,0)',
            paper_bgcolor='rgba(0,0,0,0)',
            xaxis=dict(showticklabels=False)  # x軸のラベルを非表示
        )
        
        # プロットを表示
        fig.show()
```

</div>
</details>

In [None]:
class EDA:
    def read_data(self, path):
        # 指定したパスからデータフレームを読み込み
        df = pd.read_csv(path)
        
        # データフレームの形状と最初の3行を表示
        print(f"データフレームの形状は: {df.shape}です")
        display(df.head(3))  # データの最初の3行を表示
        
        return df  # 読み込んだデータフレームを返す
    
    def pie_chart(self, data):
        # 各勝者の列のカウントを計算
        counts = {
            'winner_model_a': data['winner_model_a'].sum(),  # モデルAの勝ち数
            'winner_model_b': data['winner_model_b'].sum(),  # モデルBの勝ち数
            'winner_tie': data['winner_tie'].sum()           # 引き分けの数
        }

        # カラーを定義
        colors = ['#a89192', '#8083a8', '#a8c28c']  # クリーム、ライトブルー、ミント
        identifiers = ['Creme', 'Light Blue', 'Mint']  # 各色の識別子
        
        # 円グラフを作成
        fig = go.Figure(data=[go.Pie(labels=identifiers, 
                                     values=list(counts.values()), 
                                     textinfo='percent', 
                                     hole=0.1,
                                     marker=dict(colors=colors, line=dict(color='#FFFFFF')))])
        
        # 背景を透明にし、円グラフを左寄せにするためにレイアウトを更新
        fig.update_layout(plot_bgcolor='rgba(0,0,0,0)', 
                          paper_bgcolor='rgba(0,0,0,0)', 
                          margin=dict(l=0, r=0, t=0, b=0))
        
        # 凡例を非表示にする
        fig.update_layout(showlegend=False)
        
        # プロットを表示
        fig.show()

        # カウントをテーブルとして表示
        counts_df = pd.DataFrame(list(counts.items()), columns=['クラス', 'カウント'])
        counts_df['識別子'] = identifiers
        display(counts_df)  # カウントテーブルを表示
        
    def response_length(self, data):
        # 元のデータを変更しないためにデータフレームのコピーを作成
        data_copy = data.copy()
        
        # 各応答の単語数を計算
        data_copy['word_count_a'] = data_copy['response_a'].apply(lambda x: len(str(x).split()))  # モデルAの単語数
        data_copy['word_count_b'] = data_copy['response_b'].apply(lambda x: len(str(x).split()))  # モデルBの単語数
        
        # 各勝者クラスの平均単語数を計算
        word_counts = {
            'winner_model_a': int(
                data_copy[data_copy['winner_model_a'] == 1][
                    ['word_count_a', 
                     'word_count_b']
                ].mean().mean()  # モデルAの平均単語数
            ),
            
            'winner_model_b': int(
                data_copy[data_copy['winner_model_b'] == 1][
                    ['word_count_a', 
                     'word_count_b']
                ].mean().mean()  # モデルBの平均単語数
            ),
            
            'winner_tie': int(
                data_copy[data_copy['winner_tie'] == 1][
                    ['word_count_a', 
                     'word_count_b']
                ].mean().mean()  # 引き分けの平均単語数
            )
        }
        
        # カスタムホバーテキストを作成
        hover_texts = [f"単語数: {value}<br>{key}" for key, value in word_counts.items()]
        
        # 棒グラフを作成
        fig = go.Figure(data=[go.Bar(
            x=list(word_counts.keys()),  # 勝者クラスラベルをx軸に
            y=list(word_counts.values()),  # 単語数をy軸に
            marker=dict(color=['#a89192', '#8083a8', '#a8c28c']),
            hovertext=hover_texts,  # ホバー時のテキスト
            hoverinfo='text',
            orientation='v'  # 棒を縦にする
        )])
        
        # レイアウトを更新
        fig.update_layout(
            title='勝者クラスによる平均応答単語数',
            xaxis_title='',
            yaxis_title='平均応答単語数',
            plot_bgcolor='rgba(0,0,0,0)',
            paper_bgcolor='rgba(0,0,0,0)',
            xaxis=dict(showticklabels=False)  # x軸のラベルを非表示
        )
        
        # プロットを表示
        fig.show()

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Exploratory Data Analysis (EDA) 🗃️

</div>
<div class="column-right">

# 日本語訳

eda = EDA()  # EDAクラスのインスタンスを作成し、探索的データ分析を実行できるようにします。

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
class EDA:
    def read_data(self, path):
        # Read dataframe from path
        df = pd.read_csv(path)
        
        # Display the shape of the dataframe and the first 3 rows
        print(f"The shape of the dataframe is: {df.shape}")
        display(df.head(3))
        
        return df
    
    def pie_chart(self, data):
        # Calculate the counts for each winner column
        counts = {
            'winner_model_a': data['winner_model_a'].sum(),
            'winner_model_b': data['winner_model_b'].sum(),
            'winner_tie': data['winner_tie'].sum()
        }

        # Define the colors
        colors = ['#a89192', '#8083a8', '#a8c28c']  # creme, light blue, mint
        identifiers = ['Creme', 'Light Blue', 'Mint']
        
        # Create the pie chart
        fig = go.Figure(data=[go.Pie(labels=identifiers, 
                                     values=list(counts.values()), 
                                     textinfo='percent', 
                                     hole=0.1,
                                     marker=dict(colors=colors, line=dict(color='#FFFFFF')))])
        
        # Update layout for a transparent background and move the pie to the left
        fig.update_layout(plot_bgcolor='rgba(0,0,0,0)', 
                          paper_bgcolor='rgba(0,0,0,0)', 
                          margin=dict(l=0, r=0, t=0, b=0))
        
        # Hide the legend
        fig.update_layout(showlegend=False)
        
        # Show the plot
        fig.show()

        # Display the counts as a table
        counts_df = pd.DataFrame(list(counts.items()), columns=['Class', 'Count'])
        counts_df['Identifier'] = identifiers
        display(counts_df)
        
    def response_length(self, data):
        # Create a copy of the dataframe to avoid modifying the original data
        data_copy = data.copy()
        
        # Calculate the number of words in each response
        data_copy['word_count_a'] = data_copy['response_a'].apply(lambda x: len(str(x).split()))
        data_copy['word_count_b'] = data_copy['response_b'].apply(lambda x: len(str(x).split()))
        
        # Calculate the average word count for each winner class
        word_counts = {
            'winner_model_a': int(
                data_copy[data_copy['winner_model_a'] == 1][
                    ['word_count_a', 
                     'word_count_b']
                ].mean().mean()
            ),
            
            'winner_model_b': int(
                data_copy[data_copy['winner_model_b'] == 1][
                    ['word_count_a', 
                     'word_count_b']
                ].mean().mean()
            ),
            
            'winner_tie': int(
                data_copy[data_copy['winner_tie'] == 1][
                    ['word_count_a', 
                     'word_count_b']
                ].mean().mean()
            )
        }
        
        # Create custom hover text
        hover_texts = [f"Word Count: {value}<br>{key}" for key, value in word_counts.items()]
        
        # Create the bar chart
        fig = go.Figure(data=[go.Bar(
            x=list(word_counts.keys()),  # Winner class labels on x-axis
            y=list(word_counts.values()),
            marker=dict(color=['#a89192', '#8083a8', '#a8c28c']),
            hovertext=hover_texts,
            hoverinfo='text',
            orientation='v'  # Ensure bars are vertical
        )])
        
        # Update layout
        fig.update_layout(
            title='Average Response Word Count by Winner Class',
            xaxis_title='',
            yaxis_title='Average Response Word Count',
            plot_bgcolor='rgba(0,0,0,0)',
            paper_bgcolor='rgba(0,0,0,0)',
            xaxis=dict(showticklabels=False)  # Hide x-axis labels
        )
        
        # Show the plot
        fig.show()
```

</div>
<div class="column-right">

# 日本語訳

```python
train_data = eda.read_data(CFG.train_data)  # 設定されたパスからトレーニングデータを読み込み、データフレームを取得します。
```

</div>
</details>

In [None]:
train_data = eda.read_data(CFG.train_data)  # 設定されたパスからトレーニングデータを読み込み、データフレームを取得します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
eda = EDA()
```

</div>
<div class="column-right">

# 日本語訳

```python
test_data = eda.read_data(CFG.test_data)  # 設定されたパスからテストデータを読み込み、データフレームを取得します。
```

</div>
</details>

In [None]:
test_data = eda.read_data(CFG.test_data)  # 設定されたパスからテストデータを読み込み、データフレームを取得します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
train_data = eda.read_data(CFG.train_data)
```

</div>
<div class="column-right">

# 日本語訳

```python
subm_data = eda.read_data(CFG.subm_data)  # 設定されたパスから提出データのサンプルを読み込み、データフレームを取得します。
```

</div>
</details>

In [None]:
subm_data = eda.read_data(CFG.subm_data)  # 設定されたパスから提出データのサンプルを読み込み、データフレームを取得します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
test_data = eda.read_data(CFG.test_data)
```

</div>
<div class="column-right">

# 日本語訳

```python
print("クラスの分布（勝者）:")  # 勝者のクラス分布を表示するメッセージ
eda.pie_chart(train_data)  # トレーニングデータを使ってクラス分布の円グラフを作成し表示します。
```

</div>
</details>

In [None]:
print("クラスの分布（勝者）:")  # 勝者のクラス分布を表示するメッセージ
eda.pie_chart(train_data)  # トレーニングデータを使ってクラス分布の円グラフを作成し表示します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
subm_data = eda.read_data(CFG.subm_data)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 勝者モデルごとの平均応答単語数をプロットする
eda.response_length(train_data)  # トレーニングデータを使用して、各勝者モデルの応答の平均単語数をプロットします。
```

</div>
</details>

In [None]:
# 勝者モデルごとの平均応答単語数をプロットする
eda.response_length(train_data)  # トレーニングデータを使用して、各勝者モデルの応答の平均単語数をプロットします。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
print("Distribution of classes (winners):")
eda.pie_chart(train_data)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 理論 📒

✔️ **単語頻度 - 逆文書頻度**、または **TF-IDF**ベクトル化は、テキストマイニングや情報検索で使用され、文書内の単語の重要性をコーパスに対して評価します。この技術は、テキストデータを機械学習アルゴリズムに適した数値フォーマットに変換します。

---

✔️ **TF-IDFの構成要素**

1. 単語頻度 (TF):

   - *定義:* 文書内の特定単語の出現頻度を測定します。
   
   - *式:* $ \text{TF}(t,d) = \frac{f_{t,d}}{\sum\limits_{t' \in d} f_{t',d}} $ , ここで $ f_{t,d} $ は文書 $ d $ 内の単語 $ t $ の出現頻度です。

2. 逆文書頻度 (IDF):

   - *定義:* コーパス全体における特定単語の重要性を測定します。
   
   - *式:* $ \text{IDF}(t) = \log \left( \frac{N}{1 + n_t} \right) $ , ここで $ N $ は文書の総数、$ n_t $ は単語 $ t $ を含む文書の数です。

3. TF-IDFスコア:

   - *定義:* TFとIDFスコアの積です。
   
   - *式:* $ \text{TF-IDF}(t,d) = \text{TF}(t,d) \times \text{IDF}(t) $
   
---

✔️ ***N-grams* の説明**

*N-grams* は、テキスト文書から抽出される連続した $ n $ 項目（トークン）のシーケンスです。これにより、個々の単語に比べて言語構造と文脈のより包括的な表現が得られます。

*式:* $ N\text{-grams} = [t_1, t_2, ..., t_n] $

*例:* `ngrams = (1, 3)` の場合、テキスト文書内の長さ3のスライディングウィンドウで可能な全てのトークンの組み合わせを考慮します。各3トークンの組み合わせはトライグラムを表します。

例えば、「I love coding.」という文を考えます。

`ngrams = (1, 3)`の場合、この文から抽出されるn-gramsには以下が含まれます：

   * ユニグラム (1-grams): ["I"], ["love"], ["coding"]
    
   * バイグラム (2-grams): ["I love"], ["love coding"]
    
   * トリグラム (3-grams): ["I love coding"]

このように、$ N-grams $ は個々の単語だけでなく、フレーズや文中のコンテキスト情報も捉えます。

---
   
✔️ **TF-IDFのステップ**

1. トークン化:

   - *定義:* テキストをトークンに分けます。
   
   - *例:* "I love coding" -> ["I", "love", "coding"]

2. 文書頻度の計算:

   - *定義:* 各単語を含む文書の数をカウントします。
   
   - *例:* "love" は1つの文書に出現します。

3. TF-IDFの計算:

   - *定義:* 各文書内の各単語のTF-IDFスコアを計算します。
   
   - *例:* ngrams = (1, 3) の場合、"love"は文書1に出現し、そのTFとIDFに基づいてTF-IDFスコアが計算されます。

4. ベクトル化:

   - *定義:* 各文書をTF-IDFスコアのベクトルとして表現します。
   
   - *例:* 各文書は、高次元ベクトルになり、各次元はユニークな単語またはn-gramに対応します。

# データ前処理 🛠️
```

</div>
</details>

# 理論 📒

✔️ **単語頻度 - 逆文書頻度**、または **TF-IDF**ベクトル化は、テキストマイニングや情報検索で使用され、文書内の単語の重要性をコーパスに対して評価します。この技術は、テキストデータを機械学習アルゴリズムに適した数値フォーマットに変換します。

---

✔️ **TF-IDFの構成要素**

1. 単語頻度 (TF):

   - *定義:* 文書内の特定単語の出現頻度を測定します。
   
   - *式:* $ \text{TF}(t,d) = \frac{f_{t,d}}{\sum\limits_{t' \in d} f_{t',d}} $ , ここで $ f_{t,d} $ は文書 $ d $ 内の単語 $ t $ の出現頻度です。

2. 逆文書頻度 (IDF):

   - *定義:* コーパス全体における特定単語の重要性を測定します。
   
   - *式:* $ \text{IDF}(t) = \log \left( \frac{N}{1 + n_t} \right) $ , ここで $ N $ は文書の総数、$ n_t $ は単語 $ t $ を含む文書の数です。

3. TF-IDFスコア:

   - *定義:* TFとIDFスコアの積です。
   
   - *式:* $ \text{TF-IDF}(t,d) = \text{TF}(t,d) \times \text{IDF}(t) $
   
---

✔️ ***N-grams* の説明**

*N-grams* は、テキスト文書から抽出される連続した $ n $ 項目（トークン）のシーケンスです。これにより、個々の単語に比べて言語構造と文脈のより包括的な表現が得られます。

*式:* $ N\text{-grams} = [t_1, t_2, ..., t_n] $

*例:* `ngrams = (1, 3)` の場合、テキスト文書内の長さ3のスライディングウィンドウで可能な全てのトークンの組み合わせを考慮します。各3トークンの組み合わせはトライグラムを表します。

例えば、「I love coding.」という文を考えます。

`ngrams = (1, 3)`の場合、この文から抽出されるn-gramsには以下が含まれます：

   * ユニグラム (1-grams): ["I"], ["love"], ["coding"]
    
   * バイグラム (2-grams): ["I love"], ["love coding"]
    
   * トリグラム (3-grams): ["I love coding"]

このように、$ N-grams $ は個々の単語だけでなく、フレーズや文中のコンテキスト情報も捉えます。

---
   
✔️ **TF-IDFのステップ**

1. トークン化:

   - *定義:* テキストをトークンに分けます。
   
   - *例:* "I love coding" -> ["I", "love", "coding"]

2. 文書頻度の計算:

   - *定義:* 各単語を含む文書の数をカウントします。
   
   - *例:* "love" は1つの文書に出現します。

3. TF-IDFの計算:

   - *定義:* 各文書内の各単語のTF-IDFスコアを計算します。
   
   - *例:* ngrams = (1, 3) の場合、"love"は文書1に出現し、そのTFとIDFに基づいてTF-IDFスコアが計算されます。

4. ベクトル化:

   - *定義:* 各文書をTF-IDFスコアのベクトルとして表現します。
   
   - *例:* 各文書は、高次元ベクトルになり、各次元はユニークな単語またはn-gramに対応します。

# データ前処理 🛠️

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Plot average response word count per winner model
eda.response_length(train_data)
```

</div>
<div class="column-right">

# 日本語訳

```python
class DataPreprocessing:
    # 入力リスト内にNoneが存在するかチェック
    @staticmethod
    def retrieve_none(vals):
        return int(any(val is None for val in vals))  # 1つでもNoneがあれば1を返す

    # 入力リスト内の文字列の合計長を計算
    @staticmethod
    def retrieve_length(vals):
        length = 0
        for val in vals:
            if isinstance(val, str):  # valが文字列であれば
                length += len(val)  # その長さを加算
        return length
    
    # 入力リスト内のユニークな単語のカウントを計算
    @staticmethod
    def retrieve_nuniques(vals):
        if isinstance(vals, str):  # valsが文字列の場合
            return len(set(vals.split()))  # ユニークな単語の数をカウントして返す
        return 0
    
    # リスト内の'None'を'STR'に置き換え、要素をスペースで結合
    @staticmethod
    def clean_response(text):
        if isinstance(text, list):  # textがリストの場合
            cleaned_text = ' '.join([str(item) if item is not None else 'NONE' for item in text])  # Noneを'STR'に置き換え
            return cleaned_text

        return text  # それ以外は元のtextを返す

    def add_features(self, data):
        # 応答列の長さやNoneの有無に関連する特徴を追加
        data[f"response_a_len"] = data[f"response_a"].apply(self.retrieve_length)  # 応答Aの長さ
        data[f"response_b_len"] = data[f"response_b"].apply(self.retrieve_length)  # 応答Bの長さ

        # 応答のユニークな単語数を計算
        data[f"response_a_unique"] = data[f"response_a"].apply(self.retrieve_nuniques)  # 応答Aのユニーク単語数
        data[f"response_b_unique"] = data[f"response_b"].apply(self.retrieve_nuniques)  # 応答Bのユニーク単語数

        # 長さの差、平均長さ、長さ差比を計算
        data["response_len_diff"] = data["response_a_len"] - data["response_b_len"]  # 長さの差
        data["response_len_mean"] = (data["response_a_len"] + data["response_b_len"]) / 2  # 平均長さ
        data["response_diff_ratio"] = data["response_len_diff"] / data["response_len_mean"]  # 長さ差比

        # ユニーク単語数の差、平均、および比を計算
        data["response_unique_diff"] = data["response_a_unique"] - data["response_b_unique"]  # ユニーク単語数の差
        data["response_unique_mean"] = (data["response_a_unique"] + 
                                        data["response_b_unique"]) / 2  # ユニーク単語数の平均
        data["response_unique_ratio"] = (data["response_unique_diff"] / 
                                         data["response_unique_mean"])  # ユニーク単語数差比

        # 応答列内にNoneが含まれているかをチェック
        data["a_has_none"] = data["response_a"].apply(self.retrieve_none)  # 応答AにNoneがあるか
        data["b_has_none"] = data["response_b"].apply(self.retrieve_none)  # 応答BにNoneがあるか
        data["has_none_diff"] = data["a_has_none"] - data["b_has_none"]  # Noneの差

        return data  # 加工したデータを返す
    
    # プロンプトと応答間のコサイン類似度を計算
    @staticmethod
    def calculate_cosine_similarity(tfidf_matrix, 
                                    prompt_idx, 
                                    response_a_idx, 
                                    response_b_idx):
        
        # プロンプト（p）と応答A（a）のコサイン類似度
        similarity_pa = cosine_similarity(
                tfidf_matrix[prompt_idx].reshape(1, -1), 
                tfidf_matrix[response_a_idx].reshape(1, -1)
        )[0][0]

        # プロンプト（p）と応答B（b）のコサイン類似度
        similarity_pb = cosine_similarity(
                tfidf_matrix[prompt_idx].reshape(1, -1), 
                tfidf_matrix[response_b_idx].reshape(1, -1)
        )[0][0]

        return similarity_pa, similarity_pb  # 類似度を返す

    # プロンプトと応答間の距離（ユークリッド/ラプラシアン）を計算
    @staticmethod
    def calculate_distances(tfidf_matrix, 
                            prompt_idx, 
                            response_a_idx, 
                            response_b_idx, 
                            distance_metric):
        
        # プロンプト（p）と応答A（a）の距離
        distance_pa = distance_metric(
                tfidf_matrix[prompt_idx].reshape(1, -1), 
                tfidf_matrix[response_a_idx].reshape(1, -1)
        )[0][0]
        
        # プロンプト（p）と応答B（b）の距離
        distance_pb = distance_metric(
                tfidf_matrix[prompt_idx].reshape(1, -1),
                tfidf_matrix[response_b_idx].reshape(1, -1)
        )[0][0]
        
        return distance_pa, distance_pb  # 距離を返す

    def create_tfidf_features(self, train, test, ngrams, min_freq, max_freq, components):
        # TF-IDFベクトルライザを初期化
        tfidf_vectorizer = TfidfVectorizer(analyzer='char', 
                                           ngram_range=ngrams, 
                                           min_df=min_freq, 
                                           max_df=max_freq,
                                           lowercase=False,
                                           sublinear_tf=True)

        # トレーニングデータとテストデータを単一のデータフレームに結合
        full_data = pd.concat([train, test], ignore_index=True)

        # テキスト列をクリーンアップして準備
        for col in ['prompt', 'response_a', 'response_b']:
            full_data[col] = full_data[col].apply(self.clean_response)

        # TF-IDFベクトル化のためにすべてのテキスト列を結合
        full_corpus = pd.concat([full_data['prompt'], 
                                 full_data['response_a'], 
                                 full_data['response_b']], 
                                 ignore_index=True)

        # TF-IDFマトリックスを計算
        tfidf_matrix = tfidf_vectorizer.fit_transform(full_corpus)

        # 次元削減をトランケイテッドSVDで実施
        svd = TruncatedSVD(n_components=components, random_state=42)
        reduced_matrix = svd.fit_transform(tfidf_matrix)

        # コーパスの異なる部分を分割するためのインデックスを計算
        len_full = len(full_data)
        split_index_01 = len_full
        split_index_02 = len_full * 2

        # 短縮マトリックスをプロンプト、応答A、および応答B部分に分割
        full_tfidf_prompts = reduced_matrix[:split_index_01]
        full_tfidf_response_a = reduced_matrix[split_index_01:split_index_02]
        full_tfidf_response_b = reduced_matrix[split_index_02:]

        # 短縮マトリックスをトレーニングセットとテストセットに分割
        len_train = len(train)
        train_tfidf_prompts = full_tfidf_prompts[:len_train]
        train_tfidf_response_a = full_tfidf_response_a[:len_train]
        train_tfidf_response_b = full_tfidf_response_b[:len_train]
        test_tfidf_prompts = full_tfidf_prompts[len_train:]
        test_tfidf_response_a = full_tfidf_response_a[len_train:]
        test_tfidf_response_b = full_tfidf_response_b[len_train:]

        # トレーニングおよびテストセットのSVD特徴を保持するためのデータフレームを作成
        feature_names = [f'svd_feature_{i}' for i in range(components)]
        train_features = pd.DataFrame(index=train.index)
        test_features = pd.DataFrame(index=test.index)

        # SVD特徴を特徴データフレームの対応する列に割り当て
        for i in range(components):
            train_features[f'svd_prompts_{i}'] = train_tfidf_prompts[:, i]
            train_features[f'svd_response_a_{i}'] = train_tfidf_response_a[:, i]
            train_features[f'svd_response_b_{i}'] = train_tfidf_response_b[:, i]
            test_features[f'svd_prompts_{i}'] = test_tfidf_prompts[:, i]
            test_features[f'svd_response_a_{i}'] = test_tfidf_response_a[:, i]
            test_features[f'svd_response_b_{i}'] = test_tfidf_response_b[:, i]

        # 新しい特徴を元のトレーニングおよびテストデータフレームと連結
        train = pd.concat([train, train_features], axis=1)
        test = pd.concat([test, test_features], axis=1)

        # 類似度と距離の特徴を計算
        for df, len_df in zip([train, test], [len(train), len(test)]):
            prompt_indices = df.index

            # コサイン類似度の特徴を計算
            df['similarity_pa'], df['similarity_pb'] = zip(*[
                self.calculate_cosine_similarity(reduced_matrix, i, i + len_df, i + 2 * len_df)
                for i in prompt_indices
            ])

            # ユークリッド距離の特徴を計算
            df['euclidean_pa'], df['euclidean_pb'] = zip(*[
                self.calculate_distances(reduced_matrix, i, i + len_df, i + 2 * len_df, 
                                         euclidean_distances)
                for i in prompt_indices
            ])

            # ラプラシアンカーネル距離の特徴を計算
            df['laplacian_pa'], df['laplacian_pb']= zip(*[
                self.calculate_distances(reduced_matrix, i, i + len_df, i + 2 * len_df, 
                                         laplacian_kernel)
                for i in prompt_indices
            ])

        return train, test  # 加工したトレーニングデータとテストデータを返す
    
    # 複数のラベルを単一のラベルにマージ
    def merge_label(self, row):
        if row["winner_model_a"] == 1:
            return 0  # モデルAが勝者の場合
        if row["winner_model_b"] == 1:
            return 1  # モデルBが勝者の場合
        if row["winner_tie"] == 1:
            return 2  # 引き分けの場合
        raise ValueError("値が無効です。")  # 無効な値の場合エラーを発生
```

</div>
</details>

In [None]:
class DataPreprocessing:
    # 入力リスト内にNoneが存在するかチェック
    @staticmethod
    def retrieve_none(vals):
        return int(any(val is None for val in vals))  # 1つでもNoneがあれば1を返す

    # 入力リスト内の文字列の合計長を計算
    @staticmethod
    def retrieve_length(vals):
        length = 0
        for val in vals:
            if isinstance(val, str):  # valが文字列であれば
                length += len(val)  # その長さを加算
        return length
    
    # 入力リスト内のユニークな単語のカウントを計算
    @staticmethod
    def retrieve_nuniques(vals):
        if isinstance(vals, str):  # valsが文字列の場合
            return len(set(vals.split()))  # ユニークな単語の数をカウントして返す
        return 0
    
    # リスト内の'None'を'STR'に置き換え、要素をスペースで結合
    @staticmethod
    def clean_response(text):
        if isinstance(text, list):  # textがリストの場合
            cleaned_text = ' '.join([str(item) if item is not None else 'NONE' for item in text])  # Noneを'STR'に置き換え
            return cleaned_text

        return text  # それ以外は元のtextを返す

    def add_features(self, data):
        # 応答列の長さやNoneの有無に関連する特徴を追加
        data[f"response_a_len"] = data[f"response_a"].apply(self.retrieve_length)  # 応答Aの長さ
        data[f"response_b_len"] = data[f"response_b"].apply(self.retrieve_length)  # 応答Bの長さ

        # 応答のユニークな単語数を計算
        data[f"response_a_unique"] = data[f"response_a"].apply(self.retrieve_nuniques)  # 応答Aのユニーク単語数
        data[f"response_b_unique"] = data[f"response_b"].apply(self.retrieve_nuniques)  # 応答Bのユニーク単語数

        # 長さの差、平均長さ、長さ差比を計算
        data["response_len_diff"] = data["response_a_len"] - data["response_b_len"]  # 長さの差
        data["response_len_mean"] = (data["response_a_len"] + data["response_b_len"]) / 2  # 平均長さ
        data["response_diff_ratio"] = data["response_len_diff"] / data["response_len_mean"]  # 長さ差比

        # ユニーク単語数の差、平均、および比を計算
        data["response_unique_diff"] = data["response_a_unique"] - data["response_b_unique"]  # ユニーク単語数の差
        data["response_unique_mean"] = (data["response_a_unique"] + 
                                        data["response_b_unique"]) / 2  # ユニーク単語数の平均
        data["response_unique_ratio"] = (data["response_unique_diff"] / 
                                         data["response_unique_mean"])  # ユニーク単語数差比

        # 応答列内にNoneが含まれているかをチェック
        data["a_has_none"] = data["response_a"].apply(self.retrieve_none)  # 応答AにNoneがあるか
        data["b_has_none"] = data["response_b"].apply(self.retrieve_none)  # 応答BにNoneがあるか
        data["has_none_diff"] = data["a_has_none"] - data["b_has_none"]  # Noneの差

        return data  # 加工したデータを返す
    
    # プロンプトと応答間のコサイン類似度を計算
    @staticmethod
    def calculate_cosine_similarity(tfidf_matrix, 
                                    prompt_idx, 
                                    response_a_idx, 
                                    response_b_idx):
        
        # プロンプト（p）と応答A（a）のコサイン類似度
        similarity_pa = cosine_similarity(
                tfidf_matrix[prompt_idx].reshape(1, -1), 
                tfidf_matrix[response_a_idx].reshape(1, -1)
        )[0][0]

        # プロンプト（p）と応答B（b）のコサイン類似度
        similarity_pb = cosine_similarity(
                tfidf_matrix[prompt_idx].reshape(1, -1), 
                tfidf_matrix[response_b_idx].reshape(1, -1)
        )[0][0]

        return similarity_pa, similarity_pb  # 類似度を返す

    # プロンプトと応答間の距離（ユークリッド/ラプラシアン）を計算
    @staticmethod
    def calculate_distances(tfidf_matrix, 
                            prompt_idx, 
                            response_a_idx, 
                            response_b_idx, 
                            distance_metric):
        
        # プロンプト（p）と応答A（a）の距離
        distance_pa = distance_metric(
                tfidf_matrix[prompt_idx].reshape(1, -1), 
                tfidf_matrix[response_a_idx].reshape(1, -1)
        )[0][0]
        
        # プロンプト（p）と応答B（b）の距離
        distance_pb = distance_metric(
                tfidf_matrix[prompt_idx].reshape(1, -1),
                tfidf_matrix[response_b_idx].reshape(1, -1)
        )[0][0]
        
        return distance_pa, distance_pb  # 距離を返す

    def create_tfidf_features(self, train, test, ngrams, min_freq, max_freq, components):
        # TF-IDFベクトルライザを初期化
        tfidf_vectorizer = TfidfVectorizer(analyzer='char', 
                                           ngram_range=ngrams, 
                                           min_df=min_freq, 
                                           max_df=max_freq,
                                           lowercase=False,
                                           sublinear_tf=True)

        # トレーニングデータとテストデータを単一のデータフレームに結合
        full_data = pd.concat([train, test], ignore_index=True)

        # テキスト列をクリーンアップして準備
        for col in ['prompt', 'response_a', 'response_b']:
            full_data[col] = full_data[col].apply(self.clean_response)

        # TF-IDFベクトル化のためにすべてのテキスト列を結合
        full_corpus = pd.concat([full_data['prompt'], 
                                 full_data['response_a'], 
                                 full_data['response_b']], 
                                 ignore_index=True)

        # TF-IDFマトリックスを計算
        tfidf_matrix = tfidf_vectorizer.fit_transform(full_corpus)

        # 次元削減をトランケイテッドSVDで実施
        svd = TruncatedSVD(n_components=components, random_state=42)
        reduced_matrix = svd.fit_transform(tfidf_matrix)

        # コーパスの異なる部分を分割するためのインデックスを計算
        len_full = len(full_data)
        split_index_01 = len_full
        split_index_02 = len_full * 2

        # 短縮マトリックスをプロンプト、応答A、および応答B部分に分割
        full_tfidf_prompts = reduced_matrix[:split_index_01]
        full_tfidf_response_a = reduced_matrix[split_index_01:split_index_02]
        full_tfidf_response_b = reduced_matrix[split_index_02:]

        # 短縮マトリックスをトレーニングセットとテストセットに分割
        len_train = len(train)
        train_tfidf_prompts = full_tfidf_prompts[:len_train]
        train_tfidf_response_a = full_tfidf_response_a[:len_train]
        train_tfidf_response_b = full_tfidf_response_b[:len_train]
        test_tfidf_prompts = full_tfidf_prompts[len_train:]
        test_tfidf_response_a = full_tfidf_response_a[len_train:]
        test_tfidf_response_b = full_tfidf_response_b[len_train:]

        # トレーニングおよびテストセットのSVD特徴を保持するためのデータフレームを作成
        feature_names = [f'svd_feature_{i}' for i in range(components)]
        train_features = pd.DataFrame(index=train.index)
        test_features = pd.DataFrame(index=test.index)

        # SVD特徴を特徴データフレームの対応する列に割り当て
        for i in range(components):
            train_features[f'svd_prompts_{i}'] = train_tfidf_prompts[:, i]
            train_features[f'svd_response_a_{i}'] = train_tfidf_response_a[:, i]
            train_features[f'svd_response_b_{i}'] = train_tfidf_response_b[:, i]
            test_features[f'svd_prompts_{i}'] = test_tfidf_prompts[:, i]
            test_features[f'svd_response_a_{i}'] = test_tfidf_response_a[:, i]
            test_features[f'svd_response_b_{i}'] = test_tfidf_response_b[:, i]

        # 新しい特徴を元のトレーニングおよびテストデータフレームと連結
        train = pd.concat([train, train_features], axis=1)
        test = pd.concat([test, test_features], axis=1)

        # 類似度と距離の特徴を計算
        for df, len_df in zip([train, test], [len(train), len(test)]):
            prompt_indices = df.index

            # コサイン類似度の特徴を計算
            df['similarity_pa'], df['similarity_pb'] = zip(*[
                self.calculate_cosine_similarity(reduced_matrix, i, i + len_df, i + 2 * len_df)
                for i in prompt_indices
            ])

            # ユークリッド距離の特徴を計算
            df['euclidean_pa'], df['euclidean_pb'] = zip(*[
                self.calculate_distances(reduced_matrix, i, i + len_df, i + 2 * len_df, 
                                         euclidean_distances)
                for i in prompt_indices
            ])

            # ラプラシアンカーネル距離の特徴を計算
            df['laplacian_pa'], df['laplacian_pb']= zip(*[
                self.calculate_distances(reduced_matrix, i, i + len_df, i + 2 * len_df, 
                                         laplacian_kernel)
                for i in prompt_indices
            ])

        return train, test  # 加工したトレーニングデータとテストデータを返す
    
    # 複数のラベルを単一のラベルにマージ
    def merge_label(self, row):
        if row["winner_model_a"] == 1:
            return 0  # モデルAが勝者の場合
        if row["winner_model_b"] == 1:
            return 1  # モデルBが勝者の場合
        if row["winner_tie"] == 1:
            return 2  # 引き分けの場合
        raise ValueError("値が無効です。")  # 無効な値の場合エラーを発生

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Theory 📒

</div>
<div class="column-right">

# 日本語訳

dp = DataPreprocessing()  # データ前処理クラスのインスタンスを作成し、データの前処理を実行できるようにします。

</div>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

✔️ **Term Frequency - Inverse Document Frequency** or **TF-IDF** vectorization is used in text mining and information retrieval to assess the importance of words in a document relative to a corpus. This technique transforms text data into a numerical format suitable for machine learning algorithms.

---

✔️ **Components of TF-IDF**

1. Term Frequency (TF):

   - *Definition:* Measures the frequency of a term in a document.
   
   - *Formula:* $ \text{TF}(t,d) = \frac{f_{t,d}}{\sum\limits_{t' \in d} f_{t',d}} $ , where $ f_{t,d} $ is the frequency of term $ t $ in document $ d $.

2. Inverse Document Frequency (IDF):

   - *Definition:* Measures the importance of a term across the entire corpus.
   
   - *Formula:* $ \text{IDF}(t) = \log \left( \frac{N}{1 + n_t} \right) $ , where $ N $ is the total number of documents, and $ n_t $ is the number of documents containing term $ t $.

3. TF-IDF Score:

   - *Definition:* Product of TF and IDF scores.
   
   - *Formula:* $ \text{TF-IDF}(t,d) = \text{TF}(t,d) \times \text{IDF}(t) $
   
---

✔️ ***N-grams* explained**

*N-grams* are contiguous sequences of $ n $ items (tokens) extracted from a text document. They provide a more comprehensive representation of the language structure and context compared to individual words.

*Formula:* $ N\text{-grams} = [t_1, t_2, ..., t_n] $

*Example:* For `ngrams = (1, 3)`, it means we are considering all possible combinations of tokens within a sliding window of length 3 in the text document. Each combination of 3 tokens represents a trigram. 

For instance, consider the sentence: "I love coding."

With `ngrams = (1, 3)`, the n-grams extracted from this sentence would include:

   * Unigrams (1-grams): ["I"], ["love"], ["coding"]
    
   * Bigrams (2-grams): ["I love"], ["love coding"]
    
   * Trigrams (3-grams): ["I love coding"]

This way, $ N-grams $ capture not only individual words but also phrases and contextual information within the text.
  
---
   
✔️ **Steps of TF-IDF**

1. Tokenization:

   - *Definition:* Breaks text into tokens.
   
   - *Example:* "I love coding" -> ["I", "love", "coding"]

2. Document Frequency Calculation:

   - *Definition:* Counts the number of documents containing each term.
   
   - *Example:* "love" appears in 1 document out of 1.

3. TF-IDF Calculation:

   - *Definition:* Computes the TF-IDF score for each term in each document.
   
   - *Example:* For ngrams = (1, 3), "love" appears in Document 1, the TF-IDF score for "love" would be calculated based on its TF and IDF.

4. Vectorization:

   - *Definition:* Represents each document as a vector of TF-IDF scores.
   
   - *Example:* Each document becomes a high-dimensional vector where each dimension corresponds to a unique term or n-gram.


</div>
<div class="column-right">

# 日本語訳

# 長さ、類似度、および距離の特徴を追加する
train_data = dp.add_features(train_data)  # トレーニングデータに特徴を追加
test_data = dp.add_features(test_data)    # テストデータに特徴を追加

</div>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Data Preprocessing 🛠️

</div>
<div class="column-right">

# 日本語訳

# TF-IDF特徴を抽出し、次元削減を実施する
train_data, test_data = dp.create_tfidf_features(train_data,  # トレーニングデータを使用
                                                 test_data,   # テストデータを使用
                                                 CFG.ngrams,  # n-gramの設定
                                                 CFG.min_freq,  # 最小頻度の設定
                                                 CFG.max_freq,  # 最大頻度の設定
                                                 CFG.components)  # コンポーネントの数の設定

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
class DataPreprocessing:
    # Check if any value in the input list is None
    @staticmethod
    def retrieve_none(vals):
        return int(any(val is None for val in vals))

    # Calculate the total length of strings in the input list
    @staticmethod
    def retrieve_length(vals):
        length = 0
        for val in vals:
            if isinstance(val, str):
                length += len(val)
        return length
    
    # Calculate the count of unique works in the input list
    @staticmethod
    def retrieve_nuniques(vals):
        if isinstance(vals, str):
            return len(set(vals.split()))
        return 0
    
    # Replace 'None' in the list with the string 'NONE', and join elements with a space
    @staticmethod
    def clean_response(text):
        if isinstance(text, list):
            cleaned_text = ' '.join([str(item) if item is not None else 'NONE' for item in text])
            return cleaned_text

        return text

    def add_features(self, data):
        # Add features related to the length and presence of None values in response columns.
        data[f"response_a_len"] = data[f"response_a"].apply(self.retrieve_length)
        data[f"response_b_len"] = data[f"response_b"].apply(self.retrieve_length)

        # Calculate unique word count for responses
        data[f"response_a_unique"] = data[f"response_a"].apply(self.retrieve_nuniques)
        data[f"response_b_unique"] = data[f"response_b"].apply(self.retrieve_nuniques)

        # Calculate length difference, mean length, and length difference ratio.
        data["response_len_diff"] = data["response_a_len"] - data["response_b_len"]
        data["response_len_mean"] = (data["response_a_len"] + data["response_b_len"]) / 2
        data["response_diff_ratio"] = data["response_len_diff"] / data["response_len_mean"]

        # Calculate unique word count difference, mean, and ratio.
        data["response_unique_diff"] = data["response_a_unique"] - data["response_b_unique"]
        data["response_unique_mean"] = (data["response_a_unique"] + 
                                        data["response_b_unique"]) / 2
        data["response_unique_ratio"] = (data["response_unique_diff"] / 
                                         data["response_unique_mean"])

        # Check if any value in response columns is None.
        data["a_has_none"] = data["response_a"].apply(self.retrieve_none)
        data["b_has_none"] = data["response_b"].apply(self.retrieve_none)
        data["has_none_diff"] = data["a_has_none"] - data["b_has_none"]

        return data
    
    # Calculate cosine similarity between prompt and responses
    @staticmethod
    def calculate_cosine_similarity(tfidf_matrix, 
                                    prompt_idx, 
                                    response_a_idx, 
                                    response_b_idx):
        
        # Cosine similarity between prompt (p) and response_a (a)
        similarity_pa = cosine_similarity(
                tfidf_matrix[prompt_idx].reshape(1, -1), 
                tfidf_matrix[response_a_idx].reshape(1, -1)
        )[0][0]

        # Cosine similarity between prompt (p) and response_b (b)
        similarity_pb = cosine_similarity(
                tfidf_matrix[prompt_idx].reshape(1, -1), 
                tfidf_matrix[response_b_idx].reshape(1, -1)
        )[0][0]

        return similarity_pa, similarity_pb

    # Calculate distances (Euclidean/Laplacian) between prompt and responses
    @staticmethod
    def calculate_distances(tfidf_matrix, 
                            prompt_idx, 
                            response_a_idx, 
                            response_b_idx, 
                            distance_metric):
        
        # Distance between prompt (p) and response_a (a)
        distance_pa = distance_metric(
                tfidf_matrix[prompt_idx].reshape(1, -1), 
                tfidf_matrix[response_a_idx].reshape(1, -1)
        )[0][0]
        
        # Distance between prompt (p) and response_b (b)
        distance_pb = distance_metric(
                tfidf_matrix[prompt_idx].reshape(1, -1),
                tfidf_matrix[response_b_idx].reshape(1, -1)
        )[0][0]
        
        return distance_pa, distance_pb

    def create_tfidf_features(self, train, test, ngrams, min_freq, max_freq, components):
        # Initialize TF-IDF Vectorizer
        tfidf_vectorizer = TfidfVectorizer(analyzer='char', 
                                           ngram_range=ngrams, 
                                           min_df=min_freq, 
                                           max_df=max_freq,
                                           lowercase=False,
                                           sublinear_tf=True)

        # Combine train and test data into a single DataFrame
        full_data = pd.concat([train, test], ignore_index=True)

        # Clean and prepare the text columns
        for col in ['prompt', 'response_a', 'response_b']:
            full_data[col] = full_data[col].apply(self.clean_response)

        # Combine all text columns into a single corpus for TF-IDF vectorization
        full_corpus = pd.concat([full_data['prompt'], 
                                 full_data['response_a'], 
                                 full_data['response_b']], 
                                 ignore_index=True)

        # Compute the TF-IDF matrix
        tfidf_matrix = tfidf_vectorizer.fit_transform(full_corpus)

        # Perform dimensionality reduction with TruncatedSVD
        svd = TruncatedSVD(n_components=components, random_state=42)
        reduced_matrix = svd.fit_transform(tfidf_matrix)

        # Calculate split indices for separating different parts of the corpus
        len_full = len(full_data)
        split_index_01 = len_full
        split_index_02 = len_full * 2

        # Split the reduced matrix into prompts, response_a, and response_b parts
        full_tfidf_prompts = reduced_matrix[:split_index_01]
        full_tfidf_response_a = reduced_matrix[split_index_01:split_index_02]
        full_tfidf_response_b = reduced_matrix[split_index_02:]

        # Separate the reduced matrix into training and testing sets
        len_train = len(train)
        train_tfidf_prompts = full_tfidf_prompts[:len_train]
        train_tfidf_response_a = full_tfidf_response_a[:len_train]
        train_tfidf_response_b = full_tfidf_response_b[:len_train]
        test_tfidf_prompts = full_tfidf_prompts[len_train:]
        test_tfidf_response_a = full_tfidf_response_a[len_train:]
        test_tfidf_response_b = full_tfidf_response_b[len_train:]

        # Create DataFrames to hold the SVD features for train and test sets
        feature_names = [f'svd_feature_{i}' for i in range(components)]
        train_features = pd.DataFrame(index=train.index)
        test_features = pd.DataFrame(index=test.index)

        # Assign SVD features to the respective columns in the feature DataFrames
        for i in range(components):
            train_features[f'svd_prompts_{i}'] = train_tfidf_prompts[:, i]
            train_features[f'svd_response_a_{i}'] = train_tfidf_response_a[:, i]
            train_features[f'svd_response_b_{i}'] = train_tfidf_response_b[:, i]
            test_features[f'svd_prompts_{i}'] = test_tfidf_prompts[:, i]
            test_features[f'svd_response_a_{i}'] = test_tfidf_response_a[:, i]
            test_features[f'svd_response_b_{i}'] = test_tfidf_response_b[:, i]

        # Concatenate the new features with the original train and test DataFrames
        train = pd.concat([train, train_features], axis=1)
        test = pd.concat([test, test_features], axis=1)

        # Calculate similarity and distance features
        for df, len_df in zip([train, test], [len(train), len(test)]):
            prompt_indices = df.index

            # Calculate cosine similarity features
            df['similarity_pa'], df['similarity_pb'] = zip(*[
                self.calculate_cosine_similarity(reduced_matrix, i, i + len_df, i + 2 * len_df)
                for i in prompt_indices
            ])

            # Calculate Euclidean distance features
            df['euclidean_pa'], df['euclidean_pb'] = zip(*[
                self.calculate_distances(reduced_matrix, i, i + len_df, i + 2 * len_df, 
                                         euclidean_distances)
                for i in prompt_indices
            ])

            # Calculate Laplacian kernel distance features
            df['laplacian_pa'], df['laplacian_pb']= zip(*[
                self.calculate_distances(reduced_matrix, i, i + len_df, i + 2 * len_df, 
                                         laplacian_kernel)
                for i in prompt_indices
            ])

        return train, test
    
    # Merges multiple labels into a single label
    def merge_label(self, row):
        if row["winner_model_a"] == 1:
            return 0
        if row["winner_model_b"] == 1:
            return 1
        if row["winner_tie"] == 1:
            return 2
        raise ValueError("The value is invalid.")
```

</div>
<div class="column-right">

# 日本語訳

```python
# 複数のラベルを単一のラベルにマージする
train_data["target"] = train_data[  # ターゲット列を作成
    ["winner_model_a", "winner_model_b", "winner_tie"]
].apply(lambda x: dp.merge_label(x), axis=1)  # 各行にmerge_label関数を適用してターゲットを設定
```

</div>
</details>

In [None]:
# 複数のラベルを単一のラベルにマージする
train_data["target"] = train_data[  # ターゲット列を作成
    ["winner_model_a", "winner_model_b", "winner_tie"]
].apply(lambda x: dp.merge_label(x), axis=1)  # 各行にmerge_label関数を適用してターゲットを設定

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
dp = DataPreprocessing()
```

</div>
<div class="column-right">

# 日本語訳

```python
# モデル開発 🧠
```

</div>
</details>

# モデル開発 🧠

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Add length, similarity and distance features
train_data = dp.add_features(train_data)
test_data = dp.add_features(test_data)
```

</div>
<div class="column-right">

# 日本語訳

```python
class ModelDevelopment:
    def train_lgb(self, train_data, test_data, feature_cols, params, early_stop, log_steps):
        # トレーニングデータとテストデータから特徴量とターゲットラベルを抽出
        X_train = train_data[feature_cols].values  # 特徴量の行列
        X_test = test_data[feature_cols].values    # テスト用特徴量
        Y_train = train_data["target"]              # ターゲットラベル

        # 予測を保存するリスト
        train_preds_list = []
        test_preds_list = []

        # StratifiedKFoldを初期化
        cv = StratifiedKFold(n_splits=5, random_state=42, shuffle=True)
        for fold_id, (train_index, valid_index) in enumerate(cv.split(X_train, Y_train)):
            # 現在のフォールドのためにトレーニングデータをトレーニングセットとバリデーションセットに分割
            x_train, x_valid = X_train[train_index], X_train[valid_index]
            y_train, y_valid = Y_train[train_index], Y_train[valid_index]

            # トレーニングとバリデーションのためのLightGBMデータセットオブジェクトを作成
            train = lgb.Dataset(x_train, y_train)
            valid = lgb.Dataset(x_valid, y_valid, reference=train)

            # 現在のフォールドでモデルを訓練
            model = lgb.train(
                params,
                train,
                valid_sets=[train, valid],
                feature_name=feature_cols,
                callbacks=[lgb.early_stopping(early_stop),
                           lgb.log_evaluation(log_steps)])

            # トレーニングセットとテストセットに対して予測を行う
            train_preds = model.predict(X_train)  # トレーニングデータの予測
            test_preds = model.predict(X_test)    # テストデータの予測

            train_preds_list.append(train_preds)  # トレーニング予測をリストに追加
            test_preds_list.append(test_preds)    # テスト予測をリストに追加

        # 予測の平均を計算
        train_preds = np.mean(train_preds_list, axis=0)  # トレーニング予測の平均
        test_preds = np.mean(test_preds_list, axis=0)    # テスト予測の平均

        return train_preds, test_preds  # 予測を返す
    
    # トレーニングデータ予測用の混同行列をプロット
    def plot_cm(self, y_true, y_pred, labels, colorscale):
        cm = confusion_matrix(y_true, y_pred, labels=labels)  # 混同行列を計算

        # カスタムホバーテキストフォーマッタを作成
        def format_hover_text(value):
            if value >= 10000:
                return str(int(value))  # 整数値に変換してカンマなしで返す
            else:
                return str(value)

        # ヒートマップを作成
        fig = go.Figure(data=go.Heatmap(
            z=cm,
            x=labels,
            y=labels,
            colorscale=colorscale,
            zmin=0,
            zmax=20000,
            text=cm,
            texttemplate="%{text:.0f}",
            hovertemplate="真実: %{y}<br>予測: %{x}<br>カウント: %{z:,.0f}<extra></extra>",
            customdata=[format_hover_text(value) for value in cm.flatten()]
        ))

        # 背景を透明にし、正方形のアスペクト比に設定するためにレイアウトを更新
        fig.update_layout(
            plot_bgcolor='rgba(0,0,0,0)',
            paper_bgcolor='rgba(0,0,0,0)',
            xaxis_title="予測ラベル",
            yaxis_title="真実のラベル",
            xaxis=dict(constrain='domain'),
            yaxis=dict(constrain='domain', scaleanchor='x'),
            width=650,  
            height=650,  
            margin=dict(t=65, b=65, l=65, r=65) 
        )

        # プロットを表示
        fig.show()
```

</div>
</details>

In [None]:
class ModelDevelopment:
    def train_lgb(self, train_data, test_data, feature_cols, params, early_stop, log_steps):
        # トレーニングデータとテストデータから特徴量とターゲットラベルを抽出
        X_train = train_data[feature_cols].values  # 特徴量の行列
        X_test = test_data[feature_cols].values    # テスト用特徴量
        Y_train = train_data["target"]              # ターゲットラベル

        # 予測を保存するリスト
        train_preds_list = []
        test_preds_list = []

        # StratifiedKFoldを初期化
        cv = StratifiedKFold(n_splits=5, random_state=42, shuffle=True)
        for fold_id, (train_index, valid_index) in enumerate(cv.split(X_train, Y_train)):
            # 現在のフォールドのためにトレーニングデータをトレーニングセットとバリデーションセットに分割
            x_train, x_valid = X_train[train_index], X_train[valid_index]
            y_train, y_valid = Y_train[train_index], Y_train[valid_index]

            # トレーニングとバリデーションのためのLightGBMデータセットオブジェクトを作成
            train = lgb.Dataset(x_train, y_train)
            valid = lgb.Dataset(x_valid, y_valid, reference=train)

            # 現在のフォールドでモデルを訓練
            model = lgb.train(
                params,
                train,
                valid_sets=[train, valid],
                feature_name=feature_cols,
                callbacks=[lgb.early_stopping(early_stop),
                           lgb.log_evaluation(log_steps)])

            # トレーニングセットとテストセットに対して予測を行う
            train_preds = model.predict(X_train)  # トレーニングデータの予測
            test_preds = model.predict(X_test)    # テストデータの予測

            train_preds_list.append(train_preds)  # トレーニング予測をリストに追加
            test_preds_list.append(test_preds)    # テスト予測をリストに追加

        # 予測の平均を計算
        train_preds = np.mean(train_preds_list, axis=0)  # トレーニング予測の平均
        test_preds = np.mean(test_preds_list, axis=0)    # テスト予測の平均

        return train_preds, test_preds  # 予測を返す
    
    # トレーニングデータ予測用の混同行列をプロット
    def plot_cm(self, y_true, y_pred, labels, colorscale):
        cm = confusion_matrix(y_true, y_pred, labels=labels)  # 混同行列を計算

        # カスタムホバーテキストフォーマッタを作成
        def format_hover_text(value):
            if value >= 10000:
                return str(int(value))  # 整数値に変換してカンマなしで返す
            else:
                return str(value)

        # ヒートマップを作成
        fig = go.Figure(data=go.Heatmap(
            z=cm,
            x=labels,
            y=labels,
            colorscale=colorscale,
            zmin=0,
            zmax=20000,
            text=cm,
            texttemplate="%{text:.0f}",
            hovertemplate="真実: %{y}<br>予測: %{x}<br>カウント: %{z:,.0f}<extra></extra>",
            customdata=[format_hover_text(value) for value in cm.flatten()]
        ))

        # 背景を透明にし、正方形のアスペクト比に設定するためにレイアウトを更新
        fig.update_layout(
            plot_bgcolor='rgba(0,0,0,0)',
            paper_bgcolor='rgba(0,0,0,0)',
            xaxis_title="予測ラベル",
            yaxis_title="真実のラベル",
            xaxis=dict(constrain='domain'),
            yaxis=dict(constrain='domain', scaleanchor='x'),
            width=650,  
            height=650,  
            margin=dict(t=65, b=65, l=65, r=65) 
        )

        # プロットを表示
        fig.show()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Extract TF-IDF features and perform dimensionality reduction
train_data, test_data = dp.create_tfidf_features(train_data, 
                                                 test_data, 
                                                 CFG.ngrams,
                                                 CFG.min_freq, 
                                                 CFG.max_freq, 
                                                 CFG.components)
```

</div>
<div class="column-right">

# 日本語訳

```python
md = ModelDevelopment()  # モデル開発クラスのインスタンスを作成し、モデルの訓練や評価を実行できるようにします。
```

</div>
</details>

In [None]:
md = ModelDevelopment()  # モデル開発クラスのインスタンスを作成し、モデルの訓練や評価を実行できるようにします。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Merge multiple labels into a single label
train_data["target"] = train_data[
    ["winner_model_a", "winner_model_b", "winner_tie"]
                                 ].apply(lambda x: dp.merge_label(x), axis=1)
```

</div>
<div class="column-right">

# 日本語訳

```python
# ラベル列を定義
label_cols = ["winner_model_a", "winner_model_b", "winner_tie"]

# トレーニングデータから除外する特徴量のリストを定義
excluded_features = ['id', 
                     'model_a', 
                     'model_b', 
                     'prompt', 
                     'response_a', 
                     'response_b',
                     'winner_model_a', 
                     'winner_model_b', 
                     'winner_tie', 
                     'target', 
                     'fold_id']

# 除外リストに含まれない列を特徴量としてリスト化
features = [col for col in train_data.columns if col not in excluded_features]  # 使用する特徴量のリストを作成
```

</div>
</details>

In [None]:
# ラベル列を定義
label_cols = ["winner_model_a", "winner_model_b", "winner_tie"]

# トレーニングデータから除外する特徴量のリストを定義
excluded_features = ['id', 
                     'model_a', 
                     'model_b', 
                     'prompt', 
                     'response_a', 
                     'response_b',
                     'winner_model_a', 
                     'winner_model_b', 
                     'winner_tie', 
                     'target', 
                     'fold_id']

# 除外リストに含まれない列を特徴量としてリスト化
features = [col for col in train_data.columns if col not in excluded_features]  # 使用する特徴量のリストを作成

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Model Development 🧠

</div>
<div class="column-right">

# 日本語訳

# LightGBMを訓練する
train_preds, test_preds = md.train_lgb(  # トレーニングデータとテストデータを用いてLightGBMを訓練
    train_data, 
    test_data, 
    features,  # 使用する特徴量
    CFG.params,  # モデルパラメータ
    CFG.early_stop,  # 早期終了のための基準
    CFG.log_steps  # ログステップの設定
)

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
class ModelDevelopment:
    def train_lgb(self, train_data, test_data, feature_cols, params, early_stop, log_steps):
        # Extract feature values and target labels from the training and testing data
        X_train = train_data[feature_cols].values
        X_test = test_data[feature_cols].values
        Y_train = train_data["target"]

        # List to store predictions
        train_preds_list = []
        test_preds_list = []

        # Initialize StratifiedKFold
        cv = StratifiedKFold(n_splits=5, random_state=42, shuffle=True)
        for fold_id, (train_index, valid_index) in enumerate(cv.split(X_train, Y_train)):
            # Split the training data into training and validation sets for the current fold
            x_train, x_valid = X_train[train_index], X_train[valid_index]
            y_train, y_valid = Y_train[train_index], Y_train[valid_index]

            # Create LightGBM dataset objects for training and validation
            train = lgb.Dataset(x_train, y_train)
            valid = lgb.Dataset(x_valid, y_valid, reference=train)

            # Train the model on the current fold
            model = lgb.train(
                params,
                train,
                valid_sets=[train, valid],
                feature_name=feature_cols,
                callbacks=[lgb.early_stopping(early_stop),
                           lgb.log_evaluation(log_steps)])

            # Make predictions on the train and test sets
            train_preds = model.predict(X_train)
            test_preds = model.predict(X_test)

            train_preds_list.append(train_preds)
            test_preds_list.append(test_preds)

        # Average predictions
        train_preds = np.mean(train_preds_list, axis=0)
        test_preds = np.mean(test_preds_list, axis=0)

        return train_preds, test_preds
    
    # Confusion matrix for train data predictions
    def plot_cm(self, y_true, y_pred, labels, colorscale):
        cm = confusion_matrix(y_true, y_pred, labels=labels)

        # Create a custom hover text formatter
        def format_hover_text(value):
            if value >= 10000:
                return str(int(value))  # Convert to integer without commas or "k"
            else:
                return str(value)

        # Create the heatmap
        fig = go.Figure(data=go.Heatmap(
            z=cm,
            x=labels,
            y=labels,
            colorscale=colorscale,
            zmin=0,
            zmax=20000,
            text=cm,
            texttemplate="%{text:.0f}",
            hovertemplate="True: %{y}<br>Predicted: %{x}<br>Count: %{z:,.0f}<extra></extra>",
            customdata=[format_hover_text(value) for value in cm.flatten()]
        ))

        # Update layout for a transparent background and square aspect ratio
        fig.update_layout(
            plot_bgcolor='rgba(0,0,0,0)',
            paper_bgcolor='rgba(0,0,0,0)',
            xaxis_title="Predicted Labels",
            yaxis_title="True Labels",
            xaxis=dict(constrain='domain'),
            yaxis=dict(constrain='domain', scaleanchor='x'),
            width=650,  
            height=650,  
            margin=dict(t=65, b=65, l=65, r=65) 
        )

        # Show the plot
        fig.show()
```

</div>
<div class="column-right">

# 日本語訳

```python
# トレーニングデータに対する（平均）予測の混同行列
md.plot_cm(train_data['target'], np.argmax(train_preds, axis=1), [0, 1, 2], CFG.colorscale)  # ターゲットと予測ラベルを用いて混同行列をプロット
```

</div>
</details>

In [None]:
# トレーニングデータに対する（平均）予測の混同行列
md.plot_cm(train_data['target'], np.argmax(train_preds, axis=1), [0, 1, 2], CFG.colorscale)  # ターゲットと予測ラベルを用いて混同行列をプロット

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
md = ModelDevelopment()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 予測を提出する 💡
```

</div>
</details>

# 予測を提出する 💡

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Define label columns
label_cols = ["winner_model_a", "winner_model_b", "winner_tie"]

# Define the list of features to exclude from the training data
excluded_features = ['id', 
                     'model_a', 
                     'model_b', 
                     'prompt', 
                     'response_a', 
                     'response_b',
                     'winner_model_a', 
                     'winner_model_b', 
                     'winner_tie', 
                     'target', 
                     'fold_id']

features = [col for col in train_data.columns if col not in excluded_features]
```

</div>
<div class="column-right">

# 日本語訳

```python
# 提出用データフレームに予測したテストラベルを割り当て
subm_data[label_cols] = test_preds  # テストデータの予測結果を提出データフレームに追加

# 提出データフレームを保存し、最初の3行を表示
subm_data.to_csv("submission.csv", index=False)  # 提出ファイルをCSV形式で保存
display(subm_data.head(3))  # 提出データフレームの最初の3行を表示
```

</div>
</details>

In [None]:
# 提出用データフレームに予測したテストラベルを割り当て
subm_data[label_cols] = test_preds  # テストデータの予測結果を提出データフレームに追加

# 提出データフレームを保存し、最初の3行を表示
subm_data.to_csv("submission.csv", index=False)  # 提出ファイルをCSV形式で保存
display(subm_data.head(3))  # 提出データフレームの最初の3行を表示