# 要約 
このJupyter Notebookは、LMSYS - Chatbot Arenaのコンペティションにおけるデータ分析とモデル構築に関連したタスクに取り組んでいます。以下に要約を示します。

### 問題の概要
コンペティションは、大規模言語モデル（LLM）による生成応答の好みを予測するものであり、参加者はモデルAとモデルBの応答に基づいてどちらが好まれるかを予測することが求められています。このNotebookでは、提供されるデータを分析し、モデルのパフォーマンスを評価し、最終的に新たなモデルを構築して予測を行うプロセスが示されています。

### 主な手法と使用ライブラリ
1. **データ分析**:
   - Pandasを使用してデータセットを読み込み、モデルの使用状況やパフォーマンスを可視化しています。特に、Plotlyを用いてモデルの使用頻度やトップモデルのパフォーマンスをバーグラフで表示しました。
   
2. **モデル性能分析**:
   - 各モデルの勝率を計算するために、データフレームをグループ化し集計しています。加えて、勝ち負けの応答を抽出し、それらの特徴的な言語パターンを分析しています。

3. **データ準備**:
   - データセットをトレーニングセットと検証セットに分割し（scikit-learnの`train_test_split`を使用）、前処理によりテキストを整形しています。

4. **モデル構築**:
   - KerasとKeras-NLPを用いて、DeBERTaV3モデルを実装し、カスタムモデルを構築しています。このモデルは、応答エンコーディング、クラシファイア、損失関数を設定するために十分に設計されています。

5. **トレーニングおよび評価**:
   - 学習率スケジューリングとモデルチェックポイントを設定し、トレーニングを実施。トレーニング後、最良のモデル重みを読み込みます。

6. **予測と提出ファイル作成**:
   - テストデータに対してモデルを用いて予測を行い、最終的に提出用のCSVファイルを作成しています。

このNotebookは、データの前処理、モデルの訓練、および評価過程を一連の流れで示しており、特に自然言語処理におけるLLMの応用を具体的に扱っています。使用するライブラリ（NumPy, Pandas, Plotly, Keras, Keras-NLPなど）は、データ処理、可視化、およびディープラーニングモデルの構築に不可欠な要素とされています。

---


# 用語概説 
以下は、与えられたJupyter Notebookの内容に基づいた、機械学習・深層学習の初心者がつまずく可能性のある専門用語およびその説明です。

1. **wordcloud**: 特定のテキストデータから頻出単語を視覚化するための図（ワードクラウド）。各単語の出現頻度が異なるサイズで表示され、視覚的にどの単語が重要かを示す。

2. **評価関数（loss function）**: モデルの予測値と実際の正解との間の違いを数値化する関数。モデルの性能を評価し、訓練時にはこの値を最小化することが目的。

3. **ライブラリ (library)**: プログラミングに役立つ機能の集まりで、外部からインポートして使用することができる。例: numpy, pandas, kerasなど。

4. **パディング (padding)**: 入力データの長さを揃えるために短いシーケンスに追加の値（通常はゼロ）を追加すること。特に深層学習モデルでは、一貫した入力サイズが必要。

5. **シャッフル (shuffle)**: データセットの順序をランダムに入れ替えること。訓練データの偏りを減らし、モデルの一般化能力を向上させる。

6. **混合精度 (mixed precision)**: モデルのトレーニング時に、データの一部を高精度（倍精度浮動小数点）で、別の部分を低精度（単精度浮動小数点）で行う手法。メモリの使用量を削減し、トレーニングを高速化する。

7. **データキャッシング (data caching)**: 同じデータを何度も読み込むのを避けるため、一度読み込んだデータをメモリに保持すること。これによって、後で同じデータにアクセスする際の速度が向上する。

8. **オプティマイザ (optimizer)**: モデルのパラメータを最適化するアルゴリズム。複数の種類があり、それぞれ異なる方法で重みを更新する。例: Adam, SGD（確率的勾配降下法）。

9. **グローバル平均プーリング (Global Average Pooling)**: 特徴マップの空間次元を平均値で縮約する操作。これにより、モデルの入力サイズを小さくし、過学習を防ぐ効果がある。

10. **エポック (epoch)**: トレーニングデータ全体に対して一回のトレーニングを行うこと。複数のエポックを設定することで、モデルがデータに対してより最適化される。

11. **ハイパーパラメータ (hyperparameter)**: モデルのアーキテクチャや訓練プロセスに影響を与えるが、訓練データから直接学習しない設定値。例: 学習率やエポック数。

12. **抽出 (feature extraction)**: データから特徴を抽出するプロセス。深層学習では通常、ニューラルネットワークがこのプロセスを自動的に学習する。

13. **ロス関数のスムージング (label smoothing)**: クラスラベルを完全に1（勝者モデル）か0（他のモデル）ではなく、少し柔らかくすることで、モデルが過剰に自信を持つのを防ぎ、一般化能力を向上させる。

14. **トレーニングとバリデーションの分割 (train-validation split)**: データセットを訓練用と評価用に分割するプロセス。訓練データを使用してモデルを学習させ、バリデーションデータを使ってモデルの性能を確認する。

これらの用語は、実務経験が少ない初心者にとって混乱を招く可能性があり、特にこのノートブック特有の設定やアプローチに関連するものがあります。

---


<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import numpy as np
import pandas as pd

import plotly.graph_objects as go
from plotly import express as px
from plotly.offline import init_notebook_mode, iplot

import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS
```

</div>
<div class="column-right">

# 日本語訳

```python
import numpy as np
import pandas as pd

import plotly.graph_objects as go
from plotly import express as px
from plotly.offline import init_notebook_mode, iplot

import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS
```

</div>
</details>

In [None]:
import numpy as np
import pandas as pd

import plotly.graph_objects as go
from plotly import express as px
from plotly.offline import init_notebook_mode, iplot

import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
init_notebook_mode(connected=True)

# set max column width to 500
pd.set_option("display.max_colwidth", 500)
```

</div>
<div class="column-right">

# 日本語訳

```python
init_notebook_mode(connected=True)

# 最大列幅を500に設定
pd.set_option("display.max_colwidth", 500)
```

</div>
</details>

In [None]:
init_notebook_mode(connected=True)

# 最大列幅を500に設定
pd.set_option("display.max_colwidth", 500)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
DATA_PATH = "/kaggle/input/lmsys-chatbot-arena/train.csv"
```

</div>
<div class="column-right">

# 日本語訳

```python
DATA_PATH = "/kaggle/input/lmsys-chatbot-arena/train.csv"
```

</div>
</details>

In [None]:
DATA_PATH = "/kaggle/input/lmsys-chatbot-arena/train.csv"

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Data analysis

</div>
<div class="column-right">

# 日本語訳

# データ分析


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
df = pd.read_csv(DATA_PATH)
df.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
df = pd.read_csv(DATA_PATH)
df.head()
```

</div>
</details>

In [None]:
df = pd.read_csv(DATA_PATH)
df.head()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
df.info()
```

</div>
<div class="column-right">

# 日本語訳

```python
df.info()
```

</div>
</details>

In [None]:
df.info()

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Models performance analysis

</div>
<div class="column-right">

# 日本語訳

# モデルの性能分析


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
model_usage = pd.concat([df["model_a"], df["model_b"]]).value_counts()

# How many unique models are there?
len(model_usage.keys())
```

</div>
<div class="column-right">

# 日本語訳

```python
model_usage = pd.concat([df["model_a"], df["model_b"]]).value_counts()

# ユニークなモデルの数は？
len(model_usage.keys())
```

</div>
</details>

In [None]:
model_usage = pd.concat([df["model_a"], df["model_b"]]).value_counts()

# ユニークなモデルの数は？
len(model_usage.keys())

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# plot the model usage
fig = px.bar(
    x=model_usage.index,
    y=model_usage.values,
    labels={"x": "Model", "y": "Usage times"},
    title="Model Usage Distribution",
)

fig.update_layout(width=1200, height=700)

iplot(fig)
```

</div>
<div class="column-right">

# 日本語訳

```python
# モデルの使用状況をプロットする
fig = px.bar(
    x=model_usage.index,
    y=model_usage.values,
    labels={"x": "モデル", "y": "使用回数"},
    title="モデル使用状況の分布",
)

fig.update_layout(width=1200, height=700)

iplot(fig)
```

</div>
</details>

In [None]:
# モデルの使用状況をプロットする
fig = px.bar(
    x=model_usage.index,
    y=model_usage.values,
    labels={"x": "モデル", "y": "使用回数"},
    title="モデル使用状況の分布",
)

fig.update_layout(width=1200, height=700)

iplot(fig)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# count the number of times each pair of models are compared, regardless of the order
compared_models_count = (
    pd.DataFrame(
        np.sort(df[["model_a", "model_b"]].values, axis=1),
        columns=["model_a", "model_b"],
    )
    .value_counts()
    .reset_index(name="counts")
)

len(compared_models_count)
```

</div>
<div class="column-right">

# 日本語訳

```python
# モデルのペアが比較された回数をカウント（順序に関係なく）
compared_models_count = (
    pd.DataFrame(
        np.sort(df[["model_a", "model_b"]].values, axis=1),
        columns=["model_a", "model_b"],
    )
    .value_counts()
    .reset_index(name="counts")
)

len(compared_models_count)
```

</div>
</details>

In [None]:
# モデルのペアが比較された回数をカウント（順序に関係なく）
compared_models_count = (
    pd.DataFrame(
        np.sort(df[["model_a", "model_b"]].values, axis=1),
        columns=["model_a", "model_b"],
    )
    .value_counts()
    .reset_index(name="counts")
)

len(compared_models_count)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
top_compared_models = compared_models_count.head(20)

fig = px.bar(
    x=top_compared_models["model_a"] + " vs " + top_compared_models["model_b"],
    y=top_compared_models["counts"],
    labels={"x": "Model Comparison", "y": "Comparison times"},
    title="Top 20 Model Comparison Distribution",
)

iplot(fig)
```

</div>
<div class="column-right">

# 日本語訳

```python
top_compared_models = compared_models_count.head(20)

fig = px.bar(
    x=top_compared_models["model_a"] + " vs " + top_compared_models["model_b"],
    y=top_compared_models["counts"],
    labels={"x": "モデル比較", "y": "比較回数"},
    title="トップ20のモデル比較分布",
)

iplot(fig)
```

</div>
</details>

In [None]:
top_compared_models = compared_models_count.head(20)

fig = px.bar(
    x=top_compared_models["model_a"] + " vs " + top_compared_models["model_b"],
    y=top_compared_models["counts"],
    labels={"x": "モデル比較", "y": "比較回数"},
    title="トップ20のモデル比較分布",
)

iplot(fig)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# there are 1275 combinations of compared models. How often given numbers of comparisons occur?

compared_models_count["counts"].value_counts()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 比較されたモデルの組み合わせは1275個あります。各比較数がどのくらいの頻度で発生するか？
compared_models_count["counts"].value_counts()
```

</div>
</details>

In [None]:
# 比較されたモデルの組み合わせは1275個あります。各比較数がどのくらいの頻度で発生するか？
compared_models_count["counts"].value_counts()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# bin the comparison count distribution to 10 bins
comparision_count_distribution_bins = pd.cut(
    compared_models_count["counts"],
    bins=[
        0,
        5,
        10,
        20,
        30,
        40,
        50,
        60,
        70,
        80,
        90,
        100,
        compared_models_count["counts"].max(),
    ],
    precision=0,
    retbins=False,
)

comparision_count_distribution_bins.value_counts(normalize=True).sort_index()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 比較数の分布を10個のビンに分類する
comparision_count_distribution_bins = pd.cut(
    compared_models_count["counts"],
    bins=[
        0,
        5,
        10,
        20,
        30,
        40,
        50,
        60,
        70,
        80,
        90,
        100,
        compared_models_count["counts"].max(),
    ],
    precision=0,
    retbins=False,
)

comparision_count_distribution_bins.value_counts(normalize=True).sort_index()
```

</div>
</details>

In [None]:
# 比較数の分布を10個のビンに分類する
comparision_count_distribution_bins = pd.cut(
    compared_models_count["counts"],
    bins=[
        0,
        5,
        10,
        20,
        30,
        40,
        50,
        60,
        70,
        80,
        90,
        100,
        compared_models_count["counts"].max(),
    ],
    precision=0,
    retbins=False,
)

comparision_count_distribution_bins.value_counts(normalize=True).sort_index()

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

**Which models performs the best and the worst?**

</div>
<div class="column-right">

# 日本語訳

**どのモデルが最も良いパフォーマンスを示し、どのモデルが最も悪いパフォーマンスを示すか？**


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
model_scores_part1 = df.groupby("model_a")["winner_model_a"].sum()
model_scores_part2 = df.groupby("model_b")["winner_model_b"].sum()

model_scores = model_scores_part1.add(model_scores_part2, fill_value=0)
model_scores = model_scores / (
    df["model_a"].value_counts() + df["model_b"].value_counts()
)
model_scores = model_scores.sort_values(ascending=False)
```

</div>
<div class="column-right">

# 日本語訳

```python
model_scores_part1 = df.groupby("model_a")["winner_model_a"].sum()
model_scores_part2 = df.groupby("model_b")["winner_model_b"].sum()

model_scores = model_scores_part1.add(model_scores_part2, fill_value=0)
model_scores = model_scores / (
    df["model_a"].value_counts() + df["model_b"].value_counts()
)
model_scores = model_scores.sort_values(ascending=False)
```

</div>
</details>

In [None]:
model_scores_part1 = df.groupby("model_a")["winner_model_a"].sum()
model_scores_part2 = df.groupby("model_b")["winner_model_b"].sum()

model_scores = model_scores_part1.add(model_scores_part2, fill_value=0)
model_scores = model_scores / (
    df["model_a"].value_counts() + df["model_b"].value_counts()
)
model_scores = model_scores.sort_values(ascending=False)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# top 10 best models
fig = px.bar(
    x=model_scores.head(10).index,
    y=model_scores.head(10).values,
    labels={"x": "Model", "y": "Score"},
    title="Top 10 best-rated models",
)

iplot(fig)
```

</div>
<div class="column-right">

# 日本語訳

```python
# パフォーマンスが最も良いトップ10モデル
fig = px.bar(
    x=model_scores.head(10).index,
    y=model_scores.head(10).values,
    labels={"x": "モデル", "y": "スコア"},
    title="トップ10の最高評価モデル",
)

iplot(fig)
```

</div>
</details>

In [None]:
# パフォーマンスが最も良いトップ10モデル
fig = px.bar(
    x=model_scores.head(10).index,
    y=model_scores.head(10).values,
    labels={"x": "モデル", "y": "スコア"},
    title="トップ10の最高評価モデル",
)

iplot(fig)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# top 10 worst models
fig = px.bar(
    x=model_scores.tail(10).index,
    y=model_scores.tail(10).values,
    labels={"x": "Model", "y": "Score"},
    title="Top 10 worst-rated models",
)

iplot(fig)
```

</div>
<div class="column-right">

# 日本語訳

```python
# パフォーマンスが最も悪いトップ10モデル
fig = px.bar(
    x=model_scores.tail(10).index,
    y=model_scores.tail(10).values,
    labels={"x": "モデル", "y": "スコア"},
    title="トップ10の最低評価モデル",
)

iplot(fig)
```

</div>
</details>

In [None]:
# パフォーマンスが最も悪いトップ10モデル
fig = px.bar(
    x=model_scores.tail(10).index,
    y=model_scores.tail(10).values,
    labels={"x": "モデル", "y": "スコア"},
    title="トップ10の最低評価モデル",
)

iplot(fig)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
tie_df = df.query("winner_tie == 1")
(tie_df["winner_model_a"] + tie_df["winner_model_b"]).value_counts()
```

</div>
<div class="column-right">

# 日本語訳

```python
tie_df = df.query("winner_tie == 1")
(tie_df["winner_model_a"] + tie_df["winner_model_b"]).value_counts()
```

</div>
</details>

In [None]:
tie_df = df.query("winner_tie == 1")
(tie_df["winner_model_a"] + tie_df["winner_model_b"]).value_counts()

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

**How frequent is tie?**

</div>
<div class="column-right">

# 日本語訳

**引き分けはどのくらいの頻度であるか？**


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
f"{(tie_df.shape[0] / df.shape[0]) * 100:.1f}%"
```

</div>
<div class="column-right">

# 日本語訳

```python
f"{(tie_df.shape[0] / df.shape[0]) * 100:.1f}%"
```

</div>
</details>

In [None]:
f"{(tie_df.shape[0] / df.shape[0]) * 100:.1f}%"

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Positive and negative responses analysis

</div>
<div class="column-right">

# 日本語訳

# ポジティブとネガティブな応答の分析


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# exclude tied examples
df_no_ties = df.query("winner_tie == 0")

loosing_responses = df_no_ties.apply(
    lambda x: (x["response_a"] if x["winner_model_a"] == 0 else x["response_b"]),
    axis=1,
)

loosing_responses
```

</div>
<div class="column-right">

# 日本語訳

```python
# 引き分けの例を除外する
df_no_ties = df.query("winner_tie == 0")

loosing_responses = df_no_ties.apply(
    lambda x: (x["response_a"] if x["winner_model_a"] == 0 else x["response_b"]),
    axis=1,
)

loosing_responses
```

</div>
</details>

In [None]:
# 引き分けの例を除外する
df_no_ties = df.query("winner_tie == 0")

loosing_responses = df_no_ties.apply(
    lambda x: (x["response_a"] if x["winner_model_a"] == 0 else x["response_b"]),
    axis=1,
)

loosing_responses

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
winning_responses = df_no_ties.apply(
    lambda x: (x["response_a"] if x["winner_model_a"] == 1 else x["response_b"]),
    axis=1,
)
```

</div>
<div class="column-right">

# 日本語訳

```python
winning_responses = df_no_ties.apply(
    lambda x: (x["response_a"] if x["winner_model_a"] == 1 else x["response_b"]),
    axis=1,
)
```

</div>
</details>

In [None]:
winning_responses = df_no_ties.apply(
    lambda x: (x["response_a"] if x["winner_model_a"] == 1 else x["response_b"]),
    axis=1,
)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# loosing responses must be cleaned
loosing_responses = loosing_responses.str.strip("[]")
loosing_responses = loosing_responses.str.strip('"')

winning_responses = winning_responses.str.strip("[]")
winning_responses = winning_responses.str.strip('"')
```

</div>
<div class="column-right">

# 日本語訳

```python
# 負けた応答はクリーンアップする必要があります
loosing_responses = loosing_responses.str.strip("[]")
loosing_responses = loosing_responses.str.strip('"')

winning_responses = winning_responses.str.strip("[]")
winning_responses = winning_responses.str.strip('"')
```

</div>
</details>

In [None]:
# 負けた応答はクリーンアップする必要があります
loosing_responses = loosing_responses.str.strip("[]")
loosing_responses = loosing_responses.str.strip('"')

winning_responses = winning_responses.str.strip("[]")
winning_responses = winning_responses.str.strip('"')

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
df_no_ties["winning_response"] = winning_responses
df_no_ties["loosing_response"] = loosing_responses
```

</div>
<div class="column-right">

# 日本語訳

```python
df_no_ties["winning_response"] = winning_responses
df_no_ties["loosing_response"] = loosing_responses
```

</div>
</details>

In [None]:
df_no_ties["winning_response"] = winning_responses
df_no_ties["loosing_response"] = loosing_responses

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
texts = [
    "I do not feel comfortable",
    "I'm sorry, but",
    "I am sorry, but",
    "I apologize, but",
    "Unfortunately I",
    "I do not have enough",
    "I'm just an AI",
    "I'm an AI and",
    "I'm afraid",
    "I can't",
]

unprecise_responses = []
for _, row in df_no_ties.iterrows():
    if row["loosing_response"].startswith(tuple(texts)):
        if row["winning_response"].startswith(tuple(texts)):
            unprecise_responses.append("both")
        else:
            unprecise_responses.append("loosing")
    elif row["winning_response"].startswith(tuple(texts)):
        unprecise_responses.append("winning")
    else:
        continue

pd.Series(unprecise_responses).value_counts(normalize=True)
```

</div>
<div class="column-right">

# 日本語訳

```python
texts = [
    "私は快適ではありません",
    "申し訳ありませんが",
    "ごめんなさい、しかし",
    "申し訳ありませんが",
    "残念ながら私は",
    "十分ではありません",
    "私はAIに過ぎません",
    "私はAIであり、",
    "私は恐れている",
    "私はできません",
]

unprecise_responses = []
for _, row in df_no_ties.iterrows():
    if row["loosing_response"].startswith(tuple(texts)):
        if row["winning_response"].startswith(tuple(texts)):
            unprecise_responses.append("両方")
        else:
            unprecise_responses.append("負け")
    elif row["winning_response"].startswith(tuple(texts)):
        unprecise_responses.append("勝ち")
    else:
        continue

pd.Series(unprecise_responses).value_counts(normalize=True)
```

</div>
</details>

In [None]:
texts = [
    "私は快適ではありません",
    "申し訳ありませんが",
    "ごめんなさい、しかし",
    "申し訳ありませんが",
    "残念ながら私は",
    "十分ではありません",
    "私はAIに過ぎません",
    "私はAIであり、",
    "私は恐れている",
    "私はできません",
]

unprecise_responses = []
for _, row in df_no_ties.iterrows():
    if row["loosing_response"].startswith(tuple(texts)):
        if row["winning_response"].startswith(tuple(texts)):
            unprecise_responses.append("両方")
        else:
            unprecise_responses.append("負け")
    elif row["winning_response"].startswith(tuple(texts)):
        unprecise_responses.append("勝ち")
    else:
        continue

pd.Series(unprecise_responses).value_counts(normalize=True)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import os
os.environ["KERAS_BACKEND"] = "jax"  # or "tensorflow" or "torch"

import keras_nlp
import keras
import tensorflow as tf

import numpy as np 
import pandas as pd
from tqdm import tqdm
import json

import matplotlib.pyplot as plt
import matplotlib as mpl
import plotly.express as px
```

</div>
<div class="column-right">

# 日本語訳

```python
import os
os.environ["KERAS_BACKEND"] = "jax"  # "tensorflow" または "torch" を指定

import keras_nlp
import keras
import tensorflow as tf

import numpy as np 
import pandas as pd
from tqdm import tqdm
import json

import matplotlib.pyplot as plt
import matplotlib as mpl
import plotly.express as px
```

</div>
</details>

In [None]:
import os
os.environ["KERAS_BACKEND"] = "jax"  # "tensorflow" または "torch" を指定

import keras_nlp
import keras
import tensorflow as tf

import numpy as np 
import pandas as pd
from tqdm import tqdm
import json

import matplotlib.pyplot as plt
import matplotlib as mpl
import plotly.express as px

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
class CFG:
    seed = 42  # Random seed
    preset = "deberta_v3_extra_small_en" # Name of pretrained models
    sequence_length = 512  # Input sequence length
    epochs = 3 # Training epochs
    batch_size = 16  # Batch size
    scheduler = 'cosine'  # Learning rate scheduler
    label2name = {0: 'winner_model_a', 1: 'winner_model_b', 2: 'winner_tie'}
    name2label = {v:k for k, v in label2name.items()}
    class_labels = list(label2name.keys())
    class_names = list(label2name.values())
```

</div>
<div class="column-right">

# 日本語訳

```python
class CFG:
    seed = 42  # ランダムシード
    preset = "deberta_v3_extra_small_en" # 事前学習済みモデルの名前
    sequence_length = 512  # 入力シーケンスの長さ
    epochs = 3 # トレーニングエポック数
    batch_size = 16  # バッチサイズ
    scheduler = 'cosine'  # 学習率スケジューラ
    label2name = {0: 'winner_model_a', 1: 'winner_model_b', 2: 'winner_tie'}
    name2label = {v:k for k, v in label2name.items()}
    class_labels = list(label2name.keys())
    class_names = list(label2name.values())
```

</div>
</details>

In [None]:
class CFG:
    seed = 42  # ランダムシード
    preset = "deberta_v3_extra_small_en" # 事前学習済みモデルの名前
    sequence_length = 512  # 入力シーケンスの長さ
    epochs = 3 # トレーニングエポック数
    batch_size = 16  # バッチサイズ
    scheduler = 'cosine'  # 学習率スケジューラ
    label2name = {0: 'winner_model_a', 1: 'winner_model_b', 2: 'winner_tie'}
    name2label = {v:k for k, v in label2name.items()}
    class_labels = list(label2name.keys())
    class_names = list(label2name.values())

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
keras.utils.set_random_seed(CFG.seed)
```

</div>
<div class="column-right">

# 日本語訳

```python
keras.utils.set_random_seed(CFG.seed)
```

</div>
</details>

In [None]:
keras.utils.set_random_seed(CFG.seed)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
keras.mixed_precision.set_global_policy("mixed_float16")
```

</div>
<div class="column-right">

# 日本語訳

```python
keras.mixed_precision.set_global_policy("mixed_float16")
```

</div>
</details>

In [None]:
keras.mixed_precision.set_global_policy("mixed_float16")

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
BASE_PATH = '/kaggle/input/lmsys-chatbot-arena'
```

</div>
<div class="column-right">

# 日本語訳

```python
BASE_PATH = '/kaggle/input/lmsys-chatbot-arena'
```

</div>
</details>

In [None]:
BASE_PATH = '/kaggle/input/lmsys-chatbot-arena'

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
BASE_PATH
```

</div>
<div class="column-right">

# 日本語訳

```python
BASE_PATH
```

</div>
</details>

In [None]:
BASE_PATH

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Load Train Data
df = pd.read_csv(f'{BASE_PATH}/train.csv') 

# Sample data
# df = df.sample(frac=0.10)

# Take the first prompt and its associated response
df["prompt"] = df.prompt.map(lambda x: eval(x)[0])
df["response_a"] = df.response_a.map(lambda x: eval(x.replace("null","''"))[0])
df["response_b"] = df.response_b.map(lambda x: eval(x.replace("null", "''"))[0])

# Label conversion
df["class_name"] = df[["winner_model_a", "winner_model_b" , "winner_tie"]].idxmax(axis=1)
df["class_label"] = df.class_name.map(CFG.name2label)

# Show Sample
df.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
# トレーニングデータを読み込む
df = pd.read_csv(f'{BASE_PATH}/train.csv') 

# データのサンプリング
# df = df.sample(frac=0.10)

# 最初のプロンプトとその関連する応答を取得
df["prompt"] = df.prompt.map(lambda x: eval(x)[0])
df["response_a"] = df.response_a.map(lambda x: eval(x.replace("null","''"))[0])
df["response_b"] = df.response_b.map(lambda x: eval(x.replace("null", "''"))[0])

# ラベル変換
df["class_name"] = df[["winner_model_a", "winner_model_b" , "winner_tie"]].idxmax(axis=1)
df["class_label"] = df.class_name.map(CFG.name2label)

# サンプルを表示
df.head()
```

</div>
</details>

In [None]:
# トレーニングデータを読み込む
df = pd.read_csv(f'{BASE_PATH}/train.csv') 

# データのサンプリング
# df = df.sample(frac=0.10)

# 最初のプロンプトとその関連する応答を取得
df["prompt"] = df.prompt.map(lambda x: eval(x)[0])
df["response_a"] = df.response_a.map(lambda x: eval(x.replace("null","''"))[0])
df["response_b"] = df.response_b.map(lambda x: eval(x.replace("null", "''"))[0])

# ラベル変換
df["class_name"] = df[["winner_model_a", "winner_model_b" , "winner_tie"]].idxmax(axis=1)
df["class_label"] = df.class_name.map(CFG.name2label)

# サンプルを表示
df.head()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Load Test Data
test_df = pd.read_csv(f'{BASE_PATH}/test.csv')

# Take the first prompt and response
test_df["prompt"] = test_df.prompt.map(lambda x: eval(x)[0])
test_df["response_a"] = test_df.response_a.map(lambda x: eval(x.replace("null","''"))[0])
test_df["response_b"] = test_df.response_b.map(lambda x: eval(x.replace("null", "''"))[0])

# Show Sample
test_df.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
# テストデータを読み込む
test_df = pd.read_csv(f'{BASE_PATH}/test.csv')

# 最初のプロンプトと応答を取得
test_df["prompt"] = test_df.prompt.map(lambda x: eval(x)[0])
test_df["response_a"] = test_df.response_a.map(lambda x: eval(x.replace("null","''"))[0])
test_df["response_b"] = test_df.response_b.map(lambda x: eval(x.replace("null", "''"))[0])

# サンプルを表示
test_df.head()
```

</div>
</details>

In [None]:
# テストデータを読み込む
test_df = pd.read_csv(f'{BASE_PATH}/test.csv')

# 最初のプロンプトと応答を取得
test_df["prompt"] = test_df.prompt.map(lambda x: eval(x)[0])
test_df["response_a"] = test_df.response_a.map(lambda x: eval(x.replace("null","''"))[0])
test_df["response_b"] = test_df.response_b.map(lambda x: eval(x.replace("null", "''"))[0])

# サンプルを表示
test_df.head()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Define a function to create options based on the prompt and choices
def make_pairs(row):
    row["encode_fail"] = False
    try:
        prompt = row.prompt.encode("utf-8").decode("utf-8")
    except:
        prompt = ""
        row["encode_fail"] = True

    try:
        response_a = row.response_a.encode("utf-8").decode("utf-8")
    except:
        response_a = ""
        row["encode_fail"] = True

    try:
        response_b = row.response_b.encode("utf-8").decode("utf-8")
    except:
        response_b = ""
        row["encode_fail"] = True
        
    row['options'] = [f"Prompt: {prompt}\n\nResponse: {response_a}",  # Response from Model A
                      f"Prompt: {prompt}\n\nResponse: {response_b}"  # Response from Model B
                     ]
    return row
```

</div>
<div class="column-right">

# 日本語訳

```python
# プロンプトと選択肢に基づいてオプションを作成する関数を定義
def make_pairs(row):
    row["encode_fail"] = False
    try:
        prompt = row.prompt.encode("utf-8").decode("utf-8")
    except:
        prompt = ""
        row["encode_fail"] = True

    try:
        response_a = row.response_a.encode("utf-8").decode("utf-8")
    except:
        response_a = ""
        row["encode_fail"] = True

    try:
        response_b = row.response_b.encode("utf-8").decode("utf-8")
    except:
        response_b = ""
        row["encode_fail"] = True
        
    row['options'] = [f"プロンプト: {prompt}\n\n応答: {response_a}",  # モデルAからの応答
                      f"プロンプト: {prompt}\n\n応答: {response_b}"  # モデルBからの応答
                     ]
    return row
```

</div>
</details>

In [None]:
# プロンプトと選択肢に基づいてオプションを作成する関数を定義
def make_pairs(row):
    row["encode_fail"] = False
    try:
        prompt = row.prompt.encode("utf-8").decode("utf-8")
    except:
        prompt = ""
        row["encode_fail"] = True

    try:
        response_a = row.response_a.encode("utf-8").decode("utf-8")
    except:
        response_a = ""
        row["encode_fail"] = True

    try:
        response_b = row.response_b.encode("utf-8").decode("utf-8")
    except:
        response_b = ""
        row["encode_fail"] = True
        
    row['options'] = [f"プロンプト: {prompt}\n\n応答: {response_a}",  # モデルAからの応答
                      f"プロンプト: {prompt}\n\n応答: {response_b}"  # モデルBからの応答
                     ]
    return row

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
df = df.apply(make_pairs, axis=1)  # Apply the make_pairs function to each row in df
display(df.head(2))  # Display the first 2 rows of df

test_df = test_df.apply(make_pairs, axis=1)  # Apply the make_pairs function to each row in df
display(test_df.head(2))  # Display the first 2 rows of df
```

</div>
<div class="column-right">

# 日本語訳

```python
df = df.apply(make_pairs, axis=1)  # make_pairs関数をdfの各行に適用
display(df.head(2))  # dfの最初の2行を表示

test_df = test_df.apply(make_pairs, axis=1)  # make_pairs関数をtest_dfの各行に適用
display(test_df.head(2))  # test_dfの最初の2行を表示
```

</div>
</details>

In [None]:
df = df.apply(make_pairs, axis=1)  # make_pairs関数をdfの各行に適用
display(df.head(2))  # dfの最初の2行を表示

test_df = test_df.apply(make_pairs, axis=1)  # make_pairs関数をtest_dfの各行に適用
display(test_df.head(2))  # test_dfの最初の2行を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
df.encode_fail.value_counts(normalize=False)
```

</div>
<div class="column-right">

# 日本語訳

```python
df.encode_fail.value_counts(normalize=False)
```

</div>
</details>

In [None]:
df.encode_fail.value_counts(normalize=False)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
model_df = pd.concat([df.model_a, df.model_b])
counts = model_df.value_counts().reset_index()
counts.columns = ['LLM', 'Count']

# Create a bar plot with custom styling using Plotly
fig = px.bar(counts, x='LLM', y='Count',
             title='Distribution of LLMs',
             color='Count', color_continuous_scale='viridis')

fig.update_layout(xaxis_tickangle=-45)  # Rotate x-axis labels for better readability

fig.show()
```

</div>
<div class="column-right">

# 日本語訳

```python
model_df = pd.concat([df.model_a, df.model_b])
counts = model_df.value_counts().reset_index()
counts.columns = ['LLM', 'Count']

# Plotlyを使用してカスタムスタイリングのバープロットを作成
fig = px.bar(counts, x='LLM', y='Count',
             title='LLMの分布',
             color='Count', color_continuous_scale='viridis')

fig.update_layout(xaxis_tickangle=-45)  # x軸のラベルを回転して読みやすくする

fig.show()
```

</div>
</details>

In [None]:
model_df = pd.concat([df.model_a, df.model_b])
counts = model_df.value_counts().reset_index()
counts.columns = ['LLM', 'Count']

# Plotlyを使用してカスタムスタイリングのバープロットを作成
fig = px.bar(counts, x='LLM', y='Count',
             title='LLMの分布',
             color='Count', color_continuous_scale='viridis')

fig.update_layout(xaxis_tickangle=-45)  # x軸のラベルを回転して読みやすくする

fig.show()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
counts = df['class_name'].value_counts().reset_index()
counts.columns = ['Winner', 'Win Count']

fig = px.bar(counts, x='Winner', y='Win Count',
             title='Winner distribution for Train Data',
             labels={'Winner': 'Winner', 'Win Count': 'Win Count'},
             color='Winner', color_continuous_scale='viridis')

fig.update_layout(xaxis_title="Winner", yaxis_title="Win Count")

fig.show()
```

</div>
<div class="column-right">

# 日本語訳

```python
counts = df['class_name'].value_counts().reset_index()
counts.columns = ['Winner', 'Win Count']

fig = px.bar(counts, x='Winner', y='Win Count',
             title='訓練データの勝者の分布',
             labels={'Winner': '勝者', 'Win Count': '勝利回数'},
             color='Winner', color_continuous_scale='viridis')

fig.update_layout(xaxis_title="勝者", yaxis_title="勝利回数")

fig.show()
```

</div>
</details>

In [None]:
counts = df['class_name'].value_counts().reset_index()
counts.columns = ['Winner', 'Win Count']

fig = px.bar(counts, x='Winner', y='Win Count',
             title='訓練データの勝者の分布',
             labels={'Winner': '勝者', 'Win Count': '勝利回数'},
             color='Winner', color_continuous_scale='viridis')

fig.update_layout(xaxis_title="勝者", yaxis_title="勝利回数")

fig.show()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
from sklearn.model_selection import train_test_split  # Import package

train_df, valid_df = train_test_split(df, test_size=0.2, stratify=df["class_label"])
```

</div>
<div class="column-right">

# 日本語訳

```python
from sklearn.model_selection import train_test_split  # パッケージをインポート

train_df, valid_df = train_test_split(df, test_size=0.2, stratify=df["class_label"])
```

</div>
</details>

In [None]:
from sklearn.model_selection import train_test_split  # パッケージをインポート

train_df, valid_df = train_test_split(df, test_size=0.2, stratify=df["class_label"])

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
preprocessor = keras_nlp.models.DebertaV3Preprocessor.from_preset(
    preset=CFG.preset, # Name of the model
    sequence_length=CFG.sequence_length, # Max sequence length, will be padded if shorter
)
```

</div>
<div class="column-right">

# 日本語訳

```python
preprocessor = keras_nlp.models.DebertaV3Preprocessor.from_preset(
    preset=CFG.preset, # モデルの名前
    sequence_length=CFG.sequence_length, # 最大シーケンス長、短い場合はパディングされる
)
```

</div>
</details>

In [None]:
preprocessor = keras_nlp.models.DebertaV3Preprocessor.from_preset(
    preset=CFG.preset, # モデルの名前
    sequence_length=CFG.sequence_length, # 最大シーケンス長、短い場合はパディングされる
)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
outs = preprocessor(df.options.iloc[0])  # Process options for the first row

# Display the shape of each processed output
for k, v in outs.items():
    print(k, ":", v.shape)
```

</div>
<div class="column-right">

# 日本語訳

```python
outs = preprocessor(df.options.iloc[0])  # 最初の行のオプションを処理する

# 各処理された出力の形状を表示
for k, v in outs.items():
    print(k, ":", v.shape)
```

</div>
</details>

In [None]:
outs = preprocessor(df.options.iloc[0])  # 最初の行のオプションを処理する

# 各処理された出力の形状を表示
for k, v in outs.items():
    print(k, ":", v.shape)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
def preprocess_fn(text, label=None):
    text = preprocessor(text)  # Preprocess text
    return (text, label) if label is not None else text  # Return processed text and label if available
```

</div>
<div class="column-right">

# 日本語訳

```python
def preprocess_fn(text, label=None):
    text = preprocessor(text)  # テキストを前処理
    return (text, label) if label is not None else text  # ラベルがあれば処理済みテキストとラベルを返す
```

</div>
</details>

In [None]:
def preprocess_fn(text, label=None):
    text = preprocessor(text)  # テキストを前処理
    return (text, label) if label is not None else text  # ラベルがあれば処理済みテキストとラベルを返す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
def build_dataset(texts, labels=None, batch_size=32,
                  cache=True, shuffle=1024):
    AUTO = tf.data.AUTOTUNE  # AUTOTUNE option
    slices = (texts,) if labels is None else (texts, keras.utils.to_categorical(labels, num_classes=3))  # Create slices
    ds = tf.data.Dataset.from_tensor_slices(slices)  # Create dataset from slices
    ds = ds.cache() if cache else ds  # Cache dataset if enabled
    ds = ds.map(preprocess_fn, num_parallel_calls=AUTO)  # Map preprocessing function
    opt = tf.data.Options()  # Create dataset options
    if shuffle: 
        ds = ds.shuffle(shuffle, seed=CFG.seed)  # Shuffle dataset if enabled
        opt.experimental_deterministic = False
    ds = ds.with_options(opt)  # Set dataset options
    ds = ds.batch(batch_size, drop_remainder=False)  # Batch dataset
    ds = ds.prefetch(AUTO)  # Prefetch next batch
    return ds  # Return the built dataset
```

</div>
<div class="column-right">

# 日本語訳

```python
def build_dataset(texts, labels=None, batch_size=32,
                  cache=True, shuffle=1024):
    AUTO = tf.data.AUTOTUNE  # AUTOTUNEオプション
    slices = (texts,) if labels is None else (texts, keras.utils.to_categorical(labels, num_classes=3))  # スライスを作成
    ds = tf.data.Dataset.from_tensor_slices(slices)  # スライスからデータセットを作成
    ds = ds.cache() if cache else ds  # キャッシュを有効にする場合はデータセットをキャッシュ
    ds = ds.map(preprocess_fn, num_parallel_calls=AUTO)  # 前処理関数をマッピング
    opt = tf.data.Options()  # データセットオプションを作成
    if shuffle: 
        ds = ds.shuffle(shuffle, seed=CFG.seed)  # シャッフルが有効な場合はデータセットをシャッフル
        opt.experimental_deterministic = False
    ds = ds.with_options(opt)  # データセットオプションを設定
    ds = ds.batch(batch_size, drop_remainder=False)  # データセットをバッチ処理
    ds = ds.prefetch(AUTO)  # 次のバッチを事前取得
    return ds  # 構築したデータセットを返す
```

</div>
</details>

In [None]:
def build_dataset(texts, labels=None, batch_size=32,
                  cache=True, shuffle=1024):
    AUTO = tf.data.AUTOTUNE  # AUTOTUNEオプション
    slices = (texts,) if labels is None else (texts, keras.utils.to_categorical(labels, num_classes=3))  # スライスを作成
    ds = tf.data.Dataset.from_tensor_slices(slices)  # スライスからデータセットを作成
    ds = ds.cache() if cache else ds  # キャッシュを有効にする場合はデータセットをキャッシュ
    ds = ds.map(preprocess_fn, num_parallel_calls=AUTO)  # 前処理関数をマッピング
    opt = tf.data.Options()  # データセットオプションを作成
    if shuffle: 
        ds = ds.shuffle(shuffle, seed=CFG.seed)  # シャッフルが有効な場合はデータセットをシャッフル
        opt.experimental_deterministic = False
    ds = ds.with_options(opt)  # データセットオプションを設定
    ds = ds.batch(batch_size, drop_remainder=False)  # データセットをバッチ処理
    ds = ds.prefetch(AUTO)  # 次のバッチを事前取得
    return ds  # 構築したデータセットを返す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Train
train_texts = train_df.options.tolist()  # Extract training texts
train_labels = train_df.class_label.tolist()  # Extract training labels
train_ds = build_dataset(train_texts, train_labels,
                         batch_size=CFG.batch_size,
                         shuffle=True)

# Valid
valid_texts = valid_df.options.tolist()  # Extract validation texts
valid_labels = valid_df.class_label.tolist()  # Extract validation labels
valid_ds = build_dataset(valid_texts, valid_labels,
                         batch_size=CFG.batch_size,
                         shuffle=False)
```

</div>
<div class="column-right">

# 日本語訳

```python
# トレーニング
train_texts = train_df.options.tolist()  # トレーニングテキストを抽出
train_labels = train_df.class_label.tolist()  # トレーニングラベルを抽出
train_ds = build_dataset(train_texts, train_labels,
                         batch_size=CFG.batch_size,
                         shuffle=True)

# 検証
valid_texts = valid_df.options.tolist()  # 検証テキストを抽出
valid_labels = valid_df.class_label.tolist()  # 検証ラベルを抽出
valid_ds = build_dataset(valid_texts, valid_labels,
                         batch_size=CFG.batch_size,
                         shuffle=False)
```

</div>
</details>

In [None]:
# トレーニング
train_texts = train_df.options.tolist()  # トレーニングテキストを抽出
train_labels = train_df.class_label.tolist()  # トレーニングラベルを抽出
train_ds = build_dataset(train_texts, train_labels,
                         batch_size=CFG.batch_size,
                         shuffle=True)

# 検証
valid_texts = valid_df.options.tolist()  # 検証テキストを抽出
valid_labels = valid_df.class_label.tolist()  # 検証ラベルを抽出
valid_ds = build_dataset(valid_texts, valid_labels,
                         batch_size=CFG.batch_size,
                         shuffle=False)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import math

def get_lr_callback(batch_size=8, mode='cos', epochs=10, plot=False):
    lr_start, lr_max, lr_min = 1.0e-6, 0.6e-6 * batch_size, 1e-6
    lr_ramp_ep, lr_sus_ep, lr_decay = 2, 0, 0.8

    def lrfn(epoch):  # Learning rate update function
        if epoch < lr_ramp_ep: lr = (lr_max - lr_start) / lr_ramp_ep * epoch + lr_start
        elif epoch < lr_ramp_ep + lr_sus_ep: lr = lr_max
        elif mode == 'exp': lr = (lr_max - lr_min) * lr_decay**(epoch - lr_ramp_ep - lr_sus_ep) + lr_min
        elif mode == 'step': lr = lr_max * lr_decay**((epoch - lr_ramp_ep - lr_sus_ep) // 2)
        elif mode == 'cos':
            decay_total_epochs, decay_epoch_index = epochs - lr_ramp_ep - lr_sus_ep + 3, epoch - lr_ramp_ep - lr_sus_ep
            phase = math.pi * decay_epoch_index / decay_total_epochs
            lr = (lr_max - lr_min) * 0.5 * (1 + math.cos(phase)) + lr_min
        return lr

    if plot:  # Plot lr curve if plot is True
        plt.figure(figsize=(10, 5))
        plt.plot(np.arange(epochs), [lrfn(epoch) for epoch in np.arange(epochs)], marker='o')
        plt.xlabel('epoch'); plt.ylabel('lr')
        plt.title('LR Scheduler')
        plt.show()

    return keras.callbacks.LearningRateScheduler(lrfn, verbose=False)  # Create lr callback
```

</div>
<div class="column-right">

# 日本語訳

```python
import math

def get_lr_callback(batch_size=8, mode='cos', epochs=10, plot=False):
    lr_start, lr_max, lr_min = 1.0e-6, 0.6e-6 * batch_size, 1e-6
    lr_ramp_ep, lr_sus_ep, lr_decay = 2, 0, 0.8

    def lrfn(epoch):  # 学習率更新関数
        if epoch < lr_ramp_ep: lr = (lr_max - lr_start) / lr_ramp_ep * epoch + lr_start
        elif epoch < lr_ramp_ep + lr_sus_ep: lr = lr_max
        elif mode == 'exp': lr = (lr_max - lr_min) * lr_decay**(epoch - lr_ramp_ep - lr_sus_ep) + lr_min
        elif mode == 'step': lr = lr_max * lr_decay**((epoch - lr_ramp_ep - lr_sus_ep) // 2)
        elif mode == 'cos':
            decay_total_epochs, decay_epoch_index = epochs - lr_ramp_ep - lr_sus_ep + 3, epoch - lr_ramp_ep - lr_sus_ep
            phase = math.pi * decay_epoch_index / decay_total_epochs
            lr = (lr_max - lr_min) * 0.5 * (1 + math.cos(phase)) + lr_min
        return lr

    if plot:  # plotがTrueの場合はlr曲線をプロット
        plt.figure(figsize=(10, 5))
        plt.plot(np.arange(epochs), [lrfn(epoch) for epoch in np.arange(epochs)], marker='o')
        plt.xlabel('エポック'); plt.ylabel('学習率')
        plt.title('学習率スケジューラ')
        plt.show()

    return keras.callbacks.LearningRateScheduler(lrfn, verbose=False)  # lrコールバックを作成
```

</div>
</details>

In [None]:
import math

def get_lr_callback(batch_size=8, mode='cos', epochs=10, plot=False):
    lr_start, lr_max, lr_min = 1.0e-6, 0.6e-6 * batch_size, 1e-6
    lr_ramp_ep, lr_sus_ep, lr_decay = 2, 0, 0.8

    def lrfn(epoch):  # 学習率更新関数
        if epoch < lr_ramp_ep: lr = (lr_max - lr_start) / lr_ramp_ep * epoch + lr_start
        elif epoch < lr_ramp_ep + lr_sus_ep: lr = lr_max
        elif mode == 'exp': lr = (lr_max - lr_min) * lr_decay**(epoch - lr_ramp_ep - lr_sus_ep) + lr_min
        elif mode == 'step': lr = lr_max * lr_decay**((epoch - lr_ramp_ep - lr_sus_ep) // 2)
        elif mode == 'cos':
            decay_total_epochs, decay_epoch_index = epochs - lr_ramp_ep - lr_sus_ep + 3, epoch - lr_ramp_ep - lr_sus_ep
            phase = math.pi * decay_epoch_index / decay_total_epochs
            lr = (lr_max - lr_min) * 0.5 * (1 + math.cos(phase)) + lr_min
        return lr

    if plot:  # plotがTrueの場合はlr曲線をプロット
        plt.figure(figsize=(10, 5))
        plt.plot(np.arange(epochs), [lrfn(epoch) for epoch in np.arange(epochs)], marker='o')
        plt.xlabel('エポック'); plt.ylabel('学習率')
        plt.title('学習率スケジューラ')
        plt.show()

    return keras.callbacks.LearningRateScheduler(lrfn, verbose=False)  # lrコールバックを作成

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
lr_cb = get_lr_callback(CFG.batch_size, plot=True)
```

</div>
<div class="column-right">

# 日本語訳

```python
lr_cb = get_lr_callback(CFG.batch_size, plot=True)
```

</div>
</details>

In [None]:
lr_cb = get_lr_callback(CFG.batch_size, plot=True)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
ckpt_cb = keras.callbacks.ModelCheckpoint(f'best_model.weights.h5',
                                          monitor='val_log_loss',
                                          save_best_only=True,
                                          save_weights_only=True,
                                          mode='min')
```

</div>
<div class="column-right">

# 日本語訳

```python
ckpt_cb = keras.callbacks.ModelCheckpoint(f'best_model.weights.h5',
                                          monitor='val_log_loss',
                                          save_best_only=True,
                                          save_weights_only=True,
                                          mode='min')
```

</div>
</details>

In [None]:
ckpt_cb = keras.callbacks.ModelCheckpoint(f'best_model.weights.h5',
                                          monitor='val_log_loss',
                                          save_best_only=True,
                                          save_weights_only=True,
                                          mode='min')

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
log_loss = keras.metrics.CategoricalCrossentropy(name="log_loss")
```

</div>
<div class="column-right">

# 日本語訳

```python
log_loss = keras.metrics.CategoricalCrossentropy(name="log_loss")
```

</div>
</details>

In [None]:
log_loss = keras.metrics.CategoricalCrossentropy(name="log_loss")

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Define input layers
inputs = {
    "token_ids": keras.Input(shape=(2, None), dtype=tf.int32, name="token_ids"),
    "padding_mask": keras.Input(shape=(2, None), dtype=tf.int32, name="padding_mask"),
}
# Create a DebertaV3Classifier backbone
backbone = keras_nlp.models.DebertaV3Backbone.from_preset(
    CFG.preset,
)

# Compute embeddings for first response: (P + R_A) using backbone
response_a = {k: v[:, 0, :] for k, v in inputs.items()}
embed_a = backbone(response_a)

# Compute embeddings for second response: (P + R_B), using the same backbone
response_b = {k: v[:, 1, :] for k, v in inputs.items()}
embed_b = backbone(response_b)

# Compute final output
embeds = keras.layers.Concatenate(axis=-1)([embed_a, embed_b])
embeds = keras.layers.GlobalAveragePooling1D()(embeds)
outputs = keras.layers.Dense(3, activation="softmax", name="classifier")(embeds)
model = keras.Model(inputs, outputs)

# Compile the model with optimizer, loss, and metrics
model.compile(
    optimizer=keras.optimizers.Adam(5e-6),
    loss=keras.losses.CategoricalCrossentropy(label_smoothing=0.02),
    metrics=[
        log_loss,
        keras.metrics.CategoricalAccuracy(name="accuracy"),
    ],
)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 入力レイヤーの定義
inputs = {
    "token_ids": keras.Input(shape=(2, None), dtype=tf.int32, name="token_ids"),
    "padding_mask": keras.Input(shape=(2, None), dtype=tf.int32, name="padding_mask"),
}
# DebertaV3Classifierバッックボーンの作成
backbone = keras_nlp.models.DebertaV3Backbone.from_preset(
    CFG.preset,
)

# 最初の応答の埋め込みを計算: (P + R_A) バックボーンを使用
response_a = {k: v[:, 0, :] for k, v in inputs.items()}
embed_a = backbone(response_a)

# 2番目の応答の埋め込みを計算: (P + R_B) 同じバックボーンを使用
response_b = {k: v[:, 1, :] for k, v in inputs.items()}
embed_b = backbone(response_b)

# 最終出力を計算
embeds = keras.layers.Concatenate(axis=-1)([embed_a, embed_b])
embeds = keras.layers.GlobalAveragePooling1D()(embeds)
outputs = keras.layers.Dense(3, activation="softmax", name="classifier")(embeds)
model = keras.Model(inputs, outputs)

# オプティマイザ、損失、およびメトリクスを指定してモデルをコンパイル
model.compile(
    optimizer=keras.optimizers.Adam(5e-6),
    loss=keras.losses.CategoricalCrossentropy(label_smoothing=0.02),
    metrics=[
        log_loss,
        keras.metrics.CategoricalAccuracy(name="accuracy"),
    ],
)
```

</div>
</details>

In [None]:
# 入力レイヤーの定義
inputs = {
    "token_ids": keras.Input(shape=(2, None), dtype=tf.int32, name="token_ids"),
    "padding_mask": keras.Input(shape=(2, None), dtype=tf.int32, name="padding_mask"),
}
# DebertaV3Classifierバッックボーンの作成
backbone = keras_nlp.models.DebertaV3Backbone.from_preset(
    CFG.preset,
)

# 最初の応答の埋め込みを計算: (P + R_A) バックボーンを使用
response_a = {k: v[:, 0, :] for k, v in inputs.items()}
embed_a = backbone(response_a)

# 2番目の応答の埋め込みを計算: (P + R_B) 同じバックボーンを使用
response_b = {k: v[:, 1, :] for k, v in inputs.items()}
embed_b = backbone(response_b)

# 最終出力を計算
embeds = keras.layers.Concatenate(axis=-1)([embed_a, embed_b])
embeds = keras.layers.GlobalAveragePooling1D()(embeds)
outputs = keras.layers.Dense(3, activation="softmax", name="classifier")(embeds)
model = keras.Model(inputs, outputs)

# オプティマイザ、損失、およびメトリクスを指定してモデルをコンパイル
model.compile(
    optimizer=keras.optimizers.Adam(5e-6),
    loss=keras.losses.CategoricalCrossentropy(label_smoothing=0.02),
    metrics=[
        log_loss,
        keras.metrics.CategoricalAccuracy(name="accuracy"),
    ],
)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
model.summary()
```

</div>
<div class="column-right">

# 日本語訳

```python
model.summary()
```

</div>
</details>

In [None]:
model.summary()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Start training the model
history = model.fit(
    train_ds,
    epochs=CFG.epochs,
    validation_data=valid_ds,
    callbacks=[lr_cb, ckpt_cb]
)
```

</div>
<div class="column-right">

# 日本語訳

```python
# モデルのトレーニングを開始
history = model.fit(
    train_ds,
    epochs=CFG.epochs,
    validation_data=valid_ds,
    callbacks=[lr_cb, ckpt_cb]
)
```

</div>
</details>

In [None]:
# モデルのトレーニングを開始
history = model.fit(
    train_ds,
    epochs=CFG.epochs,
    validation_data=valid_ds,
    callbacks=[lr_cb, ckpt_cb]
)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
model.load_weights('/kaggle/working/best_model.weights.h5')
```

</div>
<div class="column-right">

# 日本語訳

```python
model.load_weights('/kaggle/working/best_model.weights.h5')
```

</div>
</details>

In [None]:
model.load_weights('/kaggle/working/best_model.weights.h5')

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Build test dataset
test_texts = test_df.options.tolist()
test_ds = build_dataset(test_texts,
                         batch_size=min(len(test_df), CFG.batch_size),
                         shuffle=False)
```

</div>
<div class="column-right">

# 日本語訳

```python
# テストデータセットを構築
test_texts = test_df.options.tolist()
test_ds = build_dataset(test_texts,
                         batch_size=min(len(test_df), CFG.batch_size),
                         shuffle=False)
```

</div>
</details>

In [None]:
# テストデータセットを構築
test_texts = test_df.options.tolist()
test_ds = build_dataset(test_texts,
                         batch_size=min(len(test_df), CFG.batch_size),
                         shuffle=False)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
test_preds = model.predict(test_ds, verbose=1)
```

</div>
<div class="column-right">

# 日本語訳

```python
test_preds = model.predict(test_ds, verbose=1)
```

</div>
</details>

In [None]:
test_preds = model.predict(test_ds, verbose=1)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
sub_df = test_df[["id"]].copy()
sub_df[CFG.class_names] = test_preds.tolist()
sub_df.to_csv("submission.csv", index=False)
sub_df.head()
```

</div>
<div class="column-right">

# 日本語訳

```python
sub_df = test_df[["id"]].copy()
sub_df[CFG.class_names] = test_preds.tolist()
sub_df.to_csv("submission.csv", index=False)
sub_df.head()
```

</div>
</details>

In [None]:
sub_df = test_df[["id"]].copy()
sub_df[CFG.class_names] = test_preds.tolist()
sub_df.to_csv("submission.csv", index=False)
sub_df.head()