# 要約 
このJupyter Notebookは、Kaggleの「LMSYS - Chatbot Arena 人間による好み予測チャレンジ」において、人間の好みを予測するためのモデルを訓練し、その推論を行うプロセスを示しています。

### 取り組んでいる問題
Notebookは、異なる大規模言語モデル (LLM) によって生成された応答がユーザーによってどのように評価されるかを予測することに取り組んでいます。具体的には、2つのチャットボットの応答のいずれがユーザーに好まれるか（モデルA、モデルB、または引き分け）の確率を予測するためのフレームワークを構築しています。

### 使用されている手法
1. **トークン化**: ユーザーのプロンプトとチャットボットの応答をトークン化して、モデルが理解できる形式に変換しています。`AutoTokenizer`を使用して、応答を適切にトークン化し、長さ制限を管理します。

2. **モデルの設定**: `LlamaForCausalLM`と、特定のタスク用にカスタマイズされた`Llama3ForSFT`というメソッドを利用して、大規模言語モデルのインスタンスを作成しています。

3. **並列処理**: GPUを2つ使用して、トレーニングと推論を効率的に行うために、`ThreadPoolExecutor`を使用して推論の並列処理を行っています。

4. **ソフトマックス関数の使用**: モデル出力のロジットをソフトマックス関数で正規化し、各モデルの勝確率を得ています。

### 使用されているライブラリ
- **Transformers**: モデルの構築やトークナイザー管理のために使用されています。
- **Datasets**: データフレームを統合し、モデルへの入力データセットを構築するために使用されています。
- **Torch**: 深層学習モデルの訓練と推論のために使用されています。特に、`torch.cuda.amp`で自動混合精度を有効化し、GPUメモリを効率的に活用しています。
- **Pandas**: データの操作や処理に使用されています。

最後に、Notebookは、予測結果を含むCSVファイル（`submission.csv`）として保存し、提出用に整形しています。このノートブックは、事前トレーニングされたモデルを用いた構築・推論手法を示しており、Kaggleのコンペティションルールに従ったデータ提出を実現しています。

---


# 用語概説 
以下は、Jupyter Notebookの内容に基づく、初心者がつまずきそうな専門用語の簡単な解説です。このリストは、実務経験が少ないが学部レベルの知識を持っている初心者を意識しており、特にマイナーなものや特有のドメイン知識に焦点を当てています。

1. **PEFT (Parameter-Efficient Fine-Tuning)**: 大規模なモデルの微調整を、全パラメータの更新を行うことなく、少数のパラメータのみを更新する手法。これにより、モデルの学習時間やメモリ使用量を削減し、高速な適応を目指す。

2. **ロジット (Logits)**: モデルの出力であり、通常はソフトマックス関数を介して確率に変換される値。分類問題でのクラスのスコアを表し、最終的な確率を決定する。

3. **トークナイザー (Tokenizer)**: テキストを数値表現に変換する役割を持つコンポーネント。モデルが理解できる形式に変換するため、単語や文をトークンに分割する。

4. **自動混合精度 (Automatic Mixed Precision)**: モデルの訓練を行なう際に、計算の精度を自動的に変更する手法で、GPUリソースを効率的に使用し、訓練速度を向上させることができる。

5. **注意マスク (Attention Mask)**: モデルが処理する際に、どのトークンに注意を払うべきかを制御するためのマスク。通常、パディングされたトークンに対しては注意を払わないよう指定される。

6. **アテンション (Attention)**: 自然言語処理における技術で、モデルが文中の特定の単語やフレーズに着目し、それに応じた重みを持たせることで、情報の関連性を高める。

7. **Causal Language Model**: 過去のコンテキストから次のトークンを予測するタイプの言語モデル。例えば、自回帰モデルとも呼ばれ、単語の順序に依存して生成する。

8. **スパースデータパラメータ (Sparse Data Parameters)**: 特定のニューロンや接続が無効化され、それを求めないことで全体の計算を効率化する方法。モデルの構造がスパース（疎）になることで、メモリや計算資源を節約する。

9. **トレーニングスクリプト (Training Script)**: 機械学習モデルをトレーニングするためのコードスニペット。特にパラメータ設定やデータライブラリの使用、手法の選択を含み、実際の学習プロセスを実行する。

10. **データコラレーター (Data Collator)**: バッチ処理のためにデータを整形するコンポーネントで、入力データのパディングや整列を自動で処理する。これにより、異なる長さのトークン列を持つデータを正しくバッチにまとめることができる。

11. **フラッシュSDP (Flash SDP)**: CUDAライブラリの機能の1つで、メモリ使用を最適化し、計算性能を向上させるために設計されている。

これらの用語は、初心者が特にノートブックのコードや手法を理解する際に、壁となり得るものです。リストが参考になれば幸いです。

---


<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Note
- [Training script](https://www.kaggle.com/code/shelterw/training-llama3-8b-4-bit-qlora-sft)

# Import

</div>
<div class="column-right">

# 日本語訳

# 注意
- [トレーニングスクリプト](https://www.kaggle.com/code/shelterw/training-llama3-8b-4-bit-qlora-sft)



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
!pip install -q -U bitsandbytes --no-index --find-links /kaggle/input/llm-pip-2024727
!pip install -q -U transformers --no-index --find-links /kaggle/input/llm-pip-2024727
!pip install -q -U tokenizers --no-index --find-links /kaggle/input/llm-pip-2024727
!pip install -q -U peft --no-index --find-links /kaggle/input/llm-pip-2024727
```

</div>
<div class="column-right">

# 日本語訳

```python
!pip install -q -U bitsandbytes --no-index --find-links /kaggle/input/llm-pip-2024727
!pip install -q -U transformers --no-index --find-links /kaggle/input/llm-pip-2024727
!pip install -q -U tokenizers --no-index --find-links /kaggle/input/llm-pip-2024727
!pip install -q -U peft --no-index --find-links /kaggle/input/llm-pip-2024727
```

</div>
</details>

In [None]:
!pip install -q -U bitsandbytes --no-index --find-links /kaggle/input/llm-pip-2024727
!pip install -q -U transformers --no-index --find-links /kaggle/input/llm-pip-2024727
!pip install -q -U tokenizers --no-index --find-links /kaggle/input/llm-pip-2024727
!pip install -q -U peft --no-index --find-links /kaggle/input/llm-pip-2024727

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import time
import torch
import sklearn
import numpy as np
import pandas as pd
import torch.nn as nn
from torch.cuda.amp import autocast
from dataclasses import dataclass
from concurrent.futures import ThreadPoolExecutor
from threading import Thread
from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModel, AutoConfig, DataCollatorForSeq2Seq
from transformers import Trainer, TrainingArguments, DataCollatorWithPadding, AutoModelForSequenceClassification
from peft import get_peft_config, PeftModel, PeftConfig, get_peft_model, LoraConfig, TaskType 
from transformers.modeling_outputs import CausalLMOutputWithPast
from transformers import BitsAndBytesConfig, LlamaForCausalLM, LlamaModel, LlamaPreTrainedModel
from transformers.data.data_collator import pad_without_fast_tokenizer_warning
from transformers import set_seed
torch.backends.cuda.enable_mem_efficient_sdp(True)
torch.backends.cuda.enable_flash_sdp(True)
assert torch.cuda.device_count() == 2, "Sorry - multi-GPU required!"
```

</div>
<div class="column-right">

# 日本語訳

```python
import time
import torch
import sklearn
import numpy as np
import pandas as pd
import torch.nn as nn
from torch.cuda.amp import autocast
from dataclasses import dataclass
from concurrent.futures import ThreadPoolExecutor
from threading import Thread
from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModel, AutoConfig, DataCollatorForSeq2Seq
from transformers import Trainer, TrainingArguments, DataCollatorWithPadding, AutoModelForSequenceClassification
from peft import get_peft_config, PeftModel, PeftConfig, get_peft_model, LoraConfig, TaskType 
from transformers.modeling_outputs import CausalLMOutputWithPast
from transformers import BitsAndBytesConfig, LlamaForCausalLM, LlamaModel, LlamaPreTrainedModel
from transformers.data.data_collator import pad_without_fast_tokenizer_warning
from transformers import set_seed

# メモリ効率の良いSDP（スパースデータパラメータ）を有効化
torch.backends.cuda.enable_mem_efficient_sdp(True)
# フラッシュSDPを有効化
torch.backends.cuda.enable_flash_sdp(True)
# 使用するGPUの数が2であることを確認
assert torch.cuda.device_count() == 2, "申し訳ありませんが、マルチGPUが必要です！"
```

</div>
</details>

In [None]:
import time
import torch
import sklearn
import numpy as np
import pandas as pd
import torch.nn as nn
from torch.cuda.amp import autocast
from dataclasses import dataclass
from concurrent.futures import ThreadPoolExecutor
from threading import Thread
from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModel, AutoConfig, DataCollatorForSeq2Seq
from transformers import Trainer, TrainingArguments, DataCollatorWithPadding, AutoModelForSequenceClassification
from peft import get_peft_config, PeftModel, PeftConfig, get_peft_model, LoraConfig, TaskType 
from transformers.modeling_outputs import CausalLMOutputWithPast
from transformers import BitsAndBytesConfig, LlamaForCausalLM, LlamaModel, LlamaPreTrainedModel
from transformers.data.data_collator import pad_without_fast_tokenizer_warning
from transformers import set_seed

# メモリ効率の良いSDP（スパースデータパラメータ）を有効化
torch.backends.cuda.enable_mem_efficient_sdp(True)
# フラッシュSDPを有効化
torch.backends.cuda.enable_flash_sdp(True)
# 使用するGPUの数が2であることを確認
assert torch.cuda.device_count() == 2, "申し訳ありませんが、マルチGPUが必要です！"

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
MODEL_NAME = '/kaggle/input/llama-3-1-8b-instruct-bnb-4bit'
WEIGHTS_PATH = '/kaggle/input/sft-llama3-1-lora-9174'
MAX_LENGTH = 2400
BATCH_SIZE = 2
DEVICE = torch.device("cuda")    
```

</div>
<div class="column-right">

# 日本語訳

```python
MODEL_NAME = '/kaggle/input/llama-3-1-8b-instruct-bnb-4bit'  # 使用するモデルの名前
WEIGHTS_PATH = '/kaggle/input/sft-llama3-1-lora-9174'          # 重みのパス
MAX_LENGTH = 2400   # 最大長さ
BATCH_SIZE = 2      # バッチサイズ
DEVICE = torch.device("cuda")  # デバイスをGPUに設定
```

</div>
</details>

In [None]:
MODEL_NAME = '/kaggle/input/llama-3-1-8b-instruct-bnb-4bit'  # 使用するモデルの名前
WEIGHTS_PATH = '/kaggle/input/sft-llama3-1-lora-9174'          # 重みのパス
MAX_LENGTH = 2400   # 最大長さ
BATCH_SIZE = 2      # バッチサイズ
DEVICE = torch.device("cuda")  # デバイスをGPUに設定

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Prepare Data 

</div>
<div class="column-right">

# 日本語訳

# データの準備



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')
def tokenize(example, tokenizer):
    prompts = tokenizer(eval(example['prompt'], {"null": ""}), add_special_tokens=False)["input_ids"]
    responses_a = tokenizer(eval(example['response_a'], {"null": ""}), add_special_tokens=False)["input_ids"]
    responses_b = tokenizer(eval(example['response_b'], {"null": ""}), add_special_tokens=False)["input_ids"]
    assert len(prompts) == len(responses_a) == len(responses_b), "Lengths of prompts, responses_a, and responses_b do not match"
    prompts, responses_a, responses_b = prompts[::-1], responses_a[::-1], responses_b[::-1]
    prompt, response_a, response_b = [], [], []
    p_len, a_len, b_len = 0, 0, 0
    for p, a, b in zip(prompts, responses_a, responses_b):
        prompt.append(p)
        response_a.append(a)
        response_b.append(b)
        p_len += len(p)
        a_len += len(a)
        a_len += len(b)
        if p_len+a_len+b_len > MAX_LENGTH:
            break
    prompt = [item for sublist in reversed(prompt) for item in sublist]
    response_a = [item for sublist in reversed(response_a) for item in sublist]
    response_b = [item for sublist in reversed(response_b) for item in sublist]
    p_a_b_len = len(prompt) + len(response_a) + len(response_b)
    cut_len = p_a_b_len - MAX_LENGTH
    if cut_len>0:
        prompt = prompt[:-int(len(prompt)/p_a_b_len*cut_len)]
        response_a = response_a[:-int(len(response_a)/p_a_b_len*cut_len)]
        response_b = response_b[:-int(len(response_b)/p_a_b_len*cut_len)]
    prompt = tokenizer('<prompt>: ', add_special_tokens=False)["input_ids"] + prompt
    response_a = tokenizer('\n\n<response_a>: ', add_special_tokens=False)["input_ids"] + response_a
    response_b = tokenizer('\n\n<response_b>: ', add_special_tokens=False)["input_ids"] + response_b
    extra_prompt = tokenizer('\n\n---------\nWhich is the better response for the prompt ? a or b or tie ?\n\nAnswer: ', add_special_tokens=False)["input_ids"]
    label_token_id = [128250]
    input_ids = [tokenizer.bos_token_id] + prompt + response_a + response_b + extra_prompt + label_token_id + [tokenizer.eos_token_id]
    attention_mask = len(input_ids)*[1]
    labels = [-100]* len([tokenizer.bos_token_id] + prompt + response_a + response_b + extra_prompt) + label_token_id + [tokenizer.eos_token_id]
    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels
    }
```

</div>
<div class="column-right">

# 日本語訳

```python
test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')  # テストデータをCSVから読み込む

def tokenize(example, tokenizer):
    # プロンプトと応答をトークン化
    prompts = tokenizer(eval(example['prompt'], {"null": ""}), add_special_tokens=False)["input_ids"]
    responses_a = tokenizer(eval(example['response_a'], {"null": ""}), add_special_tokens=False)["input_ids"]
    responses_b = tokenizer(eval(example['response_b'], {"null": ""}), add_special_tokens=False)["input_ids"]
    
    # プロンプトと応答の長さが一致することを確認
    assert len(prompts) == len(responses_a) == len(responses_b), "プロンプト、応答A、応答Bの長さが一致しません"

    # プロンプトと応答を逆順にする
    prompts, responses_a, responses_b = prompts[::-1], responses_a[::-1], responses_b[::-1]

    prompt, response_a, response_b = [], [], []
    p_len, a_len, b_len = 0, 0, 0

    # プロンプトと応答を長さ制限に基づいて追加
    for p, a, b in zip(prompts, responses_a, responses_b):
        prompt.append(p)
        response_a.append(a)
        response_b.append(b)
        p_len += len(p)
        a_len += len(a)
        b_len += len(b)
        
        if p_len + a_len + b_len > MAX_LENGTH:  # 制限を超えた場合
            break

    # 順序を戻す
    prompt = [item for sublist in reversed(prompt) for item in sublist]
    response_a = [item for sublist in reversed(response_a) for item in sublist]
    response_b = [item for sublist in reversed(response_b) for item in sublist]

    # トークン数を計算
    p_a_b_len = len(prompt) + len(response_a) + len(response_b)
    cut_len = p_a_b_len - MAX_LENGTH
    
    # 制限を超えた場合、トークンを削除
    if cut_len > 0:
        prompt = prompt[:-int(len(prompt)/p_a_b_len*cut_len)]
        response_a = response_a[:-int(len(response_a)/p_a_b_len*cut_len)]
        response_b = response_b[:-int(len(response_b)/p_a_b_len*cut_len)]

    # 特殊トークンを付加
    prompt = tokenizer('<prompt>: ', add_special_tokens=False)["input_ids"] + prompt
    response_a = tokenizer('\n\n<response_a>: ', add_special_tokens=False)["input_ids"] + response_a
    response_b = tokenizer('\n\n<response_b>: ', add_special_tokens=False)["input_ids"] + response_b
    extra_prompt = tokenizer('\n\n---------\nどちらの応答がプロンプトに対して良いか？ a、b、またはtie？\n\n回答: ', add_special_tokens=False)["input_ids"]
    
    label_token_id = [128250]  # ラベルのトークンID
    input_ids = [tokenizer.bos_token_id] + prompt + response_a + response_b + extra_prompt + label_token_id + [tokenizer.eos_token_id]
    attention_mask = len(input_ids) * [1]
    labels = [-100] * len([tokenizer.bos_token_id] + prompt + response_a + response_b + extra_prompt) + label_token_id + [tokenizer.eos_token_id]

    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels
    }
```

</div>
</details>

In [None]:
test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')  # テストデータをCSVから読み込む

def tokenize(example, tokenizer):
    # プロンプトと応答をトークン化
    prompts = tokenizer(eval(example['prompt'], {"null": ""}), add_special_tokens=False)["input_ids"]
    responses_a = tokenizer(eval(example['response_a'], {"null": ""}), add_special_tokens=False)["input_ids"]
    responses_b = tokenizer(eval(example['response_b'], {"null": ""}), add_special_tokens=False)["input_ids"]
    
    # プロンプトと応答の長さが一致することを確認
    assert len(prompts) == len(responses_a) == len(responses_b), "プロンプト、応答A、応答Bの長さが一致しません"

    # プロンプトと応答を逆順にする
    prompts, responses_a, responses_b = prompts[::-1], responses_a[::-1], responses_b[::-1]

    prompt, response_a, response_b = [], [], []
    p_len, a_len, b_len = 0, 0, 0

    # プロンプトと応答を長さ制限に基づいて追加
    for p, a, b in zip(prompts, responses_a, responses_b):
        prompt.append(p)
        response_a.append(a)
        response_b.append(b)
        p_len += len(p)
        a_len += len(a)
        b_len += len(b)
        
        if p_len + a_len + b_len > MAX_LENGTH:  # 制限を超えた場合
            break

    # 順序を戻す
    prompt = [item for sublist in reversed(prompt) for item in sublist]
    response_a = [item for sublist in reversed(response_a) for item in sublist]
    response_b = [item for sublist in reversed(response_b) for item in sublist]

    # トークン数を計算
    p_a_b_len = len(prompt) + len(response_a) + len(response_b)
    cut_len = p_a_b_len - MAX_LENGTH
    
    # 制限を超えた場合、トークンを削除
    if cut_len > 0:
        prompt = prompt[:-int(len(prompt)/p_a_b_len*cut_len)]
        response_a = response_a[:-int(len(response_a)/p_a_b_len*cut_len)]
        response_b = response_b[:-int(len(response_b)/p_a_b_len*cut_len)]

    # 特殊トークンを付加
    prompt = tokenizer('<prompt>: ', add_special_tokens=False)["input_ids"] + prompt
    response_a = tokenizer('\n\n<response_a>: ', add_special_tokens=False)["input_ids"] + response_a
    response_b = tokenizer('\n\n<response_b>: ', add_special_tokens=False)["input_ids"] + response_b
    extra_prompt = tokenizer('\n\n---------\nどちらの応答がプロンプトに対して良いか？ a、b、またはtie？\n\n回答: ', add_special_tokens=False)["input_ids"]
    
    label_token_id = [128250]  # ラベルのトークンID
    input_ids = [tokenizer.bos_token_id] + prompt + response_a + response_b + extra_prompt + label_token_id + [tokenizer.eos_token_id]
    attention_mask = len(input_ids) * [1]
    labels = [-100] * len([tokenizer.bos_token_id] + prompt + response_a + response_b + extra_prompt) + label_token_id + [tokenizer.eos_token_id]

    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels
    }

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Tokenize

</div>
<div class="column-right">

# 日本語訳

# トークン化



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time
tokenizer = AutoTokenizer.from_pretrained(WEIGHTS_PATH)
LABEL_IDS = [tokenizer(i, add_special_tokens=False)["input_ids"][0] for i in ['a', 'b', 'tie']]
def load_data(df, tokenizer):
    raw_datasets = Dataset.from_pandas(df)
    tokenized_datasets = raw_datasets.map(
        tokenize, 
        # remove_columns=raw_datasets.column_names,
        fn_kwargs={'tokenizer': tokenizer},
    )
    return tokenized_datasets
test_ds = load_data(test, tokenizer)
test_ds
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time
tokenizer = AutoTokenizer.from_pretrained(WEIGHTS_PATH)  # トークナイザーをロード
LABEL_IDS = [tokenizer(i, add_special_tokens=False)["input_ids"][0] for i in ['a', 'b', 'tie']]  # ラベルIDを取得

def load_data(df, tokenizer):
    raw_datasets = Dataset.from_pandas(df)  # データフレームからデータセットを作成
    tokenized_datasets = raw_datasets.map(
        tokenize, 
        # remove_columns=raw_datasets.column_names,
        fn_kwargs={'tokenizer': tokenizer},
    )
    return tokenized_datasets

test_ds = load_data(test, tokenizer)  # トークン化されたデータセットをロード
test_ds
```

</div>
</details>

In [None]:
%%time
tokenizer = AutoTokenizer.from_pretrained(WEIGHTS_PATH)  # トークナイザーをロード
LABEL_IDS = [tokenizer(i, add_special_tokens=False)["input_ids"][0] for i in ['a', 'b', 'tie']]  # ラベルIDを取得

def load_data(df, tokenizer):
    raw_datasets = Dataset.from_pandas(df)  # データフレームからデータセットを作成
    tokenized_datasets = raw_datasets.map(
        tokenize, 
        # remove_columns=raw_datasets.column_names,
        fn_kwargs={'tokenizer': tokenizer},
    )
    return tokenized_datasets

test_ds = load_data(test, tokenizer)  # トークン化されたデータセットをロード
test_ds

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
data = test_ds.to_pandas()
data["max_len"] = data["input_ids"].apply(len)
data[:3]
```

</div>
<div class="column-right">

# 日本語訳

```python
data = test_ds.to_pandas()  # トークン化されたデータセットをPandasデータフレームに変換
data["max_len"] = data["input_ids"].apply(len)  # 各インプットIDの長さを計算
data[:3]  # 最初の3行を表示
```

</div>
</details>

In [None]:
data = test_ds.to_pandas()  # トークン化されたデータセットをPandasデータフレームに変換
data["max_len"] = data["input_ids"].apply(len)  # 各インプットIDの長さを計算
data[:3]  # 最初の3行を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
data['input_ids'][0]
```

</div>
<div class="column-right">

# 日本語訳

```python
data['input_ids'][0]  # 最初のインプットIDを表示
```

</div>
</details>

In [None]:
data['input_ids'][0]  # 最初のインプットIDを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
print(tokenizer.decode(data["input_ids"][0]))
```

</div>
<div class="column-right">

# 日本語訳

```python
print(tokenizer.decode(data["input_ids"][0]))  # 最初のインプットIDをデコードして表示
```

</div>
</details>

In [None]:
print(tokenizer.decode(data["input_ids"][0]))  # 最初のインプットIDをデコードして表示

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Load model 
We load 1 model on each gpu.  

</div>
<div class="column-right">

# 日本語訳

# モデルをロード
各GPUにモデルを1つずつロードします。



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
class Llama3ForSFT(LlamaPreTrainedModel):
    _tied_weights_keys = ["lm_head.weight"]
    def __init__(self, config):
        super().__init__(config)
        self.model = LlamaModel(config)
        self.vocab_size = config.vocab_size
        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
        self.post_init()

    def forward(
        self,
        input_ids= None,
        attention_mask= None,
        position_ids = None,
        past_key_values= None,
        inputs_embeds= None,
        labels= None,
        use_cache= None,
        output_attentions= None,
        output_hidden_states = None,
        return_dict= None,
        cache_position = None,
    ):
        outputs = self.model(
            input_ids=input_ids,
            attention_mask=attention_mask,
            position_ids=position_ids,
            past_key_values=past_key_values,
            inputs_embeds=inputs_embeds,
            use_cache=use_cache,
            output_attentions=output_attentions,
            output_hidden_states=output_hidden_states,
            return_dict=return_dict,
            cache_position=cache_position,
        )
        hidden_states = outputs[0]
        if self.config.pretraining_tp > 1:
            lm_head_slices = self.lm_head.weight.split(self.vocab_size // self.config.pretraining_tp, dim=0)
            logits = [F.linear(hidden_states, lm_head_slices[i]) for i in range(self.config.pretraining_tp)]
            logits = torch.cat(logits, dim=-1)
        else:
            logits = self.lm_head(hidden_states)
        logits = logits.float()

        loss = None
        if labels is not None:
            # Shift so that tokens < n predict n
            shift_logits = logits[..., :-1, :].contiguous()
            shift_labels = labels[..., 1:].contiguous()
            # Flatten the tokens
            loss_fct = nn.CrossEntropyLoss()
            shift_logits = shift_logits.view(-1, self.config.vocab_size)
            shift_labels = shift_labels.view(-1)
            # Enable model parallelism
            shift_labels = shift_labels.to(shift_logits.device)

            fake_label_tokens_ids = torch.tensor([128250],device=shift_labels.device)
            label_tokens_ids = torch.tensor(LABEL_IDS,device=shift_labels.device)
#             index_mapping = {value.item(): idx for idx, value in enumerate(label_tokens_ids)}
#             true_labels = shift_labels[torch.isin(shift_labels, label_tokens_ids)]
#             true_labels = torch.tensor([index_mapping[label.item()] for label in true_labels], device=true_labels.device)
            true_logits = shift_logits[torch.isin(shift_labels, fake_label_tokens_ids)][:,label_tokens_ids]
#             loss = loss_fct(true_logits, true_labels)

        return CausalLMOutputWithPast(
            loss=loss,
            logits=true_logits,
        )
```

</div>
<div class="column-right">

# 日本語訳

```python
class Llama3ForSFT(LlamaPreTrainedModel):
    _tied_weights_keys = ["lm_head.weight"]  # 重みのキー
    def __init__(self, config):
        super().__init__(config)  # 親クラスの初期化
        self.model = LlamaModel(config)  # Llamaモデルのインスタンス化
        self.vocab_size = config.vocab_size  # 語彙サイズの設定
        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)  # 線形層の設定
        self.post_init()  # 初期化後の処理

    def forward(
        self,
        input_ids=None,
        attention_mask=None,
        position_ids=None,
        past_key_values=None,
        inputs_embeds=None,
        labels=None,
        use_cache=None,
        output_attentions=None,
        output_hidden_states=None,
        return_dict=None,
        cache_position=None,
    ):
        outputs = self.model(
            input_ids=input_ids,
            attention_mask=attention_mask,
            position_ids=position_ids,
            past_key_values=past_key_values,
            inputs_embeds=inputs_embeds,
            use_cache=use_cache,
            output_attentions=output_attentions,
            output_hidden_states=output_hidden_states,
            return_dict=return_dict,
            cache_position=cache_position,
        )
        hidden_states = outputs[0]  # 隠れ層の状態を取得
        if self.config.pretraining_tp > 1:  # モデルパラレルが必要な場合
            lm_head_slices = self.lm_head.weight.split(self.vocab_size // self.config.pretraining_tp, dim=0)
            logits = [F.linear(hidden_states, lm_head_slices[i]) for i in range(self.config.pretraining_tp)]
            logits = torch.cat(logits, dim=-1)
        else:
            logits = self.lm_head(hidden_states)  # 隠れ層の状態からロジットを計算

        logits = logits.float()  # ロジットをfloat型に変換

        loss = None
        if labels is not None:  # ラベルが提供されている場合
            # トークンをシフトして、n未満のトークンがnを予測するようにする
            shift_logits = logits[..., :-1, :].contiguous()  # ロジットをシフト
            shift_labels = labels[..., 1:].contiguous()  # ラベルをシフト
            # トークンをフラットにする
            loss_fct = nn.CrossEntropyLoss()  # 損失関数の設定
            shift_logits = shift_logits.view(-1, self.config.vocab_size)  # ロジットをフラットにする
            shift_labels = shift_labels.view(-1)  # ラベルをフラットにする
            # モデルパラレルを有効化
            shift_labels = shift_labels.to(shift_logits.device)

            fake_label_tokens_ids = torch.tensor([128250], device=shift_labels.device)
            label_tokens_ids = torch.tensor(LABEL_IDS, device=shift_labels.device)
            # index_mapping = {value.item(): idx for idx, value in enumerate(label_tokens_ids)}
            # true_labels = shift_labels[torch.isin(shift_labels, label_tokens_ids)]
            # true_labels = torch.tensor([index_mapping[label.item()] for label in true_labels], device=true_labels.device)
            true_logits = shift_logits[torch.isin(shift_labels, fake_label_tokens_ids)][:, label_tokens_ids]
            # loss = loss_fct(true_logits, true_labels)

        return CausalLMOutputWithPast(
            loss=loss,
            logits=true_logits,
        )
```

</div>
</details>

In [None]:
class Llama3ForSFT(LlamaPreTrainedModel):
    _tied_weights_keys = ["lm_head.weight"]  # 重みのキー
    def __init__(self, config):
        super().__init__(config)  # 親クラスの初期化
        self.model = LlamaModel(config)  # Llamaモデルのインスタンス化
        self.vocab_size = config.vocab_size  # 語彙サイズの設定
        self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)  # 線形層の設定
        self.post_init()  # 初期化後の処理

    def forward(
        self,
        input_ids=None,
        attention_mask=None,
        position_ids=None,
        past_key_values=None,
        inputs_embeds=None,
        labels=None,
        use_cache=None,
        output_attentions=None,
        output_hidden_states=None,
        return_dict=None,
        cache_position=None,
    ):
        outputs = self.model(
            input_ids=input_ids,
            attention_mask=attention_mask,
            position_ids=position_ids,
            past_key_values=past_key_values,
            inputs_embeds=inputs_embeds,
            use_cache=use_cache,
            output_attentions=output_attentions,
            output_hidden_states=output_hidden_states,
            return_dict=return_dict,
            cache_position=cache_position,
        )
        hidden_states = outputs[0]  # 隠れ層の状態を取得
        if self.config.pretraining_tp > 1:  # モデルパラレルが必要な場合
            lm_head_slices = self.lm_head.weight.split(self.vocab_size // self.config.pretraining_tp, dim=0)
            logits = [F.linear(hidden_states, lm_head_slices[i]) for i in range(self.config.pretraining_tp)]
            logits = torch.cat(logits, dim=-1)
        else:
            logits = self.lm_head(hidden_states)  # 隠れ層の状態からロジットを計算

        logits = logits.float()  # ロジットをfloat型に変換

        loss = None
        if labels is not None:  # ラベルが提供されている場合
            # トークンをシフトして、n未満のトークンがnを予測するようにする
            shift_logits = logits[..., :-1, :].contiguous()  # ロジットをシフト
            shift_labels = labels[..., 1:].contiguous()  # ラベルをシフト
            # トークンをフラットにする
            loss_fct = nn.CrossEntropyLoss()  # 損失関数の設定
            shift_logits = shift_logits.view(-1, self.config.vocab_size)  # ロジットをフラットにする
            shift_labels = shift_labels.view(-1)  # ラベルをフラットにする
            # モデルパラレルを有効化
            shift_labels = shift_labels.to(shift_logits.device)

            fake_label_tokens_ids = torch.tensor([128250], device=shift_labels.device)
            label_tokens_ids = torch.tensor(LABEL_IDS, device=shift_labels.device)
            # index_mapping = {value.item(): idx for idx, value in enumerate(label_tokens_ids)}
            # true_labels = shift_labels[torch.isin(shift_labels, label_tokens_ids)]
            # true_labels = torch.tensor([index_mapping[label.item()] for label in true_labels], device=true_labels.device)
            true_logits = shift_logits[torch.isin(shift_labels, fake_label_tokens_ids)][:, label_tokens_ids]
            # loss = loss_fct(true_logits, true_labels)

        return CausalLMOutputWithPast(
            loss=loss,
            logits=true_logits,
        )

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Load base model on GPU 0
device0 = torch.device('cuda:0')
base_model_0 = Llama3ForSFT.from_pretrained(
    MODEL_NAME,
    use_cache=False,
    device_map='cuda:0',
)
# Load base model on GPU 1
device1 = torch.device('cuda:1')
base_model_1 = Llama3ForSFT.from_pretrained(
    MODEL_NAME,
    use_cache=False,
    device_map='cuda:1',
)
```

</div>
<div class="column-right">

# 日本語訳

```python
# GPU 0に基本モデルをロード
device0 = torch.device('cuda:0')  # デバイスの設定
base_model_0 = Llama3ForSFT.from_pretrained(
    MODEL_NAME,
    use_cache=False,
    device_map='cuda:0',
)  # モデルを読み込む
# GPU 1に基本モデルをロード
device1 = torch.device('cuda:1')  # デバイスの設定
base_model_1 = Llama3ForSFT.from_pretrained(
    MODEL_NAME,
    use_cache=False,
    device_map='cuda:1',
)  # モデルを読み込む
```

</div>
</details>

In [None]:
# GPU 0に基本モデルをロード
device0 = torch.device('cuda:0')  # デバイスの設定
base_model_0 = Llama3ForSFT.from_pretrained(
    MODEL_NAME,
    use_cache=False,
    device_map='cuda:0',
)  # モデルを読み込む
# GPU 1に基本モデルをロード
device1 = torch.device('cuda:1')  # デバイスの設定
base_model_1 = Llama3ForSFT.from_pretrained(
    MODEL_NAME,
    use_cache=False,
    device_map='cuda:1',
)  # モデルを読み込む

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Load weights 

</div>
<div class="column-right">

# 日本語訳

# 重みをロード



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Get peft
model_0 = PeftModel.from_pretrained(base_model_0, model_id=WEIGHTS_PATH).to(device0) 
model_0.eval()

model_1 = PeftModel.from_pretrained(base_model_1, model_id=WEIGHTS_PATH).to(device1)
model_1.eval()
```

</div>
<div class="column-right">

# 日本語訳

```python
# PEFTを取得
model_0 = PeftModel.from_pretrained(base_model_0, model_id=WEIGHTS_PATH).to(device0)  # モデルをPEFTから読み込む
model_0.eval()  # モデルを評価モードにする

model_1 = PeftModel.from_pretrained(base_model_1, model_id=WEIGHTS_PATH).to(device1)  # モデルをPEFTから読み込む
model_1.eval()  # モデルを評価モードにする
```

</div>
</details>

In [None]:
# PEFTを取得
model_0 = PeftModel.from_pretrained(base_model_0, model_id=WEIGHTS_PATH).to(device0)  # モデルをPEFTから読み込む
model_0.eval()  # モデルを評価モードにする

model_1 = PeftModel.from_pretrained(base_model_1, model_id=WEIGHTS_PATH).to(device1)  # モデルをPEFTから読み込む
model_1.eval()  # モデルを評価モードにする

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Inference


</div>
<div class="column-right">

# 日本語訳

# 推論



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
@torch.no_grad()
@torch.cuda.amp.autocast()
def inference(df, model, device, batch_size=BATCH_SIZE, max_length=MAX_LENGTH):
    a_win, b_win, tie = [], [], []

    model.eval()
    for start_idx in range(0, len(df), batch_size):
        end_idx = min(start_idx + batch_size, len(df))
        tmp = df.iloc[start_idx:end_idx]
        input_ids = tmp["input_ids"].to_list()
        attention_mask = tmp["attention_mask"].to_list()
        labels = tmp["labels"].to_list()
        inputs = pad_without_fast_tokenizer_warning(
            tokenizer,
            {"input_ids": input_ids, "attention_mask": attention_mask},
            padding="longest",
            pad_to_multiple_of=None,
            return_tensors="pt",
        )
        input_ids = inputs["input_ids"].to(device)
        attention_mask = inputs["attention_mask"].to(device)
        pad_labels=[]
        for label in labels:
            label = list(label) + [tokenizer.pad_token_id]*(input_ids[0].shape[0]-label.shape[0])
            pad_labels.append(label)
        labels = torch.tensor(pad_labels).to(device)
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
        proba = torch.softmax(outputs.logits, dim=-1).cpu().numpy()
        a_win.extend(proba[:, 0].tolist())
        b_win.extend(proba[:, 1].tolist())
        tie.extend(proba[:, 2].tolist())
    df['winner_model_a'] = a_win
    df['winner_model_b'] = b_win
    df['winner_tie'] = tie
    return df
```

</div>
<div class="column-right">

# 日本語訳

```python
@torch.no_grad()  # 勾配計算を無効化
@torch.cuda.amp.autocast()  # 自動混合精度を使用
def inference(df, model, device, batch_size=BATCH_SIZE, max_length=MAX_LENGTH):
    a_win, b_win, tie = [], [], []  # 各モデルの勝利数を初期化

    model.eval()  # モデルを評価モードにする
    for start_idx in range(0, len(df), batch_size):  # データフレームをバッチサイズで処理
        end_idx = min(start_idx + batch_size, len(df))  
        tmp = df.iloc[start_idx:end_idx]  # 一時的なデータフレームを作成
        input_ids = tmp["input_ids"].to_list()  # インプットIDをリストに変換
        attention_mask = tmp["attention_mask"].to_list()  # アテンションマスクをリストに変換
        labels = tmp["labels"].to_list()  # ラベルをリストに変換
        
        # 入力をパディング
        inputs = pad_without_fast_tokenizer_warning(
            tokenizer,
            {"input_ids": input_ids, "attention_mask": attention_mask},
            padding="longest",
            pad_to_multiple_of=None,
            return_tensors="pt",
        )
        input_ids = inputs["input_ids"].to(device)  # デバイスに移動
        attention_mask = inputs["attention_mask"].to(device)  # デバイスに移動
        
        pad_labels = []
        for label in labels:
            # ラベルをパディング
            label = list(label) + [tokenizer.pad_token_id] * (input_ids[0].shape[0] - label.shape[0])
            pad_labels.append(label)

        labels = torch.tensor(pad_labels).to(device)  # デバイスに移動
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)  # モデルを順伝播
        proba = torch.softmax(outputs.logits, dim=-1).cpu().numpy()  # ロジットをソフトマックスで正規化
        a_win.extend(proba[:, 0].tolist())  # モデルAの勝率を保存
        b_win.extend(proba[:, 1].tolist())  # モデルBの勝率を保存
        tie.extend(proba[:, 2].tolist())  # タイの勝率を保存
        
    df['winner_model_a'] = a_win  # データフレームに勝率を追加
    df['winner_model_b'] = b_win  # データフレームに勝率を追加
    df['winner_tie'] = tie  # データフレームに勝率を追加
    return df  # 結果を返す
```

</div>
</details>

In [None]:
@torch.no_grad()  # 勾配計算を無効化
@torch.cuda.amp.autocast()  # 自動混合精度を使用
def inference(df, model, device, batch_size=BATCH_SIZE, max_length=MAX_LENGTH):
    a_win, b_win, tie = [], [], []  # 各モデルの勝利数を初期化

    model.eval()  # モデルを評価モードにする
    for start_idx in range(0, len(df), batch_size):  # データフレームをバッチサイズで処理
        end_idx = min(start_idx + batch_size, len(df))  
        tmp = df.iloc[start_idx:end_idx]  # 一時的なデータフレームを作成
        input_ids = tmp["input_ids"].to_list()  # インプットIDをリストに変換
        attention_mask = tmp["attention_mask"].to_list()  # アテンションマスクをリストに変換
        labels = tmp["labels"].to_list()  # ラベルをリストに変換
        
        # 入力をパディング
        inputs = pad_without_fast_tokenizer_warning(
            tokenizer,
            {"input_ids": input_ids, "attention_mask": attention_mask},
            padding="longest",
            pad_to_multiple_of=None,
            return_tensors="pt",
        )
        input_ids = inputs["input_ids"].to(device)  # デバイスに移動
        attention_mask = inputs["attention_mask"].to(device)  # デバイスに移動
        
        pad_labels = []
        for label in labels:
            # ラベルをパディング
            label = list(label) + [tokenizer.pad_token_id] * (input_ids[0].shape[0] - label.shape[0])
            pad_labels.append(label)

        labels = torch.tensor(pad_labels).to(device)  # デバイスに移動
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)  # モデルを順伝播
        proba = torch.softmax(outputs.logits, dim=-1).cpu().numpy()  # ロジットをソフトマックスで正規化
        a_win.extend(proba[:, 0].tolist())  # モデルAの勝率を保存
        b_win.extend(proba[:, 1].tolist())  # モデルBの勝率を保存
        tie.extend(proba[:, 2].tolist())  # タイの勝率を保存
        
    df['winner_model_a'] = a_win  # データフレームに勝率を追加
    df['winner_model_b'] = b_win  # データフレームに勝率を追加
    df['winner_tie'] = tie  # データフレームに勝率を追加
    return df  # 結果を返す

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
st = time.time()

data = data.sort_values("max_len", ascending=False)
sub_1 = data.iloc[0::2].copy()
sub_2 = data.iloc[1::2].copy()

with ThreadPoolExecutor(max_workers=2) as executor:
    results = executor.map(inference, (sub_1, sub_2), (model_0, model_1), (device0, device1))

result_df = pd.concat(list(results), axis=0)
proba = result_df[["winner_model_a", "winner_model_b", "winner_tie"]].values

print(f"elapsed time: {time.time() - st}")
```

</div>
<div class="column-right">

# 日本語訳

```python
st = time.time()  # 開始時間を記録

data = data.sort_values("max_len", ascending=False)  # 最大長さでソート
sub_1 = data.iloc[0::2].copy()  # 偶数インデックスのサブセット
sub_2 = data.iloc[1::2].copy()  # 奇数インデックスのサブセット

# 並列で推論を実行
with ThreadPoolExecutor(max_workers=2) as executor:
    results = executor.map(inference, (sub_1, sub_2), (model_0, model_1), (device0, device1))

result_df = pd.concat(list(results), axis=0)  # 結果を結合
proba = result_df[["winner_model_a", "winner_model_b", "winner_tie"]].values  # 勝率を抽出

print(f"経過時間: {time.time() - st}")  # 経過時間を表示
```

</div>
</details>

In [None]:
st = time.time()  # 開始時間を記録

data = data.sort_values("max_len", ascending=False)  # 最大長さでソート
sub_1 = data.iloc[0::2].copy()  # 偶数インデックスのサブセット
sub_2 = data.iloc[1::2].copy()  # 奇数インデックスのサブセット

# 並列で推論を実行
with ThreadPoolExecutor(max_workers=2) as executor:
    results = executor.map(inference, (sub_1, sub_2), (model_0, model_1), (device0, device1))

result_df = pd.concat(list(results), axis=0)  # 結果を結合
proba = result_df[["winner_model_a", "winner_model_b", "winner_tie"]].values  # 勝率を抽出

print(f"経過時間: {time.time() - st}")  # 経過時間を表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
result_df.loc[:, "winner_model_a"] = proba[:, 0]
result_df.loc[:, "winner_model_b"] = proba[:, 1]
result_df.loc[:, "winner_tie"] = proba[:, 2]
submission_df = result_df[["id", 'winner_model_a', 'winner_model_b', 'winner_tie']]
submission_df.to_csv('submission.csv', index=False)
display(submission_df)
```

</div>
<div class="column-right">

# 日本語訳

```python
result_df.loc[:, "winner_model_a"] = proba[:, 0]  # モデルAの勝率を結果データフレームに追加
result_df.loc[:, "winner_model_b"] = proba[:, 1]  # モデルBの勝率を結果データフレームに追加
result_df.loc[:, "winner_tie"] = proba[:, 2]  # タイの勝率を結果データフレームに追加
submission_df = result_df[["id", 'winner_model_a', 'winner_model_b', 'winner_tie']]  # 提出用データフレームを作成
submission_df.to_csv('submission.csv', index=False)  # CSVファイルとして保存
display(submission_df)  # 提出データフレームを表示
```

</div>
</details>

In [None]:
result_df.loc[:, "winner_model_a"] = proba[:, 0]  # モデルAの勝率を結果データフレームに追加
result_df.loc[:, "winner_model_b"] = proba[:, 1]  # モデルBの勝率を結果データフレームに追加
result_df.loc[:, "winner_tie"] = proba[:, 2]  # タイの勝率を結果データフレームに追加
submission_df = result_df[["id", 'winner_model_a', 'winner_model_b', 'winner_tie']]  # 提出用データフレームを作成
submission_df.to_csv('submission.csv', index=False)  # CSVファイルとして保存
display(submission_df)  # 提出データフレームを表示