# 要約 
このJupyter Notebookは、LMSYSのChatbot Arenaコンペティションに関連し、特にPrompt/Responseに対してキーワード抽出を行うことに焦点を当てています。具体的には、KeyBERTライブラリを使用して、提供されたテキストデータからキーフレーズやキーワードを抽出し、それをもとにトレーニングとテストデータセットを作成することを目的としています。

### 適用されている手法とライブラリ
1. **KeyBERT**: Hugging FaceのTransformersライブラリに基づいているキーワード抽出ライブラリです。このノートブックでは、事前学習済みのモデル「distilbert-base-nli-mean-tokens」を利用して、与えられたテキストから有用なキーワードを抽出します。

2. **データ処理ライブラリ**:
   - **NumPy**: 数値計算のためのライブラリ。
   - **Pandas**: データ操作や分析のためのライブラリ。
   - **Matplotlib**: データの可視化を行うためのライブラリ。

### 処理の流れ
- 最初に、KeyBERTライブラリをインストールし、必要なライブラリをインポートします。
- トレーニングとテスト用のデータセットをCSVファイルから読み込み、各データセットに新しいカラムを追加して初期化します。
- トレーニングデータとテストデータそれぞれの'prompt'、'response_a'、'response_b'各列からキーワードを抽出し、対応するカラムに保存します。
- 抽出したキーワードに基づいて、新たに作成されたカラムを組み合わせてコンパイルし、最終的なデータセットを形成します。
- 最後に、処理されたトレーニングデータとテストデータをそれぞれCSVファイルとして保存します。

このノートブックは、チャットボットの応答の品質を向上させるための前処理ステップとして、キーワード抽出機能を効果的に利用することを目指しています。

---


# 用語概説 
以下に、Jupyterノートブックの内容に基づいて、初心者がつまずきそうな専門用語の解説をまとめました。特に、実務経験がないと馴染みのない領域や、このノートブック特有のドメイン知識に焦点を当てています。

### 専門用語の解説

1. **KeyBERT**:
   - キーワード抽出やキーフレーズ抽出のためのPythonライブラリ。BERT（Bidirectional Encoder Representations from Transformers）を基にしたモデルを使用し、与えられたテキストから重要な単語やフレーズを抽出することができる。

2. **Hugging Face Transformers**:
   - 自然言語処理（NLP）タスクのためのライブラリで、さまざまな事前学習済みトランスフォーマーモデルが提供されている。BERTやGPTなど、最新のモデルを利用することで、テキスト分析や生成などが簡単に行えるようになる。

3. **DistilBERT**:
   - BERTモデルを軽量化したもので、性能を維持しつつ計算資源を削減したモデル。トランスフォーマーのアーキテクチャを基にしつつ、サイズが小さく、より高速に推論が行える。

4. **トークナイゼーション (Tokenization)**:
   - テキストデータを単語やサブワードなどの「トークン」に分割する過程。言語モデルがテキストを理解できる形式に変換するための重要なステップ。

5. **キーワード抽出 (Keyword Extraction)**:
   - テキストからその内容を要約したり代表するのに重要な単語を特定するプロセス。情報検索やテキスト要約などのタスクで使用される。

6. **トップNキーワード (Top-N Keywords)**:
   - 特定のテキストから抽出されたキーワードの中で、重要な上位N個を抽出するプロセス。たとえば、`top_n=5`と指定した場合、上位5つのキーワードが出力される。

7. **Pandas データフレーム**:
   - 構造化データを処理するための2次元のラベル付きデータ構造。行と列からなるテーブル形式でデータを扱うことができるため、データの前処理や分析を容易に行うことができる。

8. **CSV (Comma-Separated Values)**:
   - データをカンマ区切りで格納したテキストファイル形式。表形式のデータを簡単に保存したり、他のソフトウェアとデータのやり取りを行うために広く使用されている。

9. **インデックス (Index)**:
   - データフレームや配列における位置を示すラベル。CSVファイルを読み込む際に自動的に作成される場合があり、それが必要ない場合には`index=False`の指定によってインデックスを保存しないようにできる。

10. **データの可視化 (Data Visualization)**:
    - データをグラフやチャート、マップなどの視覚的手法によって表現すること。データ分析の結果を直感的に理解するための重要な技術。

これらの解説が、Jupyterノートブックの理解を助ける一助となれば幸いです。

---


<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# LMSYS Prompt/Response Words KeyBERT



KeyBERT is a Python library for keyword extraction and keyphrase extraction. It is built on top of the Hugging Face Transformers library and leverages pre-trained transformer models, such as BERT, to extract key phrases or keywords from a given text. KeyBERT is particularly useful for tasks like document summarization, content analysis, and information retrieval.

</div>
<div class="column-right">

# 日本語訳

# LMSYS プロンプト/レスポンス ワーズ KeyBERT

KeyBERTは、キーワード抽出およびキーフレーズ抽出のためのPythonライブラリです。これはHugging Face Transformersライブラリの上に構築されており、BERTのような事前学習済みのトランスフォーマーモデルを利用して、与えられたテキストからキーフレーズやキーワードを抽出します。KeyBERTは、文書要約、コンテンツ分析、情報検索などのタスクに特に有用です。

</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
!pip install keybert
```

</div>
<div class="column-right">

# 日本語訳

```python
!pip install keybert  # KeyBERTライブラリをインストールするコマンドです。このコマンドを実行することで、キーワード抽出機能を利用できるようになります。
```

</div>
</details>

In [None]:
!pip install keybert  # KeyBERTライブラリをインストールするコマンドです。このコマンドを実行することで、キーワード抽出機能を利用できるようになります。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import numpy as np 
import pandas as pd 
import random
import os
from keybert import KeyBERT
import matplotlib.pyplot as plt
```

</div>
<div class="column-right">

# 日本語訳

```python
import numpy as np  # 数値計算のためのライブラリnumpyをインポートします。
import pandas as pd  # データ操作および分析のためのライブラリpandasをインポートします。
import random  # ランダム数生成のためのrandomモジュールをインポートします。
import os  # オペレーティングシステムとの対話のためのosモジュールをインポートします。
from keybert import KeyBERT  # KeyBERTライブラリからキーワード抽出のためのKeyBERTクラスをインポートします。
import matplotlib.pyplot as plt  # グラフ作成のためのmatplotlibライブラリをインポートします。このモジュールを用いることでデータの可視化が可能になります。
```

</div>
</details>

In [None]:
import numpy as np  # 数値計算のためのライブラリnumpyをインポートします。
import pandas as pd  # データ操作および分析のためのライブラリpandasをインポートします。
import random  # ランダム数生成のためのrandomモジュールをインポートします。
import os  # オペレーティングシステムとの対話のためのosモジュールをインポートします。
from keybert import KeyBERT  # KeyBERTライブラリからキーワード抽出のためのKeyBERTクラスをインポートします。
import matplotlib.pyplot as plt  # グラフ作成のためのmatplotlibライブラリをインポートします。このモジュールを用いることでデータの可視化が可能になります。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
model = KeyBERT('distilbert-base-nli-mean-tokens')
```

</div>
<div class="column-right">

# 日本語訳

```python
model = KeyBERT('distilbert-base-nli-mean-tokens')  # 'distilbert-base-nli-mean-tokens'という事前学習済みモデルを用いてKeyBERTのインスタンスを作成します。このモデルは、自然言語処理タスクでよく使用されるDistilBERTを基にしており、キーワードやキーフレーズを抽出するのに役立ちます。
```

</div>
</details>

In [None]:
model = KeyBERT('distilbert-base-nli-mean-tokens')  # 'distilbert-base-nli-mean-tokens'という事前学習済みモデルを用いてKeyBERTのインスタンスを作成します。このモデルは、自然言語処理タスクでよく使用されるDistilBERTを基にしており、キーワードやキーフレーズを抽出するのに役立ちます。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')#, encoding='iso-8859-1')
print(len(train))
train['prompt_kw']='-'
train['res_a_kw']='-'
train['res_b_kw']='-'

test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')#, encoding='iso-8859-1')
test['prompt_kw']='-'
test['res_a_kw']='-'
test['res_b_kw']='-'
```

</div>
<div class="column-right">

# 日本語訳

```python
train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')  # トレーニングデータをCSVファイルから読み込みます。
print(len(train))  # トレーニングデータの行数を出力します。
train['prompt_kw'] = '-'  # 'prompt_kw'カラムを追加し、初期値を'-'で設定します。
train['res_a_kw'] = '-'  # 'res_a_kw'カラムを追加し、初期値を'-'で設定します。
train['res_b_kw'] = '-'  # 'res_b_kw'カラムを追加し、初期値を'-'で設定します。

test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')  # テストデータをCSVファイルから読み込みます。
test['prompt_kw'] = '-'  # 'prompt_kw'カラムを追加し、初期値を'-'で設定します。
test['res_a_kw'] = '-'  # 'res_a_kw'カラムを追加し、初期値を'-'で設定します。
test['res_b_kw'] = '-'  # 'res_b_kw'カラムを追加し、初期値を'-'で設定します。
```

</div>
</details>

In [None]:
train = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/train.csv')  # トレーニングデータをCSVファイルから読み込みます。
print(len(train))  # トレーニングデータの行数を出力します。
train['prompt_kw'] = '-'  # 'prompt_kw'カラムを追加し、初期値を'-'で設定します。
train['res_a_kw'] = '-'  # 'res_a_kw'カラムを追加し、初期値を'-'で設定します。
train['res_b_kw'] = '-'  # 'res_b_kw'カラムを追加し、初期値を'-'で設定します。

test = pd.read_csv('/kaggle/input/lmsys-chatbot-arena/test.csv')  # テストデータをCSVファイルから読み込みます。
test['prompt_kw'] = '-'  # 'prompt_kw'カラムを追加し、初期値を'-'で設定します。
test['res_a_kw'] = '-'  # 'res_a_kw'カラムを追加し、初期値を'-'で設定します。
test['res_b_kw'] = '-'  # 'res_b_kw'カラムを追加し、初期値を'-'で設定します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
kw0 = model.extract_keywords(train['prompt'],top_n=5)
kw1 = model.extract_keywords(train['response_a'],top_n=20)
kw2 = model.extract_keywords(train['response_b'],top_n=20)

tkw0 = model.extract_keywords(test['prompt'],top_n=5)
tkw1 = model.extract_keywords(test['response_a'],top_n=20)
tkw2 = model.extract_keywords(test['response_b'],top_n=20)
```

</div>
<div class="column-right">

# 日本語訳

```python
kw0 = model.extract_keywords(train['prompt'], top_n=5)  # トレーニングデータの'prompt'列から上位5つのキーワードを抽出します。
kw1 = model.extract_keywords(train['response_a'], top_n=20)  # トレーニングデータの'response_a'列から上位20のキーワードを抽出します。
kw2 = model.extract_keywords(train['response_b'], top_n=20)  # トレーニングデータの'response_b'列から上位20のキーワードを抽出します。

tkw0 = model.extract_keywords(test['prompt'], top_n=5)  # テストデータの'prompt'列から上位5つのキーワードを抽出します。
tkw1 = model.extract_keywords(test['response_a'], top_n=20)  # テストデータの'response_a'列から上位20のキーワードを抽出します。
tkw2 = model.extract_keywords(test['response_b'], top_n=20)  # テストデータの'response_b'列から上位20のキーワードを抽出します。
```

</div>
</details>

In [None]:
kw0 = model.extract_keywords(train['prompt'], top_n=5)  # トレーニングデータの'prompt'列から上位5つのキーワードを抽出します。
kw1 = model.extract_keywords(train['response_a'], top_n=20)  # トレーニングデータの'response_a'列から上位20のキーワードを抽出します。
kw2 = model.extract_keywords(train['response_b'], top_n=20)  # トレーニングデータの'response_b'列から上位20のキーワードを抽出します。

tkw0 = model.extract_keywords(test['prompt'], top_n=5)  # テストデータの'prompt'列から上位5つのキーワードを抽出します。
tkw1 = model.extract_keywords(test['response_a'], top_n=20)  # テストデータの'response_a'列から上位20のキーワードを抽出します。
tkw2 = model.extract_keywords(test['response_b'], top_n=20)  # テストデータの'response_b'列から上位20のキーワードを抽出します。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
for i,w in enumerate(kw0): 
    ws=[]
    for wi in w:
        if '_' not in wi[0]:
            ws+=[wi[0]]
    train.loc[i,'prompt_kw']=' '.join(ws)
    
for i,w in enumerate(kw1): 
    ws=[]
    for wi in w:
        if '_' not in wi[0]:
            ws+=[wi[0]]
    train.loc[i,'res_a_kw']=' '.join(ws)  
    
for i,w in enumerate(kw2): 
    ws=[]
    for wi in w:
        if '_' not in wi[0]:
            ws+=[wi[0]]
    train.loc[i,'res_b_kw']=' '.join(ws)   

train['res_a_kw']=train['prompt_kw']+' / '+train['res_a_kw']
train['res_b_kw']=train['prompt_kw']+' / '+train['res_b_kw']
train=train.iloc[:,6:]
display(train)

train.to_csv('train_key.csv',index=False)
```

</div>
<div class="column-right">

# 日本語訳

```python
for i, w in enumerate(kw0):  # kw0の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiに対して、キーワードのリストをループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、つまり無視するべきでなければ、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    train.loc[i, 'prompt_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、トレーニングデータの'prompt_kw'列に格納します。

for i, w in enumerate(kw1):  # kw1の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiについてループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    train.loc[i, 'res_a_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、トレーニングデータの'res_a_kw'列に格納します。

for i, w in enumerate(kw2):  # kw2の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiについてループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    train.loc[i, 'res_b_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、トレーニングデータの'res_b_kw'列に格納します。

train['res_a_kw'] = train['prompt_kw'] + ' / ' + train['res_a_kw']  # 'res_a_kw'列に'prompt_kw'と'res_a_kw'を結合して新しい形式の文字列を格納します。
train['res_b_kw'] = train['prompt_kw'] + ' / ' + train['res_b_kw']  # 'res_b_kw'列に'prompt_kw'と'res_b_kw'を結合して新しい形式の文字列を格納します。
train = train.iloc[:, 6:]  # トレーニングデータフレームの最初の6列を除外します。
display(train)  # トレーニングデータフレームを表示します。

train.to_csv('train_key.csv', index=False)  # トレーニングデータをCSVファイルとして保存します。インデックスは保存しません。
```

</div>
</details>

In [None]:
for i, w in enumerate(kw0):  # kw0の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiに対して、キーワードのリストをループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、つまり無視するべきでなければ、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    train.loc[i, 'prompt_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、トレーニングデータの'prompt_kw'列に格納します。

for i, w in enumerate(kw1):  # kw1の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiについてループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    train.loc[i, 'res_a_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、トレーニングデータの'res_a_kw'列に格納します。

for i, w in enumerate(kw2):  # kw2の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiについてループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    train.loc[i, 'res_b_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、トレーニングデータの'res_b_kw'列に格納します。

train['res_a_kw'] = train['prompt_kw'] + ' / ' + train['res_a_kw']  # 'res_a_kw'列に'prompt_kw'と'res_a_kw'を結合して新しい形式の文字列を格納します。
train['res_b_kw'] = train['prompt_kw'] + ' / ' + train['res_b_kw']  # 'res_b_kw'列に'prompt_kw'と'res_b_kw'を結合して新しい形式の文字列を格納します。
train = train.iloc[:, 6:]  # トレーニングデータフレームの最初の6列を除外します。
display(train)  # トレーニングデータフレームを表示します。

train.to_csv('train_key.csv', index=False)  # トレーニングデータをCSVファイルとして保存します。インデックスは保存しません。

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
for i,w in enumerate(tkw0): 
    ws=[]
    for wi in w:
        if '_' not in wi[0]:
            ws+=[wi[0]]
    test.loc[i,'prompt_kw']=' '.join(ws)
    
for i,w in enumerate(tkw1): 
    ws=[]
    for wi in w:
        if '_' not in wi[0]:
            ws+=[wi[0]]
    test.loc[i,'res_a_kw']=' '.join(ws)  
    
for i,w in enumerate(tkw2): 
    ws=[]
    for wi in w:
        if '_' not in wi[0]:
            ws+=[wi[0]]
    test.loc[i,'res_b_kw']=' '.join(ws)   

test['res_a_kw']=test['prompt_kw']+' / '+test['res_a_kw']
test['res_b_kw']=test['prompt_kw']+' / '+test['res_b_kw']
test=test.iloc[:,4:]
display(test)

test.to_csv('test_key.csv',index=False)
```

</div>
<div class="column-right">

# 日本語訳

```python
for i, w in enumerate(tkw0):  # tkw0の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiに対してループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    test.loc[i, 'prompt_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、テストデータの'prompt_kw'列に格納します。

for i, w in enumerate(tkw1):  # tkw1の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiについてループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    test.loc[i, 'res_a_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、テストデータの'res_a_kw'列に格納します。

for i, w in enumerate(tkw2):  # tkw2の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiについてループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    test.loc[i, 'res_b_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、テストデータの'res_b_kw'列に格納します。

test['res_a_kw'] = test['prompt_kw'] + ' / ' + test['res_a_kw']  # 'res_a_kw'列に'prompt_kw'と'res_a_kw'を結合して新しい形式の文字列を格納します。
test['res_b_kw'] = test['prompt_kw'] + ' / ' + test['res_b_kw']  # 'res_b_kw'列に'prompt_kw'と'res_b_kw'を結合して新しい形式の文字列を格納します。
test = test.iloc[:, 4:]  # テストデータフレームの最初の4列を除外します。
display(test)  # テストデータフレームを表示します。

test.to_csv('test_key.csv', index=False)  # テストデータをCSVファイルとして保存します。インデックスは保存しません。
```

</div>
</details>

In [None]:
for i, w in enumerate(tkw0):  # tkw0の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiに対してループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    test.loc[i, 'prompt_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、テストデータの'prompt_kw'列に格納します。

for i, w in enumerate(tkw1):  # tkw1の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiについてループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    test.loc[i, 'res_a_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、テストデータの'res_a_kw'列に格納します。

for i, w in enumerate(tkw2):  # tkw2の各キーワードに対して、インデックスiとキーワードwを取得します。
    ws = []  # 有効なキーワードを格納するリストを初期化します。
    for wi in w:  # 各キーワードwiについてループします。
        if '_' not in wi[0]:  # キーワードwiが'_'を含まない場合、
            ws += [wi[0]]  # 有効なキーワードリストに追加します。
    test.loc[i, 'res_b_kw'] = ' '.join(ws)  # 有効なキーワードを空白で結合し、テストデータの'res_b_kw'列に格納します。

test['res_a_kw'] = test['prompt_kw'] + ' / ' + test['res_a_kw']  # 'res_a_kw'列に'prompt_kw'と'res_a_kw'を結合して新しい形式の文字列を格納します。
test['res_b_kw'] = test['prompt_kw'] + ' / ' + test['res_b_kw']  # 'res_b_kw'列に'prompt_kw'と'res_b_kw'を結合して新しい形式の文字列を格納します。
test = test.iloc[:, 4:]  # テストデータフレームの最初の4列を除外します。
display(test)  # テストデータフレームを表示します。

test.to_csv('test_key.csv', index=False)  # テストデータをCSVファイルとして保存します。インデックスは保存しません。