# 要約 
このJupyter Notebookは、Kaggleの「LLM 20 Questions」競技に関連するデータを収集し、分析することを目的としています。具体的には、過去のゲームデータを取得し、特定のゲームエピソードに関連する情報を構造化された形で保存することに取り組んでいます。

### 問題：
ノートブックは、Kaggleのメタデータセットを使用して、特定の競技（episodeId）に関連するエピソードやゲームの情報を収集し、フィルタリングするという問題に取り組んでいます。ゲームの種類に応じて、適切なエピソードを抽出し、正確な結果を得るための処理を実施しています。

### 手法とライブラリ：
1. **ライブラリ**: 
   - `requests`: APIからデータを取得するために使用。
   - `json`: 取得したデータがJSON形式であるため、データの解析に利用。
   - `pandas`: データフレームの作成・操作を行うために使用。
   - `pathlib`: パス操作のために活用。

2. **データ取得と処理手法**:
   - Kaggleのメタデータセットから過去のゲームエピソードを取得するために、APIリクエストを使用。
   - ノートブックでは、CSVファイルを用いて以前のゲームデータを読み込み、新しいゲーム情報を取得し、データフレームに統合。
   - ゲームのフィルタリングには、条件に応じたフィルタリング処理（例えば、検証ゲームを除外）や、データを一時的にメモリに保持するジェネレーターを使用。
   - ゲームの各エピソードを解析し、必要な情報（質問、推測、回答）を抽出してデータフレームに保存。

3. **出力**: 
   - 最終的に、ゲームのデータをCSVファイルに保存し、今後の分析やリーダーボード作成のために使用できる形に整形。

### まとめ:
このノートブックは、Kaggleの「LLM 20 Questions」コンペティションにおけるデータ駆動型の分析を実施するための重要なステップを示しています。自動化されたデータ取得とフィルタリングの手法を用いることで、将来のモデル評価やパフォーマンス向上に貢献することを目指しています。

---


# 用語概説 
以下に、提供されたJupyter Notebookに関連する専門用語の解説を列挙します。初心者がつまずく可能性のある、特に実務経験を持たないと馴染みのない内容に焦点を当てました。

1. **episodeId**:
   - コンペティションにおける特定のプレイセッションを識別するためのユニークな識別子。複数のゲーム（エピソード）が存在するコンペティションでは、各エピソードを区別するために使われる。

2. **submissionId**:
   - 各チームまたはエージェントがコンペティションに提出したモデルや回答の識別子。これを用いて、特定の提出物を追跡したり、評価を行ったりする。

3. **validation game**:
   - 検証用のゲーム。通常、同じエージェントが対戦を行うことで、モデルのパフォーマンスを確認する目的で行われる。

4. **chunk**:
   - 大きなデータファイルやデータセットを小さな部分（チャンク）に分割して処理する手法。これにより、大量のデータを効率的に扱うことができる。

5. **mask**:
   - 特定の条件を満たすデータのインデックスを選択するためのブール型フィルター。データフレーム内の特定の行を抽出する際に用いる。

6. **yield**:
   - Pythonのジェネレーター関数において、関数の実行を一時停止し、特定の値を返すためのキーワード。次回呼び出されると、前回の状態から再開する。

7. **DataFrame**:
   - pandasライブラリで提供される、2次元のデータ構造。表形式のデータを扱うためのもので、行と列から構成される。

8. ***.csvファイル**:
   - Comma-Separated Valuesの略で、データをカンマで区切って保存するためのファイル形式。データのテーブル表現をテキスト形式で扱いたい場合によく使用される。

9. **index_col**:
   - pandasにおけるDataFrameの作成時に、特定の列をインデックスとして指定するための引数。この列は、データの行を識別するために使用される。

10. **concatenate**:
    - 複数のデータ構造を結合する操作。例えば、複数のデータフレームを一つにまとめた新しいデータフレームを作成する場合に用いられる。

11. **observation**:
    - 各プレイの特定の状況や状態を記録するデータ。ゲームのステップや進行状況を示す。

12. **mask.any()**:
    - pandasにおけるメソッドで、ブール配列の中に任意のTrueが存在するかをチェックする。データのフィルタリングに役立つ。

13. **episodeId**:
    - 特定のエピソードを識別するためのID。ゲームの進行状況や結果を確認するために用いられ、各エピソードにはユニークなIDが付与される。

これらの用語は、特にコンペティションやデータ処理に不慣れな初心者にとって、理解が重要なものです。

---


<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import requests
import json
import pandas as pd
from pathlib import Path
```

</div>
<div class="column-right">

# 日本語訳

```python
import requests
import json
import pandas as pd
from pathlib import Path
```

</div>
</details>

In [None]:
import requests
import json
import pandas as pd
from pathlib import Path

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

Use [Meta kaggle dataset](https://www.kaggle.com/datasets/kaggle/meta-kaggle) to get episodeId from the competition https://www.kaggle.com/competitions/llm-20-questions  
(when meta-kaggle update sometime it will show `[Dataset no longer available]` in source but that still works)

Update: Added submissionId from guesser and anserer  
See next step: https://www.kaggle.com/code/waechter/llm-20-questions-leaderbord-analyze-best-agents

⚠️ *Please do not fork and run from scratch because that's a lot of requests,  
instead use the dataset or the notebook output* ⚠️

# Load previous games

</div>
<div class="column-right">

# 日本語訳

[Meta kaggleデータセット](https://www.kaggle.com/datasets/kaggle/meta-kaggle)を使用して、コンペティションの`episodeId`を取得します https://www.kaggle.com/competitions/llm-20-questions  
（meta-kaggleが更新されたときに、出所に`[Dataset no longer available]`と表示されることがありますが、それでも機能します）

更新: グエッサー（guesser）とアンサー（answerer）からの`submissionId`を追加しました  
次のステップを参照してください: https://www.kaggle.com/code/waechter/llm-20-questions-leaderbord-analyze-best-agents

⚠️ *最初からフォークして実行しないでください。リクエストが大量になるため、  
代わりにデータセットまたはノートブックの出力を使用してください* ⚠️

# 以前のゲームを読み込む


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
df_games = pd.read_csv("/kaggle/input/llm-20-questions-games-dataset/LLM-20Questions-games.csv", index_col='index')
df_games
```

</div>
<div class="column-right">

# 日本語訳

```python
df_games = pd.read_csv("/kaggle/input/llm-20-questions-games-dataset/LLM-20Questions-games.csv", index_col='index')
df_games
```

</div>
</details>

In [None]:
df_games = pd.read_csv("/kaggle/input/llm-20-questions-games-dataset/LLM-20Questions-games.csv", index_col='index')
df_games

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
def download_game(num, CreateTime, do_print=False):
    url_api = "https://www.kaggleusercontent.com/episodes/{num_episode}.json"
    try:
        r = requests.get(url_api.format(num_episode=num))
        if r.status_code!=200:
            print(f"Error http {r.status_code=} {num=}")
            return {}
        resp = r.json()
        teams = resp["info"]["TeamNames"][0:2], resp["info"]["TeamNames"][2:] # <=> teams=(guesser_team1, answerer_team1), (guesser_team2, answerer_team2)
        formated = {}
        for (guesser,answerer), step in zip(teams, resp["steps"][-1][1::2]): # Look only for the last step as guesser for each team since it contain all we need
            keyword, category = step['observation']['keyword'], step['observation']['category']
            if do_print:
                print(f"###\n{guesser=} {answerer=} step {len(step['observation']['answers'])}")
                print(f"{keyword=} {category=}")
                for answer, question, guess in zip(step['observation']['answers'], step['observation']['questions'], step['observation']['guesses']):
                    print(f"\t{question=} {answer=} {guess=}")
            game_index = f"{num}__{guesser}__{answerer}"
            formated[game_index] = {key : step['observation'][key] for key in ['answers', 'questions', 'guesses', 'keyword', 'category']}
            formated[game_index]["guesser"]=guesser
            formated[game_index]["answerer"]=answerer
            formated[game_index]["nb_round"]=len(step['observation']['answers'])
            formated[game_index]["game_num"]=num
            formated[game_index]["guessed"]=keyword in step['observation']['guesses'] # not correct, see keyword_guessed https://www.kaggle.com/code/waechter/llm-20-questions-leaderbord-analyze-best-agents?scriptVersionId=181553251&cellId=4
            formated[game_index]["CreateTime"]=CreateTime
        return formated
    except Exception as e:
        print("Error parsing", num)
#         print(e)
        return {}
```

</div>
<div class="column-right">

# 日本語訳

```python
def download_game(num, CreateTime, do_print=False):
    url_api = "https://www.kaggleusercontent.com/episodes/{num_episode}.json"
    try:
        r = requests.get(url_api.format(num_episode=num))
        if r.status_code!=200:
            print(f"Error http {r.status_code=} {num=}")
            return {}
        resp = r.json()
        teams = resp["info"]["TeamNames"][0:2], resp["info"]["TeamNames"][2:] # チーム名を取得（guesser_team1, answerer_team1）、(guesser_team2, answerer_team2)
        formated = {}
        for (guesser,answerer), step in zip(teams, resp["steps"][-1][1::2]): # 各チームの最後のステップとして推測者の情報を取得
            keyword, category = step['observation']['keyword'], step['observation']['category']
            if do_print:
                print(f"###\n{guesser=} {answerer=} step {len(step['observation']['answers'])}")
                print(f"{keyword=} {category=}")
                for answer, question, guess in zip(step['observation']['answers'], step['observation']['questions'], step['observation']['guesses']):
                    print(f"\t{question=} {answer=} {guess=}")
            game_index = f"{num}__{guesser}__{answerer}"
            formated[game_index] = {key : step['observation'][key] for key in ['answers', 'questions', 'guesses', 'keyword', 'category']}
            formated[game_index]["guesser"]=guesser
            formated[game_index]["answerer"]=answerer
            formated[game_index]["nb_round"]=len(step['observation']['answers'])
            formated[game_index]["game_num"]=num
            formated[game_index]["guessed"]=keyword in step['observation']['guesses'] # 正しくない可能性あり、keyword_guessedを参照 https://www.kaggle.com/code/waechter/llm-20-questions-leaderbord-analyze-best-agents?scriptVersionId=181553251&cellId=4
            formated[game_index]["CreateTime"]=CreateTime
        return formated
    except Exception as e:
        print("Error parsing", num)
#         print(e)
        return {}
```

</div>
</details>

In [None]:
def download_game(num, CreateTime, do_print=False):
    url_api = "https://www.kaggleusercontent.com/episodes/{num_episode}.json"
    try:
        r = requests.get(url_api.format(num_episode=num))
        if r.status_code!=200:
            print(f"Error http {r.status_code=} {num=}")
            return {}
        resp = r.json()
        teams = resp["info"]["TeamNames"][0:2], resp["info"]["TeamNames"][2:] # チーム名を取得（guesser_team1, answerer_team1）、(guesser_team2, answerer_team2)
        formated = {}
        for (guesser,answerer), step in zip(teams, resp["steps"][-1][1::2]): # 各チームの最後のステップとして推測者の情報を取得
            keyword, category = step['observation']['keyword'], step['observation']['category']
            if do_print:
                print(f"###\n{guesser=} {answerer=} step {len(step['observation']['answers'])}")
                print(f"{keyword=} {category=}")
                for answer, question, guess in zip(step['observation']['answers'], step['observation']['questions'], step['observation']['guesses']):
                    print(f"\t{question=} {answer=} {guess=}")
            game_index = f"{num}__{guesser}__{answerer}"
            formated[game_index] = {key : step['observation'][key] for key in ['answers', 'questions', 'guesses', 'keyword', 'category']}
            formated[game_index]["guesser"]=guesser
            formated[game_index]["answerer"]=answerer
            formated[game_index]["nb_round"]=len(step['observation']['answers'])
            formated[game_index]["game_num"]=num
            formated[game_index]["guessed"]=keyword in step['observation']['guesses'] # 正しくない可能性あり、keyword_guessedを参照 https://www.kaggle.com/code/waechter/llm-20-questions-leaderbord-analyze-best-agents?scriptVersionId=181553251&cellId=4
            formated[game_index]["CreateTime"]=CreateTime
        return formated
    except Exception as e:
        print("Error parsing", num)
#         print(e)
        return {}

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Get the new episodes from this competition from meta kaggle dataset

</div>
<div class="column-right">

# 日本語訳

# このコンペティションの新しいエピソードをメタkaggleデータセットから取得


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time
meta_path = Path("/kaggle/input/meta-kaggle")
episodes_df = pd.read_csv(meta_path/"Episodes.csv", index_col="Id")
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time
meta_path = Path("/kaggle/input/meta-kaggle")
episodes_df = pd.read_csv(meta_path/"Episodes.csv", index_col="Id")
```

</div>
</details>

In [None]:
%%time
meta_path = Path("/kaggle/input/meta-kaggle")
episodes_df = pd.read_csv(meta_path/"Episodes.csv", index_col="Id")

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
episodes_df = episodes_df.loc[episodes_df.CompetitionId==61247]
episodes_df
```

</div>
<div class="column-right">

# 日本語訳

```python
episodes_df = episodes_df.loc[episodes_df.CompetitionId==61247]
episodes_df
```

</div>
</details>

In [None]:
episodes_df = episodes_df.loc[episodes_df.CompetitionId==61247]
episodes_df

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

* Type 4 are validation games (1 team, same agent both side)
* Type 1 2teams, 4agents, we keep only thoses

</div>
<div class="column-right">

# 日本語訳

* タイプ4は検証ゲーム（1チーム、同じエージェント両側）
* タイプ1は2チーム、4エージェント、これらのみを保持します


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# keep only real games (filter out validation games)
episodes_df = episodes_df.loc[episodes_df.Type==1,"CreateTime"]
```

</div>
<div class="column-right">

# 日本語訳

```python
# 本物のゲームのみを保持する（検証ゲームを除外する）
episodes_df = episodes_df.loc[episodes_df.Type==1,"CreateTime"]
```

</div>
</details>

In [None]:
# 本物のゲームのみを保持する（検証ゲームを除外する）
episodes_df = episodes_df.loc[episodes_df.Type==1,"CreateTime"]

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## Use generator to read and filter a big file
`EpisodeAgents.csv` is too big to be read at once

</div>
<div class="column-right">

# 日本語訳

## 大きなファイルを読み込んでフィルタリングするためのジェネレーターを使用
`EpisodeAgents.csv`は一度に読み込むには大きすぎます


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
def filter_gen(filepath=meta_path/"EpisodeAgents.csv", chunksize = 10 ** 6):
    episodes_ids = episodes_df.index
    with pd.read_csv(filepath, chunksize=chunksize, index_col="Id") as reader:
        for chunk in reader:
            mask = chunk.EpisodeId.isin(episodes_ids)
            if mask.any():
                yield chunk.loc[mask]
```

</div>
<div class="column-right">

# 日本語訳

```python
def filter_gen(filepath=meta_path/"EpisodeAgents.csv", chunksize = 10 ** 6):
    episodes_ids = episodes_df.index
    with pd.read_csv(filepath, chunksize=chunksize, index_col="Id") as reader:
        for chunk in reader:
            mask = chunk.EpisodeId.isin(episodes_ids)
            if mask.any():
                yield chunk.loc[mask]
```

</div>
</details>

In [None]:
def filter_gen(filepath=meta_path/"EpisodeAgents.csv", chunksize = 10 ** 6):
    episodes_ids = episodes_df.index
    with pd.read_csv(filepath, chunksize=chunksize, index_col="Id") as reader:
        for chunk in reader:
            mask = chunk.EpisodeId.isin(episodes_ids)
            if mask.any():
                yield chunk.loc[mask]

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time
agents_df = pd.concat(filter_gen())
agents_df
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time
agents_df = pd.concat(filter_gen())
agents_df
```

</div>
</details>

In [None]:
%%time
agents_df = pd.concat(filter_gen())
agents_df

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Adding new games

</div>
<div class="column-right">

# 日本語訳

# 新しいゲームを追加する


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time
print(f"previous {len(df_games)=}")
df_games = pd.concat([df_games]+[pd.DataFrame(download_game(episode_id, date)).T for episode_id, date in episodes_df.items() if episode_id not in df_games.game_num.values])
print(f"after update {len(df_games)=}")
df_games
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time
print(f"以前のゲーム数 {len(df_games)=}")
df_games = pd.concat([df_games]+[pd.DataFrame(download_game(episode_id, date)).T for episode_id, date in episodes_df.items() if episode_id not in df_games.game_num.values])
print(f"更新後 {len(df_games)=}")
df_games
```

</div>
</details>

In [None]:
%%time
print(f"以前のゲーム数 {len(df_games)=}")
df_games = pd.concat([df_games]+[pd.DataFrame(download_game(episode_id, date)).T for episode_id, date in episodes_df.items() if episode_id not in df_games.game_num.values])
print(f"更新後 {len(df_games)=}")
df_games

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
new_category_games = df_games.loc[(df_games.category =='place') | (df_games.category =='things')]
new_category_games
```

</div>
<div class="column-right">

# 日本語訳

```python
new_category_games = df_games.loc[(df_games.category =='place') | (df_games.category =='things')]
new_category_games
```

</div>
</details>

In [None]:
new_category_games = df_games.loc[(df_games.category =='place') | (df_games.category =='things')]
new_category_games

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
keywords_category = pd.DataFrame({keyword.lower():{"keyword":keyword,"category":category} for keyword,category in new_category_games[["keyword","category"]].value_counts().index}).T
keywords_category = keywords_category.sort_index()
keywords_category.to_csv("keywords.csv")
```

</div>
<div class="column-right">

# 日本語訳

```python
keywords_category = pd.DataFrame({keyword.lower():{"keyword":keyword,"category":category} for keyword,category in new_category_games[["keyword","category"]].value_counts().index}).T
keywords_category = keywords_category.sort_index()
keywords_category.to_csv("keywords.csv")
```

</div>
</details>

In [None]:
keywords_category = pd.DataFrame({keyword.lower():{"keyword":keyword,"category":category} for keyword,category in new_category_games[["keyword","category"]].value_counts().index}).T
keywords_category = keywords_category.sort_index()
keywords_category.to_csv("keywords.csv")

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## Add SubmissionId

</div>
<div class="column-right">

# 日本語訳

## SubmissionIdを追加


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
%%time
for name, group in df_games.groupby(by="game_num"):
    if "guesser_SubmissionId" and "answerer_SubmissionId" in group.columns and (group.guesser_SubmissionId>0).all() and (group.answerer_SubmissionId>0).all():
        continue # already done
    
    agents_sub=agents_df[agents_df.EpisodeId==name].sort_values("Index")
    
    if len(agents_sub)!=4:
        print(f"{name=} Not all submissions are available. skip")
        continue
        
    # EpisodeAgents have 4rows by EpisodeId, indexed 0-4. Same order as is in the output log json [guesser_team1,answerer_team1,guesser_team2,answerer_team2]
    for i, (index, row) in enumerate(group.iterrows()):
        # 2rows (one for each team)
        df_games.loc[index, ["guesser_SubmissionId","answerer_SubmissionId"]] = [agents_sub.loc[agents_sub.Index==i*2,"SubmissionId"].iloc[0], agents_sub.loc[agents_sub.Index==1+i*2,"SubmissionId"].iloc[0]]

df_games[["guesser_SubmissionId","answerer_SubmissionId"]] = df_games[["guesser_SubmissionId","answerer_SubmissionId"]].fillna(0).astype("int")
df_games
```

</div>
<div class="column-right">

# 日本語訳

```python
%%time
for name, group in df_games.groupby(by="game_num"):
    if "guesser_SubmissionId" and "answerer_SubmissionId" in group.columns and (group.guesser_SubmissionId>0).all() and (group.answerer_SubmissionId>0).all():
        continue # すでに完了しています
    
    agents_sub=agents_df[agents_df.EpisodeId==name].sort_values("Index")
    
    if len(agents_sub)!=4:
        print(f"{name=} 利用可能な全ての提出がありません。スキップします。")
        continue
        
    # EpisodeAgentsは各EpisodeIdに対して4行を持ち、インデックスは0-4。出力ログjson [guesser_team1,answerer_team1,guesser_team2,answerer_team2] と同じ順序
    for i, (index, row) in enumerate(group.iterrows()):
        # 2行（各チームに対して1つずつ）
        df_games.loc[index, ["guesser_SubmissionId","answerer_SubmissionId"]] = [agents_sub.loc[agents_sub.Index==i*2,"SubmissionId"].iloc[0], agents_sub.loc[agents_sub.Index==1+i*2,"SubmissionId"].iloc[0]]

df_games[["guesser_SubmissionId","answerer_SubmissionId"]] = df_games[["guesser_SubmissionId","answerer_SubmissionId"]].fillna(0).astype("int")
df_games
```

</div>
</details>

In [None]:
%%time
for name, group in df_games.groupby(by="game_num"):
    if "guesser_SubmissionId" and "answerer_SubmissionId" in group.columns and (group.guesser_SubmissionId>0).all() and (group.answerer_SubmissionId>0).all():
        continue # すでに完了しています
    
    agents_sub=agents_df[agents_df.EpisodeId==name].sort_values("Index")
    
    if len(agents_sub)!=4:
        print(f"{name=} 利用可能な全ての提出がありません。スキップします。")
        continue
        
    # EpisodeAgentsは各EpisodeIdに対して4行を持ち、インデックスは0-4。出力ログjson [guesser_team1,answerer_team1,guesser_team2,answerer_team2] と同じ順序
    for i, (index, row) in enumerate(group.iterrows()):
        # 2行（各チームに対して1つずつ）
        df_games.loc[index, ["guesser_SubmissionId","answerer_SubmissionId"]] = [agents_sub.loc[agents_sub.Index==i*2,"SubmissionId"].iloc[0], agents_sub.loc[agents_sub.Index==1+i*2,"SubmissionId"].iloc[0]]

df_games[["guesser_SubmissionId","answerer_SubmissionId"]] = df_games[["guesser_SubmissionId","answerer_SubmissionId"]].fillna(0).astype("int")
df_games

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

### test if merged correctly

</div>
<div class="column-right">

# 日本語訳

### マージが正しく行われたかテスト


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
if set(df_games.answerer_SubmissionId) != set(df_games.guesser_SubmissionId):
    print("sub only in guesser",set(df_games.guesser_SubmissionId) - set(df_games.answerer_SubmissionId))
    print("sub only answerer",set(df_games.answerer_SubmissionId) - set(df_games.guesser_SubmissionId))
if set(df_games.answerer) != set(df_games.guesser):
    print("team only in guesser",set(df_games.guesser) - set(df_games.answerer))
    print("team only in answerer",set(df_games.answerer) - set(df_games.guesser))
```

</div>
<div class="column-right">

# 日本語訳

```python
if set(df_games.answerer_SubmissionId) != set(df_games.guesser_SubmissionId):
    print("guesserのみに存在するsub",set(df_games.guesser_SubmissionId) - set(df_games.answerer_SubmissionId))
    print("answererのみに存在するsub",set(df_games.answerer_SubmissionId) - set(df_games.guesser_SubmissionId))
if set(df_games.answerer) != set(df_games.guesser):
    print("guesserのみに存在するチーム",set(df_games.guesser) - set(df_games.answerer))
    print("answererのみに存在するチーム",set(df_games.answerer) - set(df_games.guesser))
```

</div>
</details>

In [None]:
if set(df_games.answerer_SubmissionId) != set(df_games.guesser_SubmissionId):
    print("guesserのみに存在するsub",set(df_games.guesser_SubmissionId) - set(df_games.answerer_SubmissionId))
    print("answererのみに存在するsub",set(df_games.answerer_SubmissionId) - set(df_games.guesser_SubmissionId))
if set(df_games.answerer) != set(df_games.guesser):
    print("guesserのみに存在するチーム",set(df_games.guesser) - set(df_games.answerer))
    print("answererのみに存在するチーム",set(df_games.answerer) - set(df_games.guesser))

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
f"Nb unique team: {len(df_games.answerer.unique())} submissions:{len(df_games.answerer_SubmissionId.unique())}"
```

</div>
<div class="column-right">

# 日本語訳

```python
f"ユニークなチーム数: {len(df_games.answerer.unique())} 提出数:{len(df_games.answerer_SubmissionId.unique())}"
```

</div>
</details>

In [None]:
f"ユニークなチーム数: {len(df_games.answerer.unique())} 提出数:{len(df_games.answerer_SubmissionId.unique())}"

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# for submissionId in df_games.answerer_SubmissionId.unique():
#     guesser = df_games.loc[df_games.guesser_SubmissionId==submissionId,"guesser"].unique()
#     answerer = df_games.loc[df_games.answerer_SubmissionId==submissionId,"answerer"].unique()
#     if len(answerer)>1  or len(guesser)>1:
#         print(f"{submissionId=} found multiple team name {guesser=}, {answerer=}")
```

</div>
<div class="column-right">

# 日本語訳

```python
# df_games.answerer_SubmissionId.unique()の各submissionIdについて:
#     guesser = df_games.loc[df_games.guesser_SubmissionId==submissionId,"guesser"].unique()
#     answerer = df_games.loc[df_games.answerer_SubmissionId==submissionId,"answerer"].unique()
#     if len(answerer)>1  or len(guesser)>1:
#         print(f"{submissionId=} で複数のチーム名が見つかりました {guesser=}, {answerer=}")
```

</div>
</details>

In [None]:
# df_games.answerer_SubmissionId.unique()の各submissionIdについて:
#     guesser = df_games.loc[df_games.guesser_SubmissionId==submissionId,"guesser"].unique()
#     answerer = df_games.loc[df_games.answerer_SubmissionId==submissionId,"answerer"].unique()
#     if len(answerer)>1  or len(guesser)>1:
#         print(f"{submissionId=} で複数のチーム名が見つかりました {guesser=}, {answerer=}")

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

submissionId=0 are the one not found, will try to fill them again at the next data update  
The rest is teams that update their name i think

</div>
<div class="column-right">

# 日本語訳

`submissionId=0`は見つからなかったもので、次のデータ更新時に再度埋める予定です  
残りは名前を更新したチームだと思います


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
df_games[["guesser_SubmissionId","guesser"]].value_counts()
```

</div>
<div class="column-right">

# 日本語訳

```python
df_games[["guesser_SubmissionId","guesser"]].value_counts()
```

</div>
</details>

In [None]:
df_games[["guesser_SubmissionId","guesser"]].value_counts()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
for team in df_games.answerer.unique():
    submissions_set = set(df_games.loc[df_games.guesser==team, "guesser_SubmissionId"]) & set(df_games.loc[df_games.answerer==team, "answerer_SubmissionId"])
    print(f"{team=}, {len(submissions_set)} submissions")
```

</div>
<div class="column-right">

# 日本語訳

```python
for team in df_games.answerer.unique():
    submissions_set = set(df_games.loc[df_games.guesser==team, "guesser_SubmissionId"]) & set(df_games.loc[df_games.answerer==team, "answerer_SubmissionId"])
    print(f"{team=}, {len(submissions_set)} 提出数")
```

</div>
</details>

In [None]:
for team in df_games.answerer.unique():
    submissions_set = set(df_games.loc[df_games.guesser==team, "guesser_SubmissionId"]) & set(df_games.loc[df_games.answerer==team, "answerer_SubmissionId"])
    print(f"{team=}, {len(submissions_set)} 提出数")

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# Save

</div>
<div class="column-right">

# 日本語訳

# 保存


</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
df_games.to_csv("LLM-20Questions-games.csv", index_label="index")
agents_df.to_csv("EpisodeAgents.csv", index_label="Id")
```

</div>
<div class="column-right">

# 日本語訳

```python
df_games.to_csv("LLM-20Questions-games.csv", index_label="index")
agents_df.to_csv("EpisodeAgents.csv", index_label="Id")
```

</div>
</details>

In [None]:
df_games.to_csv("LLM-20Questions-games.csv", index_label="index")
agents_df.to_csv("EpisodeAgents.csv", index_label="Id")

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

Use in https://www.kaggle.com/code/waechter/llm-20-questions-leaderbord-analyze-best-agents

</div>
<div class="column-right">

# 日本語訳

https://www.kaggle.com/code/waechter/llm-20-questions-leaderbord-analyze-best-agentsで使用


</div>

---

# コメント

> ## OminousDude
> 
> とてもとても役立つ、素晴らしい仕事に感謝します！私のモデルのパフォーマンスを確認する手助けをしてくれます。
> 

> 
> 

---

> ## Mario Caesar
> 
> LLMデータセットに関する優れた作業をしてくれて、私はあなたの作業から多くの新しいことを学びました[@waechter](https://www.kaggle.com/waechter)。共有してくれてありがとう😎👊！支持します！！これからも頑張ってください。
> 
> 
> 

---

> ## Zeeshan Latif
> 
> [@waechter](https://www.kaggle.com/waechter) 素晴らしい仕事です！
> 
> 

---

> ## JuHyeon_
> 
> 素晴らしい！共有してくれてありがとう[@waechter](https://www.kaggle.com/waechter) 
> 
> LLM初心者にとって素晴らしい教材です:)
> 
> 高評価😀時間があれば私のノートブックも見て欲しいです！
> 

---

> ## Sara Taghizadeh Milani
> 
> 明らかに多くの思考と努力が込められています。徹底性と明確性から高評価—あなたの今後の作品が楽しみです！
> 
> [@waechter](https://www.kaggle.com/waechter) 
> 

---

> ## Marília Prata
> 
> あなたのデータセットLLM-20Questions-gamesに関する素晴らしい仕事、Waechter。
> 
> 

---