# 要約 
このJupyter Notebookは、Kaggleの「20 Questions」コンペティションのエピソードデータを取得し、分析することを目的としています。具体的には、エピソードのJSONデータをリモートURLから取得し、エピソードの質問、回答、および予測情報を含むデータセットを作成しています。この分析を通じて、どの質問が最も頻繁に使用され、またキーワードを発見するために効果的であったかを調査しています。

### 主な取り組み内容:
1. **データ取得**: `requests`ライブラリを使用して、指定したエピソードのJSONデータをHTTPリクエストにて取得する関数を作成しています。
2. **データ整形**: 取得したJSONデータを基に、質問や回答、予測などの情報を整理し、リストに格納します。
3. **DataFrame作成**: 整理したデータをPandas DataFrameに変換し、CSVファイルとして保存します。
4. **質問の頻度分析**: 各質問の出現頻度をカウントし、最もよくもられた質問を表示します。
5. **効果的な質問の特定**: キーワードが予測と一致したケースをフィルタリングし、そのような質問の出現頻度を分析しています。

### 使用ライブラリ:
- `requests`: データ取得用のHTTPリクエストを管理。
- `pandas`: データの整形、分析、CSVファイル出力を行うために使用。

このノートブックは、質問の頻度や効果を定量的に評価することに重きを置いており、分析結果を用いることで「20の質問」ゲームにおいてより効果的な質問戦略を探るための基盤を提供します。

---


# 用語概説 
以下は、Jupyter Notebookの内容に基づく、機械学習や深層学習に関連する用語の簡単な解説です。特に、初心者がつまずきやすいマイナーなものや実務経験がないと馴染みのない用語に焦点を当てています。

1. **JSON (JavaScript Object Notation)**:
   - データを軽量なテキスト形式で表現するための標準的なフォーマット。データ交換に広く使われており、プログラム間で情報を簡単にやり取りすることができる。

2. **エピソード**:
   - このコンテストの context における「エピソード」は、1つの「20の質問」ゲームの実行を指す。特定の試行やセットアップでのプレイのことを示す。

3. **ステップ**:
   - 各エピソード内での動きや相互作用の1回の過程を指す。例えば、質問が投げられたり、回答が返ってきたりする各段階を表す。

4. **観察 (Observation)**:
   - 特定のステップ内でエージェントが取得する情報やデータを指す。質問、回答、予測、キーワードなどが含まれる。

5. **iteration (イテレーション)**:
   - アルゴリズムやプロセスが繰り返される回数。機械学習では、訓練工程の各サイクルを示すことが多い。

6. **フィルタリング**:
   - データセットから特定の条件に一致するレコードを選別するプロセス。ここでは、予測が正解のキーワードと一致する行を抽出している。

7. **データフレーム (DataFrame)**:
   - Pandasライブラリで提供されるデータ構造で、簡単に操作・分析ができるように設計された、2次元のラベル付けされたデータの格納形式。表計算ソフトのスプレッドシートに似ている。

8. **頻度カウント (Value Counts)**:
   - 特定のデータセット内の値の出現回数を計算する手法。どの質問が一番多く使われているかを分析するのに役立つ。

9. **キーワード (Keyword)**:
   - このコンペティションの目的における特定のターゲット словоやアイデアを指す。質問を通じて発見される重要な情報を意味する。

10. **抽出 (Extraction)**:
    - 大量のデータから特定の情報を取り出すこと。ここでは、JSONデータから必要な情報を取得しているプロセスを示す。

これらの用語は、ノートブックの理解を深めるために重要な要素です。特に、エピソードや観察、フィルタリングといった概念は、「20の質問」ゲームの文脈でのデータ処理の基本を構成します。

---


<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
pip install requests pandas
```

</div>
<div class="column-right">

# 日本語訳

```python
pip install requests pandas
```

</div>
</details>

In [None]:
pip install requests pandas

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import requests
import pandas as pd
# Function to read JSON data from URL
def read_json_from_url(url):
    response = requests.get(url)
    response.raise_for_status()  # Ensure we notice bad responses
    return response.json()
# List to store data
data = []
# Base URL
base_url = "https://www.kaggleusercontent.com/episodes/"
for i in [55235305, 55177813, 55181874, 55054770]:
    url = f"{base_url}{i}.json"
    json_data = read_json_from_url(url)
    # Iterating over key-value pairs
    auxVar1 = json_data['steps'][len(json_data['steps'])-1]
    for i in range(len(auxVar1)):
        obs = dict(auxVar1[i])['observation']
        if 'questions' in obs:
            for j in range(min(len(obs['questions']),len(obs['guesses']))):
                data.append({
                    'iteration' : i+1,
                    'episode_id': json_data['info']['EpisodeId'],
                    'questions' : obs['questions'][j],
                    'answers'   : obs['answers'][j],
                    'guesses'   : obs['guesses'][j],
                    'keyword'   : obs['keyword']}
                )
# Create DataFrame
df = pd.DataFrame(data)
df.to_csv('20_questions_data.csv', index=False)

print("Data successfully extracted and saved to '20_questions_data.csv'.")
```

</div>
<div class="column-right">

# 日本語訳

```python
import requests
import pandas as pd

# URLからJSONデータを読み込む関数
def read_json_from_url(url):
    response = requests.get(url)  # 指定したURLからデータを取得
    response.raise_for_status()  # エラーがあれば例外を発生させる
    return response.json()  # JSON形式でデータを返す

# データを格納するリスト
data = []

# ベースURL
base_url = "https://www.kaggleusercontent.com/episodes/"

# 複数のエピソードIDに対してループ処理
for i in [55235305, 55177813, 55181874, 55054770]:
    url = f"{base_url}{i}.json"  # 各エピソードのURLを作成
    json_data = read_json_from_url(url)  # JSONデータを取得
    # key-valueペアを反復処理
    auxVar1 = json_data['steps'][len(json_data['steps'])-1]  # 最後のステップを取得
    for i in range(len(auxVar1)):
        obs = dict(auxVar1[i])['observation']  # 観察データを取得
        if 'questions' in obs:  # 'questions'が存在する場合
            for j in range(min(len(obs['questions']), len(obs['guesses']))):  # 質問と予測の最小数でループ
                # 各観察からデータを辞書形式で追加
                data.append({
                    'iteration': i + 1,  # イテレーション番号
                    'episode_id': json_data['info']['EpisodeId'],  # エピソードID
                    'questions': obs['questions'][j],  # 質問
                    'answers': obs['answers'][j],  # 答え
                    'guesses': obs['guesses'][j],  # 予測
                    'keyword': obs['keyword']}  # キーワード
                )

# DataFrameを作成
df = pd.DataFrame(data)  # 辞書リストからDataFrameを作成
df.to_csv('20_questions_data.csv', index=False)  # '20_questions_data.csv'に保存

print("データが正常に抽出され、'20_questions_data.csv'に保存されました。")  # 完了メッセージ
```

</div>
</details>

In [None]:
import requests
import pandas as pd

# URLからJSONデータを読み込む関数
def read_json_from_url(url):
    response = requests.get(url)  # 指定したURLからデータを取得
    response.raise_for_status()  # エラーがあれば例外を発生させる
    return response.json()  # JSON形式でデータを返す

# データを格納するリスト
data = []

# ベースURL
base_url = "https://www.kaggleusercontent.com/episodes/"

# 複数のエピソードIDに対してループ処理
for i in [55235305, 55177813, 55181874, 55054770]:
    url = f"{base_url}{i}.json"  # 各エピソードのURLを作成
    json_data = read_json_from_url(url)  # JSONデータを取得
    # key-valueペアを反復処理
    auxVar1 = json_data['steps'][len(json_data['steps'])-1]  # 最後のステップを取得
    for i in range(len(auxVar1)):
        obs = dict(auxVar1[i])['observation']  # 観察データを取得
        if 'questions' in obs:  # 'questions'が存在する場合
            for j in range(min(len(obs['questions']), len(obs['guesses']))):  # 質問と予測の最小数でループ
                # 各観察からデータを辞書形式で追加
                data.append({
                    'iteration': i + 1,  # イテレーション番号
                    'episode_id': json_data['info']['EpisodeId'],  # エピソードID
                    'questions': obs['questions'][j],  # 質問
                    'answers': obs['answers'][j],  # 答え
                    'guesses': obs['guesses'][j],  # 予測
                    'keyword': obs['keyword']}  # キーワード
                )

# DataFrameを作成
df = pd.DataFrame(data)  # 辞書リストからDataFrameを作成
df.to_csv('20_questions_data.csv', index=False)  # '20_questions_data.csv'に保存

print("データが正常に抽出され、'20_questions_data.csv'に保存されました。")  # 完了メッセージ

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Display the first few rows of the DataFrame
print(df.head())

# Count the frequency of each question
question_counts = df['questions'].value_counts()

# Display the most frequently asked questions
print("Most Frequently Asked Questions:")
print(question_counts.head(10))

# Filter rows where the guess is equal to the keyword
keyword_discovered = df[df['guesses'] == df['keyword']]

# Count the frequency of questions that led to discovering the keyword
discovery_question_counts = keyword_discovered['questions'].value_counts()

# Display the most effective questions for discovering the keyword
print("Questions Leading to Discovering the Keyword:")
print(discovery_question_counts.head(10))

```

</div>
<div class="column-right">

# 日本語訳

```python
# DataFrameの最初の数行を表示
print(df.head())

# 各質問の頻度をカウント
question_counts = df['questions'].value_counts()

# 最も頻繁に尋ねられた質問を表示
print("最も頻繁に尋ねられた質問:")
print(question_counts.head(10))

# 予測がキーワードと一致する行をフィルター
keyword_discovered = df[df['guesses'] == df['keyword']]

# キーワードを発見した質問の頻度をカウント
discovery_question_counts = keyword_discovered['questions'].value_counts()

# キーワードを発見するための最も効果的な質問を表示
print("キーワードを発見するための質問:")
print(discovery_question_counts.head(10))
```

</div>
</details>

In [None]:
# DataFrameの最初の数行を表示
print(df.head())

# 各質問の頻度をカウント
question_counts = df['questions'].value_counts()

# 最も頻繁に尋ねられた質問を表示
print("最も頻繁に尋ねられた質問:")
print(question_counts.head(10))

# 予測がキーワードと一致する行をフィルター
keyword_discovered = df[df['guesses'] == df['keyword']]

# キーワードを発見した質問の頻度をカウント
discovery_question_counts = keyword_discovered['questions'].value_counts()

# キーワードを発見するための最も効果的な質問を表示
print("キーワードを発見するための質問:")
print(discovery_question_counts.head(10))

In [None]:
# DataFrameの最初の数行を表示
print(df.head())

# 各質問の頻度をカウント
question_counts = df['questions'].value_counts()

# 最も頻繁に尋ねられた質問を表示
print("最も頻繁に尋ねられた質問:")
print(question_counts.head(10))

# 予測がキーワードと一致する行をフィルター
keyword_discovered = df[df['guesses'] == df['keyword']]

# キーワードを発見した質問の頻度をカウント
discovery_question_counts = keyword_discovered['questions'].value_counts()

# キーワードを発見するための最も効果的な質問を表示
print("キーワードを発見するための質問:")
print(discovery_question_counts.head(10))