# 要約 
このJupyter Notebookは、Kaggleの「LLM 20 Questions」コンペティションに関連するJSONデータを処理し、特定の情報を抽出してCSV形式で保存することに取り組んでいます。特に、「国」、「都市」、および「名所」といったカテゴリの単語を扱っています。

### 主な内容と手法:

1. **ライブラリのインポート**:
    - `pandas` と `json` の他、テキスト処理のために `TextBlob` がインポートされています。ただし、実際の処理には使用されていません。

2. **JSONデータの読み込み**:
    - JSONファイルを読み込み、その内容を検査します。主に「agents」というキーの下のデータが抽出されています。

3. **データフレームの作成**:
    - JSONデータを`pandas`のデータフレームに変換し、内容を確認します。

4. **キーワードの抽出**:
    - `keywords.py` をインポートし、隠すキーワードデータ（国、都市、名所）をJSONから抽出しています。

5. **データの整形と出力**:
    - 各カテゴリ（国、都市、名所）のデータを整形し、個別のデータフレームに変換しています。その後、これらをCSV形式で保存しています。

6. **関数の定義**:
    - 同じ処理が繰り返されるため、機能を`main`関数にまとめ、より明確で再利用可能な形式にしています。

このNotebookの目的は、JSONフォーマットのデータから特定の情報を効果的に抜き出し、分析やさらなる処理ができるように整形してCSVファイルに保存することです。使用されている主なライブラリには`pandas`、`json`が含まれており、データ処理における標準的な手法を用いて実施されています。

---


# 用語概説 
以下は、Jupyter Notebookのコードに関連する初心者がつまずきそうな専門用語の簡単な解説です。特に、実務経験がないと馴染みにくいものやこのノートブック特有のドメイン知識に焦点を当てています。

### 専門用語解説

1. **JSON (JavaScript Object Notation)**:
   - データを軽量でわかりやすい形式で表現するためのフォーマット。特にAPIなどでデータをやり取りする際によく使用される。要素をキーとバリューのペアで格納するため、構造化されたデータを表現するのに適している。

2. **データフレーム (DataFrame)**:
   - Pandasライブラリにおける二次元のラベル付きデータ構造。表形式のデータを操作するための主要なデータ構造で、行と列からなる。データの分析や操作が容易になるため、広く用いられる。

3. **正規化 (Normalization)**:
   - データを特定の形式や範囲に整形するプロセス。ここでは、JSON形式のデータをデータフレームに変換する際、ネストされたデータを平坦化して操作しやすくする意味で使われている。

4. **オブジェクト (Object)**:
   - プログラミングにおけるデータと機能を持った構造体。JSONでは、オブジェクトは中括弧 `{}` で囲まれ、キーと値のペアから成る。

5. **辞書 (Dictionary)**:
   - Pythonのデータ構造の一つで、キーとバリューのペアからなる。異なるタイプのデータを効率的に管理するのに使われ、検索が高速である。

6. **モジュール (Module)**:
   - Pythonのスクリプトやライブラリを意味し、特定の機能をまとめたファイル。`import`文を使って他のPythonファイルの内容を利用する。

7. **システムパス (sys.path)**:
   - Pythonがモジュールを探す際の検索パスのリスト。これを訂正することで、特定のディレクトリからモジュールをインポートできるようにする。

8. **キーワード (Keywords)**:
   - 特定の条件や特性を示す用語や単語を指す。ここでは、`keywords.py`というファイルからキーワードデータを取得し、特定のカテゴリ（国、都市、名所）に分類している。

9. **ファイルシステムのウォーク (os.walk)**:
   - 指定したディレクトリから全てのファイルとサブディレクトリを走査するPythonの関数。この機能を使って、ディレクトリ構造を再帰的に調べ上げることができる。

10. **タブ幅設定 (pd.set_option)**:
    - Pandasの設定オプションを変更するための関数。データフレームを表示する際の行数や文字幅の制御に使われ、デフォルトの表示方法をカスタマイズするのに役立つ。

このリストを参考にしつつ、さらに関連する内容や具体例を学ぶことで、機械学習や深層学習の知識を深化させることができます。

---


<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import pandas as pd
import json
from textblob import TextBlob
```

</div>
<div class="column-right">

# 日本語訳

```python
import pandas as pd
import json
from textblob import TextBlob
```

</div>
</details>

In [None]:
import pandas as pd
import json
from textblob import TextBlob

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Load and inspect the JSON data
with open('/kaggle/input/llm-20-questions/llm_20_questions/llm_20_questions.json') as file:
    raw_data = json.load(file)
```

</div>
<div class="column-right">

# 日本語訳

```python
# JSONデータを読み込み、検査する
with open('/kaggle/input/llm-20-questions/llm_20_questions/llm_20_questions.json') as file:
    raw_data = json.load(file)
```

</div>
</details>

In [None]:
# JSONデータを読み込み、検査する
with open('/kaggle/input/llm-20-questions/llm_20_questions/llm_20_questions.json') as file:
    raw_data = json.load(file)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Inspect the keys of the JSON data
print(raw_data.keys())
```

</div>
<div class="column-right">

# 日本語訳

```python
# JSONデータのキーを検査する
print(raw_data.keys())
```

</div>
</details>

In [None]:
# JSONデータのキーを検査する
print(raw_data.keys())

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Extract data under the 'agents' key
data = raw_data['agents']
```

</div>
<div class="column-right">

# 日本語訳

```python
# 'agents'キーの下のデータを抽出する
data = raw_data['agents']
```

</div>
</details>

In [None]:
# 'agents'キーの下のデータを抽出する
data = raw_data['agents']

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Convert the data to a DataFrame (assuming it's a list of dictionaries)
data = pd.DataFrame(data)
```

</div>
<div class="column-right">

# 日本語訳

```python
# データをデータフレームに変換する（辞書のリストであると仮定）
data = pd.DataFrame(data)
```

</div>
</details>

In [None]:
# データをデータフレームに変換する（辞書のリストであると仮定）
data = pd.DataFrame(data)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Display the first few rows to confirm correct loading
print(data.head())
```

</div>
<div class="column-right">

# 日本語訳

```python
# 正しく読み込まれたことを確認するために最初の数行を表示する
print(data.head())
```

</div>
</details>

In [None]:
# 正しく読み込まれたことを確認するために最初の数行を表示する
print(data.head())

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import numpy as np
import pandas as pd
import json
import os
import sys

# Show files
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Import keywords.py
sys.path.append('../input/llm-20-questions/llm_20_questions/')
import keywords

# Configurations
pd.set_option('display.max_rows', None)  # Show all rows of data frames
pd.set_option('display.max_colwidth', None)  # Display also longer texts in full

# Convert to JSON
my_json = json.loads(keywords.KEYWORDS_JSON)

# Extract components
json_country = my_json[0]
json_city = my_json[1]
json_landmark = my_json[2]

# Country
df_country = pd.json_normalize(json_country['words'])
print("Country Dataframe:")
print(df_country)

# City
df_city = pd.json_normalize(json_city['words'])
print("\nCity Dataframe:")
print(df_city)

# Landmark
df_landmark = pd.json_normalize(json_landmark['words'])
print("\nLandmark Dataframe:")
print(df_landmark)

print("\nLength of my_json:", len(my_json))
```

</div>
<div class="column-right">

# 日本語訳

```python
import numpy as np
import pandas as pd
import json
import os
import sys

# ファイルを表示する
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# keywords.pyをインポートする
sys.path.append('../input/llm-20-questions/llm_20_questions/')
import keywords

# 設定
pd.set_option('display.max_rows', None)  # データフレームの全行を表示
pd.set_option('display.max_colwidth', None)  # 長いテキストも完全に表示

# JSONに変換する
my_json = json.loads(keywords.KEYWORDS_JSON)

# コンポーネントを抽出する
json_country = my_json[0]  # 国のデータを取得
json_city = my_json[1]     # 都市のデータを取得
json_landmark = my_json[2] # 名所のデータを取得

# 国
df_country = pd.json_normalize(json_country['words'])  # JSONの単語をデータフレームに変換
print("国のデータフレーム:")
print(df_country)  # 国のデータを表示

# 都市
df_city = pd.json_normalize(json_city['words'])  # JSONの単語をデータフレームに変換
print("\n都市のデータフレーム:")
print(df_city)  # 都市のデータを表示

# 名所
df_landmark = pd.json_normalize(json_landmark['words'])  # JSONの単語をデータフレームに変換
print("\n名所のデータフレーム:")
print(df_landmark)  # 名所のデータを表示

print("\nmy_jsonの長さ:", len(my_json))  # my_jsonの長さを表示
```

</div>
</details>

In [None]:
import numpy as np
import pandas as pd
import json
import os
import sys

# ファイルを表示する
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# keywords.pyをインポートする
sys.path.append('../input/llm-20-questions/llm_20_questions/')
import keywords

# 設定
pd.set_option('display.max_rows', None)  # データフレームの全行を表示
pd.set_option('display.max_colwidth', None)  # 長いテキストも完全に表示

# JSONに変換する
my_json = json.loads(keywords.KEYWORDS_JSON)

# コンポーネントを抽出する
json_country = my_json[0]  # 国のデータを取得
json_city = my_json[1]     # 都市のデータを取得
json_landmark = my_json[2] # 名所のデータを取得

# 国
df_country = pd.json_normalize(json_country['words'])  # JSONの単語をデータフレームに変換
print("国のデータフレーム:")
print(df_country)  # 国のデータを表示

# 都市
df_city = pd.json_normalize(json_city['words'])  # JSONの単語をデータフレームに変換
print("\n都市のデータフレーム:")
print(df_city)  # 都市のデータを表示

# 名所
df_landmark = pd.json_normalize(json_landmark['words'])  # JSONの単語をデータフレームに変換
print("\n名所のデータフレーム:")
print(df_landmark)  # 名所のデータを表示

print("\nmy_jsonの長さ:", len(my_json))  # my_jsonの長さを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import numpy as np
import pandas as pd
import json
import os
import sys

# Show files
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Import keywords.py
sys.path.append('../input/llm-20-questions/llm_20_questions/')
import keywords

# Configurations
pd.set_option('display.max_rows', None)  # Show all rows of data frames
pd.set_option('display.max_colwidth', None)  # Display also longer texts in full

# Convert to JSON
my_json = json.loads(keywords.KEYWORDS_JSON)

# Extract components
json_country = my_json[0]
json_city = my_json[1]
json_landmark = my_json[2]

# Country
df_country = pd.json_normalize(json_country['words'])
print("Country Dataframe:")
print(df_country)
df_country.to_csv('/kaggle/working/country.csv', index=False)

# City
df_city = pd.json_normalize(json_city['words'])
print("\nCity Dataframe:")
print(df_city)
df_city.to_csv('/kaggle/working/city.csv', index=False)

# Landmark
df_landmark = pd.json_normalize(json_landmark['words'])
print("\nLandmark Dataframe:")
print(df_landmark)
df_landmark.to_csv('/kaggle/working/landmark.csv', index=False)

print("\nLength of my_json:", len(my_json))
```

</div>
<div class="column-right">

# 日本語訳

```python
import numpy as np
import pandas as pd
import json
import os
import sys

# ファイルを表示する
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# keywords.pyをインポートする
sys.path.append('../input/llm-20-questions/llm_20_questions/')
import keywords

# 設定
pd.set_option('display.max_rows', None)  # データフレームの全行を表示
pd.set_option('display.max_colwidth', None)  # 長いテキストも完全に表示

# JSONに変換する
my_json = json.loads(keywords.KEYWORDS_JSON)

# コンポーネントを抽出する
json_country = my_json[0]  # 国のデータを取得
json_city = my_json[1]     # 都市のデータを取得
json_landmark = my_json[2] # 名所のデータを取得

# 国
df_country = pd.json_normalize(json_country['words'])  # JSONの単語をデータフレームに変換
print("国のデータフレーム:")
print(df_country)  # 国のデータを表示
df_country.to_csv('/kaggle/working/country.csv', index=False)  # CSVファイルとして保存

# 都市
df_city = pd.json_normalize(json_city['words'])  # JSONの単語をデータフレームに変換
print("\n都市のデータフレーム:")
print(df_city)  # 都市のデータを表示
df_city.to_csv('/kaggle/working/city.csv', index=False)  # CSVファイルとして保存

# 名所
df_landmark = pd.json_normalize(json_landmark['words'])  # JSONの単語をデータフレームに変換
print("\n名所のデータフレーム:")
print(df_landmark)  # 名所のデータを表示
df_landmark.to_csv('/kaggle/working/landmark.csv', index=False)  # CSVファイルとして保存

print("\nmy_jsonの長さ:", len(my_json))  # my_jsonの長さを表示
```

</div>
</details>

In [None]:
import numpy as np
import pandas as pd
import json
import os
import sys

# ファイルを表示する
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# keywords.pyをインポートする
sys.path.append('../input/llm-20-questions/llm_20_questions/')
import keywords

# 設定
pd.set_option('display.max_rows', None)  # データフレームの全行を表示
pd.set_option('display.max_colwidth', None)  # 長いテキストも完全に表示

# JSONに変換する
my_json = json.loads(keywords.KEYWORDS_JSON)

# コンポーネントを抽出する
json_country = my_json[0]  # 国のデータを取得
json_city = my_json[1]     # 都市のデータを取得
json_landmark = my_json[2] # 名所のデータを取得

# 国
df_country = pd.json_normalize(json_country['words'])  # JSONの単語をデータフレームに変換
print("国のデータフレーム:")
print(df_country)  # 国のデータを表示
df_country.to_csv('/kaggle/working/country.csv', index=False)  # CSVファイルとして保存

# 都市
df_city = pd.json_normalize(json_city['words'])  # JSONの単語をデータフレームに変換
print("\n都市のデータフレーム:")
print(df_city)  # 都市のデータを表示
df_city.to_csv('/kaggle/working/city.csv', index=False)  # CSVファイルとして保存

# 名所
df_landmark = pd.json_normalize(json_landmark['words'])  # JSONの単語をデータフレームに変換
print("\n名所のデータフレーム:")
print(df_landmark)  # 名所のデータを表示
df_landmark.to_csv('/kaggle/working/landmark.csv', index=False)  # CSVファイルとして保存

print("\nmy_jsonの長さ:", len(my_json))  # my_jsonの長さを表示

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
import numpy as np
import pandas as pd
import json
import os
import sys

def main():
    # Show files
    for dirname, _, filenames in os.walk('/kaggle/input'):
        for filename in filenames:
            print(os.path.join(dirname, filename))

    # Import keywords.py
    sys.path.append('../input/llm-20-questions/llm_20_questions/')
    import keywords

    # Configurations
    pd.set_option('display.max_rows', None)  # Show all rows of data frames
    pd.set_option('display.max_colwidth', None)  # Display also longer texts in full

    # Convert to JSON
    my_json = json.loads(keywords.KEYWORDS_JSON)

    # Extract components
    json_country = my_json[0]
    json_city = my_json[1]
    json_landmark = my_json[2]

    # Country
    df_country = pd.json_normalize(json_country['words'])
    print("Country Dataframe:")
    print(df_country)
    df_country.to_csv('/kaggle/working/country.csv', index=False)

    # City
    df_city = pd.json_normalize(json_city['words'])
    print("\nCity Dataframe:")
    print(df_city)
    df_city.to_csv('/kaggle/working/city.csv', index=False)

    # Landmark
    df_landmark = pd.json_normalize(json_landmark['words'])
    print("\nLandmark Dataframe:")
    print(df_landmark)
    df_landmark.to_csv('/kaggle/working/landmark.csv', index=False)

    print("\nLength of my_json:", len(my_json))

if __name__ == "__main__":
    main()

```

</div>
<div class="column-right">

# 日本語訳

```python
import numpy as np
import pandas as pd
import json
import os
import sys

def main():
    # ファイルを表示する
    for dirname, _, filenames in os.walk('/kaggle/input'):
        for filename in filenames:
            print(os.path.join(dirname, filename))

    # keywords.pyをインポートする
    sys.path.append('../input/llm-20-questions/llm_20_questions/')
    import keywords

    # 設定
    pd.set_option('display.max_rows', None)  # データフレームの全行を表示
    pd.set_option('display.max_colwidth', None)  # 長いテキストも完全に表示

    # JSONに変換する
    my_json = json.loads(keywords.KEYWORDS_JSON)

    # コンポーネントを抽出する
    json_country = my_json[0]  # 国のデータを取得
    json_city = my_json[1]     # 都市のデータを取得
    json_landmark = my_json[2] # 名所のデータを取得

    # 国
    df_country = pd.json_normalize(json_country['words'])  # JSONの単語をデータフレームに変換
    print("国のデータフレーム:")
    print(df_country)  # 国のデータを表示
    df_country.to_csv('/kaggle/working/country.csv', index=False)  # CSVファイルとして保存

    # 都市
    df_city = pd.json_normalize(json_city['words'])  # JSONの単語をデータフレームに変換
    print("\n都市のデータフレーム:")
    print(df_city)  # 都市のデータを表示
    df_city.to_csv('/kaggle/working/city.csv', index=False)  # CSVファイルとして保存

    # 名所
    df_landmark = pd.json_normalize(json_landmark['words'])  # JSONの単語をデータフレームに変換
    print("\n名所のデータフレーム:")
    print(df_landmark)  # 名所のデータを表示
    df_landmark.to_csv('/kaggle/working/landmark.csv', index=False)  # CSVファイルとして保存

    print("\nmy_jsonの長さ:", len(my_json))  # my_jsonの長さを表示

if __name__ == "__main__":
    main()  # main関数を呼び出す
```

</div>
</details>

In [None]:
import numpy as np
import pandas as pd
import json
import os
import sys

def main():
    # ファイルを表示する
    for dirname, _, filenames in os.walk('/kaggle/input'):
        for filename in filenames:
            print(os.path.join(dirname, filename))

    # keywords.pyをインポートする
    sys.path.append('../input/llm-20-questions/llm_20_questions/')
    import keywords

    # 設定
    pd.set_option('display.max_rows', None)  # データフレームの全行を表示
    pd.set_option('display.max_colwidth', None)  # 長いテキストも完全に表示

    # JSONに変換する
    my_json = json.loads(keywords.KEYWORDS_JSON)

    # コンポーネントを抽出する
    json_country = my_json[0]  # 国のデータを取得
    json_city = my_json[1]     # 都市のデータを取得
    json_landmark = my_json[2] # 名所のデータを取得

    # 国
    df_country = pd.json_normalize(json_country['words'])  # JSONの単語をデータフレームに変換
    print("国のデータフレーム:")
    print(df_country)  # 国のデータを表示
    df_country.to_csv('/kaggle/working/country.csv', index=False)  # CSVファイルとして保存

    # 都市
    df_city = pd.json_normalize(json_city['words'])  # JSONの単語をデータフレームに変換
    print("\n都市のデータフレーム:")
    print(df_city)  # 都市のデータを表示
    df_city.to_csv('/kaggle/working/city.csv', index=False)  # CSVファイルとして保存

    # 名所
    df_landmark = pd.json_normalize(json_landmark['words'])  # JSONの単語をデータフレームに変換
    print("\n名所のデータフレーム:")
    print(df_landmark)  # 名所のデータを表示
    df_landmark.to_csv('/kaggle/working/landmark.csv', index=False)  # CSVファイルとして保存

    print("\nmy_jsonの長さ:", len(my_json))  # my_jsonの長さを表示

if __name__ == "__main__":
    main()  # main関数を呼び出す