# 要約 
このJupyter Notebookは、Kaggleの「LLM 20 Questions」コンペティションで提供されたキーワードデータの簡単な分析（EDA）を行うものです。主な目的は、国、都市、ランドマークのキーワードを調査し、それらの特性を可視化することです。

### 取り組んでいる問題
Notebookは、提供されたキーワードのデータを分析し、以下の問題を解決しようとしています。
1. **欠損データと重複の調査**: 各データセット（国、都市、ランドマーク）での欠損値及び重複を確認し、データクリーニングを行います。
2. **代替キーワードの分析**: 各都市や国、ランドマークに関連する代替キーワードの数を把握し、その分布を視覚化します。
3. **地理的分析**: 大陸ごとの国や都市の数を調べ、それぞれの表現がどのように分布しているかを分析します。

### 使用している手法やライブラリ
Notebookでは、以下の手法とライブラリが使用されています。
- **Pandas**: データフレームを扱うために使用され、キーワードデータの読み込み、操作、可視化に活用されています。
- **NumPy**: 基本的な数値計算に使用されています。
- **Matplotlib（pyplot）**: 可視化ツールとして使用され、データの分布を示す円グラフなどのプロットが作成されています。
- **JSON処理**: キーワードデータがJSON形式で提供されており、その読み込みと処理にPythonの組み込み関数と`json`ライブラリが使われています。

### 主な流れ
1. データのインポートと確認
2. 欠損値および重複データの分析
3. 各キーワードカテゴリーごとに代替キーワードの数を集計
4. 地理的分析を実施し、結果を視覚化

このNotebookは、Kaggleコンペティションにおける初期データ分析を効率的に行い、データの特性を理解するための基盤を築くものとなっています。

---


# 用語概説 
以下は、Jupyter Notebookの内容に基づき、機械学習・深層学習の初心者がつまずきそうな専門用語の解説です。特にマイナーなものや、実務経験がないと馴染みのない用語に焦点を当てています。

1. **POS (Part-Of-Speech) Tagging**:
   - 単語の品詞を識別する技術で、文の構文を理解するために重要です。例えば、名詞や動詞などの役割を判断します。

2. **データフレーム (DataFrame)**:
   - Pandasライブラリで提供されるデータ構造で、行と列からなる二次元の表形式データを扱うための便利なツールです。データの読み込み、処理、分析に広く使用されます。

3. **JSON (JavaScript Object Notation)**:
   - データを軽量に表現するためのフォーマットです。主にウェブアプリケーションでのデータ交換に使われます。Pythonでは`json`ライブラリを用いて操作されます。

4. **欠損データ (Missing Data)**:
   - データセットにおいて、いくつかのデータポイントが欠如している状態を指します。機械学習のモデルに影響を与えるため、適切に対処する必要があります。

5. **重複データ (Duplicate Data)**:
   - データセット内に同じ値やエントリーが複数存在する場合を指します。モデルの精度を損なう可能性があり、予め削除・処理する必要があります。

6. **合計 (Aggregation)**:
   - データをグループ化し、統計的な計算（合計、平均、カウントなど）を行うプロセスで、EDA（探索的データ分析）でよく用いられます。

7. **代替キーワード (Alternative Keywords)**:
   - 特定のエンティティ（国、都市、ランドマークなど）に関連付けられた異なる言葉のセットです。多様な表現を通じてデータの解釈を広げることが目的です。

8. **可視化 (Visualization)**:
   - データをグラフや図で表現して視覚的に理解しやすくする技術です。分析結果を効果的に伝えるために必須のスキルです。

9. **グルーピング (Grouping)**:
   - データを特定の条件でまとまりに分ける手法で、事象の傾向を探索する際によく使われます。

10. **ラベル (Label)**:
    - データポイントに関連付けられる情報で、分類問題においては正解データ、回帰問題では数値情報を指します。

これらの用語はノートブックの内容に特有であり、実務経験がないと理解に苦しむことがあるため、初心者の理解を助けるために説明しました。

---


<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

<a href="https://colab.research.google.com/github/mzaoualim/Kaggle_LLM_20_Questions/blob/main/Quick_EDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introduction
This is a quick dive into the keywords provided in kaggle's [LLM 20 Questions](https://www.kaggle.com/competitions/llm-20-questions) competition.

# Data & Libraries

</div>
<div class="column-right">

# 日本語訳

<a href="https://colab.research.google.com/github/mzaoualim/Kaggle_LLM_20_Questions/blob/main/Quick_EDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# はじめに
これはKaggleの[LLM 20 Questions](https://www.kaggle.com/competitions/llm-20-questions)コンペティションで提供されているキーワードを簡単に分析するものです。

# データとライブラリ



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All"
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session
```

</div>
<div class="column-right">

# 日本語訳

```python
# このPython 3環境には、多くの便利な分析ライブラリがインストールされています
# これはkaggle/python Dockerイメージによって定義されています: https://github.com/kaggle/docker-python
# 例えば、以下のように便利なパッケージをいくつかインポートします

import numpy as np # 線形代数
import pandas as pd # データ処理、CSVファイル入出力 (例: pd.read_csv)

# 入力データファイルは読み取り専用の "../input/" ディレクトリにあります
# 例えば、これを実行することで(inputディレクトリの下の全ファイルを列挙できます)

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# 現在のディレクトリ (/kaggle/working/) に最大20GBまで書き込むことができ、
# これがバージョンを作成して "Save & Run All"を使用すると出力として保存されます
# また、一時ファイルを /kaggle/temp/ に書き込むこともできますが、
# 現在のセッションの外では保存されません
```

</div>
</details>

In [None]:
# このPython 3環境には、多くの便利な分析ライブラリがインストールされています
# これはkaggle/python Dockerイメージによって定義されています: https://github.com/kaggle/docker-python
# 例えば、以下のように便利なパッケージをいくつかインポートします

import numpy as np # 線形代数
import pandas as pd # データ処理、CSVファイル入出力 (例: pd.read_csv)

# 入力データファイルは読み取り専用の "../input/" ディレクトリにあります
# 例えば、これを実行することで(inputディレクトリの下の全ファイルを列挙できます)

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# 現在のディレクトリ (/kaggle/working/) に最大20GBまで書き込むことができ、
# これがバージョンを作成して "Save & Run All"を使用すると出力として保存されます
# また、一時ファイルを /kaggle/temp/ に書き込むこともできますが、
# 現在のセッションの外では保存されません

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

# keywords analysis

## LOADING KEYWORDS

</div>
<div class="column-right">

# 日本語訳

# キーワード分析

## キーワードの読み込み



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# using python builtin function read text file
f = open("/kaggle/input/llm-20-questions/llm_20_questions/keywords.py", "r")
print(f.read())
```

</div>
<div class="column-right">

# 日本語訳

```python
# Pythonの組み込み関数を使用してテキストファイルを読み込みます
f = open("/kaggle/input/llm-20-questions/llm_20_questions/keywords.py", "r")
print(f.read())
```

</div>
</details>

In [None]:
# Pythonの組み込み関数を使用してテキストファイルを読み込みます
f = open("/kaggle/input/llm-20-questions/llm_20_questions/keywords.py", "r")
print(f.read())

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# loading with more elaborate json library
import json

exec(open("/kaggle/input/llm-20-questions/llm_20_questions/keywords.py").read())
KEYWORDS_JSON = json.loads(KEYWORDS_JSON)
KEYWORDS_JSON
```

</div>
<div class="column-right">

# 日本語訳

```python
# より詳細なjsonライブラリを使用して読み込みます
import json

exec(open("/kaggle/input/llm-20-questions/llm_20_questions/keywords.py").read())
KEYWORDS_JSON = json.loads(KEYWORDS_JSON)
KEYWORDS_JSON
```

</div>
</details>

In [None]:
# より詳細なjsonライブラリを使用して読み込みます
import json

exec(open("/kaggle/input/llm-20-questions/llm_20_questions/keywords.py").read())
KEYWORDS_JSON = json.loads(KEYWORDS_JSON)
KEYWORDS_JSON

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# sum of each keywords by category

print(len(KEYWORDS_JSON))
for category in KEYWORDS_JSON:
    print(category["category"], len(category["words"]))
```

</div>
<div class="column-right">

# 日本語訳

```python
# カテゴリーごとのキーワードの合計

print(len(KEYWORDS_JSON))
for category in KEYWORDS_JSON:
    print(category["category"], len(category["words"]))
```

</div>
</details>

In [None]:
# カテゴリーごとのキーワードの合計

print(len(KEYWORDS_JSON))
for category in KEYWORDS_JSON:
    print(category["category"], len(category["words"]))

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## PROCESSING JSON KEYWORDS

</div>
<div class="column-right">

# 日本語訳

## JSONキーワードの処理



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# from json to dataframe

country = pd.json_normalize(KEYWORDS_JSON[0]['words'])
city = pd.json_normalize(KEYWORDS_JSON[1]['words'])
landmark = pd.json_normalize(KEYWORDS_JSON[2]['words'])
```

</div>
<div class="column-right">

# 日本語訳

```python
# jsonからデータフレームへ変換

country = pd.json_normalize(KEYWORDS_JSON[0]['words'])
city = pd.json_normalize(KEYWORDS_JSON[1]['words'])
landmark = pd.json_normalize(KEYWORDS_JSON[2]['words'])
```

</div>
</details>

In [None]:
# jsonからデータフレームへ変換

country = pd.json_normalize(KEYWORDS_JSON[0]['words'])
city = pd.json_normalize(KEYWORDS_JSON[1]['words'])
landmark = pd.json_normalize(KEYWORDS_JSON[2]['words'])

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
country
```

</div>
<div class="column-right">

# 日本語訳

```python
country
```

</div>
</details>

In [None]:
country

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
city
```

</div>
<div class="column-right">

# 日本語訳

```python
city
```

</div>
</details>

In [None]:
city

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
landmark
```

</div>
<div class="column-right">

# 日本語訳

```python
landmark
```

</div>
</details>

In [None]:
landmark

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# looking for missing and duplicated keywords
print('sum of missing data:\n',
      'country: ',country['keyword'].isna().sum(), '\n',
      'city: ',city['keyword'].isna().sum(), '\n',
      'landmark: ',landmark['keyword'].isna().sum(), '\n'
      )

print('sum of duplicated data:\n',
      'country: ',country['keyword'].duplicated().sum(), '\n',
      'city: ',city['keyword'].duplicated().sum(), '\n',
      'landmark: ',landmark['keyword'].duplicated().sum(), '\n'
      )
```

</div>
<div class="column-right">

# 日本語訳

```python
# 欠損データと重複したキーワードを調査します
print('欠損データの合計:\n',
      '国: ',country['keyword'].isna().sum(), '\n',
      '都市: ',city['keyword'].isna().sum(), '\n',
      'ランドマーク: ',landmark['keyword'].isna().sum(), '\n'
      )

print('重複データの合計:\n',
      '国: ',country['keyword'].duplicated().sum(), '\n',
      '都市: ',city['keyword'].duplicated().sum(), '\n',
      'ランドマーク: ',landmark['keyword'].duplicated().sum(), '\n'
      )
```

</div>
</details>

In [None]:
# 欠損データと重複したキーワードを調査します
print('欠損データの合計:\n',
      '国: ',country['keyword'].isna().sum(), '\n',
      '都市: ',city['keyword'].isna().sum(), '\n',
      'ランドマーク: ',landmark['keyword'].isna().sum(), '\n'
      )

print('重複データの合計:\n',
      '国: ',country['keyword'].duplicated().sum(), '\n',
      '都市: ',city['keyword'].duplicated().sum(), '\n',
      'ランドマーク: ',landmark['keyword'].duplicated().sum(), '\n'
      )

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# investigating duplicated data
## landmark dataset
landmark['keyword'].value_counts()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 重複データを調査します
## ランドマークデータセット
landmark['keyword'].value_counts()
```

</div>
</details>

In [None]:
# 重複データを調査します
## ランドマークデータセット
landmark['keyword'].value_counts()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
landmark[landmark['keyword'] == 'mount saint helens']
```

</div>
<div class="column-right">

# 日本語訳

```python
landmark[landmark['keyword'] == 'mount saint helens']
```

</div>
</details>

In [None]:
landmark[landmark['keyword'] == 'mount saint helens']

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# eliminate duplicated rows

## landmark dataset
landmark.drop_duplicates(subset='keyword', keep="last", inplace=True)
landmark['keyword'].duplicated().sum()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 重複行を削除します

## ランドマークデータセット
landmark.drop_duplicates(subset='keyword', keep="last", inplace=True)
landmark['keyword'].duplicated().sum()
```

</div>
</details>

In [None]:
# 重複行を削除します

## ランドマークデータセット
landmark.drop_duplicates(subset='keyword', keep="last", inplace=True)
landmark['keyword'].duplicated().sum()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# eliminate duplicated data
## city dataset

city['keyword'].duplicated().sum()
city.drop_duplicates(subset='keyword', keep="last", inplace=True)
city['keyword'].duplicated().sum()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 重複データを削除します
## 都市データセット

city['keyword'].duplicated().sum()
city.drop_duplicates(subset='keyword', keep="last", inplace=True)
city['keyword'].duplicated().sum()
```

</div>
</details>

In [None]:
# 重複データを削除します
## 都市データセット

city['keyword'].duplicated().sum()
city.drop_duplicates(subset='keyword', keep="last", inplace=True)
city['keyword'].duplicated().sum()

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

## ALTS Analysis

</div>
<div class="column-right">

# 日本語訳

## ALTS分析



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# alts analysis
## countries, cities, landmarks with multiples alts
```

</div>
<div class="column-right">

# 日本語訳

```python
# alts分析
## 複数の代替キーワードを持つ国、都市、ランドマーク
```

</div>
</details>

In [None]:
# alts分析
## 複数の代替キーワードを持つ国、都市、ランドマーク

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

### city

</div>
<div class="column-right">

# 日本語訳

### 都市



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# cities with most alts
city
```

</div>
<div class="column-right">

# 日本語訳

```python
# 最も代替キーワードの多い都市
city
```

</div>
</details>

In [None]:
# 最も代替キーワードの多い都市
city

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# generate a dictionnary with {city:length of corresponding label(s)}
city_alts_dict = dict()
for i in range(len(city)):
  city_alts_dict[city.iloc[i, 0]] = len(str(city.iloc[i, 1]).strip('[]').split(','))
```

</div>
<div class="column-right">

# 日本語訳

```python
# {都市:対応するラベルの数}の辞書を生成
city_alts_dict = dict()
for i in range(len(city)):
  city_alts_dict[city.iloc[i, 0]] = len(str(city.iloc[i, 1]).strip('[]').split(','))
```

</div>
</details>

In [None]:
# {都市:対応するラベルの数}の辞書を生成
city_alts_dict = dict()
for i in range(len(city)):
  city_alts_dict[city.iloc[i, 0]] = len(str(city.iloc[i, 1]).strip('[]').split(','))

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
city_alts_dict
```

</div>
<div class="column-right">

# 日本語訳

```python
city_alts_dict
```

</div>
</details>

In [None]:
city_alts_dict

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# form dictionnary to pandas dataframe
city_alts_df = pd.DataFrame.from_dict(city_alts_dict, orient='index', columns=['len_alts'])
city_alts_df.reset_index(inplace=True)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 辞書からpandasデータフレームへ
city_alts_df = pd.DataFrame.from_dict(city_alts_dict, orient='index', columns=['len_alts'])
city_alts_df.reset_index(inplace=True)
```

</div>
</details>

In [None]:
# 辞書からpandasデータフレームへ
city_alts_df = pd.DataFrame.from_dict(city_alts_dict, orient='index', columns=['len_alts'])
city_alts_df.reset_index(inplace=True)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
city_alts_df.rename(columns={'index':'city_labels'}, inplace=True)
```

</div>
<div class="column-right">

# 日本語訳

```python
city_alts_df.rename(columns={'index':'city_labels'}, inplace=True)
```

</div>
</details>

In [None]:
city_alts_df.rename(columns={'index':'city_labels'}, inplace=True)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
city_alts_df
```

</div>
<div class="column-right">

# 日本語訳

```python
city_alts_df
```

</div>
</details>

In [None]:
city_alts_df

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# grouping cities by numbers of labels
grouped_city_alts_df = city_alts_df.groupby('len_alts').count()
grouped_city_alts_df
```

</div>
<div class="column-right">

# 日本語訳

```python
# ラベル数によって都市をグルーピング
grouped_city_alts_df = city_alts_df.groupby('len_alts').count()
grouped_city_alts_df
```

</div>
</details>

In [None]:
# ラベル数によって都市をグルーピング
grouped_city_alts_df = city_alts_df.groupby('len_alts').count()
grouped_city_alts_df

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ploting the distribution of cities by number of alternative labels
grouped_city_alts_df.plot(
    kind='pie',
    title='Cities with Mono Vs Multi Alternative labels',
    ylabel='',
    legend=False,
    subplots=True,
    autopct='%1.1f%%'
    )
```

</div>
<div class="column-right">

# 日本語訳

```python
# 代替ラベル数による都市の分布をプロット
grouped_city_alts_df.plot(
    kind='pie',
    title='単一対複数代替ラベルのある都市',
    ylabel='',
    legend=False,
    subplots=True,
    autopct='%1.1f%%'
    )
```

</div>
</details>

In [None]:
# 代替ラベル数による都市の分布をプロット
grouped_city_alts_df.plot(
    kind='pie',
    title='単一対複数代替ラベルのある都市',
    ylabel='',
    legend=False,
    subplots=True,
    autopct='%1.1f%%'
    )

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

More than 88% (278 city) of listed cities have a unique label, and one city (Los Angeles) is represented in seven (7) alternatives labels.

### country

</div>
<div class="column-right">

# 日本語訳

リストされた都市の88%以上（278都市）がユニークなラベルを持ち、1つの都市（ロサンゼルス）は7つ（7）の代替ラベルで表されています。

### 国



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# countries with most alts
country
```

</div>
<div class="column-right">

# 日本語訳

```python
# 最も代替キーワードの多い国
country
```

</div>
</details>

In [None]:
# 最も代替キーワードの多い国
country

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# generate a dictionnary with {country:length of corresponding label(s)}
country_alts_dict = dict()
for i in range(len(country)):
  country_alts_dict[country.iloc[i, 0]] = len(str(country.iloc[i, 1]).strip('[]').split(','))

country_alts_dict
```

</div>
<div class="column-right">

# 日本語訳

```python
# {国:対応するラベルの数}の辞書を生成
country_alts_dict = dict()
for i in range(len(country)):
  country_alts_dict[country.iloc[i, 0]] = len(str(country.iloc[i, 1]).strip('[]').split(','))

country_alts_dict
```

</div>
</details>

In [None]:
# {国:対応するラベルの数}の辞書を生成
country_alts_dict = dict()
for i in range(len(country)):
  country_alts_dict[country.iloc[i, 0]] = len(str(country.iloc[i, 1]).strip('[]').split(','))

country_alts_dict

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
max(country_alts_dict.values())
```

</div>
<div class="column-right">

# 日本語訳

```python
max(country_alts_dict.values())
```

</div>
</details>

In [None]:
max(country_alts_dict.values())

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# form dictionnary to pandas dataframe
country_alts_df = pd.DataFrame.from_dict(country_alts_dict, orient='index', columns=['len_alts'])
country_alts_df.reset_index(inplace=True)
country_alts_df.rename(columns={'index':'city_labels'}, inplace=True)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 辞書からpandasデータフレームへ
country_alts_df = pd.DataFrame.from_dict(country_alts_dict, orient='index', columns=['len_alts'])
country_alts_df.reset_index(inplace=True)
country_alts_df.rename(columns={'index':'city_labels'}, inplace=True)
```

</div>
</details>

In [None]:
# 辞書からpandasデータフレームへ
country_alts_df = pd.DataFrame.from_dict(country_alts_dict, orient='index', columns=['len_alts'])
country_alts_df.reset_index(inplace=True)
country_alts_df.rename(columns={'index':'city_labels'}, inplace=True)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# grouping countries by numbers of labels
grouped_country_alts_df = country_alts_df.groupby('len_alts').count()
grouped_country_alts_df
```

</div>
<div class="column-right">

# 日本語訳

```python
# ラベル数によって国をグルーピング
grouped_country_alts_df = country_alts_df.groupby('len_alts').count()
grouped_country_alts_df
```

</div>
</details>

In [None]:
# ラベル数によって国をグルーピング
grouped_country_alts_df = country_alts_df.groupby('len_alts').count()
grouped_country_alts_df

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ploting the distribution of cities by number of alternative labels
grouped_country_alts_df.plot(
    kind='pie',
    title='Countries with Mono Vs Multi Alternative labels',
    ylabel='',
    legend=False,
    subplots=True,
    autopct='%1.1f%%'
    )
```

</div>
<div class="column-right">

# 日本語訳

```python
# 代替ラベル数による国の分布をプロット
grouped_country_alts_df.plot(
    kind='pie',
    title='単一対複数代替ラベルの国',
    ylabel='',
    legend=False,
    subplots=True,
    autopct='%1.1f%%'
    )
```

</div>
</details>

In [None]:
# 代替ラベル数による国の分布をプロット
grouped_country_alts_df.plot(
    kind='pie',
    title='単一対複数代替ラベルの国',
    ylabel='',
    legend=False,
    subplots=True,
    autopct='%1.1f%%'
    )

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

Also, we have 97% (195) of country is represented with a unique labels, 3 with two labels and 2 with 2 labels.

### landmark

</div>
<div class="column-right">

# 日本語訳

また、97%（195）の国がユニークなラベルで表され、3つが2つのラベル、2つが3つのラベルを持っています。

### ランドマーク



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# landmarks with most alts
landmark
```

</div>
<div class="column-right">

# 日本語訳

```python
# 最も代替キーワードの多いランドマーク
landmark
```

</div>
</details>

In [None]:
# 最も代替キーワードの多いランドマーク
landmark

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# generate a dictionnary with {landmark:length of corresponding label(s)}
landmark_alts_dict = dict()
for i in range(len(landmark)):
  landmark_alts_dict[landmark.iloc[i, 0]] = len(str(landmark.iloc[i, 1]).strip('[]').split(','))

landmark_alts_dict
```

</div>
<div class="column-right">

# 日本語訳

```python
# {ランドマーク:対応するラベルの数}の辞書を生成
landmark_alts_dict = dict()
for i in range(len(landmark)):
  landmark_alts_dict[landmark.iloc[i, 0]] = len(str(landmark.iloc[i, 1]).strip('[]').split(','))

landmark_alts_dict
```

</div>
</details>

In [None]:
# {ランドマーク:対応するラベルの数}の辞書を生成
landmark_alts_dict = dict()
for i in range(len(landmark)):
  landmark_alts_dict[landmark.iloc[i, 0]] = len(str(landmark.iloc[i, 1]).strip('[]').split(','))

landmark_alts_dict

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
max(landmark_alts_dict.values())
```

</div>
<div class="column-right">

# 日本語訳

```python
max(landmark_alts_dict.values())
```

</div>
</details>

In [None]:
max(landmark_alts_dict.values())

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# form dictionnary to pandas dataframe
landmark_alts_df = pd.DataFrame.from_dict(landmark_alts_dict, orient='index', columns=['len_alts'])
landmark_alts_df.reset_index(inplace=True)
landmark_alts_df.rename(columns={'index':'landmark_labels'}, inplace=True)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 辞書からpandasデータフレームへ
landmark_alts_df = pd.DataFrame.from_dict(landmark_alts_dict, orient='index', columns=['len_alts'])
landmark_alts_df.reset_index(inplace=True)
landmark_alts_df.rename(columns={'index':'landmark_labels'}, inplace=True)
```

</div>
</details>

In [None]:
# 辞書からpandasデータフレームへ
landmark_alts_df = pd.DataFrame.from_dict(landmark_alts_dict, orient='index', columns=['len_alts'])
landmark_alts_df.reset_index(inplace=True)
landmark_alts_df.rename(columns={'index':'landmark_labels'}, inplace=True)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# grouping countries by numbers of labels
grouped_landmark_alts_df = landmark_alts_df.groupby('len_alts').count()
grouped_landmark_alts_df
```

</div>
<div class="column-right">

# 日本語訳

```python
# ラベル数によってランドマークをグルーピング
grouped_landmark_alts_df = landmark_alts_df.groupby('len_alts').count()
grouped_landmark_alts_df
```

</div>
</details>

In [None]:
# ラベル数によってランドマークをグルーピング
grouped_landmark_alts_df = landmark_alts_df.groupby('len_alts').count()
grouped_landmark_alts_df

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ploting the distribution of cities by number of alternative labels
grouped_landmark_alts_df.plot(
    kind='pie',
    title='landmark with Mono Vs Multi Alternative labels',
    ylabel='',
    legend=False,
    subplots=True,
    autopct='%1.1f%%'
    )
```

</div>
<div class="column-right">

# 日本語訳

```python
# 代替ラベル数による国の分布をプロット
grouped_landmark_alts_df.plot(
    kind='pie',
    title='ランドマークの単一対複数代替ラベル',
    ylabel='',
    legend=False,
    subplots=True,
    autopct='%1.1f%%'
    )
```

</div>
</details>

In [None]:
# 代替ラベル数による国の分布をプロット
grouped_landmark_alts_df.plot(
    kind='pie',
    title='ランドマークの単一対複数代替ラベル',
    ylabel='',
    legend=False,
    subplots=True,
    autopct='%1.1f%%'
    )

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

Again, most of landmarks (83% or 40) are represented in unique labels versus 16% (8) have dual additionnal labels.

## Geographical Analysis

</div>
<div class="column-right">

# 日本語訳

再び、ほとんどのランドマーク（83%または40）はユニークなラベルで表され、16%（8）は二重の追加ラベルを持っています。

## 地理的分析



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# Geo analysis
## continent representations
## countries with multiple cities
```

</div>
<div class="column-right">

# 日本語訳

```python
# 地理分析
## 大陸の表現
## 複数の都市を持つ国
```

</div>
</details>

In [None]:
# 地理分析
## 大陸の表現
## 複数の都市を持つ国

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

### Countries by Continent representation

</div>
<div class="column-right">

# 日本語訳

### 大陸による国の表現



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
#loading list of countries
country_by_continent = pd.read_html('https://worldpopulationreview.com/country-rankings/list-of-countries-by-continent')[4].copy()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 国のリストを読み込みます
country_by_continent = pd.read_html('https://worldpopulationreview.com/country-rankings/list-of-countries-by-continent')[4].copy()
```

</div>
</details>

In [None]:
# 国のリストを読み込みます
country_by_continent = pd.read_html('https://worldpopulationreview.com/country-rankings/list-of-countries-by-continent')[4].copy()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
country_by_continent = country_by_continent[['Country', 'Continent']]
```

</div>
<div class="column-right">

# 日本語訳

```python
country_by_continent = country_by_continent[['Country', 'Continent']]
```

</div>
</details>

In [None]:
country_by_continent = country_by_continent[['Country', 'Continent']]

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# countries by continent
country_by_continent.Continent.value_counts().plot(
    kind='pie',
    ylabel='',
    xlabel='',
    title='World countries by continent',
    autopct='%1.1f%%')
```

</div>
<div class="column-right">

# 日本語訳

```python
# 大陸ごとの国
country_by_continent.Continent.value_counts().plot(
    kind='pie',
    ylabel='',
    xlabel='',
    title='大陸ごとの世界の国',
    autopct='%1.1f%%')
```

</div>
</details>

In [None]:
# 大陸ごとの国
country_by_continent.Continent.value_counts().plot(
    kind='pie',
    ylabel='',
    xlabel='',
    title='大陸ごとの世界の国',
    autopct='%1.1f%%')

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
country_by_continent['Country'] = country_by_continent.Country.str.lower()
```

</div>
<div class="column-right">

# 日本語訳

```python
country_by_continent['Country'] = country_by_continent.Country.str.lower()
```

</div>
</details>

In [None]:
country_by_continent['Country'] = country_by_continent.Country.str.lower()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
country_by_continent
```

</div>
<div class="column-right">

# 日本語訳

```python
country_by_continent
```

</div>
</details>

In [None]:
country_by_continent

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# countries distribution by continent
country_by_continent.Continent.value_counts(normalize=True)
```

</div>
<div class="column-right">

# 日本語訳

```python
# 大陸ごとの国の分布
country_by_continent.Continent.value_counts(normalize=True)
```

</div>
</details>

In [None]:
# 大陸ごとの国の分布
country_by_continent.Continent.value_counts(normalize=True)

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# duplicated country?
country_by_continent.Country.duplicated().sum()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 重複する国は？
country_by_continent.Country.duplicated().sum()
```

</div>
</details>

In [None]:
# 重複する国は？
country_by_continent.Country.duplicated().sum()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# missing values
country_by_continent.Country.isna().sum()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 欠損値
country_by_continent.Country.isna().sum()
```

</div>
</details>

In [None]:
# 欠損値
country_by_continent.Country.isna().sum()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# continent representation in the keyword dataset
country.merge(
    country_by_continent,
    how='left',
    left_on='keyword',
    right_on='Country')['Continent'].value_counts() #.plot(kind='pie')
```

</div>
<div class="column-right">

# 日本語訳

```python
# キーワードデータセットにおける大陸の表現
country.merge(
    country_by_continent,
    how='left',
    left_on='keyword',
    right_on='Country')['Continent'].value_counts() #.plot(kind='pie')
```

</div>
</details>

In [None]:
# キーワードデータセットにおける大陸の表現
country.merge(
    country_by_continent,
    how='left',
    left_on='keyword',
    right_on='Country')['Continent'].value_counts() #.plot(kind='pie')

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# ploting continent representation in the keyword dataset

country.merge(
    country_by_continent,
    how='left',
    left_on='keyword',
    right_on='Country')['Continent'].value_counts().plot(kind='pie',
                                                         title= 'Countries by continent',
                                                         xlabel='',
                                                         ylabel='',
                                                         autopct='%1.1f%%')
```

</div>
<div class="column-right">

# 日本語訳

```python
# キーワードデータセットにおける大陸の表現をプロット

country.merge(
    country_by_continent,
    how='left',
    left_on='keyword',
    right_on='Country')['Continent'].value_counts().plot(kind='pie',
                                                         title= '大陸ごとの国',
                                                         xlabel='',
                                                         ylabel='',
                                                         autopct='%1.1f%%')
```

</div>
</details>

In [None]:
# キーワードデータセットにおける大陸の表現をプロット

country.merge(
    country_by_continent,
    how='left',
    left_on='keyword',
    right_on='Country')['Continent'].value_counts().plot(kind='pie',
                                                         title= '大陸ごとの国',
                                                         xlabel='',
                                                         ylabel='',
                                                         autopct='%1.1f%%')

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

We have a fair representation of each continent in the keyword dataset.

### Cities by Continent representations

</div>
<div class="column-right">

# 日本語訳

キーワードデータセットには各大陸が公平に表現されていることがわかります。

### 大陸による都市の表現



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# collecting the world cities
data = pd.DataFrame(columns=['Name', 'Country'])
for i in range(1, 563):
  data = pd.concat([data, pd.read_html(f'https://geokeo.com/database/city/{i}/')[0][['Name', 'Country']]])
```

</div>
<div class="column-right">

# 日本語訳

```python
# 世界の都市を収集します
data = pd.DataFrame(columns=['Name', 'Country'])
for i in range(1, 563):
  data = pd.concat([data, pd.read_html(f'https://geokeo.com/database/city/{i}/')[0][['Name', 'Country']]])
```

</div>
</details>

In [None]:
# 世界の都市を収集します
data = pd.DataFrame(columns=['Name', 'Country'])
for i in range(1, 563):
  data = pd.concat([data, pd.read_html(f'https://geokeo.com/database/city/{i}/')[0][['Name', 'Country']]])

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
data
```

</div>
<div class="column-right">

# 日本語訳

```python
data
```

</div>
</details>

In [None]:
data

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# saving data
data.to_csv('world_cities.csv')
```

</div>
<div class="column-right">

# 日本語訳

```python
# データを保存します
data.to_csv('world_cities.csv')
```

</div>
</details>

In [None]:
# データを保存します
data.to_csv('world_cities.csv')

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# preprocessing
data['Name'] = data.Name.str.lower()
data
```

</div>
<div class="column-right">

# 日本語訳

```python
# 前処理
data['Name'] = data.Name.str.lower()
data
```

</div>
</details>

In [None]:
# 前処理
data['Name'] = data.Name.str.lower()
data

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
data['Country'] = data.Country.str.lower()
data
```

</div>
<div class="column-right">

# 日本語訳

```python
data['Country'] = data.Country.str.lower()
data
```

</div>
</details>

In [None]:
data['Country'] = data.Country.str.lower()
data

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
city
```

</div>
<div class="column-right">

# 日本語訳

```python
city
```

</div>
</details>

In [None]:
city

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
cities = city.copy()
```

</div>
<div class="column-right">

# 日本語訳

```python
cities = city.copy()
```

</div>
</details>

In [None]:
cities = city.copy()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
cities
```

</div>
<div class="column-right">

# 日本語訳

```python
cities
```

</div>
</details>

In [None]:
cities

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# extracting country name from keyword
for i in cities.index:
  cities.loc[i, 'city'] = cities.loc[i, 'keyword'].split(' ')[0]
cities
```

</div>
<div class="column-right">

# 日本語訳

```python
# キーワードから都市名を抽出
for i in cities.index:
  cities.loc[i, 'city'] = cities.loc[i, 'keyword'].split(' ')[0]
cities
```

</div>
</details>

In [None]:
# キーワードから都市名を抽出
for i in cities.index:
  cities.loc[i, 'city'] = cities.loc[i, 'keyword'].split(' ')[0]
cities

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# extracting countries of cities
cities.merge(
    data,
    how='left',
    left_on='city',
    right_on='Name')['Country'].value_counts()
```

</div>
<div class="column-right">

# 日本語訳

```python
# 都市の国を抽出
cities.merge(
    data,
    how='left',
    left_on='city',
    right_on='Name')['Country'].value_counts()
```

</div>
</details>

In [None]:
# 都市の国を抽出
cities.merge(
    data,
    how='left',
    left_on='city',
    right_on='Name')['Country'].value_counts()

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
cities.merge(
    data,
    how='left',
    left_on='city',
    right_on='Name')['Country'].value_counts().plot(kind='pie',
                                                         title= 'Cities by Country',
                                                         xlabel='',
                                                         ylabel='',
                                                         autopct='%1.1f%%')
```

</div>
<div class="column-right">

# 日本語訳

```python
cities.merge(
    data,
    how='left',
    left_on='city',
    right_on='Name')['Country'].value_counts().plot(kind='pie',
                                                         title= '国ごとの都市',
                                                         xlabel='',
                                                         ylabel='',
                                                         autopct='%1.1f%%')
```

</div>
</details>

In [None]:
cities.merge(
    data,
    how='left',
    left_on='city',
    right_on='Name')['Country'].value_counts().plot(kind='pie',
                                                         title= '国ごとの都市',
                                                         xlabel='',
                                                         ylabel='',
                                                         autopct='%1.1f%%')

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

Kinda messy, but it show how the north american domination of listed cities (US+CA+MEXICO ~ 1/4 of listed cities)

</div>
<div class="column-right">

# 日本語訳

少し混乱していますが、北アメリカ（米国 + カナダ + メキシコ）がリストされた都市の約1/4を占めていることを示しています。



</div>

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
country_by_continent
```

</div>
<div class="column-right">

# 日本語訳

```python
country_by_continent
```

</div>
</details>

In [None]:
country_by_continent

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# extracting continent based on city names
cities_countries = cities.merge(
                      data,
                      how='left',
                      left_on='city',
                      right_on='Name'
                      )

cities_countries['countries'] = cities_countries.Country.str.lower()
cities_countries.drop(columns='Country', inplace=True)

cities_countries.merge(
                    country_by_continent,
                    how='left',
                    left_on='countries',
                    right_on='Country'
                    )
```

</div>
<div class="column-right">

# 日本語訳

```python
# 都市名に基づいて大陸を抽出
cities_countries = cities.merge(
                      data,
                      how='left',
                      left_on='city',
                      right_on='Name'
                      )

cities_countries['countries'] = cities_countries.Country.str.lower()
cities_countries.drop(columns='Country', inplace=True)

cities_countries.merge(
                    country_by_continent,
                    how='left',
                    left_on='countries',
                    right_on='Country'
                    )
```

</div>
</details>

In [None]:
# 都市名に基づいて大陸を抽出
cities_countries = cities.merge(
                      data,
                      how='left',
                      left_on='city',
                      right_on='Name'
                      )

cities_countries['countries'] = cities_countries.Country.str.lower()
cities_countries.drop(columns='Country', inplace=True)

cities_countries.merge(
                    country_by_continent,
                    how='left',
                    left_on='countries',
                    right_on='Country'
                    )

<details>
  <summary>pythonコードの比較（クリックすると展開されます）</summary>

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

```python
# presenting continent representation based on the cities
cities_countries.merge(
                    country_by_continent,
                    how='left',
                    left_on='countries',
                    right_on='Country'
                    )['Continent'].value_counts().plot(kind='pie',
                                                      title='Continent representation based on cities',
                                                      xlabel='',
                                                      ylabel='',
                                                      autopct='%1.1f%%')
```

</div>
<div class="column-right">

# 日本語訳

```python
# 都市に基づいて大陸の表現を提示
cities_countries.merge(
                    country_by_continent,
                    how='left',
                    left_on='countries',
                    right_on='Country'
                    )['Continent'].value_counts().plot(kind='pie',
                                                      title='都市に基づく大陸の表現',
                                                      xlabel='',
                                                      ylabel='',
                                                      autopct='%1.1f%%')
```

</div>
</details>

In [None]:
# 都市に基づいて大陸の表現を提示
cities_countries.merge(
                    country_by_continent,
                    how='left',
                    left_on='countries',
                    right_on='Country'
                    )['Continent'].value_counts().plot(kind='pie',
                                                      title='都市に基づく大陸の表現',
                                                      xlabel='',
                                                      ylabel='',
                                                      autopct='%1.1f%%')

<style>
.column-left{
  float: left;
  width: 47.5%;
  text-align: left;
}
.column-right{
  float: right;
  width: 47.5%;
  text-align: left;
}
.column-one{
  float: left;
  width: 100%;
  text-align: left;
}
</style>


<div class="column-left">

# original

Two thirds of the cities are from Europe and Asia, other continent are under-presented.

# Ressources

[LLM 20 Questions - Keywords](https://www.kaggle.com/code/docxian/llm-20-questions-keywords/notebook)

[[LLM 20 Questions] EDA Map keywords](https://www.kaggle.com/code/waechter/llm-20-questions-eda-map-keywords)

</div>
<div class="column-right">

# 日本語訳

都市の3分の2がヨーロッパとアジアからのものであり、他の大陸は少ない表現です。

# リソース

[LLM 20 Questions - キーワード](https://www.kaggle.com/code/docxian/llm-20-questions-keywords/notebook)

[[LLM 20 Questions] EDAマップのキーワード](https://www.kaggle.com/code/waechter/llm-20-questions-eda-map-keywords)



</div>