# カテゴリデータのクラスタリング

ここに多くの国のデータがありますが、これを同じ方法でクラスタリングしていきましょう
    
追加された特徴量として: 名前と大陸があります 

## ライブラリのインポート

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
from sklearn.cluster import KMeans

## データの読み込み

In [None]:
# データを読み込みます
raw_data = pd.read_csv('Categorical.csv')
# データの中身を確認します
raw_data

重複した列を取り除きます

In [None]:
data = raw_data.copy()
data = data.drop(['Unnamed: 0'], axis = 1)

## Mapメソッドの適用

 <i>'continent'</i> をmapメソッドを使って置き換えていきます

In [None]:
data_mapped = data.copy()
data_mapped['continent'] = data_mapped['continent'].map({'North America':0,'Europe':1,'Asia':2,'Africa':3,'South America':4, 'Oceania':5,'Seven seas (open ocean)':6, 'Antarctica':7})
data_mapped

## 特徴量の選択

In [None]:
x = data_mapped.iloc[:,3:4]

## クラスタリング

まずは4つから始めます

In [None]:
kmeans = KMeans(4)
kmeans.fit(x)

## クラスタリングの結果

In [None]:
identified_clusters = kmeans.fit_predict(x)
identified_clusters

In [None]:
data_with_clusters = data_mapped.copy()
data_with_clusters['Cluster'] = identified_clusters
data_with_clusters

## データのプロット

In [None]:
plt.scatter(data['Longitude'], data['Latitude'], c=data_with_clusters['Cluster'], cmap = 'rainbow')
plt.xlim(-180,180)
plt.ylim(-90, 90)
plt.show()