# クラスター分析の基本

## ライブラリのインポート

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
# K近傍法を行うために必要なKMeansモジュールをインポートします
from sklearn.cluster import KMeans

## データの読み込み

In [None]:
# データを読み込みます
data = pd.read_csv('3.01. Country clusters.csv')

In [None]:
# データの中身の確認
data

## データのプロット

In [None]:
# longitude と latitudeの情報を使って散布図を作成します
plt.scatter(data['Longitude'],data['Latitude'])
# グラフの範囲を設定します
plt.xlim(-180,180)
plt.ylim(-90,90)
plt.show

## 特徴量の選択

In [None]:
# ilocを使って緯度と経度の情報を切り取っていきます
x = data.iloc[:,1:3]

In [None]:
# 中身の確認
x

## クラスタリング

In [None]:
# クラスターの数を指定した上で、クラスからオブジェクトを作成
kmeans = KMeans(3)

In [None]:
# 入力データをモデルにフィットさせます
kmeans.fit(x)

## クラスタリングの結果

In [None]:
# 予測されたクラスターの情報を含む変数を作成します
identified_clusters = kmeans.fit_predict(x)
# 結果の確認
identified_clusters

In [None]:
# データのコピーを作成します
data_with_clusters = data.copy()
# クラスターの情報を追加します
data_with_clusters['Cluster'] = identified_clusters
# 結果の確認
data_with_clusters

In [None]:
# 経度と緯度の情報をもとに散布図を作成します
plt.scatter(data_with_clusters['Longitude'],data_with_clusters['Latitude'],c=data_with_clusters['Cluster'],cmap='rainbow')
plt.xlim(-180,180)
plt.ylim(-90,90)
plt.show()