# クラスター分析

この課題では、Irisデータセットを使っていきます。

Irisデータセットは機械学習において有名なデータセットの一つです。

このデータセットには4つの特徴量があります: sepal length, sepal width, petal length, and petal width.

***

クラスターを2、 3、 5の場合において表示していきましょう

最後に、正解のデータがあるファイルを読み込み、正しくクラスタリングできているか確認していきましょう

## ライブラリのインポート

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
from sklearn.cluster import KMeans

## データの読み込み

In [None]:
data = pd.read_csv('iris_dataset.csv')

data

## データのプロット

この課題では、sepalによってクラスタリングをしていきましょう。 

<i> ヒント: 'sepal_length' と 'sepal_width' を使います</i> 

In [None]:
# 二つの対応した特徴量を元に散布図を作成します
plt.scatter(data['sepal_length'],data['sepal_width'])
# 軸に名前を付けます
plt.xlabel('Lenght of sepal')
plt.ylabel('Width of sepal')
plt.show()

## クラスタリング

In [None]:
# データのコピーを変数に代入します
x = data.copy()
# クラスからクラスターを2つに指定した上でオブジェクトを作成します
kmeans = KMeans(2)
# データをモデルにフィットさせます
kmeans.fit(x)

In [None]:
# データのコピーを変数に代入します
clusters = data.copy()
# 予測を行います
clusters['cluster_pred']=kmeans.fit_predict(x)

In [None]:
# 対応する特徴量を元にクラスタリングを行います
plt.scatter(clusters['sepal_length'], clusters['sepal_width'], c= clusters ['cluster_pred'], cmap = 'rainbow')

## 変数の標準化

scaleメソッドを使って標準化をしていきます

In [None]:
from sklearn import preprocessing

# データを標準化していきます
x_scaled = preprocessing.scale(data)
x_scaled

## クラスタリング

In [None]:
# クラスからクラスターを2つに指定した上でオブジェクトを作成します
kmeans_scaled = KMeans(2)
# データをモデルにフィットさせます
kmeans_scaled.fit(x_scaled)

In [None]:
# データのコピーを変数に代入します
clusters_scaled = data.copy()
# 予測を行います
clusters_scaled['cluster_pred']=kmeans_scaled.fit_predict(x_scaled)

In [None]:
# 対応する特徴量を元にクラスタリングを行います
plt.scatter(clusters_scaled['sepal_length'], clusters_scaled['sepal_width'], c= clusters_scaled ['cluster_pred'], cmap = 'rainbow')

## エルボー法

### WCSS

In [None]:
wcss = []
# 'cl_num' に最大のクラスターの数を定義します
cl_num = 10
for i in range (1,cl_num):
    kmeans= KMeans(i)
    kmeans.fit(x_scaled)
    wcss_iter = kmeans.inertia_
    wcss.append(wcss_iter)
wcss

### エルボー法

In [None]:
number_clusters = range(1,cl_num)
plt.plot(number_clusters, wcss)
plt.title('The Elbow Method')
plt.xlabel('Number of clusters')
plt.ylabel('Within-cluster Sum of Squares')