## <font color='green'>**アヤメのクラスター分析**</font>

### 今回使用するデータ
scikit_learnのIRISを使います。  

データセットは以下のようになっています。  
150件のデータが格納され、特徴量は以下のようになっています。  
・がく片の長さ  
・がく片の幅  
・花びらの長さ  
・花びらの幅  
正解データ（y）は、アヤメの品種（3種類）となっている  
内訳は、0:セトーサが50件、1：ヴァーシカラーが50件　、2：ヴァージニカが50件

### やりたいこと
4つの特徴量から3つの品種にグルーピングすること  
（正解データ（y）はグルーピングには使わない）

#### **アヤメ（IRIS)のデータセットを作成する**

In [None]:
# 以下を実行せよ
!pip install japanize_matplotlib -q

In [None]:
# 以下を実行せよ
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
dataset = load_iris()
X = pd.DataFrame(dataset.data, columns=['がく片の長さ','がく片の幅','花びらの長さ','花びらの幅'])
y = pd.DataFrame(dataset.target, columns=['y'])
iris = X.join(y)
iris.head()

#### **irisの品種ごとの統計量を表示せよ**

In [None]:
iris.groupby('y').mean()

#### **特徴量（X）をnumpyの配列に変換せよ**
- to_numpy()を使う
- 変換後の変数名はX_arraryとする

In [None]:
X_array = X.to_numpy()

#### **クラスタ数が1から5までのエルボー図を描け**
ヒント：
- 横軸がクラスタ数、クラスタ重心点と縦軸がクラスタ所属点の距離の総和
- クラスタ重心点とクラスタ所属点の距離の総和は、inertia_で取得する
- グラフのタイトルは「エルボー図」とする

In [None]:
distortions = []
for i in range(1,6):
    km=KMeans(n_clusters=i, random_state=0).fit(X_array)
    distortions.append(km.inertia_)

plt.plot(range(1,6), distortions, marker='o')
plt.xticks([1, 2, 3, 4, 5],['1', '2', '3', '4', '5'])
plt.title('エルボー図')

#### <font color='red'>**注意：K平均法はいくつのクラスター(集団)に分けるかあらかじめ指定しておく必要がある。**</font>

#### **最適と思われるクラスター数を決定し、モデルを作成する**

In [None]:
km=KMeans(n_clusters=3, random_state=1).fit(X_array)
cluster_no = km.predict(X_array)
iris['cluster_no'] = cluster_no

#### **クラスター番号を値別にカウントする。**

In [None]:
iris['cluster_no'].value_counts()

#### **Cluster_noで色分けし、「花びらの長さ」と「花びらの幅」の散布図を作成する**
- scatterplotを使う
- 色分けはhueを使う
- paletteはSet1を使う

In [None]:
sns.scatterplot(x='花びらの長さ', y='花びらの幅', hue='cluster_no', data=iris, palette='Set1')

#### **品種で色分けし、「花びらの長さ」と「花びらの幅」の散布図を作成する**

In [None]:
sns.scatterplot(x='花びらの長さ', y='花びらの幅', hue='y', data=iris, palette='Set1')