# **データマイニングと情報可視化: 演習**
# **Data mining and information visualization: Exercise**
<font size="4">
第5回　2024年1月16日(火)<br>
データマイニング手法2-2：クラスター分析（データ解析と可視化）<br>
Method 2-2: Clustering analysis (Analyze data &amp; visualization)<br>
</font>

[レポート / Assignment](Rep_Week5.ipynb) : <span style="color: black;font-weight:bold;" >締め切り 2024年1月19日(金)　23：59 JST</span>

### 講義動画
* [Week 1](https://youtu.be/TFwTK-dzcbM): Pythonの基礎
* [Week 2](https://youtu.be/JuwffIC-S10): Pandasの基礎、集合の演算
* [Week 3](https://youtu.be/iSSVr5tb5KQ): Pandas・集合の復習、Matplotlibで散布図のプロット、マーケットバスケット分析
* [Week 4](https://youtu.be/pGtmhge8cog): データ加工とデータの標準化、Matplotlibによるデータ可視化
* [Week 5](https://youtu.be/lk5JyzsaDFc): クラスタリングのデータ解析(実践)

### おすすめ書籍 @ 九大図書館蔵書
* [東京大学のデータサイエンティスト育成講座 : Pythonで手を動かして学ぶデータ分析](http://hdl.handle.net/2324/1001684368)
* [Pythonによるデータマイニングと機械学習](http://hdl.handle.net/2324/1001680874)
* [Pythonではじめる機械学習 : scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎](http://hdl.handle.net/2324/1001632671)

### k-means法のおすすめサイト&動画
* [K-Means Clustering on Handwritten Digits](https://johnloeber.com/docs/kmeans.html)
* [scikit-learn でクラスタ分析 (K-means 法)@Python でデータサイエンス](https://pythondatascience.plavox.info/scikit-learn/%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E5%88%86%E6%9E%90-k-means)
* [【機械学習】K-meansを勉強してみる](https://qiita.com/shuva/items/bcf700bd32ae2bbb63c7)
* [【機械学習】クラスタリングとは何か(k-means)＠ヨビノリ](https://www.youtube.com/watch?v=8yptHd0JDlw)
* [【完全版】この動画1本で機械学習実装（Python）の基礎を習得！忙しい人のための速習コース](https://www.youtube.com/watch?v=okpRV08-svw)


In [13]:
# まずはライブラリをインポート / Import the libraries.
import numpy as np
import numpy.random as random
import scipy as sp
from pandas import Series, DataFrame
import pandas as pd

# 可視化ライブラリ / Visualization libraries
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline

# 機械学習ライブラリ / Machine learning library
import sklearn

# k-means法を使うためのインポート / Import a library for k-means method
from sklearn.cluster import KMeans

# 小数第3位まで表示 / display up to the 3rd decimal place
%precision 3

'%.3f'

## Basics of Pandas
今日の演習で使うPandasの関数を練習しましょう。<br>
Let's practice some of functions in Pandas library.<br>

[Read CSV with index](https://note.nkmk.me/python-pandas-read-csv-tsv/): インデックスがあるときのcsvファイルの読み込み

#### headerがあるcsvファイル（w5_header.csv）を読み込む。/ Load a csv file, w5_header.csv, which has a header as follows.<br>
a,b,c,d<br>
11,12,13,14<br>
21,22,23,24<br>
31,32,33,34<br>

[Week 2: read csv](Ex_Week2.ipynb#readcsv)

In [14]:
df1 = pd.read_csv('data/w5_header.csv')
df1.head()

Unnamed: 0,a,b,c,d
0,11,12,13,14
1,21,22,23,24
2,31,32,33,34


#### headerとindexがある以下のようなcsvファイルを読み込む。/ Load a csv file which has a header and an index as follows.<br>
,a,b,c,d<br>
ONE,11,12,13,14<br>
TWO,21,22,23,24<br>
THREE,31,32,33,34<br>

オプションなしで読み込むとどうなるでしょうか??

In [15]:
df2 = pd.read_csv('data/w5_header_index.csv')
df2.head()

Unnamed: 0.1,Unnamed: 0,a,b,c,d
0,ONE,11,12,13,14
1,TWO,21,22,23,24
2,THREE,31,32,33,34


<a id="readcsv_index"></a>

オプションを付けてみます。/ Add an option, 'index_col=0'.

In [16]:
df2 = pd.read_csv('data/w5_header_index.csv', index_col=0)
df2.head()

Unnamed: 0,a,b,c,d
ONE,11,12,13,14
TWO,21,22,23,24
THREE,31,32,33,34


<a id="concat"></a>

## DataFrameの結合 / Combine DataFrame arrays

上下に結合させましょう。<br>
Combine DataFrame vertically.

[Week 0 Exercise of Pandas: concat](Ex_Week0_Pandas.ipynb#concat)<br>
[pandas.DataFrame, Seriesを連結するconcat@note.nkmk.me](https://note.nkmk.me/python-pandas-concat/)

In [17]:
df120 = pd.concat([df1, df2], axis=0)
df120

Unnamed: 0,a,b,c,d
0,11,12,13,14
1,21,22,23,24
2,31,32,33,34
ONE,11,12,13,14
TWO,21,22,23,24
THREE,31,32,33,34


水平に結合させましょう。<br>
Combine DataFrame horizontally.

In [18]:
df121 = pd.concat([df1, df2], axis=1)
df121

Unnamed: 0,a,b,c,d,a.1,b.1,c.1,d.1
0,11.0,12.0,13.0,14.0,,,,
1,21.0,22.0,23.0,24.0,,,,
2,31.0,32.0,33.0,34.0,,,,
ONE,,,,,11.0,12.0,13.0,14.0
TWO,,,,,21.0,22.0,23.0,24.0
THREE,,,,,31.0,32.0,33.0,34.0


#### サンプルデータ（w5_suits.csv）を読み込みます。

ヘッダーとインデックスがあるファイルを読み込んでみましょう。<br>
1列目がインデックスになるようにオプションを付けてください。

In [19]:
# The file name is 'data/w5_suits.csv'.



#### DataFrame'suits'から、Phys と Mathの列を抽出して、横に結合してください。<br>
Extract the columns, Phys and Math, and concatenate them along columns.

In [20]:
# オブジェクトを連結する / Concatenate pandas objects along a particular axis 
# axis = 0: 行を縦に連結 / concatenate along index
# axis = 1: 列を横に連結 / concatenate along columns


In [21]:
# .head()で確認 / Please verify the result with .head().



## 欠損値の確認
Check if it is NaN or not<br>

[Week 2 欠損値の確認: isnull](Ex_Week4.ipynb#isnull)<br>
[参考サイト：欠損値の確認 @ note.nkmk.me](https://note.nkmk.me/python-pandas-nan-judge-count/)

In [22]:
# Count the number of NaN.


## 欠損値を0で置換してください。/ Replace NaN with 0.
[Week 4: Replace NaN](Ex_Week4.ipynb#replace)

## 欠損値をその列の平均値で置換してください。/ Replace NaN with the average of the column.
[Week 4: Replace NaN](Ex_Week4.ipynb#replace)

In [23]:
# まず、suits_mf の Phys の平均点を出しましょう。/ First, please calculate the average score of Phys in a DataFrame array, suits_mf.


# 'Phys' の行のNaNをその平均値で置換 / Replace NaN with the average.
# fillna({column: value})



## CVSファイルに出力 / Output the DataFrame to a CSV file
このDataFrameをCSVに出力して下さい。<br>
Please output this DataFrame to a CSV file.

[pandasでcsvファイルの書き出し](https://note.nkmk.me/python-pandas-to-csv/)

In [24]:
suits.to_csv('data/w5_suits_mod.csv')

NameError: name 'suits' is not defined

<a id=PandasPlot></a>

### Pandas でプロット / Draw a figure with Pandas
[Pandasのplotメソッドでグラフを作成する@note.nkmk.me](https://note.nkmk.me/python-pandas-plot/)

In [None]:
suits.plot()

In [None]:
ax = suits.plot.scatter(x='Phys', y='Math',color='red')
suits.plot.scatter(x='Phys', y='English', color='blue',ax=ax)

<a id=kmeans></a>

## k-means法 / k-means method

クラスタリングの目的は、与えられたデータを類似性の高いグループに分けることです。クラスターとは「集団」や「群れ」という意味です。<br>
たとえば車体形状などを持った自動車のデータ群をクラスタリングすると、軽自動車とトラックはその車体形状が違うので、異なる特徴を持った別々のクラスターに分割されるといったイメージです。<br>
クラスタリングで最も広く使われている手法は**k-means法**と呼ばれ、以下の手順で実現します。<br>
仮に、最終的に作りたいクラスタの数を3とします。<br>
<br>
Clustering is used to classify a given set of data into groups depending on the similarity.<br>
One of the most common method for clustering is **k-means method**. The analysis procedure is shown below.<br>
Now, let's  classify a sample data into three groups.<br>

- step1. 入力データをプロットする。/ Plot the original data.
- step2. ランダムに3つの点をプロットする。/ Choose the centers of cluster randomly (three points in this case).
- step3. 各ランダム点を、クラスター1、クラスター2、クラスター3の重心点とラベリングする。/ Label the points as cluster 0, 1, and 2.
- step4. 入力データの各点について、3つの重心点の中で最も近いものを選び、その番号を自身の所属クラスター番号とする。/ Each data points are assigned to the closest center of cluster.
- step5. すべての入力データについてクラスター番号が決まった後、それぞれのクラスターの重心（平均）を計算する。/ Calculate the centers of mass of the clusters.
- step6. step5で求めた3つの重心を新しいクラスターの重心点とする。/ Set the centers of mass of the clusters as the new centers of clusters.
    - step7. step4からstep6を繰り返す。ただし、繰り返し上限回数に達するか、または重心の移動距離が十分に小さくなったら終了とする。/ Repeat step 4-6 untill the change of the positions of the centers of clusters are sufficiently small.

<img src="img/w5_kmeans.png" width="1200px"><br>

### データの読み込み
scikit-learn で、サンプルデータを生成するライブラリがあります。それを使ってみましょう。

#### (1) make_blobs によるサンプルデータの生成
[make_blobs](http://taustation.com/scikit-learn-make-blobs/): サンプルデータの生成 / Creating sample data

代表的なオプションはこちら。
* n_samples: 整数で指定した場合、生成されるサンプルの総数で戻り値Xの行数になる。配列で指定した場合、その要素数がクラスターの数となり、各要素はクラスターのデータ数となる。デフォルトは100。
* random_state: 同じ値を使うと、同じ乱数データが出力される。
* centers: クラスタの数を指定
* n_features: 生成するデータセットの列数を指定
より詳細なオプションはこちらを参照。
[make_blobsによる分類用データの生成](https://sabopy.com/py/scikit-learn-1/)

In [None]:
# データ取得のためのインポート / Import a library for producing sample data
from sklearn.datasets import make_blobs

# X: 2列のデータ(クラスタリング用の2変数)
# y: どのクラスタに属するか、という答え（検証用データで検証した時、答え合わせに使う。)
X, y = make_blobs(n_samples=200, random_state=10, centers=8, n_features=2)

# make_blobsの出力はnumpy.ndarray
# typeで確認してみましょう


#### (2) CSVファイルからの読み込み
make_blobsはよくわからん、という人は、CSVファイルに出力したサンプルデータ(w5_clusterdata.csv)を読み込んでください。<br>
クラスタ用データXは1列目と2列目、クラスタ番号データyは3列目を用います。<br>

[Week 2: readcsv @ Pandas](Ex_Week2.ipynb#readcsv)<br>
[CSVをDataFrameとして読み込む @ Pandas](https://note.nkmk.me/python-pandas-read-csv-tsv/)<br>
[loadtxt @ Numpy](https://note.nkmk.me/python-numpy-loadtxt-genfromtxt-savetxt/): note.nkmk.me<br>

In [None]:
XX = np.loadtxt('data/w5_clusterdata.csv', delimiter=',')
# XX.shape
# type(XX)

X = XX[:, 0:2]
y = XX[:, 2]

X.shape
y.shape
# X


### 可視化 : 散布図
Visualization : Scattering plot<br>
2変数の場合には、いくつのクラスタに分けて分析するべきか、グラフにプロットして考えると簡単でしょう。<br>
3変数以上の場合には、エルボー法などを使ったほうがよい。<br>
<br>
[Week 4: Scattering plot](Ex_Week4.ipynb#scatterplot)<br>
[Supplement: Scattering plot](Ex_S_Matplotlib.ipynb#scatterplot)<br>
[Matplotlibで出力した図を高解像度で保存する方法](https://analytics-note.xyz/programming/matplotlib-save-dpi/)

In [None]:
# グラフを描画 / Plot a data
# colorのオプションで色付けができる / You can specify the color of the scattering dots.
plt.scatter(X[:,0],X[:,1],color='red')

plt.xlabel('X')
plt.ylabel('Y')
# プロット範囲を指定する。 / Specify the ranges of the axes.
# plt.axis('square')
# plt.xlim(-14,10)
# plt.ylim(-13,11)

plt.gca().set_aspect('equal')
# 
# plt.savefig("img/w5_sample.png", format="png")
plt.show()


<a id=kmeans_2></a>

## k-meansクラスから初期化したインスタンスを作ります。
## Create an initialized instance from k-means class.

```
kmeans = KMeans(init='random',n_clusters=5)
```

Parameters
* `init`: 初期化の方法 / Initialization
    * `random` : k-means method
    * `k-means++` : k-means++ method
* `n_clusters` : クラスタ数 / number of clusters


KMeansクラスのオブジェクトを作ったら`fit`メソッドを実行します。<br>
クラスターの重心が計算され、`predict`メソッドを実行することでクラスター番号が予測されます。<br>
`fit`と`predict`を一連の処理として実行する`fit_predict`メソッドもありますが、基本的に構築したモデルを保存する可能性のある場合は、`fit`メソッドを単独で実施するのがよいでしょう。<br>
<br>
Create an instance of KMeans class, then carry out `fit` method.<br>
The centers of mass of clusters are calculated. Then predict the cluster number of each data point by executing `predict` method.<br>
There is a method, `fit_predict`, which carry out both `fit` and `predict` at the same time. But it may be better to excute these method separately for further analysis.<br>

In [None]:
# サンプルデータなので、今は標準化はしません。 / This sample data doesn't have to be standardized.

# KMeansクラスの初期化 / Initialize KMeans class
# クラスターの数は5に指定 / Specify the number of clusters to be 5
# kmeans = KMeans(init='k-means++',n_clusters=8)
kmeans = KMeans(init='random',n_clusters=8)

# クラスターの重心を計算 / Calculate the center of mass of clusters
kmeans.fit(X)
# クラスター番号を予測 / Predict the cluster number.
y_pred = kmeans.predict(X)

In [None]:
# もともとmake_blobsでサンプルデータを作った時に一緒に生成した答え
print(y)

# 予測したクラスタ番号
print(y_pred)

<a id=merge_data></a>

## データをDataFrameにまとめる

In [None]:
# concatでデータを横に結合(axis=1を指定) / Combine the columns of data laterally.
# 元のDataFrameの1行目、2行目のデータと、予測したクラスタ番号の列を結合して、新しいDataFrameを作ります。
# Merge the the first and the second columns with the predicted cluster numbers into a DataFrame.
merge_data = pd.concat([pd.DataFrame(X[:,0]), pd.DataFrame(X[:,1]), pd.DataFrame(y_pred)], axis=1)

# 上記のデータにて、X軸をfeature1、Y軸をfeature2、クラスター番号をclusterと列名指定
# Set x-axis to be feature1, y-axis to be feature2, cluster number is cluster.
merge_data.columns = ['feature1','feature2','cluster']

<a id=cluster_visualization></a>

## クラスタリング結果のグラフ化 / Visualization
[Week 2: groupby](Ex_Week2.ipynb#groupby)<br>
[Matplotlibで指定可能な色の名前](https://pythondatascience.plavox.info/matplotlib/%E8%89%B2%E3%81%AE%E5%90%8D%E5%89%8D)<br>
[legendの位置を制御(1)](https://python.atelierkobato.com/axes_legend/)<br>
[legendの位置を制御(2)](https://www.yutaka-note.com/entry/matplotlib_legend)

### k-means++ でやってみましょう。

In [None]:
# サンプルデータなので、今は標準化はしません。 / This sample data doesn't have to be standardized.

# KMeansクラスの初期化 / Initialize KMeans class
# クラスターの数は5に指定 / Specify the number of clusters to be 5
# kmeans = KMeans(init='k-means++',n_clusters=8)
kmeans = KMeans(init='k-means++',n_clusters=8)   #initのオプションを'random' -> 'k-means++' に変えるだけ!!

# クラスターの重心を計算 / Calculate the center of mass of clusters
kmeans.fit(X)

# クラスター番号を予測 / Predict the cluster number.
y_pred_kpp = kmeans.predict(X)

# データを結合
merge_data_kpp = pd.concat([pd.DataFrame(X[:,0]), pd.DataFrame(X[:,1]), pd.DataFrame(y_pred_kpp)], axis=1)
# データの列にインデックスを付ける
merge_data_kpp.columns = ['feature1','feature2','cluster']

In [None]:
# データを散布図にプロット

ax = None

# colors = ['blue', 'red', 'green', 'cyan', 'orange']
colors = ['blue', 'red', 'green', 'cyan', 'orange', 'lime', 'black', 'magenta']

for i, data in merge_data_kpp.groupby('cluster'):
    ax = data.plot.scatter(x='feature1', y='feature2', color=colors[i],
                                           label=f'cluster{i}', ax=ax)

# ax.legend(loc = "upper right")
ax.legend(loc='upper left', bbox_to_anchor=(1, 1))
ax.set_aspect('equal', adjustable='box')
plt.savefig("w5_kmeanspp.png", format="png", dpi=300)

<a id=iris></a>

## アヤメのデータセットで解析 / Clustering analysis with a sample data set of iris.

Scikit-learnでは、いくつかサンプルデータが用意されていて、解析を試すのに使えるようになっています。<br>
今回は、その中でも、使われることの多い、アヤメのデータセットを使って、k-means法を試してみます。<br>
<br>
Scikit-learn provides several sample data sets to practise analysis data.<br>
This week, we use one of the most popular sample data, iris, and apply k


[参考サイト: iris(アヤメ)のデータセットをpandasとseabornを使って可視化する](https://kenyu-life.com/2019/05/14/iris/)<br>
[参考サイト: 機械学習入門！クラスタリングの解説とPythonによるk-means実装](https://www.sejuku.net/blog/60630)<br>
[参考サイト: データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう！](https://employment.en-japan.com/engineerhub/entry/2018/04/10/110000)

<a id=load_iris></a>

## アヤメのデータの読み込み / Load a sample dataset of iris

In [None]:
# scikit-learn のデータセットを読み込むためのインポート / Import 'datasets' to use datasets of scikit-learn.
from sklearn import datasets

#対象データを読み込み
iris = datasets.load_iris()

### データの種類を確認 / Check the type of data

<!--
[Week 2: type](Ex_Week2.ipynb#type)<br>
-->

In [None]:
type(iris)

### Bunch という型になっているのが分かります。/ You can see that iris is not DataFrame, but Bunch.

Bunch という型は、辞書型の一種です。<br>
そのまま解析することもできますが、DataFrameとは書き方がちょっと変わってくるので、DataFrameに変換して解析しましょう。<br>
課題では、そのまま解析できる人はそれでも構いません。<br>
[参考サイト：scikit-learnのサンプルデータセットの一覧と使い方](https://note.nkmk.me/python-sklearn-datasets-load-fetch/)
<br>

Bunch is a subclass of dictionary type.<br>
You can analyze data as Bunch type, but you will need different commands to do so.<br>
It would be helpful to learn to convert Bunch type data into DataFrame.<br>
In the assignment of this week, if you can analyze data with Bunch type, it is fine, too.<br>


* `iris.feasure_names`: 説明変数のインデックスが格納されています。/ Index of the explanatory variables
* `iris.data`: 説明変数（アヤメのデータ）/ The explanatory variables (data of iris)
    - sepal length: 花のがくの長さ
    - sepal width: 花のがくの幅
    - petal length: 花弁の長さ
    - petal width: 花弁の幅

In [None]:
print(iris.feature_names)

<img src="img/w5_iris.jpg" width="700px">

[参考サイト: iris(アヤメ)のデータセットをpandasとseabornを使って可視化する](https://kenyu-life.com/2019/05/14/iris/)<br>

### DataFrame に変換 / Convert loaded data from Bunch to DataFrame

`feasure_names`を使って、`index`と`columns`を指定できます。<br>
You can set Index of the DataFrame with `feasure_names`.<br>

In [None]:
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df.head()

In [None]:
# 先頭の5行を表示
iris_df.head()
# iris_df.shape

# sepal : 花のがく
# petal : 花弁、はなびら
# target: アヤメの種類 / types of iris

目的変数をDataFrameに変換して、説明変数のDataFrameに結合させておきます。<br>
あとで、クラスタリングの結果と目的変数に格納されている答えを比較するときに使います。<br>
The objective variable is converted to DataFrame, then merged with the DataFrame of the explanatory variables.<br>
We will use it later when we compare the results obtained with k-means method and the answers stored in the objective variable.
* `iris.target` : 目的変数(アヤメの種類)/ an objective variable
    - 0: Setosa
    - 1: Versicolor
    - 2: Versinica

In [None]:
iris.target

### DataFrame に変換 / Convert loaded data from Bunch to DataFrame

`feasure_names`を使って、`index`と`columns`を指定できます。<br>
You can set Index of the DataFrame with `feasure_names`.<br>

<a id=obj_series></a>

In [None]:
# 目的変数をDataFrameに変換
df_target = pd.DataFrame(iris.target, columns=['species'])

# 説明変数のDataFrameに結合させて、iris_ansというDataFrameに格納
iris_ans = pd.concat([iris_df, df_target.species], axis=1)

# .head()で確認
iris_ans.head()

### データを確認
target に格納されていたアヤメの種類ごとに、がくや花弁の長さで散布図を書いてみましょう。
<br>
Let's plot a scattering plot with the data of petals and sepals by species.

In [None]:
g_ans = iris_ans.groupby('species')

# Setosa
group00 = g_ans.get_group(0) 
#  Versicolor
group01 = g_ans.get_group(1)
# 2: Versinica
group02 = g_ans.get_group(2)

# 0th columns: sepal length: 花のがくの長さ
# 1st columns: sepal width: 花のがくの幅
# 2nd columns: petal length: 花弁の長さ
# 3rd columns: petal width: 花弁の幅
ax = group00.plot.scatter(x=group00.columns[1], y=group00.columns[2],color='red', label='Setosa')
ax = group01.plot.scatter(x=group01.columns[1], y=group01.columns[2],color='blue', label='Versicolor', ax=ax)
ax = group02.plot.scatter(x=group02.columns[1], y=group02.columns[2],color='green', label='Versinica', ax=ax)
plt.xlabel('sepal length (mm)')
plt.ylabel('sepal width (mm)')
# plt.savefig("w5_setalL_setalW.png", format="png")

### データの整理 / Data processing
データのレコード数や変数の数、欠損データを確認しておきましょう。<br>
Let's check the size of DataFrame, number of columns and NaN.<br>
<br>
欠損値の扱い方はこちら。/ How to deal with NaN.<br>
[Week 4: isnull](Ex_Week4.ipynb#isnull)<br>
`print`文と`format`の使い方はこちら。/ How to use `print` and `format`.<br>
[Week 2: print](Ex_Week2.ipynb#print)<br>
[Week 3: format](Ex_Week3.ipynb#format)<br>

In [None]:
# use isnull function
# The output is the same size of an array with elements of True or False
# True : zero, NaN
# False :  nonzero



In [None]:
# The number of NaN in each colums


In [None]:
# The number of True items in the whole array



## k-meansクラスからirisデータセット向けに設定したインスタンスを作ります。
## Create an instance for iris data set from k-means class.

プログラムコードはこちら。 / Here is the code line.

```
kmeans = KMeans(n_clusters=3, max_iter=30, init="random", n_jobs=-1)
```

オプションには以下のような意味があります。
* n_clusters: クラスタの数 / number of clusters
* max_iter: 学習のループ回数 / number of iteration
* init: 平均の初期値の決め方 / how to determine initial position of the center of cluster.
* n_jobs: k-meansを何並列にするか(-1ならばpcのコア数分だけ並列してくれます）/how many cores in your CPU is used for the analysis

その他オプションの詳細はこちら<br>
[scikit-learn でクラスタ分析 (K-means 法)@Pythonでデータサイエンス](https://pythondatascience.plavox.info/scikit-learn/%E3%82%AF%E3%83%A9%E3%82%B9%E3%82%BF%E5%88%86%E6%9E%90-k-means)

In [None]:
from sklearn.cluster import KMeans
# KMeansクラスの初期化 / Initialize KMeans class
# この例では 3 つのグループに分割 (メルセンヌツイスターの乱数の種を 10 とする)
#kmeans = KMeans(n_clusters=3, random_state=10).fit(iris_df)
kmeans = KMeans(n_clusters=3, max_iter=30, init="random")

# K-means クラスタリングをおこなう / Clustering with k-means method
# (1) fit 関数で学習する / Learning with 'fit' function
# cluster = kmeans.fit_predict(iris.values[:,0:4])
#### 大事なポイント!!!
# DataFrameのままだと.fitに入れられないので、.valuesを使って、Numpy array に変換しておきます。
# クラスタリングは、使う変数を自分で選んでもよい。
# 今は0行目から3行目まで使います。
kmeans.fit(iris_df.values[:,0:4])

# (2) クラスター番号を予測 / Predict the cluster number.
y_pred = kmeans.predict(iris_df.values[:,0:4])


## クラスター番号をDataFrame 'iris_df'に追加する。/ Add a column 'cluster' to a DataFrame, 'iris_df'.

In [None]:
# Copy data
# iris_df_k = pd.DataFrame(iris_df.values[:,0:4])
iris_df_k = iris_df
# iris_df_k.shape
# Add a column, cluster.
iris_df_k['cluster'] = y_pred
iris_df_k.tail(5)

## 各クラスタに属するサンプル数の分布 / Number of elements in each cluster

In [None]:
iris_df_k['cluster'].value_counts()

In [None]:
# もともとデータセットに含まれていた答えの分布
#　　 - 0: Setosa
#     - 1: Versicolor
#     - 2: Versinica
iris_ans['species'].value_counts()

### クラスタ番号０の各項目の平均値 / Average of each column in cluster 0

In [None]:
iris_df_k[iris_df_k['cluster']==1].mean() # クラスタ番号 = 0

In [None]:
iris_ans[iris_ans['species']==0].mean() # クラスタ番号 = 0

### クラスタ番号1の各項目の平均値 / Average of each column in cluster 1

### クラスタ番号2の各項目の平均値 / Average of each column in cluster 2

## 可視化 : 散布図
## Visualization : Scattering plot

Pandasでプロットします。Matplotlibとちょっと書き方が違うので、気を付けましょう!!<br>
詳しくは下記リンクを参照してください。<br>
[Pandas でプロット](https://note.nkmk.me/python-pandas-plot/)：基本的なプロットの仕方はこちら。<br>
[Pandasのplotの全引数を解説](https://own-search-and-study.xyz/2016/08/03/pandas%E3%81%AEplot%E3%81%AE%E5%85%A8%E5%BC%95%E6%95%B0%E3%82%92%E4%BD%BF%E3%81%84%E3%81%93%E3%81%AA%E3%81%99/): 図を色々カスタマイズできます。わかりやすい。<br>
<br>
To plot data with Pandas, it is different from what we do with matplotlib.<br>
Please see the reference below.<br>
[plot.scatter @ Pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.scatter.html)

In [None]:
# クラスタリング結果のグラフ化 / Visualization
ax = None

data_group = iris_df_k.groupby('cluster')

group0 = data_group.get_group(0)
group1 = data_group.get_group(1)
group2 = data_group.get_group(2)

# group0.head()

ax = group0.plot.scatter(x=group0.columns[0], y=group0.columns[1],color='red', label='cluster0')
ax = group1.plot.scatter(x=group1.columns[0], y=group1.columns[1],color='blue', label='cluster1', ax=ax)
ax = group2.plot.scatter(x=group2.columns[0], y=group2.columns[1],color='green', label='cluster2', ax=ax)

In [None]:
df_target = pd.DataFrame(iris.target, columns=['species'])
type(df_target)
iris_ans = pd.concat([iris_df, df_target.species], axis=1)

In [None]:
# 答えのクラスタをプロットしてみましょう。

g_ans = iris_ans.groupby('species')

group00 = g_ans.get_group(0)
group01 = g_ans.get_group(1)
group02 = g_ans.get_group(2)

ax = group00.plot.scatter(x=group00.columns[0], y=group00.columns[1],color='red', label='cluster0')
ax = group01.plot.scatter(x=group01.columns[0], y=group01.columns[1],color='blue', label='cluster1', ax=ax)
ax = group02.plot.scatter(x=group02.columns[0], y=group02.columns[1],color='green', label='cluster2', ax=ax)

In [None]:
# クラスタリング結果のグラフ化 / Visualization
# For文を使ってかっこよく書くと。。。/ Make the code smarter with for statement
ax = None

colors = ['red', 'blue', 'green']
for i, data in iris_df_k.groupby('cluster'):
    ax = data.plot.scatter(x=iris_df_k.columns[2], y=iris_df_k.columns[1], color=colors[i],
                           title='k-means', label=f'cluster{i}', ax=ax)

In [None]:
# クラスタリング結果のグラフ化 / Visualization
ax = None
bx = None
cx = None
colors = ['blue', 'red', 'green']

# figsize : figureの縦横の大きさ(横、縦) / Size of figure (widthe, height)
# nrows : number of rows
# ncolumns : number of columns
fig, axes = plt.subplots(nrows=1, ncols=3, figsize=(18, 4))

# LEFT FIGURE: Sepal length vs. sepal width
for i, data in iris_df_k.groupby('cluster'):
    #                       x-axis,  y-axis, specify the data with index name
    ax = data.plot.scatter(x=iris_df_k.columns[0], y=iris_df_k.columns[1], color=colors[i],
    #                                                           this number specify the position of the figure
                           title='k-means', label=f'cluster{i}', ax=axes.flatten()[0])
# CENTER FIGURE: Sepal length vs. petal length
for i, data in iris_df_k.groupby('cluster'):
    #                       x-axis,  y-axis, specify the data with index name
    bx = data.plot.scatter(x=iris_df_k.columns[0], y=iris_df_k.columns[2], color=colors[i],
    #                                                           this number specify the position of the figure
                            title='k-means', label=f'cluster{i}', ax=axes.flatten()[1])

# RIGHT FIGURE: Sepal length vs. petal width
for i, data in iris_df_k.groupby('cluster'):
    #                       x-axis,  y-axis, specify the data with index name
    cx = data.plot.scatter(x=iris_df_k.columns[0], y=iris_df_k.columns[3], color=colors[i],
    #                                                           this number specify the position of the figure
                            title='k-means', label=f'cluster{i}', ax=axes.flatten()[2])



## 横軸を変えてプロットしてみましょう。 / Change the values of x axis, and plot figures.
がくの長さと幅、花弁の長さと幅、全部で4種類のデータがあります。<br>
上では、横軸をがくの長さにしてプロットしましたが、他の組み合わせで図を書いてみましょう。<br>
<br>
In the DataFrame, iris_df_k, therea are four columns of data, sepal length, sepal width, petal length, and petal width.<br>
We plot data with sepal length as x-axis.<br>
Please change the data with different combinations of columns.<br>

## k-means法以外の手法 / Other methods

最後に、クラスタリング手法の体系化について補足します。本章で学んだk-means法は**非階層型**といわれるクラスタリング手法に属していますが、それとは別に**階層型**のクラスタリング（hierarchical clustering）に属する手法があります。

Scikit-learnでは`sklearn.cluster`モジュールの`AgglomerativeClustering`クラスで実行できます。系統樹図（デンドログラム：dendrogram）といった用語と合わせて調べるとよいでしょう。

また、クラスタリング手法の他の分け方に**ソフトクラスタリング**があります。k-means法は**ハードクラスタリング**に分類され、それぞれのデータに対してクラスター番号は一意に決まりましたが、ソフトクラスタリングでは各クラスターへの所属確率が計算できます。たとえば、クラスター1に所属する確率は70%で、クラスター2に所属する確率は30%という感じです。

顧客の趣味嗜好のクラスタリングは、ハードクラスタリングよりもソフトクラスタリングの方が理に適っているかもしれません。目的により使い分けましょう。ソフトクラスタリングは、`sklearn.mixture`モジュールの`GaussianMixture`クラスなどで実行できます。

As we learned in the class, there two types of clustering, Hierarchical and Non-hierarchical clusterings.
The k-means method is one of the Non-hierarchical clustering analysis.
For Hierarchical clustering analysis, we can use `AgglomerativeClustering` class of `sklearn.cluster` module in the library, Scikit-learn.<br>
Please look into the detail with a keyword such as dendrogram.<br>
<br>
In the Non-hierarchical clustering analysis, There are two types of methods, soft and hard clustering.<br>
The k-means method is a hard clustering, while Gaussian Mixture method is soft clustering.<br>
You need to choose carefully the method for analysis of your data depending on what you want to know.<br>

## k-means++ で解析してみよう!! / Let's try k-means++!!
上のデータを、k-means++ で解析しなおしてみて、結果を比べてみましょう。

In [None]:
# まずデータを用意 / Prepare an original DataFrame.
iris_df_kpp = iris_df
iris_df.type

In [None]:
# KMeansクラスの初期化 / Initialize KMeans class
# この例では 3 つのグループに分割 / Set the number of clusters to be 3.
kmeans = KMeans(n_clusters=3, init='k-means++', n_init=5, max_iter=300, tol=1e-04, random_state=0)

# K-means クラスタリングをおこなう / Clustering with k-means method.
kmeans.fit(iris_df_kpp)

# クラスター番号を予測 / Predict the cluster number.
y_pred2 = kmeans.predict(iris_df_kpp)

# suits_kpp にクラスター番号のデータを追加。index は、cluster_kpp.　Add a columns to the DataFrame, suits_kpp.
iris_df_kpp['cluster_kpp'] = y_pred2
# iris_df_kpp.tail(5)

In [None]:
# クラスタリング結果のグラフ化 / Visualization
ax = None
bx = None
cx = None
dx = None
ex = None
fx = None
colors = ['blue', 'red', 'green']

# figsize : figureの縦横の大きさ(横、縦) / Size of figure (widthe, height)
# nrows : number of rows
# ncolumns : number of columns
fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(18, 10))

# UPPER ROW: k-means
# LEFT FIGURE: Sepal length vs. sepal width
for i, data in iris_df_k.groupby('cluster'):
    #                       x-axis,  y-axis, specify the data with index name
    ax = data.plot.scatter(x=iris_df_k.columns[0], y=iris_df_k.columns[1], color=colors[i],
    #                                                           this number specify the position of the figure
                           title='k-means', label=f'cluster{i}', ax=axes.flatten()[0])
# CENTER FIGURE: Sepal length vs. petal length
for i, data in iris_df_k.groupby('cluster'):
    #                       x-axis,  y-axis, specify the data with index name
    bx = data.plot.scatter(x=iris_df_k.columns[0], y=iris_df_k.columns[2], color=colors[i],
    #                                                           this number specify the position of the figure
                            title='k-means', label=f'cluster{i}', ax=axes.flatten()[1])

# RIGHT FIGURE: Sepal length vs. petal width
for i, data in iris_df_k.groupby('cluster'):
    #                       x-axis,  y-axis, specify the data with index name
    cx = data.plot.scatter(x=iris_df_k.columns[0], y=iris_df_k.columns[3], color=colors[i],
    #                                                           this number specify the position of the figure
                            title='k-means', label=f'cluster{i}', ax=axes.flatten()[2])
# LOWER ROW: k-means++
# LEFT FIGURE: Sepal length vs. sepal width
for i, data in iris_df_kpp.groupby('cluster'):
    #                       x-axis,  y-axis, specify the data with index name
    dx = data.plot.scatter(x=iris_df_kpp.columns[0], y=iris_df_kpp.columns[1], color=colors[i],
    #                                                           this number specify the position of the figure
                           title='k-means++', label=f'cluster{i}', ax=axes.flatten()[3])
# CENTER FIGURE: Sepal length vs. petal length
for i, data in iris_df_kpp.groupby('cluster'):
    #                       x-axis,  y-axis, specify the data with index name
    ex = data.plot.scatter(x=iris_df_kpp.columns[0], y=iris_df_kpp.columns[2], color=colors[i],
    #                                                           this number specify the position of the figure
                            title='k-means++', label=f'cluster{i}', ax=axes.flatten()[4])

# RIGHT FIGURE: Sepal length vs. petal width
for i, data in iris_df_kpp.groupby('cluster'):
    #                       x-axis,  y-axis, specify the data with index name
    fx = data.plot.scatter(x=iris_df_kpp.columns[0], y=iris_df_kpp.columns[3], color=colors[i],
    #                                                           this number specify the position of the figure
                            title='k-means++', label=f'cluster{i}', ax=axes.flatten()[5])



## おまけ：以下のグラフについて、k-meansとk-means++のデータと並べて、(3x3) のsubplot で表示してください。
## Optional: Please plot the following data with those obtained by k-means and k-means++ methods. Use subplot (3x3).

* sepal length vs. sepal width
* sepal length vs. petal length
* sepal length vs. petal width
