#### Code Reference: Python Machine Learning, 3rd Ed. (ISBN-10: 1789955750)

In [None]:
from IPython.display import Image

# Grouping objects by similarity using k-means

## K-means clustering using scikit-learn

In [None]:
from sklearn.datasets import make_blobs

X, y = make_blobs(n_samples=150, 
                  n_features=2, 
                  centers=3, 
                  cluster_std=0.5, 
                  shuffle=True, 
                  random_state=0)

In [None]:
import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1], 
            c='white', marker='o', edgecolor='black', s=50)
plt.grid()
plt.tight_layout()
# plt.savefig('images/11_01.png', dpi=300)
plt.show()

In [None]:
from sklearn.cluster import KMeans

# TODO: KMeans class를 사용하되, init='random' argument를 사용하세요.
km = 

y_km = km.fit_predict(X)

In [None]:
plt.scatter(X[y_km == 0, 0],
            X[y_km == 0, 1],
            s=50, c='lightgreen',
            marker='s', edgecolor='black',
            label='Cluster 1')
plt.scatter(X[y_km == 1, 0],
            X[y_km == 1, 1],
            s=50, c='orange',
            marker='o', edgecolor='black',
            label='Cluster 2')
plt.scatter(X[y_km == 2, 0],
            X[y_km == 2, 1],
            s=50, c='lightblue',
            marker='v', edgecolor='black',
            label='Cluster 3')
plt.scatter(km.cluster_centers_[:, 0],
            km.cluster_centers_[:, 1],
            s=250, marker='*',
            c='red', edgecolor='black',
            label='Centroids')
plt.legend(scatterpoints=1)
plt.grid()
plt.tight_layout()
# plt.savefig('images/11_02.png', dpi=300)
plt.show()

<br>

Comparison to "bad" clustering:

In [None]:
# TODO: KMeans의 class를 2개로 설정해서 잘못된 clustering을 그려보세요.
km = 

y_km = km.fit_predict(X)

plt.scatter(X[y_km == 0, 0],
            X[y_km == 0, 1],
            s=50,
            c='lightgreen',
            edgecolor='black',
            marker='s',
            label='Cluster 1')
plt.scatter(X[y_km == 1, 0],
            X[y_km == 1, 1],
            s=50,
            c='orange',
            edgecolor='black',
            marker='o',
            label='Cluster 2')

plt.scatter(km.cluster_centers_[:, 0], km.cluster_centers_[:, 1],
            s=250, marker='*', c='red', label='Centroids')
plt.legend()
plt.grid()
plt.tight_layout()
# plt.savefig('images/11_05.png', dpi=300)
plt.show()

# Locating regions of high density via DBSCAN

In [None]:
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=200, noise=0.05, random_state=0)
plt.scatter(X[:, 0], X[:, 1])
plt.tight_layout()
# plt.savefig('images/11_14.png', dpi=300)
plt.show()

K-means and hierarchical clustering:

In [None]:
from sklearn.cluster import AgglomerativeClustering

f, (ax1, ax2) = plt.subplots(1, 2, figsize=(8, 3))

# TODO: KMeans를 이용해서 위 데이터를 Clustering해 보세요.
km = 

y_km = km.fit_predict(X)
ax1.scatter(X[y_km == 0, 0], X[y_km == 0, 1],
            edgecolor='black',
            c='lightblue', marker='o', s=40, label='cluster 1')
ax1.scatter(X[y_km == 1, 0], X[y_km == 1, 1],
            edgecolor='black',
            c='red', marker='s', s=40, label='cluster 2')
ax1.set_title('K-means clustering')

# TODO: AgglomerativeClustering 함수의 사용법을 검색해 보고, Clustering 해 보세요.
ac = 

y_ac = ac.fit_predict(X)
ax2.scatter(X[y_ac == 0, 0], X[y_ac == 0, 1], c='lightblue',
            edgecolor='black',
            marker='o', s=40, label='Cluster 1')
ax2.scatter(X[y_ac == 1, 0], X[y_ac == 1, 1], c='red',
            edgecolor='black',
            marker='s', s=40, label='Cluster 2')
ax2.set_title('Agglomerative clustering')

plt.legend()
plt.tight_layout()
# plt.savefig('images/11_15.png', dpi=300)
plt.show()

Density-based clustering:

In [None]:
from sklearn.cluster import DBSCAN

# DBSCAN: 밀도 기반의 Clustering 기법

# TODO: DBSCAN의 함수의 사용법을 검색해 보고, Clustering 해 보세요.
db = 

y_db = db.fit_predict(X)
plt.scatter(X[y_db == 0, 0], X[y_db == 0, 1],
            c='lightblue', marker='o', s=40,
            edgecolor='black', 
            label='Cluster 1')
plt.scatter(X[y_db == 1, 0], X[y_db == 1, 1],
            c='red', marker='s', s=40,
            edgecolor='black', 
            label='Cluster 2')
plt.legend()
plt.tight_layout()
# plt.savefig('images/11_16.png', dpi=300)
plt.show()

# 과제: 새로운 데이터셋을 이용해 Clustering을 실시해 보세요.

Wine dataset을 이용해 Clustering을 실시해 보세요.
Attribute 2개를 선택해 실시해 보세요.

Clustering이 잘 되었는지 위 그림들 처럼 Plot하여 확인 해 보세요.

- StandardScaler의 사용 여부에 따른 결과를 비교해 보세요.
- 어떤 Attribute가 Wine dataset에 효과적인지 찾아보세요.

In [None]:
# Wine 데이터셋 불러오기
digit_data = datasets.load_wine()

X_orig = digit_data.data
y = digit_data.target

In [None]:
# 사용하고자 하는 Attribute 2개 선택 (0 ~ 12 중에 2가지를 선택해 보세요)

i1 = 
i2 = 
X = X_orig[:, [i1, i2]]

In [None]:
from sklearn.preprocessing import StandardScaler

# StandardScaler의 사용 여부에 따른 결과 비교하기


In [None]:
X.shape

In [None]:
y.shape

## 추가 과제 : Attribute 3개를 써서 Clustering을 실시해 보세요.
Plot은 동일하게 scatter 를 쓰면 됩니다.

In [None]:
# 3D scatter plot 예시
import numpy as np
xx = np.random.rand(10)
yy = np.random.rand(10)
zz = np.random.rand(10)

fig = plt.figure()
ax = fig.gca(projection='3d')

ax.scatter(xx, yy, zz, c='lightgreen',
            marker='s', edgecolor='black',
            label='Points')
plt.grid()
plt.tight_layout()
# plt.savefig('images/11_02.png', dpi=300)
plt.show()

In [None]:
# Wine 데이터셋 불러오기
digit_data = datasets.load_wine()

X_orig = digit_data.data
y = digit_data.target