# k-Means Clustering 실습
### 이번 실습 시간에는 k-Means Clustering 기법을 이용한 실습을 진행할 예정


## 1.1 3개의 cluster로 구성되어 있는 데이터 만들기
- 먼저 가장 간단하게 눈으로 보기에도 명확하게 떨어져 있는 3개의 cluster로 구성되어 있는 데이터를 만들자
- sklearn.datasets.make_blobs: 서로 다른 Gaussian distribution들에서 점들을 뽑아 cluster를 구성
  - n_samples: 총 데이터의 개수
  - centers: center의 개수
  - cluster_std: cluster를 구성할 Gaussian distribution들의 standard deviation값
  - random_state: random seed값


In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs

X, y = make_blobs(n_samples=300, centers=3, cluster_std=1.0, random_state=42)
plt.scatter(X[:, 0], X[:, 1], s=50, cmap='viridis')
plt.show()

## 1.2 k Means model 정의
- cluster의 개수
- centroid들
- centroid들을 찾아가는 iteration 수
- 어떤 cluster에 포함되어 있는지를 나타내 주는 label들
- cluster의 분산

In [None]:
import numpy as np
from numpy.linalg import norm

class KMeans:
  def __init__(self, n_clusters, max_iter=100):
    self.n_clusters = n_clusters
    self.max_iter = max_iter
    self.centroids = None
    self.labels_ = None
    self.inertia = None

  def fit(self, x):
    self.centroids = x[np.random.choice(range(len(X)), self.n_clusters, replace=False)] # 초기 상태의 centroid 설정
    for _ in range(self.max_iter):
      distances = norm(np.expand_dims(x, axis=1)-np.expand_dims(self.centroids, axis=0), axis=-1) # x를 [300,1,2]로 만들고 self.centroids를 [1,3,2]로 만든 뒤 distance를 계산하여 [300,3]짜리 distance matrix 생성
      self.labels_ = np.argmin(distances,axis=-1) # distances가 [300,3]인데 여기서 각 데이터마다 3개 중 가장 가까운 index를 찾아주는 operation

      centroids = np.array([x[self.labels_ == i].mean(axis=0) for i in range(self.n_clusters)]) # 각 cluster 마다 새로운 centroid를 계산

      if np.all(self.centroids == centroids):
        break
      self.centroids = centroids

    self.inertia = np.sum(distances[:, self.labels_]**2)

  def predict(self, x):
    distances = norm(np.expand_dims(x, axis=1)-np.expand_dims(self.centroids, axis=0), axis=-1)
    return np.argmin(distances,axis=-1)

# 1.3 학습 및 결과 확인 하기

In [None]:
model = KMeans(n_clusters=3)
model.fit(X)

plt.scatter(X[:, 0], X[:, 1], c=model.labels_, s=50, cmap='viridis')
plt.scatter(model.centroids[:, 0], model.centroids[:, 1], c='red', s=50, alpha=0.5)
plt.show()

## 2.1 circle dataset과 two moon dataset에서 확인해 보기

In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import make_circles, make_moons

X, y = make_circles(n_samples=300, noise=0.05, factor=0.5, random_state=42)

plt.scatter(X[:, 0], X[:, 1], s=50, cmap='viridis')
plt.show()

In [None]:
model = KMeans(n_clusters=3)
model.fit(X)

plt.scatter(X[:, 0], X[:, 1], c=model.labels_, s=50, cmap='viridis')
plt.scatter(model.centroids[:, 0], model.centroids[:, 1], c='red', s=50, alpha=0.5)
plt.show()

In [None]:
X, y = make_moons(n_samples=300, noise=0.05, random_state=42)

plt.scatter(X[:, 0], X[:, 1], s=50, cmap='viridis')
plt.show()

In [None]:
model = KMeans(n_clusters=3)
model.fit(X)

plt.scatter(X[:, 0], X[:, 1], c=model.labels_, s=50, cmap='viridis')
plt.scatter(model.centroids[:, 0], model.centroids[:, 1], c='red', s=50, alpha=0.5)
plt.show()

## 3.1 scikit learn에 구현되어 있는 K Means model 사용해보기

In [None]:
from sklearn.cluster import KMeans
model = KMeans(n_clusters=3)
model.fit(X)
plt.scatter(X[:, 0], X[:, 1], c=model.labels_, s=50, cmap='viridis')
plt.scatter(model.cluster_centers_[:, 0], model.cluster_centers_[:, 1], c='red', s=50, alpha=0.5)
plt.show()

## 4.1 K Means Clustering을 이용한 image compression을 위한 data load
- 먼저 matplotlib에 들어 있는 예시 이미지를 matplotlib.cbook.get_sample_data를 이용하여 불러오자.


In [None]:
from PIL import Image
from matplotlib import pyplot as plt
import matplotlib.cbook as cbook

with cbook.get_sample_data('grace_hopper.jpg') as image_file:
    img = Image.open(image_file)
    img.show()


In [None]:
img

## 4.2 k Means 모델 학습

In [None]:
k = 10

pixels = np.array(img).reshape(-1,3)
# kmeans = KMeans(???)
# kmeans.fit(???)

## 4.3 학습된 centroid 만을 가지고 이미지 다시 그리기

In [None]:
for i in zip(range(pixels.shape[0])):
  # label = ???
  # pixels[i] = ???

new_img_arr = pixels.reshape(img.height, img.width, 3)
plt.imshow(new_img_arr)
plt.show()