# k평균

## KMeans 클래스

In [None]:
!wget https://bit.ly/fruits_300_data -O fruits_300.npy

In [None]:
import numpy as np

fruits = np.load('fruits_300.npy')
fruits_2d = fruits.reshape(-1, 100*100)

In [None]:
# 모델 훈련
## cluster 아래에는 굉장히 많은 군집 알고리즘이 있다.
## 여기서는 간단하게 하나면 사용해본다.
from sklearn.cluster import KMeans

# KMeans 알고리즘
## 클러스터의 개수를 미리 지정해줘야한다.
## 랜덤...을 지정해주지 않으면 뭐가안된다..?
km = KMeans(n_clusters=3, random_state=42)
## 타깃이 존재하지 않는다. 때문에 과대적합, 과소적합 개념이 없다.
km.fit(fruits_2d) 

In [None]:
print(km.labels_)

In [None]:
print(np.unique(km.labels_, return_counts=True))

In [None]:
import matplotlib.pyplot as plt

def draw_fruits(arr, ratio=1):
    n = len(arr)    # n은 샘플 개수입니다
    # 한 줄에 10개씩 이미지를 그립니다. 샘플 개수를 10으로 나누어 전체 행 개수를 계산합니다. 
    rows = int(np.ceil(n/10))
    # 행이 1개 이면 열 개수는 샘플 개수입니다. 그렇지 않으면 10개입니다.
    cols = n if rows < 2 else 10
    fig, axs = plt.subplots(rows, cols, 
                            figsize=(cols*ratio, rows*ratio), squeeze=False)
    for i in range(rows):
        for j in range(cols):
            if i*10 + j < n:    # n 개까지만 그립니다.
                axs[i, j].imshow(arr[i*10 + j], cmap='gray_r')
            axs[i, j].axis('off')
    plt.show()

In [None]:
# index가 임의로 붙기 떄문에 직접 보기 전까지 어떤 과일이 0번일지 알 수 없다. 

# 파인애플
draw_fruits(fruits[km.labels_==0])

In [None]:
# 바나나
draw_fruits(fruits[km.labels_==1])

In [None]:
# 사과
draw_fruits(fruits[km.labels_==2])

## 클러스터 중심

In [None]:
# 클러스터 중심을 찾았다.
# 클러스터 중심인 센트로이드(centroid)가 cluster_centers_ 속성에 들어가 있다.
### 3차원으로 바꿔서 draw_fruits 에 넣어서 중심값을 출력했다.
draw_fruits(km.cluster_centers_.reshape(-1, 100, 100), ratio=3)

## 파인애플, 바나나, 사과

In [None]:
# fruits_2d에 있는 100번째 샘플을 골라서 집어넣어보자
## 첫 번째 센트로이드까지의 거리, 두번째, 세번째 ... 출력해본다.
## 값을 보면 첫 번째 센트로이드까지의 거리가 가장 적다.
## 즉, 이 샘플은 첫 번째 클러스터에 속할 가능성이 높다!
print(km.transform(fruits_2d[100:101]))

In [None]:
# 샘플이 어떤 클러스터에 속해 있는지 직접 확인
print(km.predict(fruits_2d[100:101]))

In [None]:
# 샘플을 그려보기
draw_fruits(fruits[100:101])

In [None]:
# 군집을 다시묶고 클러스터링을하고 하는 반복을 몇번했는지 출력
print(km.n_iter_)

## 최적의 k 찾기

In [None]:
# 2개, 3개 ... 등등 여러개의 군집으로 나눠본다
# 클러스터의 이너셔 값(km.inertia_) 을 계산해본다.

## 클러스터 값을 늘리면 이너셔 값이 줄어드는 게 일반적
## 명확하지는 않지만 꺾이는 값이 있다.
## 해당 위치의 k값이 최적의 k값으로 볼 수 있다.
## 여기서는 3.0 이 해당된다.
inertia = []
for k in range(2, 7):
    km = KMeans(n_clusters=k, random_state=42)
    km.fit(fruits_2d)
    inertia.append(km.inertia_)

plt.plot(range(2, 7), inertia)
plt.xlabel('k')
plt.ylabel('inertia')
plt.show()