<a href="https://colab.research.google.com/github/LeeSeungwon89/Lecture-and-self-study/blob/master/6-2%20k-%ED%8F%89%EA%B7%A0(%EC%A0%95%EB%A6%AC%20%EC%A4%91).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# k-평균

- 이전 절에서는 어떤 과일 사진인지 아는 상태로 각 과일 이미지의 평균값을 구하여 가장 가까운 사진을 골랐으나, 실제 비지도 학습에서는 사진에 어떤 과일이 들어 있는지 알 수 없으므로 'k-평균(k-means)' 군집 알고리즘을 사용하여 평균값을 찾음. 이 평균값이 클러스터의 중심에 위치하므로 '클러스터 중심(Cluster Center)' 또는 '센트로이드(Centroid)' 라고 부름.

- k-평균 알고리즘의 작동 방식

 1. 무작위로 k개의 클러스터 중심을 정함.

 1. 각 샘플에서 가장 가까운 클러스터 중심을 찾아서 해당 클러스터의 샘플로 지정함.

 1. 클러스터에 속한 샘플의 평균값으로 클러스터 중심을 변경함.

 1. 클러스터 중심에 변화가 없을 때까지 위 2번으로 돌아가 반복함.

 이를 그림과 설명으로 구체화 하면 아래와 같음. 그림에 매겨진 번호는 아래 설명의 목록 번호와 대응함. 과일 위치는 알고리즘을 종료할 때까지 고정된 상태임.

<img src='https://drive.google.com/uc?export=view&id=1GVCIPrek_1XUNZWp8sQCiHPYD5qafdcg'>

1. 먼저 클러스터 중심(빨간 점) 3개를 랜덤하게 지정하고, 클러스터 중심에서 가장 가까운 샘플을 하나의 클러스터로 묶음. 클러스터에는 순서나 번호가 무의미함.

1. 클러스터 중심을 계산하여 이동시킴. 왼쪽 위의 클러스터는 바나나 쪽으로(오른쪽 위로) 중심이 더 이동하고, 맨 아래 클러스터는 사과 쪽으로(왼쪽 위로) 중심이 더 이동하고, 오른쪽 위의 클러스터는 파인애플 쪽으로(아래로) 중심이 더 이동함. 가장 가까운 샘플을 다시 클러스터로 묶으면 클러스터 3개에 바나나, 사과, 파인애플이 3개씩 묶임.

1. 다시 클러스터 중심을 계산하여 클러스터 중심 3개를 클러스터의 가운데 부분으로 이동시킴. 이동된 클러스터 중심에서 가장 가까운 샘플을 클러스터로 묶음. 중심에서 가장 가까운 샘플은 이전 클러스터(2)와 동일하게 구성된 상태임.

1. 만들어진 클러스터에 변동이 없으므로 k-평균 알고리즘을 종료함.

## KMeans 클래스

### 데이터 준비

In [5]:
!wget https://bit.ly/fruits_300_data -O fruits_300.npy

--2021-07-16 15:46:46--  https://bit.ly/fruits_300_data
Resolving bit.ly (bit.ly)... 67.199.248.10, 67.199.248.11
Connecting to bit.ly (bit.ly)|67.199.248.10|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://github.com/rickiepark/hg-mldl/raw/master/fruits_300.npy [following]
--2021-07-16 15:46:46--  https://github.com/rickiepark/hg-mldl/raw/master/fruits_300.npy
Resolving github.com (github.com)... 140.82.114.4
Connecting to github.com (github.com)|140.82.114.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/rickiepark/hg-mldl/master/fruits_300.npy [following]
--2021-07-16 15:46:46--  https://raw.githubusercontent.com/rickiepark/hg-mldl/master/fruits_300.npy
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... conne

In [6]:
# k-평균 모델을 훈련하고자 3차원 배열(샘플 개수, 너비, 높이)을 2차원 배열(샘플 개수, 너비 * 높이)로 변경함.
import numpy as np

fruits = np.load('fruits_300.npy')
fruits_2d = fruits.reshape(-1, 100*100)

In [9]:
# 'KMeans' 클래스를 불러서 모델을 훈련함. 
from sklearn.cluster import KMeans

# 'n_clusters' 매개변수에 클러스터 개수를 3으로 지정함.
km = KMeans(n_clusters = 3, random_state = 42)

km.fit(fruits_2d) # 비지도 학습이므로 타깃 데이터를 사용하지 않음.

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
       n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
       random_state=42, tol=0.0001, verbose=0)

In [10]:
# 'KMeans' 클래스 객체의 'lables_' 속성에 군집된 결과가 저장됨.
# 이 'labels_' 속성에 저장된 배열은 각 샘플이 어떤 레이블에 해당되는지 나타내며
# 배열 길이는 샘플 개수와 같음.
# 'n_clusters = 3' 으로 지정해서 군집 개수가 3개이기 때문에 배열 값은 0, 1, 2 중 하나임.
print(km.labels_)

[0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 2 0 2 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 2 2 0 0 0 0 0 0 0 0 2 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1]


In [11]:
# 실제 레이블 0, 1, 2가 어떤 과일 이미지를 주로 모았는지 확인하려면 직접 출력하는 편이 좋음.
# 레이블 0, 1, 2로 모은 샘플 개수를 확인함. 
print(np.unique(km.labels_, return_counts = True))

(array([0, 1, 2], dtype=int32), array([ 91,  98, 111]))


In [None]:
진행 중.

## 클러스터 중심

## 최적의 k 찾기