#### 군집(Clustering)은 비지도학습(Unsupervised Learning)의 한 방법으로, 주어진 데이터를 유사한 특성을 가진 그룹으로 묶는 작업을 의미한다.
- 군집은 다양한 분야에서 데이터 분석과 패턴 인식에 활용되며, 머신러닝과 데이터 마이닝에서 중요한 기법 중 하나로 인정받고 있다.

#### 군집의 주요 목적
1. 유사한 데이터 그룹화
    - 군집은 비슷한 특성을 가지는 데이터들을 동일한 클러스터로 묶어서 그룹화한다.
    - 이렇게 함으로써 데이터의 패턴과 구조를 파악할 수 있고, 데이터 간의 유사성과 차이점을 이해할 수 있다.
2. 데이터 이해와 시각화
    - 군집은 복잡한 데이터셋을 간단하고 직관적인 형태로 표현하여 데이터의 구조를 시각화하는데 도움을 준다.
3. 데이터 전처리
    - 예를 들어, 데이터가 매우 크고 복잡한 경우 군집화를 통해 데이터를 줄이거나 간소화하여 다른 머신러닝 알고리즘에 적용하기 쉽도록 할 수 있다.
4. 이상치(Outlier) 탐지
    - 이상치는 일반적인 패턴에서 벗어나는 데이터로, 군집화를 통해 이상치를 다른 클러스터로 분리하여 탐지할 수 있다.


### K-Means를 이용한 붓꽃(Iris) 데이터 셋 Clustering

In [3]:
from sklearn.preprocessing import scale
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
%matplotlib inline

iris = load_iris()
print('target name:', iris.target_names)

# 보다 편리한 데이터 핸들링을 위해 DataFrame으로 변환
irisDF = pd.DataFrame(data=iris.data, columns=['sepal_length','sepal_width','petal_length','petal_width'])
irisDF.head(3)

target name: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


**KMeans 객체를 생성하고 군집화 수행**
* labels_ 속성을 통해 각 데이터 포인트별로 할당된 군집 중심점(Centroid)확인
* fit_predict(), fit_transform() 수행 결과 확인. 

In [4]:
kmeans = KMeans(n_clusters=3, init='k-means++', max_iter=300, random_state=0)
kmeans.fit(irisDF)



In [5]:
"""
각 데이터 포인트들이 0, 1, 또는 2의 레이블 중 하나로 할당되어 있다. 
이렇게 할당된 레이블은 클러스터의 번호를 나타낸다.
=> irisDF의 target(0, 1, 2)과는 다른 의미를 가지고 있다.
"""

print(kmeans.labels_)

[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 2 2 2 2 0 2 2 2 2
 2 2 0 0 2 2 2 2 0 2 0 2 0 2 2 0 0 2 2 2 2 2 0 2 2 2 2 0 2 2 2 0 2 2 2 0 2
 2 0]


In [6]:
kmeans.fit_predict(irisDF)



array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 2, 2, 2, 2, 0, 2, 2, 2,
       2, 2, 2, 0, 0, 2, 2, 2, 2, 0, 2, 0, 2, 0, 2, 2, 0, 0, 2, 2, 2, 2,
       2, 0, 2, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 0], dtype=int32)

In [8]:
"""
kmeans.fit_transform(irisDF)의 반환값은 2차원 배열이다. 
배열의 크기는 (n_samples, n_clusters)이며, 
n_samples는 입력 데이터셋의 샘플 개수이고, 
n_clusters는 K-Means 알고리즘에서 지정한 클러스터의 개수이다. 
반환된 배열의 각 원소는 해당 데이터 포인트가 각 클러스터 중심까지의 거리를 나타냅니다.

이는 첫 번째 데이터 포인트가 각각 1.2, 0.5, 2.3의 거리로 세 개의 클러스터 중심까지부터 떨어져 있음을 의미한다. 
두 번째 데이터 포인트는 첫 번째 클러스터 중심까지 0.8의 거리, 두 번째 클러스터 중심까지 2.1의 거리, 세 번째 클러스터 중심까지 1.9의 거리로 떨어져 있다는 것을 나타낸다.
"""
kmeans.fit_transform(irisDF).shape



(150, 3)

### 군집화 결과를 irisDF에 'cluster' 컬럼으로 추가하고 target 값과 결과 비교

In [9]:
iris.target, iris.target_names

(array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]),
 array(['setosa', 'versicolor', 'virginica'], dtype='<U10'))

In [10]:
irisDF['target'] = iris.target
irisDF['cluster'] = kmeans.labels_
irisDF.head(10)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,target,cluster
0,5.1,3.5,1.4,0.2,0,1
1,4.9,3.0,1.4,0.2,0,1
2,4.7,3.2,1.3,0.2,0,1
3,4.6,3.1,1.5,0.2,0,1
4,5.0,3.6,1.4,0.2,0,1
5,5.4,3.9,1.7,0.4,0,1
6,4.6,3.4,1.4,0.3,0,1
7,5.0,3.4,1.5,0.2,0,1
8,4.4,2.9,1.4,0.2,0,1
9,4.9,3.1,1.5,0.1,0,1


**2차원 평면에 데이터 포인트별로 군집화된 결과를 나타내기 위해 2차원 PCA값으로 각 데이터 차원축소**

In [11]:
"""
클러스터링은 주어진 데이터의 특성에 따라 비슷한 데이터들끼리 그룹화하는 작업이기 때문에, 
target이 1인 데이터들과 target이 2인 데이터들이 서로 다른 군집으로 잘 나뉜 것은 자연스러운 결과이다. 
이러한 군집화 결과를 통해 target(품종)에 따라 데이터가 어떤 특성을 가지고 있는지 더 잘 이해할 수 있게 된다. 
따라서 target 0과 target 1과 target 2는 잘 군집화된 것으로 평가할 수 있다.
"""

iris_result = irisDF.groupby(['target', 'cluster'])['sepal_length'].count()
print(iris_result)

target  cluster
0       1          50
1       0          48
        2           2
2       0          14
        2          36
Name: sepal_length, dtype: int64


### Clustering 알고리즘 테스트를 위한 데이터 생성 

* n_samples: 생성할 총 데이터의 개수입니다. 디폴트는 100개입니다.  


* n_features: 데이터의 피처 개수입니다. 시각화를 목표로 할 경우 2개로 설정해 보통 첫 번째 피처는 x 좌표, 두 번째 피처
는 y 좌표상에 표현합니다.  


* centers: int 값, 예를 들어 3으로 설정하면 군집의 개수를 나타냅니다. 그렇지 않고 ndarray 형태로 표현할 경우 개별 군
집 중심점의 좌표를 의미합니다.  


* cluster_std: 생성될 군집 데이터의 표준 편차를 의미합니다. 만일 float 값 0.8과 같은 형태로 지정하면 군집 내에서 데이
터가 표준편차 0.8을 가진 값으로 만들어집니다.   
[0.8, 1,2, 0.6]과 같은 형태로 표현되면 3개의 군집에서 첫 번째 군집 내
데이터의 표준편차는 0.8, 두 번째 군집 내 데이터의 표준 편차는 1.2, 세 번째 군집 내 데이터의 표준편차는 0.6으로 만듭
니다.   
군집별로 서로 다른 표준 편차를 가진 데이터 세트를 만들 때 사용합니다  

**make_blob()으로 만들어진 데이터 포인트들을 시각화**

**K-Means 클러스터링을 수행하고 개별 클러스터의 중심 위치를 시각화**