# 9장 비지도학습

* 레이블이 없는 데이터 학습

* 예제: 사진에 포함된 사람들 분류하기

* 용도
    * 군집(clustering)
    * 이상치 탐지
    * 밀도 추정

* 군집(clustering): 비슷한 샘플끼리 군집 형성하기
    * 데이터 분석
    * 고객분류
    * 추천 시스템
    * 검색 엔진
    * 이미지 분할
    * 준지도 학습
    * 차원 축소

* 이상치 탐지: 정상 테이터 학습 후 이상치 탐지.
    * 제조 라인에서 결함 제품 탐지
    * 시계열 데이터에서 새로운 트렌드 찾기

* 밀도 추정: 데이터셋 생성확률과정의 확률밀도함수 추정 가능 
    * 이상치 분류: 밀도가 낮은 지역에 위치한 샘플
    * 데이터분석
    * 시각화

## 주요 내용

* 군집
* K-평균
* DBSCAN
* 가우시안 혼합
* 이상치/특이치 탐지용 알고리즘

## 9.1 군집화

* 군집화(clustering): 유사한 부류의 대상들로 그룹 만들기
* 군집(클러스터, cluster): 유사한 샘플들의 그룹

### 분류 대 군집화

* 유사점: 각 샘플에 하나의 그룹에 할당
* 차이점: 군집이 미리 레이블(타깃)로 지정되지 않고 예측기 스스로 적절한 군집을 찾아내야 함.

#### 예제

* 왼편: 분류
* 오른편: 군집화
    * 4개의 특성 모두 사용

<img src="images/ch09/homl09-01.png" width="600"/>

* 가우시안 혼합 모델 적용하면 매우 정확한 군집화 가능
    * 4개의 특성 모두 사용할 경우
    * 꽃잎의 너비/길이, 꽃받침의 너비/길이

<img src="images/ch09/homl09-02.png" width="400"/>

### 군집화 활용 예제

* 고객 분류 
* 데이터 분석 
* 차원 축소 기법 
* 이상치 탐지 
* 준지도 학습 
* 검색 엔진 
* 이미지 분할 

### 군집의 정의

* 보편적 정의 없음. 사용되는 알고리즘에 따라 다른 형식으로 군집 형성
* K-평균: 센트로이이드라는 특정 샘플을 중심으로 모인 샘플들의 그룹
* DBSCAN: 밀집된 샘플들의 연속으로 이루어진 그룹
* 가우시안 혼합 모델: 특정 가우시안 분포를 따르는 샘플들의 그룹
* 경우에 따라 계층적 군집의 군집 형성

## K-평균

### 예제

* 샘플 덩어리 다섯 개로 이루어진 데이터셋

<img src="images/ch09/homl09-03.png" width="450"/>

### (사이킷런) K-평균 알고리즘 적용

* 각 군집의 중심을 찾고 가장 가까운 군집에 샘플 할당
* 군집 개수(`n_clusters`) 지정해야 함.

---
```python
from sklearn.cluster import KMeans

k = 5
kmeans = KMeans(n_clusters=k, random_state=42)
y_pred = kmeans.fit_predict(X)
```
---

### 결정 경계

* 결과: 보로노이 다이어그램
    * 평면을 특정 점까지의 거리가 가장 가까운 점의 집합으로 분할한 그림
* 경계 부분의 일부 샘플을 제외하고 기본적으로 군집이 잘 구성됨.

<img src="images/ch09/homl09-04.png" width="450"/>

### K-평균 알고리즘의 단점 1

* 군집의 크기가 서로 많이 다르면 잘 작동하지 않음.
* 샘플과 센트로이드까지의 거리만 고려되기 때문.

### 하드 군집화 대 소프트 군집화

* 하드 군집화: 각 샘플에 대해 가장 가까운 군집 선택

* 소프트 군집화: 샘플별로 각 군집 센트로이드와의 거리 측정하기
    * `transform()` 메서드 활용

### K-평균 알고리즘

* 먼저 $k$ 개의 센트로이드 랜덤 선택
* 수렴할 때까지 다음 과정 반복
    * 각 샘플을 가장 가까운 센트로이드에 할당
    * 군집별로 샘플의 평균을 계산하여 새로운 센트로이드 지정

<img src="images/ch09/homl09-05.png" width="600"/>

### K-평균 알고리즘의 단점 2

* 초기 센트로로이드에 따라 매우 다른 군집화 발생 가능

<img src="images/ch09/homl09-06.png" width="600"/>

### 관성(inertia, 이너셔)

* k-mean 모델 평가 방법
* 정의: 샘플과 가장 가까운 센트로이드와의 거리의 제곱의 합
* 각 군집이 센트로이드에 얼마나 가까이 모여있는가를 측정
* `score()` 메서드가 측정. (음수 기준)

### 좋은 모델 선택법

* 다양한 초기화 과정을 실험한 후에 가장 좋은 것 선택
* `n_init = 10`이 기본값으로 사용됨. 즉, 10번 학습 후 가장 낮은 관성을 갖는 모델 선택.

### K-평균++

* 센트로이드를 무작위로 초기화하는 대신 특정 확률분포를 이용하여 선택
* 센트로이드들 사이의 거리를 크게할 가능성이 높아짐.
* `KMeans` 모델의 기본으로 사용됨.

### K-평균 알고리즘 속도 개선

* `algorithm=elkan`: 학습 속도 향상됨. 
    * 단, 밀집 데이터(dense data)만 지워하며, 희소 데이터는 지원하지 않음.
    * 밀집 데이터셋에 대한 기본값임.
    

* `algorithm=full`: 희소 데이터에 대한 기본값.

### 미니배치 K-평균

* 미니배치를 지원하는 K-평균 알고리즘: `MiniBatchMeans`
* 사용법은 동일

```python
from sklearn.cluster import MiniBatchKMeans

minibatch_kmeans = MiniBatchKMeans(n_clusters=5, random_state=42)
minibatch_kmeans.fit(X)
```

#### `memmap` 활용

* 대용량 훈련 세트 활용하고자 할 경우
* 8장 PCA에서 사용했던 기법과 동일

#### memmap 활용 불가능인 경우

* 미니배치로 쪼개어 학습
* `MiniBatchKMeans`의 `partial_fit()` 메서드 활용

#### 미니배치 K-평균의 특징

* K-평균보다 훨씬 빠름.
* 하지만 성능은 상대적으로 좀 떨어짐. 군집수가 증가해도 마찬가지임.

<img src="images/ch09/homl09-07.png" width="600"/>

### 최적의 군집수 찾기

* 최적의 군집수를 사용하지 않으면 적절하지 못한 모델을 학습할 수 있음.

<img src="images/ch09/homl09-08.png" width="600"/>

#### 관성과 군집수

* 군집수 k가 증가할 수록 관성(inertia) 줄어듬. 따라서 관성만으로 모델을 평가할 없음.

* 관성이 더 이상 획기적으로 줄어들지 않는 지점의 군집수 선택 가능

<img src="images/ch09/homl09-09.png" width="600"/>

* 위 그래프에 의해 `k=4` 선택 가능.
* 하지만 아래 그림에서 보듯이 좋은 성능이라 말하기 어려움.

<img src="images/ch09/homl09-10.png" width="400"/>

#### 실루엣 점수와 군집수

* 샘플별 실루엣 계수의 평균값

* 실루엣 계수: -1과 1사이의 값
    * 1에 가까운 값: 적절한 군집에 포함됨.
    * 0에 가까운 값: 군집 경계에 위치
    * -1에 가까운 값: 잘못된 군집에 포함됨

* 아래 그림에 의하면 `k=5`도 좋은 선택이 될 수 있음.

<img src="images/ch09/homl09-11.png" width="500"/>

#### 실루엣 다이어그램과 군집수

<img src="images/ch09/homl09-12.png" width="500"/>

* 실루엣 다이어그램
    * 군집별 실루엣 계수 모음. 칼 모양.
    * 칼 두께: 군집에 포함된 샘플 수
    * 칼 길이: 군집에 포함된 각 샘플의 실루엣 계수

* 빨간 파선: 군집별 실루엣 점수
    * 대부분의 칼이 빨간 파선보다 길어야 함.
    * 칼의 두께가 서로 비슷해야, 즉, 군집별 크기가 비슷해야 좋은 모델임.

* 따라서 `k=5` 가 보다 좋은 모델임.

### K-평균의 한계

* 최적의 모델을 구하기 위해 여러 번 학습해야 함.
* 군집수를 미리 지정해야 함.
* 군집의 크기나 밀집도가 다르거나, 원형이 아닐 경우 잘 작동하지 않음.

<img src="images/ch09/homl09-13.png" width="600"/>

### 군집화 활용: 이미지 분할