# Unsupervised Learning
- 비지도 학습 (학습용 datadp target이 없는 경우)
- data 안에 들어있는 숨겨진 pattern을 찾아내고 구조화(clustering)
- 알고리즘
    1. K-means 알고리즘(특정 data 형식에 대해서는 잘 동작하지 않음)
    2. DBSCAN

### 1. K-means 알고리즘
- K -> cluster의 수, hyper parameter
- means -> cluster의 중심 centroid와 데이터간의 평균 거리
    - 유클리드 거리
    - 맨해튼 거리
- EM 알고리즘으로 동작
    - E(expectation)의 의미로 가장 가까운 centroid에 데이터를 군집으로 할당
    - M(maximization)의 의미로 cluster 경계에 대한 중심점을 결정

- 방법
    1. random한 centroids를 지정된 k의 개수로 형성
    2. 모든 data에 대해 각 centroids와의 거리를 계산하여 가장 가까운 centroid와 cluster로 묶임
    3. 묶인 cluster의 경계에 맞게 centroid를 update
    4. update된 centroid와 모든 점의 거리를 다시 계산하고 cluster를 다시 생성
    5. 새롭게 update된 cluster가 만들어지고, 3번부터 반복
    6. cluster가 변함이 없는 시점이 생기면 cluster확정. 이 알고리즘을 여러 번 반복하여 가장 좋은 cluster 결정
- 주의
    1. k의 개수 설정 -> Elbow method
    2. random한 centroids 설정

In [None]:
# 중심점이 4개인 데이터 100개를 무작위로 생성해서 정상적으로 클러스터가 생성되는지 확인

# Module import
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# 중심점이 4개인 100개의 랜덤 데이터를 생성
# n_samples: 전체 데이터 포인트의 수
# centers: cluster의 수
# n_features: 각 데이터 포인트의 feature 개수(데이터의 차원)
# points: 생성된 데이터의 feature
# labels: 각 데이터 포인트의 소속 클러스터 레이블
points, labels = make_blobs(n_samples=100,
                            centers=4,
                            n_features=2,
                            random_state=100)

print(points.shape)  # (100, 2)
print(labels.shape)  # (100,)
print(np.unique(labels, return_counts=True))  # array([0, 1, 2, 3]), array([25, 25, 25, 25]))

(100, 2)
(100,)
(array([0, 1, 2, 3]), array([25, 25, 25, 25]))
