# 군집 분석
비슷한 특성을 가진 개체들을 그룹으로 분류하는 분석 기법. 데이터 내의 패턴이나 유사성을 파악하고 이를 기반으로 한 그룹 간의 차이를 이해하는 데 사용

## 군집분석의 목적
- 데이터 탐색과 시각화 : 유사한 개체들을 그룹화 하여 그룹 간의 차이와 유사성을 시각적으로 이해할 수 있다.
- 성질과 특성 파악 : 군집 분석은 데이터를 비슷한 특성이나 성질을 가진 그룹으로 나누어준다. 이를 통해 각 그룹의 고유한 특징과 행동 양상을 파악할 수 있다.
- 데이터 전처리와 변수 선택
- 예측과 분류

## 군집 분석이 어떻게 데이터를 그룹으로 분류하는지
데이터를 그룹으로 분류하는 데 사용되며, 일반적으로 다음과 같은 절차를 따른다.
1. 데이터 준비
2. 거리 또는 유사도 측정
3. 군집화 알고리즘 선택
4. 초기 군집 중심 설정
5. 군집화 수행
6. 군집 결과 해석

## 계층적 군집 분석
1. 데이터를 계층 구조로 분석하는 방법
2. 이 방법을 데이터를 유사도 또는 거리의 개념을 기반으로 계층적인 트리 구조로 표현
3. 주어진 데이터 포인트가 클러스터로 구성되는 과정에서 계층적인 구조 형성
4. 덴드로그램이라는 트리 형태의 시각화 도구를 사용해 계층적 군집 결과를 시각화 할 수 있음
5. 분석가는 덴드로그램을 통해 유사한 특성을 가진 그룹을 선택하거나 원하는 클러스터 수에 따라 잘라내어 결과를 도출할 수 있다.
6. 계층적 군집 분석은 클러스터의 수를 사전에 정하지 않고도 계층적인 관계를 시각화하고 유연하게 탐색 할 수 있는 장점이 있다.

## 비계층적 군집 분석
1. 비계층적 군집 분석은 데이터를 사전에 정한 클러스터 수에 따라 분류하는 방법
2. 데이터 간의 유사성에 따라 클러스터를 형성 하는 알고리즘을 사용하여 분석
3. k-means 클러스터링 : 가장 널리 사용되는 비계층적 군집 분석 알고리즘 중 하나
4. k-means 알고리즘은 사전에 정한 클러스터수(k)에 따라 데이터를 k개의 그룹으로 나눈다.
5. 알고리즘은 초기 중심값을 선택 하고, 데이터를 가장 가까운 중심에 할당하고, 할당된 데이터의 평균을 구하여 중심을 업데이트하는 과정을 반복하여 최적의 클러스터를 찾는다.
6. 비계층적 군집 분석은 초기 클러스터 수를 설정해야 하고, 계층적 관계를 직접 시각화하기 어렵지만, 대용량 데이터 셋에 대해 상대적으로 빠르게 처리할 수 있는 장점이 있다.

## 계층적 군집 분석의 특징과 장단점
#### 계층적 군집 분석 특징
- 데이터를 계층 구조로 분석하는 방법
- 계층적인 트리 구조를 형성하여 유사한 특성을 가진 그룹을 형성
- 계층적인 관게를 시각화하는 덴드로그램을 통해 결과를 분석할 수 있다.
- 클러스터 수를 사전에 정하지 않고도 유연하게 탐색할 수 있는 장점이 있다.

## 군집 분석 - 데이터 전처리
- 변수 표준화
- 결측치 처리

## 군집 분석 - 거리 혹은 유사도 측정 방법
- 유클리디안 거리 : 데이터 포인트 간의 지건 거리 계산. 변수 간의 척도가 유사하고, 데이터의 분포가 정규분포를 따를 때 적합한 방법
- 맨하탄 거리 : 데이터 포인트 간의 가로 세로 이동 거리 계산. 변수 간의 척도가 다를 때에도 사용할 수 있다.
- 코사인 유사도 : 거리 측정 방법이 아닌 유사도 측정 방법으로, 데이터 포인트 간의 각도를 계산한다.
- 자카드 유사도 : 주로 이진 데이터에 사용되는 유사도 측정 방법. 두 집합 간의 공통 요소의 비율 계산

## 군집화 알고리즘
- K-means : 사전에 정한 클러스터의 개수(k)에 따라 데이터를 그룹화 한다. 데이터 포인트를 가장 가까운 중심점과의 거리를 기반으로 클러스터에 할당하고, 중심점을 업데이트하는 과정을 반복함. 데이터의 분포가 정규분포를 따르고, 클러스터의 크기와 모양이 유사할 때 적합하다.
- DBSCAN : 밀도 기반 군집화 알고리즘. 클러스터의 모양이 비선형적이고 밀도 차이가 있는 데이터에 적합
- GMM : 가우시안 혼합 모델을 기반으로 한느 확률적인 군집화 방법. 데이터가 여러개의 가우시안 분포를 가지고 있다고 가저앟고 각 분포에 속할 확률을 추정하여 데이터를 군집화 한다. 데이터가 정규분포를 따르고, 소프트 군집화를 원할 때 적합

## 군집 수 결정 방법
- 엘보우 방법 : 군집 수에 따른 응집도 변화를 살펴보는 방법. 군집 수를 증가시킬수록 응집도는 감소. 그러나 적정한 군집 수에서 응집도의 변화가 감소하면서 급격히 완만해지는 지점이 생긴다. 이 지점을 엘보우라고 하며, 해당 지점의 군집 수를 적정한 군집 수로 선택한다.
- 실루엣 분석 : 군집 내의 응집력과 군집 간의 분리도를 종합적으로 평가하는 방법. 각 데이터의 포인트의 실루엣 계수를 계산하여 평균 실루엣 계수를 구한다. 실루엣 계수는  -1부터 1까지의 값을 가지며, 1에 가까울수록 군집 간의 분리도가 높고, 0에 가까울수록 군집 내의 응집력이 강하다. 실루엣 계수가 최대가 되는 군집 수를 선택한다.
- Gap Statistic : 실제 데이터와 무작위 생성된 데이터의 비교를 통해 군집 수를 결정하는 방법. 실제 데이터에 군집화 알고리즘을 적용한 후, 무작위 생성된 데이터에도 동일한 알고리즘을 적용한다. Gap Statistic은 실제 데이터의 응집도와 무작위 데이터의 응집도 사이의 차이를 계산하여 비교. Gap Statistic이 최대가 되는 군집을 선택

In [1]:
# 군집 분석 실습
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 데이터 랜덤 생성
X, y = make_blobs(n_samples = 100, centers=4, random_state = 42)

# K-means 알고리즘 적용
kmeans = KMeans(n_clusters=4, random_state = 42)
kmeans.fit(X)



In [3]:
# 군집 중심점 확인
centroids = kmeans.cluster_centers_
print("군집 중심점 : ")
print(centroids)

# 군집 예측 결과 확인
labels = kmeans.labels_
print("군집 예측 결과 : ")
print(labels)

# 결과 해석
for i in range(len(centroids)) :
    cluster_data = X[labels == i]    # 해당 군집에 속하는 데이터
    cluster_center = centroids[i]    # 해당 군집의 중심점
    
    print(f"군집 {i+1} :")
    print(f"중심점 : {cluster_center}")
    print(f"데이터 개수: {len(cluster_data)}")
    print("---------------")

군집 중심점 : 
[[ 4.44441765  2.02122148]
 [-8.8546122   7.54808242]
 [-6.9749469  -6.76471966]
 [-2.69827251  8.74341951]]
군집 예측 결과 : 
[1 2 3 2 1 2 0 0 0 3 3 2 2 0 3 1 1 0 1 1 3 1 1 0 0 3 0 1 1 2 2 0 2 1 3 3 3
 3 0 0 1 0 2 3 3 2 2 1 1 0 0 0 0 2 1 1 3 3 0 3 2 0 1 2 1 1 2 1 0 2 0 2 1 3
 2 1 2 1 2 2 0 2 3 1 3 3 3 2 3 0 0 2 3 2 3 3 3 0 1 0]
군집 1 :
중심점 : [4.44441765 2.02122148]
데이터 개수: 25
---------------
군집 2 :
중심점 : [-8.8546122   7.54808242]
데이터 개수: 25
---------------
군집 3 :
중심점 : [-6.9749469  -6.76471966]
데이터 개수: 25
---------------
군집 4 :
중심점 : [-2.69827251  8.74341951]
데이터 개수: 25
---------------
