# 군집 분석 (Clustering)

- **군집 분석**은 정답(label)이 없는 데이터에 대해 비슷한 특성을 가진 데이터끼리 그룹화하는 비지도 학습 방법입니다.
- 이 예제에서는 `sklearn.cluster.KMeans` 알고리즘을 사용하여 가상으로 생성된 데이터 포인트를 3개의 군집으로 분류합니다.
- `np.random.normal()` 함수를 사용하여 정규분포(가우시안 분포)를 따르는 데이터를 생성합니다.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

## 1. 데이터 생성

- `np.random.normal()`을 사용하여 세 개의 다른 정규분포를 따르는 2차원 데이터 그룹(x1, x2, x3)을 생성합니다.
- 각 그룹은 50개의 데이터 포인트를 가집니다.
- `np.vstack()`을 사용하여 생성된 세 그룹의 데이터를 하나의 배열로 결합합니다.

In [None]:
np.random.seed(42)
x1 = np.random.normal(0,  1,(50,2))  # 평균 0, 표준편차 1
x2 = np.random.normal(5,  1,(50,2))  # 평균 5, 표준편차 1
x3 = np.random.normal(2.5,1,(50,2))  # 평균 2.5, 표준편차 1

# vstack을 사용하여 세로로 데이터 결합
X = np.vstack((x1, x2, x3))

# 데이터 형태와 일부 데이터 확인
print("Data Shape:", X.shape)
print("Data Sample (first 10 rows):")
print(X[:10])

## 2. K-Means 모델 학습

- `KMeans` 모델을 생성합니다.
- `n_clusters=3`으로 설정하여 데이터를 3개의 군집으로 나눌 것을 지정합니다.
- `fit()` 메서드를 사용하여 모델을 학습시킵니다.

In [None]:
# n_clusters=3: 군집의 개수를 3개로 지정
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
kmeans.fit(X)

# 학습된 모델로 각 데이터 포인트가 어떤 군집에 속하는지 예측
y_kmeans = kmeans.predict(X)
print("Predicted clusters (first 20):")
print(y_kmeans[:20])

## 3. 결과 확인

- `cluster_centers_` 속성을 사용하여 각 군집의 중심점을 확인합니다.

In [None]:
# 각 군집의 중심점 좌표 확인
centers = kmeans.cluster_centers_
print("Cluster Centers:")
print(centers)

## 4. 시각화

- `matplotlib.pyplot.scatter`를 사용하여 군집 결과를 시각화합니다.
- 각 데이터 포인트를 예측된 군집(`y_kmeans`)에 따라 다른 색상으로 표시합니다.
- 군집의 중심점은 빨간색 'X' 마커로 표시합니다.

In [None]:
plt.figure(figsize=(10, 7))

# 데이터 포인트를 군집별로 색상을 다르게하여 시각화
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, cmap='viridis', s=50, alpha=0.7)

# 군집의 중심점을 시각화
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, marker='X', label='Centroids')

plt.title('K-Means Clustering')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.grid(True)
plt.show()