In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from sklearn.metrics import silhouette_score
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.datasets import make_blobs

## 1. 데이터 생성

### `make_blobs` 가 받는 argument 각각의 의미를 알아보세요.

In [4]:
np.random.seed(42)
X, y = make_blobs(n_samples=300, centers=4, cluster_std=1.0, random_state=42)

## 2. K-means 클러스터링
K-means 알고리즘을 사용하여 데이터셋을 4개의 클러스터로 나누어 봅시다.

In [None]:
kmeans = KMeans(n_clusters=4, random_state=42)
kmeans_labels = kmeans.fit_predict(X)

### 클러스터가 더 퍼져 있으면 K-means 결과는 어떻게 달라질까요? 결과를 해석해보세요.

In [None]:
X_varied, y_varied = make_blobs(n_samples=300, centers=4, cluster_std=2.0, random_state=42)
kmeans_varied = KMeans(n_clusters=4, random_state=42)
kmeans_varied_labels = kmeans_varied.fit_predict(X_varied)

In [None]:
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.scatter(X[:, 0], X[:, 1], c=kmeans_labels, cmap='viridis')
plt.title('Cluster_std=1.0')
plt.subplot(1, 2, 2)
plt.scatter(X_varied[:, 0], X_varied[:, 1], c=kmeans_varied_labels, cmap='viridis')
plt.title('Cluster_std=2.0')
plt.show()

## 3. 계층적 클러스터링
계층적 클러스터링을 사용하여 데이터를 4개의 클러스터로 그룹화해봅시다

In [8]:
hierarchical = AgglomerativeClustering(n_clusters=4)
hierarchical_labels = hierarchical.fit_predict(X)

## 실습 2: Hierarchical Clustering linkage 방법 비교
### 서로 다른 linkage 방법(single, complete, average)에 따라 클러스터링 결과가 어떻게 달라지나요?

In [None]:
for method in ['single', 'complete', 'average']:
    plt.figure(figsize=(10, 5))
    Z = linkage(X, method=method)
    dendrogram(Z)
    plt.title(f'Dendrogram ({method} linkage)')
    plt.xlabel('Data Points')
    plt.ylabel('Euclidean Distance')
    plt.show()

## 4. GMM (Gaussian Mixture Model)
GMM을 사용하여 데이터를 4개의 클러스터로 분류해봅시다

In [10]:
gmm = GaussianMixture(n_components=4, random_state=42)
gmm_labels = gmm.fit_predict(X)

### GMM에서 가우시안 개수를 조정하면 클러스터링 결과는 어떻게 달라질까요?

In [None]:
for n in [3, 4, 5]:
    gmm_test = GaussianMixture(n_components=n, random_state=42)
    gmm_test_labels = gmm_test.fit_predict(X)
    plt.scatter(X[:, 0], X[:, 1], c=gmm_test_labels, cmap='viridis')
    plt.title(f'GMM with {n} components')
    plt.show()

## 5-1. Silhouette Score

클러스터의 수를 결정하는 데 쓰이는 method를 각각 설명해주세요.

In [16]:
kmeans_silhouette = silhouette_score(X, kmeans_labels)
hierarchical_silhouette = silhouette_score(X, hierarchical_labels)
gmm_silhouette = silhouette_score(X, gmm_labels)

### Silhouette Score를 기준으로 보면, 가장 적절한 클러스터 개수는 몇 개일까요?

In [18]:
silhouette_scores = {}
k_values = range(2, 10)
for k in k_values:
    kmeans_test = KMeans(n_clusters=k, random_state=42)
    labels = kmeans_test.fit_predict(X)
    silhouette_scores[k] = silhouette_score(X, labels)

In [None]:
plt.plot(list(silhouette_scores.keys()), list(silhouette_scores.values()), marker='o')
plt.xlabel('Number of Clusters')
plt.ylabel('Silhouette Score')
plt.title('Optimal Cluster Number using Silhouette Score')
plt.show()

## 5-2. Elbow Method

In [21]:
wcss = []
k_values = range(1, 11)
for k in k_values:
    km = KMeans(n_clusters=k, random_state=42)
    km.fit(X)
    wcss.append(km.inertia_)

### Elbow Method를 기준으로 보면, 'elbow point'는 몇 개의 클러스터를 선택해야 한다고 말하나요?

In [None]:
plt.figure(figsize=(8, 5))
plt.plot(k_values, wcss, marker='o', linestyle='--')
plt.xlabel('Number of Clusters')
plt.ylabel('WCSS')
plt.title('Elbow Method for Optimal K')
plt.show()