# k-meansの実装と可視化

このノートブックでは、k-meansクラスタリングの実装と可視化を学習します。


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

plt.rcParams['font.family'] = 'DejaVu Sans'
plt.rcParams['figure.figsize'] = (12, 8)

# k-meansの手動実装
def kmeans_manual(X, k, max_iters=100):
    # 1. ランダムにクラスタ中心を初期化
    np.random.seed(42)
    centroids = X[np.random.choice(X.shape[0], k, replace=False)]
    
    for _ in range(max_iters):
        # 2. 各点を最も近いクラスタに割り当て
        distances = np.sqrt(((X - centroids[:, np.newaxis])**2).sum(axis=2))
        labels = np.argmin(distances, axis=0)
        
        # 3. クラスタ中心を更新
        new_centroids = np.array([X[labels == i].mean(axis=0) for i in range(k)])
        
        # 4. 収束チェック
        if np.allclose(centroids, new_centroids):
            break
        centroids = new_centroids
    
    return labels, centroids

# データの生成
X, y_true = make_blobs(n_samples=300, centers=4, random_state=42)
X_scaled = StandardScaler().fit_transform(X)

# 手動実装とscikit-learnの比較
k = 4
labels_manual, centroids_manual = kmeans_manual(X_scaled, k)
kmeans_sklearn = KMeans(n_clusters=k, random_state=42)
labels_sklearn = kmeans_sklearn.fit_predict(X_scaled)

# 可視化
plt.figure(figsize=(15, 5))

# 元データ
plt.subplot(1, 3, 1)
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=y_true, cmap='viridis', alpha=0.7)
plt.title('True Clusters')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')

# 手動実装
plt.subplot(1, 3, 2)
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=labels_manual, cmap='viridis', alpha=0.7)
plt.scatter(centroids_manual[:, 0], centroids_manual[:, 1], c='red', marker='x', s=200, linewidths=3)
plt.title('Manual k-means')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')

# scikit-learn
plt.subplot(1, 3, 3)
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=labels_sklearn, cmap='viridis', alpha=0.7)
plt.scatter(kmeans_sklearn.cluster_centers_[:, 0], kmeans_sklearn.cluster_centers_[:, 1], 
           c='red', marker='x', s=200, linewidths=3)
plt.title('scikit-learn k-means')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')

plt.tight_layout()
plt.show()

print("=== k-meansの結果 ===")
print(f"手動実装のクラスタ中心:\n{centroids_manual}")
print(f"scikit-learnのクラスタ中心:\n{kmeans_sklearn.cluster_centers_}")
print(f"手動実装のラベル: {labels_manual[:10]}...")
print(f"scikit-learnのラベル: {labels_sklearn[:10]}...")
