In [None]:
from sklearn import datasets, cluster, metrics
import numpy as np
import matplotlib.pyplot as plt

# データセット生成
blobs, ground_truth = datasets.make_blobs(n_samples=1000, centers=3, cluster_std=1.75, random_state=42)

# NMIスコアを格納するリスト
nmi_scores = []

# 3回クラスタリング処理を実行
for i in range(3):
    # KMeansクラスタリングの実行
    kmeans = cluster.KMeans(n_clusters=3, random_state=i)
    kmeans.fit(blobs)
    
    # NMIスコアを計算
    nmi_score = metrics.normalized_mutual_info_score(ground_truth, kmeans.labels_)
    nmi_scores.append(nmi_score)
    
    # 誤認識したデータを特定
    incorrect_points = blobs[ground_truth != kmeans.labels_]
    
    # クラスタリング結果のプロット
    plt.figure(figsize=(10, 8))
    
    # 元データをプロット（〇）
    plt.scatter(blobs[:, 0], blobs[:, 1], c='gray', marker='o', alpha=0.5, label="Original Data (〇)")
    
    # クラスタリング結果をプロット（×）
    colors = ['r', 'g', 'b']
    for j in range(3):
        cluster_points = blobs[kmeans.labels_ == j]
        plt.scatter(cluster_points[:, 0], cluster_points[:, 1], c=colors[j], marker='x', label=f"Cluster {j} (×)")
    
    # 誤認識した点をプロット（黒丸）
    plt.scatter(incorrect_points[:, 0], incorrect_points[:, 1], c='black', marker='o', label="Misclassified (●)")
    
    plt.title(f"KMeans Result (Run {i+1}), NMI={nmi_score:.3f}")
    plt.xlabel("Feature 1")
    plt.ylabel("Feature 2")
    plt.legend()
    plt.show()

# 各クラスタリングのNMIスコアを比較
print("NMI Scores for each run:")
for i, score in enumerate(nmi_scores):
    print(f"Run {i+1}: NMI Score = {score:.3f}")

# 平均スコアの表示
print(f"\nAverage NMI Score: {np.mean(nmi_scores):.3f}")
