In [6]:
import numpy as np
from sklearn.cluster import MeanShift, estimate_bandwidth
from sklearn.datasets import make_blobs

#### 导入库函数
导入numpy,用于数值计算和数组操作
从scikit-learn 的聚类模块引入MeanShift 算法和带宽估计函数
生成可控的高斯团簇数据，方便演示聚类

In [7]:
centers = [[1,1],[-1,-1],[1,-1]]
x, _ = make_blobs(n_samples=10000, centers=centers, cluster_std = 0.6)

## 解读
预设三个簇的“真实中心”，用于造数据
生成10，000条二维样本。其中 cluster_std =0.6空置簇的松散程度；标准差越小，簇越紧。

In [8]:
bandwidth = estimate_bandwidth(x, quantile = 0.2, n_samples = 500)
ms = MeanShift(bandwidth = bandwidth ,bin_seeding = True)
ms.fit(x)
labels = ms.labels_
cluster_centers = ms.cluster_centers_
labels_unique = np.unique(labels)
n_clusters_ = len(labels_unique)
print("number of clusters : %d" % n_clusters_)

number of clusters : 3


### 自动估计 MeanShift 的关键超参数 带宽（核带宽）
* quantile = 0.2 去距离分布的20%分位数作为参考；数值越小，带宽越小，通常得到的簇数越多。
* n_samples = 500 用500个子样本估计，权衡速度与稳定性。
* 创建MeanShift模型。bin_seeding = True 用网格做初始中心，通常能加速。
* ms.fit(x) 训练模型，Mean Shift会不断把点往高密度方向“漂移”，最终收敛到密度峰值区域。
* labels = ms.labels_  每个样本的簇标签
* cluster_centers = ms.cluster_centers_ 每个簇的中心（模型估计出来）
* labels_unique = np.unique(labels) 取唯一标签，统计簇的个数
* n_clusters_ = len(labels_unique) 簇数量

In [None]:
import matplotlib.pyplot as plt

plt.figure(1)
plt.clf()

colors = ["#dede00", "#377eb8", "#f781bf"]
markers = ["x", "o", "^"]

for k, col in zip(range(n_clusters_), colors):
    my_members = labels == k
    cluster_center = cluster_centers[k]
    plt.plot(x[my_members, 0], x[my_members, 1], markers[k], color=col)
    plt.plot(
        cluster_center[0],
        cluster_center[1],
        markers[k],
        markerfacecolor=col,
        markeredgecolor="k",
        markersize=14,
    )
plt.title("Estimated number of clusters: %d" % n_clusters_)
plt.show()

### 可视化解读
* import matplotlib.pyplot as plt 导入 Matplotlib 进行可视化
* plt.figure(1) 创建/获取编号为1的图形窗口
* plt.clf() 清空图像（如果该窗口已存在旧图）
* markers = ["x","o","^"] 标记样式集；不同簇可用不同marker区分
* for k,col in ziip(range(n_clusters_),colors): 循环每个簇；同时取对应颜色。若簇数超过颜色数会截断（可根据需要扩列列表）
* my_members = labels ==k  布尔掩码: 属于第k个簇的样本
* cluster_center = cluster_centers[k] 第k个簇的中心坐标
