In [1]:
import joblib
import numpy as np
from sklearn.datasets import make_blobs
from sklearn.cluster import MiniBatchKMeans
from sklearn.metrics import silhouette_score

In [2]:
BATCH_SIZE = 45  # 定义每次训练使用的数据批量大小为45
OUTPUT_MODEL_PATH = "../models/minibatchkmeans_model.joblib"  # 模型保存路径
CENTERS = [[1, 1], [-1, -1], [1, -1]]  # 聚类中心，指定数据点将围绕的三个中心坐标

In [3]:
# 设置随机种子为0，以确保每次运行代码时生成的随机数相同
np.random.seed(0)
# 计算中心的数量（即聚类的数量），这里是3
n_clusters = len(CENTERS)
# 使用make_blobs函数生成包含3000个样本的数据集
X, labels_true = make_blobs(n_samples=3000, centers=CENTERS, cluster_std=0.7)

In [4]:
# 初始化MiniBatchKMeans模型，参数说明如下：
mbk = MiniBatchKMeans(
    init="k-means++",  # 初始化中心点的方法
    n_clusters=n_clusters,  # 指定聚类数量为3
    batch_size=BATCH_SIZE,  # 每次迭代使用的数据批量大小为45
    n_init=10,  # 算法运行的不同初始中心点次数
    max_no_improvement=10,  # 如果连续10次迭代没有改进，则停止训练
    verbose=0,  # 不输出详细的训练信息
)

# 对生成的数据集X进行模型训练，完成聚类任务
mbk.fit(X)
# 保存模型
joblib.dump(mbk, OUTPUT_MODEL_PATH)

['../models/minibatchkmeans_model.joblib']

In [5]:
# 加载模型
loaded_model = joblib.load(OUTPUT_MODEL_PATH)

# 使用加载后的模型进行预测
labels_pred = loaded_model.predict(X)

# 评估模型效果，越接近1越好
silhouette = silhouette_score(X, labels_pred)
print(f"轮廓系数: {silhouette:.4f}")

轮廓系数: 0.4479
