In [1]:
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.cluster import MiniBatchKMeans

In [2]:
model = SentenceTransformer("../models/bge-small-zh-v1.5")

corpus_texts = [
    "怎样使胡子不浓密！",
    "香港买手表哪里好",
    "在杭州手机到哪里买",
    "胡子长得太快怎么办？",
]

query_embeddings = model.encode(corpus_texts, normalize_embeddings=True)

mbk = MiniBatchKMeans(
    init="k-means++",  # 初始化中心点的方法
    n_clusters=2,  # 指定聚类数量为2
    batch_size=4,  # 每次迭代使用的数据批量大小为4
    n_init=10,  # 算法运行的不同初始中心点次数
    max_no_improvement=10,  # 如果连续10次迭代没有改进，则停止训练
    verbose=0,  # 不输出详细的训练信息
)
mbk = mbk.fit(query_embeddings)
cluster_ids_x = mbk.labels_

output_df = pd.DataFrame()
output_df["文本"] = corpus_texts
output_df["聚类标签"] = cluster_ids_x

print(output_df)

           文本  聚类标签
0   怎样使胡子不浓密！     1
1    香港买手表哪里好     0
2   在杭州手机到哪里买     0
3  胡子长得太快怎么办？     1
