-
数据预处理:去除停用词、数字、符号等,提取文本特征。
-
特征向量化:将预处理后的文本使用 TF-IDF 方法进行向量化。
-
K-means 模型训练:根据设定的 K 值,构建 K-means 模型,并对向量化的文本数据进行聚类。
-
聚类结果分析:评估聚类结果,可使用轮廓系数、CH 指数等方法。
-
可视化:使用降维方法(如 PCA 或 t-SNE)将高维数据降维至 2 D 或 3 D,然后进行可视化,观察聚类效果。
20 Newsgroups(http://qwone.com/~jason/20Newsgroups/)