Skip to content

vinaigre552/DataMining3

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 

Repository files navigation

DataMining3

互评作业三

题目:基于K-means的文本聚类

要求:

  1. 数据预处理:去除停用词、数字、符号等,提取文本特征。

  2. 特征向量化:将预处理后的文本使用 TF-IDF 方法进行向量化。

  3. K-means 模型训练:根据设定的 K 值,构建 K-means 模型,并对向量化的文本数据进行聚类。

  4. 聚类结果分析:评估聚类结果,可使用轮廓系数、CH 指数等方法。

  5. 可视化:使用降维方法(如 PCA 或 t-SNE)将高维数据降维至 2 D 或 3 D,然后进行可视化,观察聚类效果。

数据集:

20 Newsgroups(http://qwone.com/~jason/20Newsgroups/)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published