Skip to content

Latest commit

 

History

History
16 lines (11 loc) · 597 Bytes

Doc2vec and Kmeans.md

File metadata and controls

16 lines (11 loc) · 597 Bytes

基于doc2vec的文本聚类

1 训练doc2vec 模型

doc2vec-sim.py:该代码主要解释了如何使用gensim训练doc2vec,然后计算文档相似度, 并给出样例:计算出一个文本最相似的10篇文章。

2 k-means 实现聚类

加载doc2vec的文档向量作为训练样本,然后给kmeans训练

3 数据集

36kr的文章

4 参考资料: