GitHub

Chinese Article Cluster 2018-10

prepare() 将按类文件保存的数据汇总，clean() 通过 pos_set 进行词性过滤

Dictionary() 建立 word2ind，doc2bow() 得到词频特征、转换为 tfidf 词权特征

通过 lsi、lda 构建主题聚类模型、保存各类的关键词和权重

predict() 词性过滤、输出文档的主题分布，将 lda 填充为定长序列

Name		Name	Last commit message	Last commit date
Latest commit History 48 Commits
data		data
dict		dict
feat		feat
model		model
stat		stat
.gitignore		.gitignore
README.md		README.md
build.py		build.py
cluster.py		cluster.py
eval.py		eval.py
explore.py		explore.py
preprocess.py		preprocess.py
represent.py		represent.py
util.py		util.py