当用户执行在线探索性数据分析时,他们通常需要了解当前的数据以决定下一步操作。 概率主题模型可以帮助我们发现大型文档集合中的底层主题结构,而无需阅读每个文档。 本文提出了一种用于在文档子集中构造主题结构的方法。 在全局预计算的帮助下,该算法对于在线处理足够高效,同时在主题建模中保持可靠的性能。
语言版本:Python 3.5
包依赖:scikit-learn nltk scipy cython numpy stop_words pandas
使用详情请见codes/README.md
本项目为本人这学期在实验室工作的一部分