Skip to content

Latest commit

 

History

History
25 lines (16 loc) · 477 Bytes

README.md

File metadata and controls

25 lines (16 loc) · 477 Bytes

DATA ANALYSIS

Run

docker-compose up -d
docker配置尽量最大,要小心内存不够

Order

分词 --> 计算TF --> 计算IDF --> 计算TF_IDF 目前的处理逻辑主要在tf_idf.py中。

Architecture(DEPRECATED)

不再使用消息队列,直接通过多进程加速。 architecture

Speed

4核(2.7G i5) 8G配置:30w documents,2~3 hours

Help

python commands.py --help