外部依赖
- numpy
- sklearn
- jieba
- snownlp
- scipy
pip install package 可直接安装
代码组织
- preprocess.py
训练集,测试集,预测集数据准备; 结巴分词,增加自定义字典; 统计单词频度,去掉低频词语;
- classify.py
加载所有数据,使用朴素贝叶斯算法进行分类
- tag_features.py gen_results.py
根据自己需求做一部分的结果处理
- 目录
data目录,所有原始数据目录; middle目录,所有中间数据目录; result目录,所有结果数据目录;
- run.sh
运行测试参数和运行,运行先请修改
author: youngcy