使用普通的机器学习,本项目的准确率能达到95%。
使用LSTM神经网络,准确率能达到97%,在kaggle上排名前1%。
最终成绩:
博客地址:
PreText.py- 对数据进行预处理,并将其分类保存为txt文档。
- 其中使用了
replacers.py对缩略词进行处理。
TFIDF.py- 使用
TF-IDF对数据进行向量化,并使用基本的机器学习方法进行训练。
- 使用
Doc2Vec.py- 使用
Doc2Vec方法对文档进行向量化,并将numpy数组保存到磁盘。
- 使用
ML.py- 使用机器学习的方法对
Doc2Vec的向量化数组进行训练。
- 使用机器学习的方法对
LSTM.py- 使用
LSTM深度学习网络进行训练。
- 使用
Visualize.py- 使用
TensorBoard对训练的Doc2Vec模型可视化。
- 使用
/Persistence- 保存持久化数据
/Reference- 参考文献
jupyternotebook- 以上步骤的可视化代码
result.csv- 最终的预测结果
-
利用Doc2Vec的改进
-
Kaggle针对Word2vector
-
Gensim发明者写的
-
Github上的一篇,但没太看懂
-
Kaggle上的讨论
-
gensim官方参数文档
-
关于参数
negative sampling
- tensorboard使用方法:点击这里
