Skip to content
This repository was archived by the owner on Feb 23, 2024. It is now read-only.

Latest commit

 

History

History

SentimentAnalysis

使用普通的机器学习,本项目的准确率能达到95%。

使用LSTM神经网络,准确率能达到97%,在kaggle上排名前1%。

最终成绩:

博客地址:

数据介绍

  • PreText.py
    • 对数据进行预处理,并将其分类保存为txt文档。
    • 其中使用了replacers.py对缩略词进行处理。
  • TFIDF.py
    • 使用TF-IDF对数据进行向量化,并使用基本的机器学习方法进行训练。
  • Doc2Vec.py
    • 使用Doc2Vec方法对文档进行向量化,并将numpy数组保存到磁盘。
  • ML.py
    • 使用机器学习的方法对Doc2Vec的向量化数组进行训练。
  • LSTM.py
    • 使用LSTM深度学习网络进行训练。
  • Visualize.py
    • 使用TensorBoard对训练的Doc2Vec模型可视化。
  • /Persistence
    • 保存持久化数据
  • /Reference
    • 参考文献
  • jupyternotebook
    • 以上步骤的可视化代码
  • result.csv
    • 最终的预测结果

Reference

文本预处理

  1. 正则提取出HTML正文
  2. replacer
  3. RegexReplacer
  4. 词干提取与词性还原
  5. pos tag type
  6. Stemming and Lemmatization
  7. IMDB电影评论集

Doc2Vec

LSTM

可视化

优秀代码