taojunhui / WeiboSentiment Public

forked from dengxiuqi/WeiboSentiment

Notifications You must be signed in to change notification settings
Fork 0
Star 0

基于各种机器学习和深度学习的中文微博情感分析

0 stars 66 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
data		data
model		model
.gitignore		.gitignore
1.bayes.ipynb		1.bayes.ipynb
2.svm.ipynb		2.svm.ipynb
3.xgboost.ipynb		3.xgboost.ipynb
4.lstm.ipynb		4.lstm.ipynb
5.bert.ipynb		5.bert.ipynb
README.md		README.md
requirements.txt		requirements.txt
utils.py		utils.py

Repository files navigation

WeiboSentiment

用各种机器学习对中文微博进行情感分析
语料来源： https://github.com/dengxiuqi/weibo2018

"微博情感分析"是我本科的毕业设计, 也是我入门NLP的项目, 就把它发出来供大家交流。

2021.06.07更新: 之前的版本写得比较随意, 没想到star破百了, 私下也有一些刚入门NLP的同学因为这个项目联系我, 就更新一下这个项目吧

重构项目架构和代码, 提高可读性
每个文件中的特征、数据处理方法与模型细节都尽可能避免重复, 以给各位同学提供更多的参考
神经网络结构换成了pytorch, 需要tensorflow 1.0代码的同学请回退至445998版本。
新增了Bert模型
由于gensim新老版本很多语法不兼容, 将gensim更新为4.0版本

项目说明

训练集10000条语料, 测试集500条语料
使用朴素贝叶斯、SVM、XGBoost、LSTM和Bert, 等多种模型搭建并训练二分类模型
前3个模型都采用端到端的训练方法
LSTM先预训练得到Word2Vec词向量, 在训练神经网络
Bert使用的是哈工大的预训练模型, 用Bert的[CLS]位输出在一个下游网络上进行finetune。预训练模型需要自行下载:
- github下载地址: https://github.com/ymcui/Chinese-BERT-wwm
- baidu网盘: https://pan.baidu.com/s/16z-ybrqT6wLdy_mLHtywSw 密码: djkj
- 下载后将文件夹放在./model文件夹下, 并将bert_config.json改名为config.json

实验结果

各种分类器在测试集上的测试结果

模型	准确率	AUC
1.bayes	0.856	-
2.svm	0.856	-
3.xgboost	0.86	0.904
4.lstm	0.87	0.931
5.bert	0.87	0.929

About

基于各种机器学习和深度学习的中文微博情感分析

Report repository

Releases

No releases published

Packages

No packages published

Languages

Jupyter Notebook 96.9%
Python 3.1%