中文文本情感分类（LSTM+textCNN+Bert）

数据文本都是用爬虫从网络上爬取的，由人工进行分类，data文件下存储的是已经经过预处理的数据，LSTM和textCNN模型嵌入层部分使用了预训练的中文词向量，因为文件比较大需要自己下载放入data文件夹下，这里给出中文词向量项目地址：https://github.com/Embedding/Chinese-Word-Vectors，本项目使用的是用微博语料数据训练出的300维的词向量。

Bert实现中使用了预训练模型bert-base-chinese的参数，并在我们的数据集上进行了fine-tuning，代码参考了huggingface用pytorch实现的Bert文本分类。

下表是每个模型训练5个epoch后的准确度：

模型	训练时间(2nd epoch)	测试集准确度(5th epoch)
biLSTM	143.7s	0.903
textCNN	49.2s	0.917
Bert	13m	0.938

依赖库

python 3.7.5
sklearn 0.22.1
pytorch 1.2.0
torchtext 0.6.0
tqdm 4.40.0
pytorch_pretrained_bert 0.6.2

文件说明

biLSTM.py BiLSTM实现
textCNN.py TextCNN实现
Bert.py Bert实现
models.py 存储模型类
utils.py 工具库
data
- negative_process.data 预处理过的负面文本
- positive_process.data 预处理过的正面文本

博客地址：https://blog.csdn.net/Divine0/article/details/106639492

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

中文文本情感分类（LSTM+textCNN+Bert）

依赖库

文件说明

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
data		data
Bert.py		Bert.py
README.md		README.md
biLSTM.py		biLSTM.py
models.py		models.py
requirements.txt		requirements.txt
textCNN.py		textCNN.py
utils.py		utils.py

Divine-w/ChineseEmotionClassification

Folders and files

Latest commit

History

Repository files navigation

中文文本情感分类（LSTM+textCNN+Bert）

依赖库

文件说明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages