本项目使用
- python3.5
- TensorFlow1.13
新闻分类,对房产、彩票、 财经
三类新闻进行分类。
使用数据集为THUCNews
,THUCNews下载
因为训练集数据量太大,要训练很久,所以就切分了三个类别出来,并且以6:1的比例摘取。
测试集是对该数据集只有506个文件,每个类别有两百份txt左右。
相关依赖包下载:
pip install requirements.txt
运行文件:
train.py
参数设置文件:
normal_param.py
其中vocab
是存储词对应下标的文件,可以删除再重新生成哦(但是要很久)。
准确率 | 损失值 |
---|---|
96.6% | 0.99 |
详细讲解以及论文地址看博客: