Skip to content

Stuyxr/Sentiment-Analysis

Repository files navigation

中文词向量模型

https://github.com/Embedding/Chinese-Word-Vectors

sgns.zhihu.bigram

运行环境

pytorch1.0.1

训练模型

python sentiment_analysis.py

测试模型

python test.py

说明

“train_data”目录下提供10000条训练数据,包括5000条积极情感文本(sample.positive.txt)和5000条消极情感文本(sample.negative.txt);

文件为“UTF-8”编码,数据以xml格式存储,格式如下:

<review id="n">
xxx
</review>

每个“review”标签是一条训练数据,“id”是训练数据编号(0到9999),标签内容“xxx”为文本内容。 “test_data”目录下是文件“test.txt”,包含2500条未知类别(积极或消极)的测试数据,使用学习的系统对其进行预测。 文件为“UTF-8”编码,数据以xml格式存储,格式如下:

<review id="n">
xxx
</review>

每个“review”标签是一条测试数据,“id”是测试数据编号(0到2499),标签内容“xxx”为文本内容。 对测试数据进行预测,积极用“1”表示;消极用“0”表示。

About

基于LSTM的中文短文本情感分析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages