中文情感分析的一个 DEMO
情感词主要来源于大连理工大学整理的情感词汇本体库, 在其基础上添加了知网的 "情感分 析用词语集" 和 台湾大学整理的 "NTUSD". 情感分类体系直接沿用了情感词汇本体库的格 式, 其又是在 Ekman 的6大类情感分类体系的基础上构建, 共计9大类 (由于我的无知和胆 怯, 我添加了 PX 和 NX 两类) 和21小类.
下文中大量 copy
了大连理工大学情感词汇本体库的说明文档.
本体格式如下表所示, 字段之间使用制表符
作为分隔符, 没内容时 默认留空.
词语 | 词性种类 | 词义数 | 词义序号 | 情感分类 | 强度 | 极性 | 辅助情感分类 | 强度 | 极性 |
---|---|---|---|---|---|---|---|---|---|
无所畏惧 | idiom | 1 | 1 | PH | 7 | 1 | |||
手头紧 | idiom | 1 | 1 | NE | 7 | 0 | |||
周到 | adj | 1 | 1 | PH | 5 | 1 | |||
言过其实 | idiom | 1 | 1 | NN | 5 | 2 |
其中, 一个情感词可能对应多个情感, 情感分类用于刻画情感词的主要情感分类, 辅助情感 为该情感词在具有主要情感分类的同时含有的其他情感分类.
情感分类按照论文情感词汇本体的构造
所述, 情感分为7大类21小类. 7大类分别对应: 好, 恶, 乐, 怒, 哀, 惧, 欲.
由于没有找到情感类分类的规则及其代号对应的含义, 所以我把新加的词标记为了PX
和
NX
, 分别对应积极的和消极的.
情感强度分为 1, 3, 5, 7, 9五档, 9表示强度最大, 1为强度最小.
编号 | 情感大类 | 情感类 | 例词 |
---|---|---|---|
1 | 乐 | 快乐(PA) | 喜悦、欢喜、笑眯眯、欢天喜地 |
2 | 安心(PE) | 踏实、宽心、定心丸、问心无愧 | |
3 | 好 | 尊敬(PD) | 恭敬、敬爱、毕恭毕敬、肃然起敬 |
4 | 赞扬(PH) | 英俊、优秀、通情达理、实事求是 | |
5 | 相信(PG) | 信任、信赖、可靠、毋庸置疑 |
情感词汇本体中的词性种类一共分为7类, 分别是名词(noun), 动词(verb), 形容词(adj), 副词(adv), 网络词语(nw), 成语(idiom), 介词短语(prep).
每个词在每一类情感下都对应了一个极性. 其中, 0 代表中性, 1 代表褒义, 2 代表贬义, 3 代表兼有褒贬两性.
注: 褒贬标注时, 通过词本身和情感共同确定, 所以有些情感在一些词中可能极性1, 而其他的词中有可能极性为0.
- 知网的情感分析用词语集
- 台湾大学整理的 NTUSD
- 大连理工大学整理的情感词汇本体库
- 国外优秀的 SentiWordNet
- 知网的情感分析用词语集
同义词来源于哈工大社会计算与信息检索研究中心同义词词林扩展版, 一共包含77343词条
- 哈工大社会计算与信息检索研究中心同义词词林扩展版(http://www.ltp-cloud.com/download/)
暂无
- 基于词典的中文情感倾向分析算法设计
- B. Pang, L. Lee, "Opinion mining and sentiment analysis."
- Bing Liu, "Sentiment analysis and subjectivity"