## 中文文本情绪计算
昨天介绍了英文的NRC情绪词典，虽然支持中文，但由于制作问题，导致并不完全适应中文场景。今天介绍**大连理工大学中文情感词汇本体库**


依旧使用微博数据

In [8]:
import pandas as pd

weibo_df = pd.read_csv('simplifyweibo_4_moods.csv')
weibo_df.head()

Unnamed: 0,label,review
0,0,﻿啊呀呀！要死啦！么么么！只穿外套就好了，我认为里面那件很多余啊周小伦喜歡 你各種 五角星的...
1,0,嗯……既然大姚通知了……那我也表示下收到……姚，你知道吗？假如外星人入侵地球，只要摧毁我们的...
2,0,风格不一样嘛，都喜欢！最喜欢哪张？
3,0,好呀，试试D .I .Y .去死皮面膜1.将燕麦片加水中浸泡6小时，加入木瓜牛奶搅拌。2.放...
4,0,张老师，谢谢侬的信任！粉丝多少无所谓重在质地近日发现一个现象——他加了你关注，你回加后，他立...


我们使用中文的情绪词典重复昨天的分析，看看效果。首先我们了解一下大工的这个词库

## 大连理工大学中文情感词汇本体库介绍
中文情感词汇本体库是大连理工大学信息检索研究室在林鸿飞教授的指导下经过全体 教研室成员的努力整理和标注的一个中文本体资源。该资源从不同角度描述一个中文词汇或 者短语，包括词语词性种类、情感类别、情感强度及极性等信息。

中文情感词汇本体的情感分类体系是在国外比较有影响的 Ekman 的 6 大类情感分类体 系的基础上构建的。在 Ekman 的基础上，词汇本体加入情感类别“好”对褒义情感进行了 更细致的划分。最终词汇本体中的情感共分为 7 大类 21 小类。

构造该资源的宗旨是在情感计算领域，为中文文本情感分析和倾向性分析提供一个便捷 可靠的辅助手段。中文情感词汇本体可以用于解决多类别情感分类的问题，同时也可以用于 解决一般的倾向性分析的问题。


### 本体格式介绍
![](img/1.png)
情感分类按照论文《情感词汇本体的构造》所述，情感分为 7 大类 21 小类。 情感强度分为 1,3,5,7,9 五档，9 表示强度最大，1 为强度最小。

### 情感分类及情感强度
![](img/2.png)
![](img/3.png)


### 词性种类
情感词汇本体中的词性种类一共分为 7 类，分别是
- 名词（noun）
- 动词（verb）
- 形容词 （adj）
- 副词（adv）
- 网络词语（nw）
- 成语（idiom）
- 介词短语（prep）



### 极性标注
每个词在每一类情感下都对应了一个极性。其中，0 代表中性，1 代表褒义，2 代表贬 义，3 代表兼有褒贬两性。

注：褒贬标注时，通过词本身和情感共同确定，所以有些情感在一些词中可能极性 1， 而其他的词中有可能极性为 0。

### 存储格式及规模
中文情感本体以 excel 的格式进行存储，共含有情感词共计 27466 个，文件大小为 1.22M。

## 词典使用


### 读取

In [2]:
import pandas as pd

df = pd.read_excel('大连理工大学中文情感词汇本体.xlsx')
df.head(10)

Unnamed: 0,词语,词性种类,词义数,词义序号,情感分类,强度,极性,辅助情感分类,强度.1,极性.1,Unnamed: 10,Unnamed: 11
0,脏乱,adj,1.0,1.0,NN,7,2,,,,,
1,糟报,adj,1.0,1.0,NN,5,2,,,,,
2,早衰,adj,1.0,1.0,NE,5,2,,,,,
3,责备,verb,1.0,1.0,NN,5,2,,,,,
4,贼眼,noun,1.0,1.0,NN,5,2,,,,,
5,战祸,noun,1.0,1.0,ND,5,2,NC,5.0,2.0,,
6,招灾,adj,1.0,1.0,NN,5,2,,,,,
7,折辱,noun,1.0,1.0,NE,5,2,NN,5.0,2.0,,
8,中山狼,noun,1.0,1.0,NN,5,2,,,,,
9,清峻,adj,1.0,1.0,PH,5,0,,,,,


我们暂时只使用```['词语', '词性种类', '词义数', '词义序号', '情感分类', '强度', '极性']```

In [3]:
df = df[['词语', '词性种类', '词义数', '词义序号', '情感分类', '强度', '极性']]
df.head()

Unnamed: 0,词语,词性种类,词义数,词义序号,情感分类,强度,极性
0,脏乱,adj,1.0,1.0,NN,7,2
1,糟报,adj,1.0,1.0,NN,5,2
2,早衰,adj,1.0,1.0,NE,5,2
3,责备,verb,1.0,1.0,NN,5,2
4,贼眼,noun,1.0,1.0,NN,5,2


### 情绪词语列表整理完成

按照七大情绪划分

In [5]:
Happy = []
Good = []
Surprise = []
Anger = []
Sad = []
Fear = []
Disgust = []


for idx, row in df.iterrows():
    if row['情感分类'] in ['PA', 'PE']:
        Happy.append(row['词语'])
    if row['情感分类'] in ['PD', 'PH', 'PG', 'PB', 'PK']:
        Good.append(row['词语']) 
    if row['情感分类'] in ['PC']:
        Surprise.append(row['词语'])     
    if row['情感分类'] in ['NA']:
        Anger.append(row['词语'])    
    if row['情感分类'] in ['NB', 'NJ', 'NH', 'PF']:
        Sad.append(row['词语'])
    if row['情感分类'] in ['NI', 'NC', 'NG']:
        Fear.append(row['词语'])
    if row['情感分类'] in ['NE', 'ND', 'NN', 'NK', 'NL']:
        Disgust.append(row['词语'])
        
Positive = Happy + Good +Surprise
Negative = Anger + Sad + Fear + Disgust

print('情绪词语列表整理完成')     

情绪词语列表整理完成


### 计情绪计算函数

In [15]:
import jieba
import time


def emotion_caculate(text):
    positive = 0
    negative = 0
    
    anger = 0
    disgust = 0
    fear = 0
    sad = 0
    surprise = 0
    good = 0
    happy = 0
    

    wordlist = jieba.lcut(text)I 
    wordset = set(wordlist)
    wordfreq = []
    for word in wordset:
        freq = wordlist.count(word)
        if word in Positive:
            positive+=freq
        if word in Negative:
            negative+=freq
        if word in Anger:
            anger+=freq  
        if word in Disgust:
            disgust+=freq
        if word in Fear:
            fear+=freq
        if word in Sad:
            sad+=freq
        if word in Surprise:
            surprise+=freq
        if word in Good:
            good+=freq
        if word in Happy:
            happy+=freq
            
    emotion_info = {
        'length':len(wordlist),
        'positive': positive,
        'negative': negative,
        'anger': anger,
        'disgust': disgust,
        'fear':fear,
        'good':good,
        'sadness':sad,
        'surprise':surprise,
        'happy':happy,
        
    }

    indexs = ['length', 'positive', 'negative', 'anger', 'disgust','fear','sadness','surprise', 'good', 'happy']
    return pd.Series(emotion_info, index=indexs)
        

emotion_caculate(text='这个国家再对这些制造假冒伪劣食品药品的人手软的话，那后果真的会相当糟糕。坐牢？从快判个死刑')

length      25
positive     0
negative     4
anger        0
disgust      4
fear         0
sadness      0
surprise     0
good         0
happy        0
dtype: int64

In [None]:
start = time.time()   
#df['review']整体为series类型。
#series有apply方法
emotion_df = weibo_df['review'].apply(emotion_caculate)
end = time.time()
print(end-start)
emotion_df.head()

series数据变为dataframe，详情可了解下apply http://dwz.date/dzB

### 输出分析结果
将原始数据与分析结果合并, 输出到新的csv中。

In [None]:
output_df = pd.concat([weibo_df, emotion_df], axis=1)
output_df.to_csv('output.csv', index=False)
output_df.head()

### 检查
我们查看一下随机抽查一下，看看

- 最fear
- 最positive
- 最negative 的分别是什么内容

In [None]:
fear = output_df.sort_values(by='fear',ascending=False)
fear.head()

In [None]:
#这是什么鬼
fear = output_df.sort_values(by='fear',ascending=False)
print(fear.iloc[0, :]['review'])

In [None]:
negative = output_df.sort_values(by='negative',ascending=False)
print(negative.iloc[0, :]['review'])

In [None]:
positive = output_df.sort_values(by='positive',ascending=False)
print(positive.iloc[0, :]['review'])

分析结束

3.6  tips:
使用这个NRC，最好是英文数据，毕竟是用英文数据英文场景英语母语者标注的情绪词典。其他语言虽然能进行情绪分析，但因为是从英文中翻译过来的，存在一定的问题