In [22]:
from IPython.display import HTML
from pyecharts import options as opts
from pyecharts.charts import Pie


def load_dataset(file_name: str, mood_list: list, dataset_name):
    mood_values = []
    dataset = {}
    total = 0

    for mood in mood_list:
        dataset[mood] = []

    with open(file_name, encoding='UTF-8') as f:
        for line in f.readlines():
            if line.startswith('#'):
                continue
            items = line.split(':', 1)
            dataset[items[0]].append(items[1])
            total += 1
        f.close()

    for mood in mood_list:
        print('{}：{}'.format(mood, len(dataset[mood])))

    print('total：{}'.format(total))
    print('#' * 40)

    for mood in mood_list:
        mood_values.append(100 * (len(dataset[mood]) / total))
        print('{}：{:.4f}%'.format(mood, 100 * (len(dataset[mood]) / total)))

    pie = Pie(init_opts=opts.InitOpts(width="100%", height="600px", bg_color="#fff"))\
        .add("", [list(z) for z in zip(mood_list, mood_values)])\
        .set_global_opts(
        title_opts=opts.TitleOpts(
            title=dataset_name,
            pos_top="10",
            pos_left="10",
            title_textstyle_opts=opts.TextStyleOpts(color="#000", font_size=28)),
        legend_opts=opts.LegendOpts(pos_top="15%", pos_left="10", orient="vertical", textstyle_opts={"color": "black"}))\
        .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}%"))

    return pie.render_embed()

### 🤩Weibo Emotion Corpus 七分类多情感分析

2016 The Hong Kong Polytechnic University	微博语料，标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。
- 数据条目：39661条
- 论文地址：http://www.lrec-conf.org/proceedings/lrec2016/pdf/515_Paper.pdf
- 数据地址：https://github.com/hehuihui1994/emotion_corpus_weibo/blob/master/emotion_corpus_microblog.txt
- 文件名称：emotion_corpus_microblog.txt
- 文件大小：5.50MB
- 来源：香港理工大学

> happiness: 9959<br>
> disgust: 4876<br>
> like: 4540<br>
> fear: 661<br>
> sadness: 14052<br>
> anger: 4562<br>
> surprise: 1011<br>

In [23]:
html1 = load_dataset("emotion_corpus_microblog.txt",
                     ['anger', 'disgust', 'happiness', 'like', 'sadness', 'fear', 'surprise'],
                     "Weibo Emotion Corpus")
HTML(html1)

anger：4562
disgust：4876
happiness：9959
like：4540
sadness：14052
fear：661
surprise：1011
total：39661
########################################
anger：11.5025%
disgust：12.2942%
happiness：25.1103%
like：11.4470%
sadness：35.4303%
fear：1.6666%
surprise：2.5491%


### 🧐simplifyweibo_8_moods 八分类多情感分析

八分类情感分类数据集，详细带None
- 数据条目：26462条数据
- 文件名称：simplifyweibo_8_moods.txt
- 文件大小：2.20MB
- 来源：CSDN

> happiness：1456<br>
> disgust：2008<br>
> like：2446<br>
> fear：230<br>
> sadness：1676<br>
> anger：1436<br>
> surprise：620<br>
> none：16590<br>

In [24]:
html2 = load_dataset("simplifyweibo_8_moods.txt",
                     ['anger', 'disgust', 'happiness', 'like', 'sadness', 'fear', 'surprise', 'none'],
                     "simplifyweibo_8_moods")
HTML(html2)

anger：1436
disgust：2008
happiness：1456
like：2446
sadness：1676
fear：230
surprise：620
none：16590
total：26462
########################################
anger：5.4266%
disgust：7.5882%
happiness：5.5022%
like：9.2434%
sadness：6.3336%
fear：0.8692%
surprise：2.3430%
none：62.6937%


### 🧐Nlpcc2014Train 八分类多情感分析

Nlpcc2014八分类情感分类数据集，详细带None，包含2013Nlpcc数据
- 数据条目：48875条
- 文件名称：Nlpcc2014Train.txt
- 文件大小：4.12MB
- 来源：Nlpcc

> happiness：3192<br>
> disgust：3433<br>
> like：4921<br>
> fear：332<br>
> sadness：2787<br>
> anger：2138<br>
> surprise：901<br>
> none：31171<br>

In [25]:
html3 = load_dataset("Nlpcc2014Train.txt",
                     ['anger', 'disgust', 'happiness', 'like', 'sadness', 'fear', 'surprise', 'none'],
                     "Nlpcc2014Train")
HTML(html3)

anger：2138
disgust：3433
happiness：3192
like：4921
sadness：2787
fear：332
surprise：901
none：31171
total：48875
########################################
anger：4.3744%
disgust：7.0240%
happiness：6.5309%
like：10.0685%
sadness：5.7023%
fear：0.6793%
surprise：1.8435%
none：63.7770%


In [26]:
html4 = load_dataset("simplifyweibo_5_moods.txt",
                     ['anger', 'disgust', 'happiness', 'like', 'sadness'],
                     "simplifyweibo_5_moods")
HTML(html4)

anger：1860
disgust：3073
happiness：2872
like：4106
sadness：2395
total：14306
########################################
anger：13.0015%
disgust：21.4805%
happiness：20.0755%
like：28.7012%
sadness：16.7412%


In [27]:
html = load_dataset("weibo82813_8_classify.txt",
                     ['anger', 'disgust', 'happiness', 'like', 'sadness', 'fear', 'surprise', 'none'],
                     "weibo82813_8_classify")
HTML(html)

anger：6422
disgust：8149
happiness：12802
like：8947
sadness：16466
fear：952
surprise：1817
none：28236
total：83791
########################################
anger：7.6643%
disgust：9.7254%
happiness：15.2785%
like：10.6778%
sadness：19.6513%
fear：1.1362%
surprise：2.1685%
none：33.6981%
