# online_shopping_10_cats 说明
0. **下载地址：** [Github](https://github.com/SophonPlus/ChineseNlpCorpus/raw/master/datasets/online_shopping_10_cats/online_shopping_10_cats.zip)
1. **数据概览：** 10 个类别（书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店），共 6 万多条评论数据，正、负向评论各约 3 万条
2. **推荐实验：** 情感/观点/评论 倾向性分析
2. **数据来源：** 各电商平台，具体不详
3. **原数据集：** [中文情感分析语料](https://download.csdn.net/download/weixin_38395744/10231401)、[中文情感分析语料库](https://download.csdn.net/download/u010097581/9919245)，网上搜集，具体作者、来源不详
4. **加工处理：**
    1. 将 2 份语料整合成 1 份语料
    2. 将原来零散的 excel, txt 文档，整合成 1 个 统一的 csv 文档
    3. 去重

In [24]:
import pandas as pd

In [25]:
path = 'online_shopping_10_cats_文件夹_所在_路径'

# 1. online_shopping_10_cats.csv

## 加载数据

In [26]:
pd_all = pd.read_csv(path + 'online_shopping_10_cats.csv')

print('评论数目（总体）：%d' % pd_all.shape[0])
print('评论数目（正向）：%d' % pd_all[pd_all.label==1].shape[0])
print('评论数目（负向）：%d' % pd_all[pd_all.label==0].shape[0])

评论数目（总体）：62774
评论数目（正向）：31728
评论数目（负向）：31046


## 字段说明

| 字段 | 说明 |
| ---- | ---- |
| cat | 类别：包括 书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店 |
| label | 1 表示正向评论，0 表示负向评论 |
| review | 评论内容 |

In [27]:
pd_all.sample(20)

Unnamed: 0,cat,label,review
11194,平板,0,什么玩意。刚用一天，就充不上电，开不开机，返厂老麻烦，
17794,水果,1,买了几次了，价格实惠，口感不错，保鲜好！
29529,洗发水,1,挺值得购买的，有包装买回去送家人，毛巾质量不错。小块的可以拿来当擦手帕。
24976,水果,0,真的就算后悔了。两天才拿到货。还不如水果店买！还都发霉不新鲜了！以后不买了
28447,洗发水,1,一般般，薄荷洗发水没想象中的凉快
264,书籍,1,这本书有别于以往看过的早教书籍，结合了说明文的写实，散文的情致和图册的一目了然。特别是读过几...
53035,酒店,1,"酒店的大堂很漂亮,房间不算小,设施还可以也很干净,离码头很近,而且又有车接送,很方便.晚上2..."
50250,计算机,1,做工不错，外壳也很漂亮。测试了一下还行！~中通很快啊，13号下午的订单，今天早上就收到了。
62461,酒店,0,房间空间比较小， 环境比较吵。特别半夜被窗户外面的空调外机的声音吵醒（因为窗外一条巷子之隔，...
52888,酒店,1,"清明节入住两天.从进入酒店就感受到无处不在的服务,非常周到,又很得体.从大堂,商务中心,到前..."


# 2. 统计各类别语料的规模

In [28]:
all_cats = ['书籍', '平板', '手机', '水果', '洗发水', '热水器', '蒙牛', '衣服', '计算机', '酒店'] # 全部类别

for cat in all_cats:
    pd_data = pd_all[pd_all.cat==cat]
    print('{}: {} (总体), {} (正例), {} (负例)'.format(cat, pd_data.shape[0], 
                                                 pd_data[pd_data.label==1].shape[0], pd_data[pd_data.label==0].shape[0]))

书籍: 3851 (总体), 2100 (正例), 1751 (负例)
平板: 10000 (总体), 5000 (正例), 5000 (负例)
手机: 2323 (总体), 1165 (正例), 1158 (负例)
水果: 10000 (总体), 5000 (正例), 5000 (负例)
洗发水: 10000 (总体), 5000 (正例), 5000 (负例)
热水器: 575 (总体), 475 (正例), 100 (负例)
蒙牛: 2033 (总体), 992 (正例), 1041 (负例)
衣服: 10000 (总体), 5000 (正例), 5000 (负例)
计算机: 3992 (总体), 1996 (正例), 1996 (负例)
酒店: 10000 (总体), 5000 (正例), 5000 (负例)


# 3. 加载指定类别的语料

In [29]:
target_cats = ['书籍', '水果', '计算机'] # 假定只需要 书籍、水果、计算机 3 个 类别的数据

pd_data = pd_all[pd_all.cat.isin(target_cats)]

print('评论数目（总体）：%d' % pd_data.shape[0])
print('评论数目（正向）：%d' % pd_data[pd_data.label==1].shape[0])
print('评论数目（负向）：%d' % pd_data[pd_data.label==0].shape[0])

pd_data.sample(20)

评论数目（总体）：17843
评论数目（正向）：9096
评论数目（负向）：8747


Unnamed: 0,cat,label,review
1620,书籍,1,符弦歌&凌悠扬，一个背负着道义和家族荣誉，一个洒脱且桀骜不羁，两个完全不相同的人却因为千丝万...
18872,水果,1,一直在吃，烟台苹果，味道不错，物流快
443,书籍,1,仔细回想这本文集，发现自己喜欢的只是写《教室朝南，没有风筝》的麻宁，不知道是她成长了还是自己...
21437,水果,0,最差的一次购物体验，干瘪，坏心，糟糕透顶
18321,水果,1,多次购买新鲜爽甜，80个头大大个，物流超快，上午9点前下单，下午16点收货
568,书籍,1,一开始我是看了当当上的推荐，说不一样的卡梅拉这套书是亚马逊的五星级图书，大家的评论也非常好。...
23927,水果,0,垃圾啊，以后再也不 会买了啊 ，好几个坏的，还有好多歪头歪闹的
19244,水果,1,包装完好，没有烂果，就是比较小粒，卖相不好。
20643,水果,1,不错不错特别好吃，甜甜的水分还足而且还很脆，第一次在京东买苹果，果然没让我失望，
22330,水果,0,第一次给差评，刚拿上打开第一个就黑心。差评。
