# online_shopping_10_cats 說明
1. **數據概覽：** 10 個類別（書籍、平板、手機、水果、洗髮水、熱水器、蒙牛、衣服、計算機、酒店），共 6 萬多條評論數據，正、負向評論各約 3 萬條
2. **推薦實驗：** 情感/觀點/評論 傾向性分析
2. **數據來源：** 各電商平台，具體不詳
3. **原數據集：** [中文情感分析語料](https://download.csdn.net/download/weixin_38395744/10231401)、[中文情感分析語料庫](https://download.csdn.net/download/u010097581/9919245)，網上蒐集，具體作者、來源不詳
4. **加工處理：**
    1. 將 2 份語料整合成 1 份語料
    2. 將原來零散的 excel, txt 文檔，整合成 1 個 統一的 csv 文檔
    3. 去重

In [1]:
import pandas as pd

In [2]:
path = 'dataset/'

# 1. online_shopping_10_cats.csv

## 加載數據

In [3]:
pd_all = pd.read_csv(path + 'online_shopping_10_cats.csv')

print('評論數目（全）：%d' % pd_all.shape[0])
print('評論數目（正向）：%d' % pd_all[pd_all.label==1].shape[0])
print('評論數目（負向）：%d' % pd_all[pd_all.label==0].shape[0])

評論數目（全）：62774
評論數目（正向）：31728
評論數目（負向）：31046


In [4]:
pd_all.sample(20)

Unnamed: 0,cat,label,review
21707,水果,0,口味有点酸，卖相不怎么好，圆的圆扁的扁，红的红花的花白的白，早知道就买一箱，因为上次买京东自...
42010,衣服,1,发货速度太慢，以后不要这家店的衣服了
8795,平板,1,我妈觉得这个，比我之前给买过的另外两台其他牌子的都好用，她很满意。
36697,热水器,0,安装花了240元感觉很无语。
41175,衣服,1,收到了。和卖家描述的一致，颜色没误差，质量也好。摸着手感不错，穿上腰围尺寸很合适，百搭，很喜...
41202,衣服,1,裤子的质量是没的说，布料亲肤没有不适感，没有线头，没有异味，好评
51534,计算机,0,京东的客服专业知识有待提高的。笔记本的配置说不清楚，一会儿说有HDMI，一会说没有。送的原装...
20338,水果,1,嗯，不是特别新鲜，皮上有黑点点，但是里边没有坏很多，嗯，网上买水果可能还是不太方便跳。
20852,水果,1,很赞，一直都是这款非常不错，哈哈
57998,酒店,0,"酒店环境可以,只是交通配套不太方面................................"


# 2. 統計各類別資料的統計

In [5]:

all_cats = ['书籍', '平板', '手机', '水果', '洗发水', '热水器', '蒙牛', '衣服', '计算机', '酒店'] # 全部類別

for cat in all_cats:
    pd_data = pd_all[pd_all.cat==cat]
    print('{}: {} (全), {} (正向), {} (反向)'.format(cat, pd_data.shape[0], 
                                                 pd_data[pd_data.label==1].shape[0], pd_data[pd_data.label==0].shape[0]))

书籍: 3851 (全), 2100 (正向), 1751 (反向)
平板: 10000 (全), 5000 (正向), 5000 (反向)
手机: 2323 (全), 1165 (正向), 1158 (反向)
水果: 10000 (全), 5000 (正向), 5000 (反向)
洗发水: 10000 (全), 5000 (正向), 5000 (反向)
热水器: 575 (全), 475 (正向), 100 (反向)
蒙牛: 2033 (全), 992 (正向), 1041 (反向)
衣服: 10000 (全), 5000 (正向), 5000 (反向)
计算机: 3992 (全), 1996 (正向), 1996 (反向)
酒店: 10000 (全), 5000 (正向), 5000 (反向)


# 3. 讀取指定類別的資料

In [6]:
target_cats = ['书籍', '水果', '计算机'] # 假定只需要 书籍、水果、计算机 3 个 类别的数据

pd_data = pd_all[pd_all.cat.isin(target_cats)]

print('評論數目（全）：%d' % pd_data.shape[0])
print('評論數目（正向）：%d' % pd_data[pd_data.label==1].shape[0])
print('評論數目（負向）：%d' % pd_data[pd_data.label==0].shape[0])

pd_data.sample(20)

評論數目（全）：17843
評論數目（正向）：9096
評論數目（負向）：8747


Unnamed: 0,cat,label,review
1102,书籍,1,前几天刚拿到这套书，感觉真的很不错。里面的故事贴近孩子的生活iz。我的女儿2岁7个月了，一拿...
21631,水果,0,里边还有烂的，所以水果以后还是别在网上买
2842,书籍,0,书内都是大实话，平时生活中可能大家都知道，但切实实行的很少罢了。书不过做了些归纳、总结，看不...
17931,水果,1,还不错，虽然个头不大，吃起来好吃！
26153,水果,0,物流很快，态度好。苹果太小就算了，都变味了。
50679,计算机,1,显卡好、CPU虽然型号看着比较低，但性能并比高端差不了多少。性价比很高。目前来看散热良好。游...
278,书籍,1,这本书我现在推荐给我同学在看，他跟我说这本书还是很有价值的，比如它强调的一些关于钱的只是都是...
20101,水果,1,苹果不错，再次购买了，包装规整。
48800,计算机,1,牌子够老，够响亮，冲着牌子去的，结果让人很伤心！唉。。。。。。。
3696,书籍,0,不知道是不是假货?我正准备举报呢?
