# 预设置

In [1]:
import pandas as pd
path = '../data/'

# 电影名
## 字段说明
| 字段 | 说明
| --- | --- |
| movieId | 电影 id (从 0 开始，连续编号)
| title | 英文名称
| title_cn | 中文名称

In [2]:
movies = pd.read_csv(path + 'movies.csv')

print('电影数目：%d' % movies.shape[0])

电影数目：28


In [3]:
movies

Unnamed: 0,movieId,title,title_cn
0,0,Avengers Age of Ultron,复仇者联盟2
1,1,Big Fish and Begonia,大鱼海棠
2,2,Captain America Civil War,美国队长3
3,3,Chinese Zodiac,十二生肖
4,4,Chronicles of the Ghostly Tribe,九层妖塔
5,5,CUG King of Heroes,大圣归来
6,6,Forever Young,栀子花开
7,7,Goodbye Mr. Loser,夏洛特烦恼
8,8,Iron Man,钢铁侠1
9,9,Journey to the West Conquering the Demons,西游降魔篇


# 评论数据

| 字段 | 说明
| --- | --- |
| userId | 用户 id (从 0 开始，连续编号)
| movieId | 即 movies.csv 中的 movieId
| rating | 评分，[1,5] 之间的整数
| timestamp | 评分时间戳
| comment | 评论内容
| like | 该评论被多少人点赞

In [4]:
ratings = pd.read_csv(path + 'ratings.csv')

print('用户数据：%d' % ratings.userId.unique().shape[0])
print('评分数目：%d' % ratings.shape[0])

用户数据：738701
评分数目：2125056


In [5]:
ratings.sample(20)

Unnamed: 0,userId,movieId,rating,timestamp,comment,like
1100756,318293,16,4,1336579200,之前的marvel电影都有伏笔，千呼万唤始出来，美漫英雄嘉年华，从头打到尾有笑点,0
710517,365468,10,3,1486483200,我们喜欢周星驰的电影，虽然人物动作、表情都有所夸张，但是人物的反应是真实的，看到恶心的说恶...,1
1786547,663951,24,5,1475337600,有泪点的丧尸片，忘不掉掉下火车的那个影子……,1
1791747,666311,24,5,1482595200,在灾难面前，更见人品。,0
707932,132298,10,5,1485705600,其实我觉得还挺好,1
842755,429184,11,4,1487865600,很有情怀,0
197198,144022,2,4,1462982400,和男友去看的，慕名而来,0
1045569,83825,15,3,1478880000,= =,0
1733567,29927,24,5,1474041600,灾难面前，如果人还要自私自利，下场显而易见。胖大叔为保护他们死的那一段，男主变成丧尸后想到...,0
1242086,206,17,5,1408204800,有内涵~,0


# 筛选出带有较明显倾向性的评论（1星和5星的评分）

In [6]:

ratings_with_opinions = ratings[(ratings.rating==1) | (ratings.rating==5)]


print('正向（5星）数目：%d' % (ratings_with_opinions[ratings_with_opinions.rating==5].shape[0]))
print('负向（1星）数目：%d' % (ratings_with_opinions[ratings_with_opinions.rating==1].shape[0]))

ratings_with_opinions.sample(10)

正向（5星）数目：638106
负向（1星）数目：190927


Unnamed: 0,userId,movieId,rating,timestamp,comment,like
1186828,14398,17,1,1410105600,傻X在意淫。,0
1213734,17804,17,5,1416585600,很机灵,0
428855,53362,6,1,1439654400,像一出闹剧,0
760777,108021,10,5,1485532800,一出电影院，就想明天再看一遍，看不够啊！太棒了，爆笑不断，演员都很到位，双王合作，精彩非凡...,0
683178,355739,10,1,1485532800,能不能让pk安安静静的消失,1
1046576,46127,15,5,1474732800,成为你自己！,0
1895623,269161,26,5,1477065600,人世间所有的相遇都是久别重逢，也许我们终其一生，都在用某种方式，寻找，那个人,0
2027920,30594,27,5,1456070400,太好笑啦,0
487466,285201,7,5,1455811200,笑中带泪，很用心的作品（各种小细节），令我想起了周星驰的食神,0
820214,416768,11,5,1487433600,哭了……,0


In [7]:
ratings.columns

Index(['userId', 'movieId', 'rating', 'timestamp', 'comment', 'like'], dtype='object')

In [8]:
movies.columns

Index(['movieId', 'title', 'title_cn'], dtype='object')

In [9]:
movie0 = ratings[(ratings.rating==1) | (ratings.movieId==0)]
movie0.sample(10)

Unnamed: 0,userId,movieId,rating,timestamp,comment,like
985139,24383,14,1,1484409600,1、这么有民心和凝聚力的题材拍的这么一般真是让人着急，bug多的太尴尬；2、不知道为什么会...,0
28768,27469,0,2,1433260800,烂片...比第一部还烂,0
944782,51965,13,1,1433001600,浪费观众时间的电影。,0
670749,8224,10,1,1486051200,除了特效，演员演技台词故事都很糟糕，前面都是配音，不断地用老梗消费大话西游的配乐，强扯降魔...,3
279701,188387,4,1,1447862400,看过之后，相信原著是不很不错的小说，只是电影时长不够，导演没把故事讲圆，让没看过小说的观众...,0
628799,335933,9,1,1361203200,除了想说舒淇是女神之外完全不知如何评价这部电影，目前2013年看过的最烂的电影没有之一,0
389768,76850,5,1,1440864000,就现在的技术水平，做出这种动画真的很渣。一系列的妖魔鬼怪都设计的毫无特点，如果说特效好，这...,0
1441139,591206,19,1,1482940800,人民报，那么多国计民生不关注，却为几部烂片站台、背书，连观众评论的自由都要干预，说你下三烂...,0
45035,42328,0,2,1434729600,就是翔,0
1408794,265669,19,1,1482854400,片子不评论，姓赵了不起吗？,0


In [2]:
import pandas as pd
path = '../data/'
shopping = pd.read_csv(path + 'online_shopping_10_cats.csv')

In [3]:
shopping.sample(20)

Unnamed: 0,cat,label,review
36837,蒙牛,1,蒙牛风云榜新人盛典 现场非常震撼 期待exo 我在:http:t.cn/zl7Xr4E
1244,书籍,1,搂着儿子，翻开了这本书。画面浓郁，文字却简单而纯美。看似两棵小小的树，却是生活中的每一个人。...
23530,水果,0,物流太慢，而且服务态度差，只肯送到物业，还要自己去取！
18854,水果,1,物流极快，上午网上下单，夜晚就送到家。包装很好，避免了碰损，很新鲜。个头略小，甜酸适囗。
25069,水果,0,这个苹果真的太难吃了，又酸又涩，老婆说了还不如地摊买的，再也不要被图片迷惑了。
10941,平板,0,这是不是二手的，机子上有划痕
26301,洗发水,1,昨晚下的单今天中午就送到了，这速度太快了，必须得赞一个，洗发水还没使用，不过闻着味道还不错，...
23132,水果,0,买了两箱，80mm红富士，但箱内苹果一大一小，颜色也不一致有的苹果只有60mm，有的还有烂痕...
16984,水果,1,很好吃，很好吃，很好吃！重要的事情说三遍！
4660,平板,1,刚拿到，简单使用了一下，还不错！


# 在线购物评论

In [53]:
import pandas as pd
path = '../data/'
shopping = pd.read_csv(path + 'shopping/online_shopping_10_cats.csv')
#打乱数据
data = shopping.sample(frac=1.0)
#整理数据
data = data.drop(['cat'],axis=1)
label = data["review"]
data.drop(labels=["review"], axis=1,inplace = True)
data.insert(0, "review", label)

In [54]:
data

Unnamed: 0,review,label
30239,是正品，特别便宜，买买买，物流特别给力，今天订的，明天就到了，啦啦啦，，，，，，,1
39523,这家店的裤子真的是太棒了，布料很滑很舒服，穿上去也很舒服，也很好看。下次还回来这里买裤子的,1
23118,不好吃，真的不好吃，买亏了，没味道……,0
908,虽然此书有无数的纰漏，(可能郎的逻辑能力还有待增强，感觉有些例子确实太牵强了)但 仅就对国内...,1
46088,一个字差，一看真是无语，便宜没好货无语呀本来一星都不给,0
...,...,...
39037,已经多次购买了，确实是性价比很高。不错。,1
54163,"不错的酒店,服务还可以,下次还会入住的~",1
9043,刚用了一个月玩普通的微信就死机，别说玩其他的游戏了，不知道为什么，是华为的机子不行，还是你们...,0
50640,微星的本子老婆大人拿到了很满意，样子养眼，做工也说的过去，6芯的电池能用5个小时，自带的XP...,1


In [55]:
cut_idx1 = int(round(0.6 * data.shape[0]))
cut_idx2 = int(round(0.7 * data.shape[0]))
train, val,test = data.iloc[:cut_idx1], data.iloc[cut_idx1:cut_idx2],data.iloc[cut_idx2:]

In [56]:
train.shape[0]

37664

In [57]:
print('正样本：'+str(train[train.label==1].shape[0])+'\n负样本：'+str(train[train.label==0].shape[0]))

正样本：19023
负样本：18641


In [58]:
print('正样本：'+str(val[val.label==1].shape[0])+'\n负样本：'+str(val[val.label==0].shape[0]))

正样本：3194
负样本：3084


In [59]:
print('正样本：'+str(test[test.label==1].shape[0])+'\n负样本：'+str(test[test.label==0].shape[0]))

正样本：9511
负样本：9321


In [60]:
train.to_csv('../data/shopping/train.csv',encoding='utf_8_sig',index=False)
val.to_csv('../data/shopping/val.csv',encoding='utf_8_sig',index=False)
test.to_csv('../data/shopping/test.csv',encoding='utf_8_sig',index=False)

# 点评

In [6]:
import pandas as pd
path = '../data/'
dianping = pd.read_csv(path + 'dianping/ratings.csv')
dianping

Unnamed: 0,userId,restId,rating,rating_env,rating_flavor,rating_service,timestamp,comment
0,0,0,,3.0,3.0,2.0,1250584020000,经常去的，不过我自己的卡很久不用，被冻了，只能用爸爸的。吉利莲的巧克力以前选择多些，最近一次...
1,1,0,,4.0,4.0,4.0,1145639040000,"喜欢在这里购物的感觉~~不在市中心,又是凭会员卡购物,因此不会有像家乐福\沃尔马那种人多很挤..."
2,2,0,5.0,3.0,3.0,3.0,1299115500000,
3,3,0,,3.0,4.0,4.0,1162821060000,很适合有车一族来采购，因为没有袋子给的，只有纸箱子！感觉有点像仓库，可是东西好啊，买得多的话...
4,4,0,,3.0,4.0,3.0,1201107000000,里面有一些进口食品还是不错的，但个人感觉商品种类比较少，而且管理不是很灵活，退货比较麻烦。价...
...,...,...,...,...,...,...,...,...
4422468,426327,243246,4.0,2.0,4.0,2.0,1311164580000,真想不到这个地方的火锅也上了点评网的 因为它确实“又旧又难找”。虽说环境就像是大排档，不过味...
4422469,406330,243246,5.0,1.0,4.0,2.0,1315466040000,
4422470,131873,243246,4.0,2.0,5.0,3.0,1315536300000,我有个同事的家就住在大龙火锅附近，她是那里的常客了！每次去都会把她喜欢吃的菜品一一点一份，最...
4422471,248507,243246,4.0,1.0,3.0,2.0,1324362120000,大龙火锅以前经常去吃，以前去吃觉得黑好吃，最后吃的久了就觉得太辣了，除了辣味就没的其他味了。...


In [47]:
posDianping = dianping[(dianping.rating==5) | (dianping.rating==5)][['comment','rating']]
posDianping = posDianping[posDianping['comment'].notna()].sample(80000)
posDianping['rating'] = 1
posDianping

Unnamed: 0,comment,rating
3174383,提拉米苏蛋糕增亚麻增好次~可惜他们家不能用面包新语卡，所以要用卡的MM要换别家店了~那天帮我...,1
3938652,上学的时候每天早饭都在里面吃的呢。顺路啊。东西很多很好吃。随说是早饭。不过中午也会过去。价格...,1
2718100,路过那里，正好看到排队的人不是很多，果断加入了排队的队伍。谁知道前面有人打包19杯，昏古起。...,1
248319,"鲁迅公园甜爱路口 那块地方小吃蛮多的, 印象最深的就是阿婆小滩了,香酥鸡量很足, 外脆里嫩,...",1
1904353,环境很好，那里的东西还是很好吃的，菜的话都可以点半份，而且可以随便取小点心，小麻团，小饼之类...,1
...,...,...
2909764,吃过一次 蛮甜的 感觉的也蛮一般 号称没有脂肪什么的也吃不出来 还是觉得稍微贵了一点 是在是...,1
3446176,离租的房子很近，又是比较实惠的地方，原来红烧肉最低卖到8块，觉得真不错，后来涨价了，但是相对...,1
4172469,朋友推荐的泰餐馆。喜欢这里藤编质感的椅子，服务员周到有理。点了好多菜，有个绿咖喱的汤特好喝，...,1
2304938,那天去玲珑小镇吃饭要排号，所以就去周边逛了一下，就到了明堂旁边的蓝水明水，非常喜欢这个名字和...,1


In [38]:
negDianping = dianping[(dianping.rating==1) ][['comment','rating']]
negDianping = negDianping[negDianping['comment'].notna()].sample(80000)
negDianping['rating'] = 0
negDianping

Unnamed: 0,comment,rating
832913,我靠，花那么多钱就这档次？！！地方不接近公车和地铁，自己开车是最方便的，否则要走一阵子才可以...,0
376757,进到店内的感觉……虽然是新开业的店，但是总体感觉不是一般的混乱，桌子上面收拾的也不是很干净。...,0
1150183,朋友生日当天晚上去的~看到网上虹的评价比大渔和鹤家的都高准备试一下，结果真是无比的失望~先说...,0
174603,有脸发我站内，有脸改我点评，有脸删我照片，怎么就没脸给别人看你的话呢，垃圾的店，再次鄙视下。...,0
4267123,真是太难找到比这家再差的日料了，烤物全部是凉的，上菜速度差不多一小时都没等到刺身，刺身也很一...,0
...,...,...
2486482,一直对爱义行印象不错，感觉是一个正规的店。昨天下班发现车胎瘪了，到了爱义行，没什么人，说技师...,0
3926564,实在是不灵额！\n老板娘嘘头特别好，嚷嚷着帮点菜，还说要替我们省钱。其实不厚道得很！\n每一...,0
2624848,今儿个有事儿出门回家路过东方广场，想着之前看过点评说荷花不错就进去了，自个儿一人点了红咖喱鸭...,0
4120229,我在这里点评就是建议大家不要去。环境不错。服务业好。就是食材太难吃了。哪里的东西都是胡乱搭配...,0


In [41]:
data = pd.concat([posDianping,negDianping]).reset_index(drop=True)
data = data.sample(frac=1.0)
cut_idx = int(round(0.2 * data.shape[0]))
val, train = data.iloc[:cut_idx], data.iloc[cut_idx:]

In [45]:
print(val.iloc[:,1].sum())
print(val.count())

15984
comment    32000
rating     32000
dtype: int64


In [46]:
print(train.iloc[:,1].sum())
print(train.count())

64016
comment    128000
rating     128000
dtype: int64


In [51]:
posDianping = dianping[(dianping.rating==4) | (dianping.rating==4)][['comment','rating']]
posDianping = posDianping[posDianping['comment'].notna()].sample(30000)
posDianping['rating'] = 1

negDianping = dianping[(dianping.rating==2) ][['comment','rating']]
negDianping = negDianping[negDianping['comment'].notna()].sample(30000)
negDianping['rating'] = 0

test = pd.concat([posDianping,negDianping]).reset_index(drop=True)
test = test.sample(frac=1.0)

In [52]:
print(test.iloc[:,1].sum())
print(test.count())

30000
comment    60000
rating     60000
dtype: int64


In [53]:
train.to_csv('../data/dianping/train.csv',encoding='utf_8_sig',index=False)
val.to_csv('../data/dianping/val.csv',encoding='utf_8_sig',index=False)
test.to_csv('../data/dianping/test.csv',encoding='utf_8_sig',index=False)