# 预设置

In [1]:
import pandas as pd
path = '../data/'

# 电影名
## 字段说明
| 字段 | 说明
| --- | --- |
| movieId | 电影 id (从 0 开始，连续编号)
| title | 英文名称
| title_cn | 中文名称

In [2]:
movies = pd.read_csv(path + 'movies.csv')

print('电影数目：%d' % movies.shape[0])

电影数目：28


In [3]:
movies

Unnamed: 0,movieId,title,title_cn
0,0,Avengers Age of Ultron,复仇者联盟2
1,1,Big Fish and Begonia,大鱼海棠
2,2,Captain America Civil War,美国队长3
3,3,Chinese Zodiac,十二生肖
4,4,Chronicles of the Ghostly Tribe,九层妖塔
5,5,CUG King of Heroes,大圣归来
6,6,Forever Young,栀子花开
7,7,Goodbye Mr. Loser,夏洛特烦恼
8,8,Iron Man,钢铁侠1
9,9,Journey to the West Conquering the Demons,西游降魔篇


# 评论数据

| 字段 | 说明
| --- | --- |
| userId | 用户 id (从 0 开始，连续编号)
| movieId | 即 movies.csv 中的 movieId
| rating | 评分，[1,5] 之间的整数
| timestamp | 评分时间戳
| comment | 评论内容
| like | 该评论被多少人点赞

In [4]:
ratings = pd.read_csv(path + 'ratings.csv')

print('用户数据：%d' % ratings.userId.unique().shape[0])
print('评分数目：%d' % ratings.shape[0])

用户数据：738701
评分数目：2125056


In [5]:
ratings.sample(20)

Unnamed: 0,userId,movieId,rating,timestamp,comment,like
1100756,318293,16,4,1336579200,之前的marvel电影都有伏笔，千呼万唤始出来，美漫英雄嘉年华，从头打到尾有笑点,0
710517,365468,10,3,1486483200,我们喜欢周星驰的电影，虽然人物动作、表情都有所夸张，但是人物的反应是真实的，看到恶心的说恶...,1
1786547,663951,24,5,1475337600,有泪点的丧尸片，忘不掉掉下火车的那个影子……,1
1791747,666311,24,5,1482595200,在灾难面前，更见人品。,0
707932,132298,10,5,1485705600,其实我觉得还挺好,1
842755,429184,11,4,1487865600,很有情怀,0
197198,144022,2,4,1462982400,和男友去看的，慕名而来,0
1045569,83825,15,3,1478880000,= =,0
1733567,29927,24,5,1474041600,灾难面前，如果人还要自私自利，下场显而易见。胖大叔为保护他们死的那一段，男主变成丧尸后想到...,0
1242086,206,17,5,1408204800,有内涵~,0


# 筛选出带有较明显倾向性的评论（1星和5星的评分）

In [6]:

ratings_with_opinions = ratings[(ratings.rating==1) | (ratings.rating==5)]


print('正向（5星）数目：%d' % (ratings_with_opinions[ratings_with_opinions.rating==5].shape[0]))
print('负向（1星）数目：%d' % (ratings_with_opinions[ratings_with_opinions.rating==1].shape[0]))

ratings_with_opinions.sample(10)

正向（5星）数目：638106
负向（1星）数目：190927


Unnamed: 0,userId,movieId,rating,timestamp,comment,like
1186828,14398,17,1,1410105600,傻X在意淫。,0
1213734,17804,17,5,1416585600,很机灵,0
428855,53362,6,1,1439654400,像一出闹剧,0
760777,108021,10,5,1485532800,一出电影院，就想明天再看一遍，看不够啊！太棒了，爆笑不断，演员都很到位，双王合作，精彩非凡...,0
683178,355739,10,1,1485532800,能不能让pk安安静静的消失,1
1046576,46127,15,5,1474732800,成为你自己！,0
1895623,269161,26,5,1477065600,人世间所有的相遇都是久别重逢，也许我们终其一生，都在用某种方式，寻找，那个人,0
2027920,30594,27,5,1456070400,太好笑啦,0
487466,285201,7,5,1455811200,笑中带泪，很用心的作品（各种小细节），令我想起了周星驰的食神,0
820214,416768,11,5,1487433600,哭了……,0


In [7]:
ratings.columns

Index(['userId', 'movieId', 'rating', 'timestamp', 'comment', 'like'], dtype='object')

In [8]:
movies.columns

Index(['movieId', 'title', 'title_cn'], dtype='object')

In [9]:
movie0 = ratings[(ratings.rating==1) | (ratings.movieId==0)]
movie0.sample(10)

Unnamed: 0,userId,movieId,rating,timestamp,comment,like
985139,24383,14,1,1484409600,1、这么有民心和凝聚力的题材拍的这么一般真是让人着急，bug多的太尴尬；2、不知道为什么会...,0
28768,27469,0,2,1433260800,烂片...比第一部还烂,0
944782,51965,13,1,1433001600,浪费观众时间的电影。,0
670749,8224,10,1,1486051200,除了特效，演员演技台词故事都很糟糕，前面都是配音，不断地用老梗消费大话西游的配乐，强扯降魔...,3
279701,188387,4,1,1447862400,看过之后，相信原著是不很不错的小说，只是电影时长不够，导演没把故事讲圆，让没看过小说的观众...,0
628799,335933,9,1,1361203200,除了想说舒淇是女神之外完全不知如何评价这部电影，目前2013年看过的最烂的电影没有之一,0
389768,76850,5,1,1440864000,就现在的技术水平，做出这种动画真的很渣。一系列的妖魔鬼怪都设计的毫无特点，如果说特效好，这...,0
1441139,591206,19,1,1482940800,人民报，那么多国计民生不关注，却为几部烂片站台、背书，连观众评论的自由都要干预，说你下三烂...,0
45035,42328,0,2,1434729600,就是翔,0
1408794,265669,19,1,1482854400,片子不评论，姓赵了不起吗？,0
