# dmsc_v2 说明
0. **下载地址：** [百度网盘](https://pan.baidu.com/s/1c0yn3TlkzHYTdEBz3T5arA)
1. **数据概览：** 28 部电影，超 70 万 用户，超 200 万条 评分/评论 数据
2. **推荐实验：** 推荐系统、情感/观点/评论 倾向性分析
2. **数据来源：**[豆瓣电影](https://movie.douban.com/)
3. **原数据集：** [Douban Movie Short Comments Dataset V2](https://www.kaggle.com/utmhikari/doubanmovieshortcomments)
4. **加工处理：**
    1. 去重并整理成与 [MovieLens](https://grouplens.org/datasets/movielens/) 兼容的格式
    2. 进行脱敏操作，以保护用户隐私

In [2]:
import pandas as pd

In [3]:
path = 'dmsc_文件夹_所在_路径'

# 1. movies.csv

## 加载数据

In [4]:
movies = pd.read_csv(path + 'movies.csv')

print('电影数目：%d' % movies.shape[0])

电影数目：28


## 字段说明

| 字段 | 说明 |
| ---- | ---- |
| movieId | 电影 id (从 0 开始，连续编号) |
| title | 英文名称 |
| title_cn | 中文名称 |

In [5]:
movies

Unnamed: 0,movieId,title,title_cn
0,0,Avengers Age of Ultron,复仇者联盟2
1,1,Big Fish and Begonia,大鱼海棠
2,2,Captain America Civil War,美国队长3
3,3,Chinese Zodiac,十二生肖
4,4,Chronicles of the Ghostly Tribe,九层妖塔
5,5,CUG King of Heroes,大圣归来
6,6,Forever Young,栀子花开
7,7,Goodbye Mr. Loser,夏洛特烦恼
8,8,Iron Man,钢铁侠1
9,9,Journey to the West Conquering the Demons,西游降魔篇


# 2. ratings.csv

## 加载数据

In [6]:
ratings = pd.read_csv(path + 'ratings.csv')

print('用户数据：%d' % ratings.userId.unique().shape[0])
print('评分数目：%d' % ratings.shape[0])

用户数据：738701
评分数目：2125056


## 字段说明

| 字段 | 说明 |
| ---- | ---- |
| userId | 用户 id (从 0 开始，连续编号) |
| movieId | 即 movies.csv 中的 movieId|
|rating | 评分，[1,5] 之间的整数 | 
|timestamp | 评分时间戳 |
|comment | 评论内容 |
| like | 该评论被多少人点赞 |

In [7]:
ratings.sample(20)

Unnamed: 0,userId,movieId,rating,timestamp,comment,like
1763779,130888,24,5,1474560000,原著的剧本不是这样的，而是最后只有那个自私鬼活了下来。孕妇中枪，小孩中枪的时候哭出了声音，...,1
1608147,23695,22,2,1377360000,郭敬明真的要为中国产生如此大规模的青少年脑残群体负一定责任 = =,0
1735498,323858,24,3,1473696000,三分不能再多。其中一分给壮汉大叔，帅过男主。,0
1631095,218188,22,3,1372953600,柯震东露点 给三星 后面的彩蛋很欢乐,0
1193163,155900,17,4,1406390400,给四星不是因为电影有那么好，文艺腔调有，公路片元素够，但好看程度其实低于预期，但是因为是韩...,0
1874658,8534,26,4,1480780800,身体互换和改变未来都是老梗了，算是半新不旧的瓶装了个旧酒吧，不过倒是不错，意外的好看，伏笔...,1
645671,312247,9,4,1476979200,念念不忘，必有回响…,0
1681543,284941,23,4,1409673600,看到她们在雪地的那段，居然很感动,0
1042238,100689,15,5,1474214400,以前看安妮宝贝时期....最喜欢的小说之一,0
1672379,139726,23,2,1406736000,郭小四不是标榜自己时尚品味吗？四个女主一个镜头换一身皮草哪来的品味啊？？（客观的说，叙事增...,0


# 3. 用于 情感/观点/评论 倾向性分析

## 筛选出带有较明显倾向性的评论（1星和5星的评分）

In [8]:
ratings_with_opinions = ratings[(ratings.rating==1) | (ratings.rating==5)]


print('正向（5星）数目：%d' % (ratings_with_opinions[ratings_with_opinions.rating==5].shape[0]))
print('负向（1星）数目：%d' % (ratings_with_opinions[ratings_with_opinions.rating==1].shape[0]))

ratings_with_opinions.sample(20)

正向（5星）数目：638106
负向（1星）数目：190927


Unnamed: 0,userId,movieId,rating,timestamp,comment,like
405540,251302,5,5,1436976000,路人转自来水！大圣帅气！我要生猴子~~~^-^,0
159308,18639,2,5,1462636800,冬兵从醒了以后就应该要求被冻起来，美队这个人烂的真要命。心疼tony。,0
1329674,127217,18,5,1451059200,超级棒！远远超出预期 免费水军来了哈哈哈哈,0
1945766,75720,26,5,1476460800,为爱而动,0
1706244,29721,23,1,1406131200,看小时代3的时候真是太壮观了整个场子那个乱啊打电话的聊天的中途上厕所的没办法大家提不起兴趣...,0
1271715,546029,17,1,1406217600,可以给零分么,0
394698,243184,5,5,1437926400,一直听网友说好，今天去电影院看了下。真的不错，是中国动漫的一个值得一看的作品。太多的喜羊羊...,0
324077,208900,5,5,1437062400,先吐槽一下自己的泪点，太低了。小和尚太像弟弟小时候的样子了。整部电影是良心之作，国产地影这...,0
1004222,186241,14,5,1475942400,主旋律片的杰出代表，节奏顺畅快速。看得人热血沸腾！,0
198523,5774,2,5,1462723200,迄今看过最精彩的漫威电影 其实整个剧情核心是复仇 但是这个复仇点真心满怪的 队长还是一如既...,0
