# yf_dianping 说明
0. **下载地址：** [百度网盘](https://pan.baidu.com/s/1yMNvHLl6QYsGbjT7u51Nfg)
1. **数据概览：** 24 万家餐馆，54 万用户，440 万条评论/评分数据
2. **推荐实验：** 推荐系统、情感/观点/评论 倾向性分析
2. **数据来源：** [大众点评](http://www.dianping.com/)
3. **原数据集：** [Dianping Review Dataset](http://yongfeng.me/dataset/)，Yongfeng Zhang 教授为 WWW 2013, SIGIR 2013, SIGIR 2014 会议论文而搜集的数据
4. **加工处理：**
    1. 只保留原数据集中的评论、评分等信息，去除其他无用信息
    2. 整理成与 [MovieLens](https://grouplens.org/datasets/movielens/) 兼容的格式
    3. 进行脱敏操作，以保护用户隐私

In [79]:
import pandas as pd

In [80]:
path = 'yf_dianping_文件夹_所在_路径'

# 1. restaurants.csv

## 加载数据

In [81]:
restaurants = pd.read_csv(path + 'restaurants.csv')

print('餐馆数目（有名称）：%d' % restaurants[~pd.isnull(restaurants.name)].shape[0])
print('餐馆数目（没有名称）：%d' % restaurants[pd.isnull(restaurants.name)].shape[0])
print('餐馆数目（总计）：%d' % restaurants.shape[0])

餐馆数目（有名称）：209132
餐馆数目（没有名称）：34115
餐馆数目（总计）：243247


## 字段说明

| 字段 | 说明 |
| ---- | ---- |
| restId | 餐馆 id (从 0 开始，连续编号) |
| name | 餐馆名称 |

In [82]:
restaurants.sample(20)

Unnamed: 0,restId,name
210902,210902,
124832,124832,
26766,26766,香锅制造(新苏天地店)
91754,91754,
204465,204465,西部牛扒城(湖塘店)
36475,36475,
231861,231861,四季火锅
79816,79816,
140694,140694,彝家牛汤锅
169641,169641,春秋


# 2. ratings.csv

## 加载数据

In [89]:
pd_ratings = pd.read_csv(path+'ratings.csv')

print('用户 数目：%d' % pd_ratings.userId.unique().shape[0])
print('评分/评论 数目（总计）：%d\n' % pd_ratings.shape[0])

print('总体 评分 数目（[1,5]）：%d' % pd_ratings[(pd_ratings.rating>=1) & (pd_ratings.rating<=5)].shape[0])
print('环境 评分 数目（[1,5]）：%d' % pd_ratings[(pd_ratings.rating_env>=1) & (pd_ratings.rating_env<=5)].shape[0])
print('口味 评分 数目（[1,5]）：%d' % pd_ratings[(pd_ratings.rating_flavor>=1) & (pd_ratings.rating_flavor<=5)].shape[0])
print('服务 评分 数目（[1,5]）：%d' % pd_ratings[(pd_ratings.rating_service>=1) & (pd_ratings.rating_service<=5)].shape[0])
print('评论 数目：%d' % pd_ratings[~pd_ratings.comment.isna()].shape[0])

用户 数目：542706
评分/评论 数目（总计）：4422473

总体 评分 数目（[1,5]）：3293878
环境 评分 数目（[1,5]）：4076220
口味 评分 数目（[1,5]）：4093819
服务 评分 数目（[1,5]）：4076220
评论 数目：4107409


## 字段说明

| 字段 | 说明 |
| ---- | ---- |
| userId | 用户 id (从 0 开始，连续编号) |
| restId | 即 restaurants.csv 中的 restId |
| rating | 总体评分，[0,5] 之间的整数 |
| rating_env | 环境评分，[1,5] 之间的整数 |
| rating_flavor | 口味评分，[1,5] 之间的整数 |
| rating_service | 服务评分，[1,5] 之间的整数 |
| timestamp | 评分时间戳 |
| comment |  评论内容 |

In [84]:
pd_ratings.sample(10)

Unnamed: 0,userId,restId,rating,rating_env,rating_flavor,rating_service,timestamp,comment
3331708,6802,183728,3.0,3.0,4.0,3.0,1315673880000,环境不错，停车方便，交通也比较方便，东西齐全，应有尽有，吃、喝、玩、乐样样齐全，还有个五星级...
3332473,3106,183750,5.0,4.0,4.0,4.0,1260155880000,去过两次，都是由日本朋友带着去的，很喜欢那种在小巷子深处的店，总觉得那样的店料理会很好吃。最...
291609,39590,13570,3.0,3.0,2.0,3.0,1324792500000,朋友请客，两个人中午去吃的，虽然不是节假日，但人还是非常的多，等了很长时间才上餐，价位偏高，...
749582,59192,38519,4.0,2.0,3.0,2.0,1321430760000,十一长假之前，我们的房子终于有了好消息，这个月底就可以拿到钥匙，真是不容易，盼星星盼月亮的，...
719908,241643,36382,1.0,2.0,1.0,1.0,1271862180000,很差的一家店！公司聚餐居然选在这里，真是个大大的失策！\n点的菜迟迟不上，不知道是故意不上还...
3127953,12481,173459,4.0,3.0,3.0,3.0,1300407540000,这家是离家最近的一家城市超市了，所以自然要进去随便逛逛啦。\n因为附近是居民区，自然光顾的主...
2068253,13070,115853,3.0,3.0,3.0,2.0,1308671820000,以前觉得还行，但有了85度之后就不行了。要了个提拉米苏，不行，太甜了。\n辣松的味道倒不错，...
640356,168006,33263,,3.0,5.0,3.0,1224868560000,算比较地道的川菜了 味道辣的很正 强力推荐 据说还是标点美食的... 香辣鸡翅每去必点~！不...
1222261,76280,65171,3.0,2.0,2.0,2.0,1302136740000,为什么这么多人说好吃啊？为什么这么多人说肉多啊？难道是我人品有问题？\n这个也是慕名而去的~...
101366,67372,2853,1.0,1.0,1.0,1.0,1283741400000,两年前经常去这家吃卤煮，感觉特别好吃，可是最近吃了一次，让我大失所望。。。\n卤煮的汤和食材...


# 3. links.csv

## 加载数据

In [85]:
links = pd.read_csv(path + 'links.csv')

## 字段说明

| 字段 | 说明 |
| ---- | ---- |
| restId | 即 restaurants.csv 和 ratings.csv 中的 restId |
| dianpingId | 大众点评网的餐馆编号 |

In [86]:
links.sample(20)

Unnamed: 0,restId,dianpingId
138492,138492,3566359
158007,158007,2484433
16170,16170,3651451
116637,116637,5143029
191554,191554,2734621
192481,192481,3000367
40978,40978,3168181
196832,196832,3523291
6048,6048,2435827
200405,200405,4130573
