# yf_amazon 说明
0. **下载地址：** [百度网盘](https://pan.baidu.com/s/1SbfpZb5cm-g2LmnYV_af8Q)
1. **数据概览：** 52 万件商品，1100 多个类目，142 万用户，720 万条评论/评分数据
2. **推荐实验：** 推荐系统、情感/观点/评论 倾向性分析
2. **数据来源：** [亚马逊](https://www.amazon.cn/)
3. **原数据集：** [JD.com E-Commerce Data](http://yongfeng.me/dataset/)，Yongfeng Zhang 教授为 WWW 2015 会议论文而搜集的数据
4. **加工处理：**
    1. 将全角字符转换为半角字符，并采用 UTF-8 编码
    2. 整理成与 [MovieLens](https://grouplens.org/datasets/movielens/) 兼容的格式
    3. 进行脱敏操作，以保护用户隐私

In [1]:
import pandas as pd

In [2]:
path = 'yf_amazon_文件夹_所在_路径'

# 1. products.csv

## 加载数据

In [3]:
products = pd.read_csv(path + 'products.csv')

print('产品数目：%d' % products.shape[0])

产品数目：525619


## 字段说明

| 字段 | 说明 |
| ---- | ---- |
| productId | 产品 id (从 0 开始，连续编号) |
| name | 产品名称 |
| catIds | 类别 id（从 0 开始，连续编号，从左到右依次表示一级类目、二级类目、三级类目） |

In [4]:
products.sample(10)

Unnamed: 0,productId,name,catIds
331420,331420,欧意金狐狸 女式 皮手套 QT602,802143996
130945,130945,YESO TOT 中性 单肩包/斜挎包 均码 9411,1111864781
179886,179886,李斯特论柏辽兹与舒曼,832552337
504123,504123,Tuscarora 途斯卡洛拉 中性 烈焰驰骋无缝头巾 PSU3083,1111522720
387785,387785,我们的故事:一百个北大荒老知青的人生形态,832519599
406231,406231,图读周易,832723724
199072,199072,Barbie 芭比 女童 运动休闲鞋 A22993,802777601
518528,518528,HiVi 惠威 多媒体音箱 D1080MKII 2.0声道 棕色,10574391064
446621,446621,HALTI 男式 JUOVAJACKET 芬兰国家队系列 羽绒滑雪服 H0591922,1111651693
379960,379960,塑料回收再生术:百工百技,8321096509


# 2. categories.csv

## 加载数据

In [5]:
categories = pd.read_csv(path + 'categories.csv')

print('类别数目：%d' % categories.shape[0])

类别数目：1175


## 字段说明

| 字段 | 说明 |
| ---- | ---- |
| catId | 类别 id (从 0 开始，连续编号) |
| category | 类别名称 |

In [6]:
categories.sample(10)

Unnamed: 0,catId,category
947,947,理发器
818,818,电脑硬件
212,212,帐篷
815,815,路由器/中继器
829,829,拉杆箱/包
391,391,女鞋
756,756,大型健身器械
11,11,其他运动器材
633,633,垂钓用品
115,115,卡通


# 3. ratings.csv

## 加载数据

In [7]:
pd_ratings = pd.read_csv(path+'ratings.csv')

print('用户 数目：%d' % pd_ratings.userId.unique().shape[0])
print('评分/评论 数目（总计）：%d\n' % pd_ratings.shape[0])

用户 数目：1424596
评分/评论 数目（总计）：7202921



## 字段说明

| 字段 | 说明 |
| ---- | ---- |
| userId | 用户 id (从 0 开始，连续编号) |
| productId | 即 products.csv 中的 productId |
| rating | 评分，[1,5] 之间的整数 |
| timestamp | 评分时间戳 |
| title | 评论的标题 |
| comment |  评论的内容 |

In [8]:
pd_ratings.sample(10)

Unnamed: 0,userId,productId,rating,timestamp,title,comment
4287636,230944.0,394505,5.0,1393084800,赞!,
3940838,16628.0,84789,5.0,1389715200,喜欢,
4064284,325829.0,94108,3.0,1384531200,磨脚,右脚小脚趾磨掉一块皮
4802616,586385.0,254002,5.0,1383408000,哦~,
292946,842028.0,231449,5.0,1369324800,致我们终将逝去的青春,
2306551,933226.0,219015,4.0,1341763200,有点大 不过很漂亮,外观很精致的说 就是外形有点偏大
1707442,402851.0,228321,5.0,1374076800,"给宝宝讲讲挺好的,内容简单,便于宝宝理解。","给宝宝讲讲挺好的,内容简单,便于宝宝理解。"
3641724,123473.0,515623,4.0,1305475200,"书很好,但居然没有包装!?!?!?","书很好,但居然没有包装!?!?!?这么好的书却没有包装!?!?!?"
1921912,435946.0,63238,4.0,1357228800,嗯,
1475151,1612.0,139044,4.0,1316102400,一般,"香味没有前面评价那么香,就是普通的爽肤水,有点黏黏的"


# 4. links.csv

## 加载数据

In [9]:
links = pd.read_csv(path + 'links.csv')

## 字段说明

| 字段 | 说明 |
| ---- | ---- |
| productId | 即 products.csv 和 ratings.csv 中的 productId |
| amazonId | 亚马逊的产品编号 |

In [10]:
links.sample(20)

Unnamed: 0,productId,amazonId
436251,436251,B00F91KYGK
194578,194578,B00GICSVUK
336998,336998,B00GMKUNBI
371924,371924,B008RIA4AS
433617,433617,B00332FJ7Q
236918,236918,060614479X
388158,388158,B008TI5V2C
479855,479855,B002NSML6I
311842,311842,B001DTWV2C
445227,445227,B0055PT83U
