这是大数据应用的代码文件,注意:
- 执行顺序:四个
.ipynb
文件执行顺序按照前面的序号1-4依次进行 - 代码顺序说明:
1.UserBehavior.csv.ipynb
:大文件提前处理数据UserBehavior.csv2.csv.ipynb
:大文件保存csv(防止数据丢失所以保存副本)3.UserBehavior.csv.DF.SQL.ipynb
:大数据大文件UserBehavior.csv处理DF、SQL4.UserBehaviorDHSample500w.csv.rdd.ipynb
:大数据UserBehaviorDHSample500w.csv操作rdd
当然,如果您的电脑内存足够,那么可以将这4个代码文件合并起来执行~
-
数据来源:
- 淘宝用户购物行为数据集 https://tianchi.aliyun.com/dataset/649
- 完整数据文件UserBehavior.csv,3.42G
链接:https://pan.baidu.com/s/1Y_RKr_Dw2dcnUJR4m3LHzw 提取码:p8gz - 小测试文件 UserBehaviorSmall.csv 18M
链接:https://pan.baidu.com/s/1CpiGrNSGkA0KVLxxmVcg8Q 提取码:hnaq - 缩减版数据。链接:https://pan.baidu.com/s/1WEtY1aDrlsTz5dntKNjkqA 提取码:onaz
-
本次使用的数据说明:
- 数据集包含了约一亿条随机用户的所有行为。数据集的每一行表示一条用户行为:用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。
- 行为类型:点击pv、购买buy、加购cart、fav收藏