In [1]:
import pandas as pd
data = pd.read_csv('user_action.csv')
data.head()

Unnamed: 0,user_id,item_id,behavior_type,item_category,time
0,98047837,232431562,1,4245,2014-12-06 02
1,97726136,383583590,1,5894,2014-12-09 20
2,98607707,64749712,1,2883,2014-12-18 11
3,98662432,320593836,1,6562,2014-12-06 10
4,98145908,290208520,1,13926,2014-12-16 21


In [2]:
# 打印基本统计信息
print(f"记录数量: {len(data)}")
print(f"用户数量: {data['user_id'].nunique()}")
print(f"商品数量: {data['item_id'].nunique()}")
print(f"商品类别数: {data['item_category'].nunique()}")

# 将时间字段转化为日期时间格式
data['time'] = pd.to_datetime(data['time'], format='%Y-%m-%d %H')
# 找到数据集中的最早时间和最晚时间
earliest_time = data['time'].min()
latest_time = data['time'].max()
# 打印数据集跨越的时间范围
print(f"数据集跨越的时间范围从 {earliest_time} 到 {latest_time}")

记录数量: 12256906
用户数量: 10000
商品数量: 2876947
商品类别数: 8916
数据集跨越的时间范围从 2014-11-18 00:00:00 到 2014-12-18 23:00:00


In [3]:
# 统计每个字段的缺失值数量
print(data.isnull().sum())

user_id          0
item_id          0
behavior_type    0
item_category    0
time             0
dtype: int64


In [4]:
# 将英文标题改为中文
data = data.rename(columns={
    'user_id': '用户标识',
    'item_id': '商品标识',
    'behavior_type': '用户行为',
    'item_category': '商品分类标识',
    'time': '行为时间'
})
# 展示数据集
data.head()

Unnamed: 0,用户标识,商品标识,用户行为,商品分类标识,行为时间
0,98047837,232431562,1,4245,2014-12-06 02:00:00
1,97726136,383583590,1,5894,2014-12-09 20:00:00
2,98607707,64749712,1,2883,2014-12-18 11:00:00
3,98662432,320593836,1,6562,2014-12-06 10:00:00
4,98145908,290208520,1,13926,2014-12-16 21:00:00


In [5]:
# 将用户行为类型1、2、3、4替换为对应的中文行为
data['用户行为'] = data['用户行为'].map({
    1: '浏览',
    2: '收藏',
    3: '加购物车',
    4: '购买'
})
# 展示数据集
data.head()

Unnamed: 0,用户标识,商品标识,用户行为,商品分类标识,行为时间
0,98047837,232431562,浏览,4245,2014-12-06 02:00:00
1,97726136,383583590,浏览,5894,2014-12-09 20:00:00
2,98607707,64749712,浏览,2883,2014-12-18 11:00:00
3,98662432,320593836,浏览,6562,2014-12-06 10:00:00
4,98145908,290208520,浏览,13926,2014-12-16 21:00:00


In [6]:
# 添加一个新的日期列
data['日期'] = data['行为时间'].dt.date
# 添加一个新的小时列
data['小时'] = data['行为时间'].dt.hour
# 展示数据集
data.head()

Unnamed: 0,用户标识,商品标识,用户行为,商品分类标识,行为时间,日期,小时
0,98047837,232431562,浏览,4245,2014-12-06 02:00:00,2014-12-06,2
1,97726136,383583590,浏览,5894,2014-12-09 20:00:00,2014-12-09,20
2,98607707,64749712,浏览,2883,2014-12-18 11:00:00,2014-12-18,11
3,98662432,320593836,浏览,6562,2014-12-06 10:00:00,2014-12-06,10
4,98145908,290208520,浏览,13926,2014-12-16 21:00:00,2014-12-16,21


In [7]:
data.to_csv('shopping.csv', index=False)