In [12]:
import pandas as pd
# 使DataFrame在jupyter notebook中输出不换行
pd.set_option('display.expand_frame_repr', False)

In [13]:
# 数据集导入
df = pd.read_csv('../user_action.csv')
print('最初数据：\n', df.head(), '\n\n')
print('最初数据类型：\n', df.dtypes, '\n\n')
print('数据集不同字段内容分析：\n', df.nunique())

最初数据：
     user_id    item_id  behavior_type  item_category           time
0  98047837  232431562              1           4245  2014-12-06 02
1  97726136  383583590              1           5894  2014-12-09 20
2  98607707   64749712              1           2883  2014-12-18 11
3  98662432  320593836              1           6562  2014-12-06 10
4  98145908  290208520              1          13926  2014-12-16 21 


最初数据类型：
 user_id           int64
item_id           int64
behavior_type     int64
item_category     int64
time             object
dtype: object 


数据集不同字段内容分析：
 user_id            10000
item_id          2876947
behavior_type          4
item_category       8916
time                 744
dtype: int64


In [14]:
# 数据预处理
# 在df中去除有空值的数据项，并在原地修改
df.dropna(axis=0, how='any', inplace=True)
print('去除空值后数据为：\n', df)

去除空值后数据为：
             user_id    item_id  behavior_type  item_category           time
0          98047837  232431562              1           4245  2014-12-06 02
1          97726136  383583590              1           5894  2014-12-09 20
2          98607707   64749712              1           2883  2014-12-18 11
3          98662432  320593836              1           6562  2014-12-06 10
4          98145908  290208520              1          13926  2014-12-16 21
...             ...        ...            ...            ...            ...
12256901   93812622  378365755              1             11  2014-12-13 21
12256902   93812622  177724753              1          12311  2014-12-14 21
12256903   93812622  234391443              1           8765  2014-12-11 16
12256904   93812622   26452000              1           7951  2014-12-08 22
12256905  108404535  362699797              1           9847  2014-12-03 19

[12256906 rows x 5 columns]


In [15]:
# 将df中time字段删除，增加date，mon，day，hour三个字段
df['date'] = df['time'].str.split(pat=' ', expand=True)[0]
df['mon'] = df['time'].str.split(pat='-', expand=True)[1]
df['day'] = df['time'].str.split(pat='-', expand=True)[2].str.split(pat=' ', expand=True)[0]
df['hour'] = df['time'].str.split(pat=' ', expand=True)[1]
print('当前数据：\n', df.head(), '\n\n')
print('当前df数据类型：\n', df.dtypes)

当前数据：
     user_id    item_id  behavior_type  item_category           time        date mon day hour
0  98047837  232431562              1           4245  2014-12-06 02  2014-12-06  12  06   02
1  97726136  383583590              1           5894  2014-12-09 20  2014-12-09  12  09   20
2  98607707   64749712              1           2883  2014-12-18 11  2014-12-18  12  18   11
3  98662432  320593836              1           6562  2014-12-06 10  2014-12-06  12  06   10
4  98145908  290208520              1          13926  2014-12-16 21  2014-12-16  12  16   21 


当前df数据类型：
 user_id           int64
item_id           int64
behavior_type     int64
item_category     int64
time             object
date             object
mon              object
day              object
hour             object
dtype: object


In [16]:
# # 修改mon，day，hour字段的数据类型
df[['mon', 'day', 'hour']] = df[['mon', 'day', 'hour']].astype('int64')
print('当前df数据类型：\n', df.dtypes)

当前df数据类型：
 user_id           int64
item_id           int64
behavior_type     int64
item_category     int64
time             object
date             object
mon               int64
day               int64
hour              int64
dtype: object


In [17]:
# 导出修改后的文件
df.to_csv('../user_action_after_preprocess.csv', sep=',', index=False)