## 电商用户行为可视化分析

#### 问题描述

根据所提供的电商用户交易行为数据，对用户行为进行可视化分析

#### 数据说明

数据为20000用户的完整行为数据以及百万级的商品信息。数据包含两个部分：

第一部分是用户在商品全集上的移动端行为数据（D），数据文件为tianchi_fresh_comp_train_user.csv，包含的字段如下：

| 字段          | 字段说明                     | 提取说明                                                 |
| ------------- | ---------------------------- | -------------------------------------------------------- |
| user_id       | 用户标识                     | 抽样&字段脱敏                                            |
| item_id       | 商品标识                     | 字段脱敏                                                 |
| behavior_type | 用户对商品的行为类型         | 包括浏览、收藏、加购物车、购买，对应取值分别是1、2、3、4 |
| user_geohash  | 用户位置的空间标识，可以为空 | 由经纬度通过保密的算法生成                               |
| item_category | 商品分类标识                 | 字段脱敏                                                 |
| time          | 行为时间                     | 精确到小时级别                                           |

第二部分是商品子集（P），数据文件为tianchi_fresh_comp_train_item.csv，包含如下字段：

| 字段          | 字段说明                     | 提取说明                   |
| ------------- | ---------------------------- | -------------------------- |
| item_id       | 商品标识                     | 抽样&字段脱敏              |
| item_geohash  | 商品位置的空间标识，可以为空 | 由经纬度通过保密的算法生成 |
| item_category | 商品分类标识                 | 字段脱敏                   |


#### 数据来源

天池：https://tianchi.aliyun.com/competition/entrance/231522/information

### 1、了解数据

#### 1) 导入库

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

#### 2）读取数据

In [2]:
user = pd.read_csv('./data/tianchi_fresh_comp_train_user.csv')

#### 3）查看数据类型和数据结构

In [3]:
user.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15463110 entries, 0 to 15463109
Data columns (total 6 columns):
 #   Column         Dtype 
---  ------         ----- 
 0   user_id        int64 
 1   item_id        int64 
 2   behavior_type  int64 
 3   user_geohash   object
 4   item_category  int64 
 5   time           object
dtypes: int64(4), object(2)
memory usage: 707.8+ MB


In [4]:
# 查看统计信息
user.describe()

Unnamed: 0,user_id,item_id,behavior_type,item_category
count,15463110.0,15463110.0,15463110.0,15463110.0
mean,70152070.0,202316900.0,1.15378,6827.181
std,45720190.0,116752400.0,0.5440445,3810.41
min,492.0,37.0,1.0,2.0
25%,30214060.0,101401500.0,1.0,3687.0
50%,56387080.0,202266900.0,1.0,6054.0
75%,116648200.0,303524700.0,1.0,10258.0
max,142443000.0,404562500.0,4.0,14080.0


#### 4）统计缺失值

In [5]:
user.isnull().sum()

user_id                0
item_id                0
behavior_type          0
user_geohash     8207386
item_category          0
time                   0
dtype: int64

因为不做地理数据的分析，所以user_geohash这列的缺失值不做处理

### 2、处理数据

#### 1）删除重复值

In [6]:
user.drop_duplicates(keep='last', inplace=True)

#### 2）将time转换为datetime格式

In [7]:
user['time'] = pd.to_datetime(user['time'])

#### 3）提取出日期和时间

In [8]:
user['dates'] = user.time.dt.date
user['month'] = user.dates.values.astype('datetime64[M]')
user['hours'] = user.time.dt.hour

#### 4）转换数据类型

In [9]:
user['behavior_type'] = user['behavior_type'].apply(str)

In [10]:
user['user_id'] = user['user_id'].apply(str)

In [11]:
user['item_id'] = user['item_id'].apply(str)

### 3、数据分析——可视化

#### 1）统计每日PV和UV数据

In [12]:
pv_day = user[user.behavior_type=="1"].groupby('dates')['behavior_type'].count()
uv_day = user[user.behavior_type=="1"].drop_duplicates(["user_id", "dates"]).groupby("dates")["user_id"].count()

2）分析每天的PV和UV的趋势

In [13]:
# 导入相关库
import pyecharts.options as opts
from pyecharts.charts import Line
from pyecharts.charts import Grid
import numpy as np

# 画出每天的PV和UV趋势图
attr = list(pv_day.index)
pv = (
    Line(init_opts=opts.InitOpts(width="1000px", height='500px'))
    .add_xaxis(xaxis_data=attr)
    .add_yaxis(
      "PV",
      np.around(pv_day.values/10000, decimals=2),
      label_opts=opts.LabelOpts(is_show=False)
    )
    .add_yaxis(
      series_name='UV',
      yaxis_index=1,
      y_axis=np.around(uv_day.values/10000, decimals=2),
      label_opts=opts.LabelOpts(is_show=False),
    )
    .extend_axis(
      yaxis=opts.AxisOpts(
        name='UV',
        type_='value',
        min_=0,
        max_=1.6,
        interval=0.4,
        axislabel_opts=opts.LabelOpts(formatter='{value} 万人')
      )
    )
    .set_global_opts(
      tooltip_opts=opts.TooltipOpts(
        is_show=True, trigger='axis', axis_pointer_type='cross'
      ),
      xaxis_opts=opts.AxisOpts(
        type_='category',
        axispointer_opts=opts.AxisPointerOpts(is_show=True, type_='shadow'),
      ),
      yaxis_opts=opts.AxisOpts(
        name='PV',
        type_='value',
        min_=0,
        max_=100,
        interval=20,
        axislabel_opts=opts.LabelOpts(formatter="{value} 万次"),
        axistick_opts=opts.AxisTickOpts(is_show=True),
        splitline_opts=opts.SplitLineOpts(is_show=True),
      ),
      title_opts=opts.TitleOpts(title='PV与UV趋势图'),
    )
)
pv.render_notebook()

#### 3）PV、UV差异分析（by day）

In [14]:
pv_uv = pd.concat([pv_day, uv_day], join='outer', axis=1)
pv_uv.columns = ['pv_day', 'uv_day']

new_day = pv_uv.diff()
new_day.columns = ['new_pv', 'new_uv']
new_day

Unnamed: 0_level_0,new_pv,new_uv
dates,Unnamed: 1_level_1,Unnamed: 2_level_1
2014-11-18,,
2014-11-19,9121.0,61.0
2014-11-20,-12504.0,-71.0
2014-11-21,-20029.0,-228.0
2014-11-22,18068.0,-122.0
2014-11-23,37567.0,432.0
2014-11-24,-7484.0,140.0
2014-11-25,-17090.0,-178.0
2014-11-26,-6583.0,-138.0
2014-11-27,7738.0,-61.0


In [15]:
attr = new_day.index
v = new_day.new_uv
w = new_day.new_pv

li = (
    Line(init_opts=opts.InitOpts(width='1000px', height='500px'))
    .add_xaxis(xaxis_data=attr)
    .add_yaxis(
      '新增PV',
      w,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .extend_axis(
      yaxis=opts.AxisOpts(
        name='新增UV',
        type_='value',
        min_=-2000,
        max_=1600,
        interval=400,
        axislabel_opts=opts.LabelOpts(formatter="{value}"),
      )
    )
    .set_global_opts(
      tooltip_opts=opts.TooltipOpts(
        is_show=True, trigger='axis', axis_pointer_type='cross'
      ),
      xaxis_opts=opts.AxisOpts(
        type_='category',
        axispointer_opts=opts.AxisPointerOpts(is_show=True, type_='shadow'),
      ),
      yaxis_opts=opts.AxisOpts(
        name='新增PV',
        type_='value',
        min_=-350000,
        max_=250000,
        interval=100000,
        axislabel_opts=opts.LabelOpts(formatter='{value}'),
        axistick_opts=opts.AxisTickOpts(is_show=True),
        splitline_opts=opts.SplitLineOpts(is_show=True),
      ),
      title_opts=opts.TitleOpts(title='PV、UV差异分析'),
    )
)
il = (
    Line()
    .add_xaxis(xaxis_data=attr)
    .add_yaxis('新增UV', v, yaxis_index='1', label_opts=opts.LabelOpts(is_show=False),)
)
c = li.overlap(il)
c.render_notebook()

#### 4）不同时期用户行为分析

In [16]:
shopping_cart = user[user.behavior_type == '3'].groupby('dates')['behavior_type'].count()
collect = user[user.behavior_type == '2'].groupby('dates')['behavior_type'].count()
buy = user[user.behavior_type == '4'].groupby('dates')['behavior_type'].count()

attr_a = list(shopping_cart.index)
v_1 = shopping_cart.values.tolist()
v_2 = collect.values.tolist()
v_3 = buy.values.tolist()

b = (
    Line()
    .add_xaxis(xaxis_data=attr_a)
    .add_yaxis(
      '加购人数',
      v_1,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .add_yaxis(
      '收藏人数',
      v_2,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .add_yaxis(
      '购买人数',
      v_3,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .set_global_opts(title_opts=opts.TitleOpts(title='不同时期用户行为数据'))
)
b.render_notebook()

### 4、把数据拆分为活动数据和日常数据做不同时段的分析

- 由于数据里面包含双十二大促的数据，因此整理分析用户的不同时段行为可能会导致分析结果与实际差异较大，因此拆分开来做不同的对比分析

#### 1）把dates列转换为datetime类型

In [17]:
user['dates'] = pd.to_datetime(user['dates'])

#### 2）选取活动数据子集和日常数据子集

In [18]:
active = user[user['dates'].isin(['2014/12/11', '2014/12/12', '2014/12/13'])]

In [19]:
daily = user[~user['dates'].isin(['2014/12/11', '2014/12/12', '2014/12/13'])]

#### 3）活动期间不同时段的用户行为分析

In [21]:
from pyecharts.charts import Bar
# 活动数据
cart_h = active[active.behavior_type == '3'].groupby('hours')['behavior_type'].count()
collect_h = active[active.behavior_type == '2'].groupby('hours')['behavior_type'].count()
buy_h = active[active.behavior_type == '4'].groupby('hours')['behavior_type'].count()
uv_h = active[active.behavior_type == '1'].groupby('hours')['user_id'].count()

attr_h = list(cart_h.index)
h1 = np.around(cart_h.values/3, decimals=0).tolist()  # 其中3为活动天数
h2 = np.around(collect_h.values/3, decimals=0).tolist()
h3 = np.around(buy_h.values/3, decimals=0).tolist()
h4 = np.around(uv_h.values/3, decimals=0).tolist()

h = (
    Line(init_opts=opts.InitOpts(width='1000px', height='500px'))
    .add_xaxis(xaxis_data=attr_h)
    .add_yaxis(
      '加购人数',
      h1,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .add_yaxis(
      '收藏人数',
      h2,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .add_yaxis(
      '购买人数',
      h3,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .set_global_opts(
      xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=15)),
      title_opts=opts.TitleOpts(title='日均各时段活动用户行为', pos_top='48%'),
      legend_opts=opts.LegendOpts(pos_top='48%'),
    )
)
bar = (
    Bar()
    .add_xaxis(xaxis_data=attr_h)
    .add_yaxis(
      '浏览人数',
      h4,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .set_global_opts(
      title_opts=opts.TitleOpts(title='活动PV对比数据'),
    )
)

ggrid = (
    Grid()
    .add(bar, grid_opts=opts.GridOpts(pos_bottom='60%'))
    .add(h, grid_opts=opts.GridOpts(pos_top='60%'))
)
ggrid.render_notebook()

- 这是双十二三天活动的日均数据，可以发现活动期间是商家在起主导作用，大促集中在零点，因此用户的购买高峰也出现在0点，点击浏览的高峰集中在晚上的21点到22点之间，因此商家可以在20点前改好促销页面吸引顾客参加0点的活动。

#### 4）日常期间不同时段的用户行为分析

In [22]:
# 日常数据
cart_d = daily[daily.behavior_type == '3'].groupby('hours')['behavior_type'].count()
collect_d = daily[daily.behavior_type == '2'].groupby('hours')['behavior_type'].count()
buy_d = daily[daily.behavior_type == '4'].groupby('hours')['behavior_type'].count()
uv_d = daily[daily.behavior_type == '1'].groupby('hours')['user_id'].count()

attr_d = list(cart_d.index)
d1 = np.around(cart_d.values/28, decimals=0).tolist()  # 其中28为非活动天数
d2 = np.around(collect_d.values/28, decimals=0).tolist()
d3 = np.around(buy_d.values/28, decimals=0).tolist()
d4 = np.around(uv_d.values/3, decimals=0).tolist()

d = (
    Line(init_opts=opts.InitOpts(width='1000px', height='500px'))
    .add_xaxis(xaxis_data=attr_d)
    .add_yaxis(
      '加购人数',
      d1,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .add_yaxis(
      '收藏人数',
      d2,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .add_yaxis(
      '购买人数',
      d3,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .set_global_opts(
      xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=15)),
      title_opts=opts.TitleOpts(title='日均各时段活动用户行为', pos_top='48%'),
      legend_opts=opts.LegendOpts(pos_top='48%'),
    )
)
y = (
    Bar()
    .add_xaxis(xaxis_data=attr_d)
    .add_yaxis(
      '浏览人数',
      d4,
      label_opts=opts.LabelOpts(is_show=False)
    )
    .set_global_opts(
      title_opts=opts.TitleOpts(title='日常PV对比数据'),
    )
)
ggrid = (
    Grid()
    .add(y, grid_opts=opts.GridOpts(pos_bottom='60%'))
    .add(d, grid_opts=opts.GridOpts(pos_top='60%'))
)
ggrid.render_notebook()

- 与大促不同的是日常期间购买人数从上午10点到晚上23点变化都不会太大，高峰出现在晚上21点，PV、加购、收藏的高峰出现在晚上21点到22点之间，说明大家都喜欢在晚上这个时间段浏览商品，日常时可以集中在这个时段进行促销活动，浏览高峰也是集中在晚上21点到22点之间。

In [24]:
# 活动时购买率
hour_buy_user_num = active[active.behavior_type == '4'].drop_duplicates(['user_id', 'dates', 'hours']).groupby('hours')['user_id'].count()
hour_active_user_num = active.drop_duplicates(['user_id', 'dates', 'hours']).groupby('hours')['user_id'].count()
hour_buy_rate = hour_buy_user_num / hour_active_user_num
attr_o = list(hour_buy_user_num.index)
vo_2 = np.around(hour_buy_rate.values, decimals=2)

# 日常时购买率
hour_buy_daily_num = daily[daily.behavior_type == '4'].drop_duplicates(['user_id', 'dates', 'hours']).groupby('hours')['user_id'].count()
hour_active_daily_num = daily.drop_duplicates(['user_id', 'dates', 'hours']).groupby('hours')['user_id'].count()
daily_buy_rate = hour_buy_daily_num / hour_active_daily_num
vi_2 = np.around(daily_buy_rate.values, decimals=2)

hbu = (
    Line()
    .add_xaxis(xaxis_data=attr_o)
    .add_yaxis(
      '日常购买率',
      vi_2,
    )
    .add_yaxis(
      '活动购买率',
      vo_2,
    )
    .set_global_opts(title_opts=opts.TitleOpts(title='不同时段购买率'))
)
hbu.render_notebook()

- 日常时的购买率最高的出现在上午10点到下午15点间，还有晚上的21点，和活动期间的购买率不同，但是明显晚上21点已经在分析中出现比较多的峰值，因此可以考虑这个时段做吸引用户购买的措施。

#### 5）转化漏斗分析

##### 1）活动期间的转化漏斗

In [25]:
from pyecharts.charts import Funnel

# 活动转化
a_pv = active[active.behavior_type == '1']['user_id'].count()
a_cart = active[active.behavior_type == '3']['user_id'].count()
a_collect = active[active.behavior_type == '2']['user_id'].count()
a_buy = active[active.behavior_type == '4']['user_id'].count()

a_attr = ['点击', '加入购物车', '收藏', '购买']
values = [
    np.around((a_pv/a_pv*100), 2),
    np.around((a_cart/a_pv*100), 2),
    np.around((a_collect/a_pv*100), 2),
    np.around((a_buy/a_pv*100), 2),
]
data = [[a_attr[i], values[i]] for i in range(len(a_attr))]

a = (
    Funnel()
    .add(
        series_name='用户行为',
        data_pair=data,
        gap=2,
        tooltip_opts=opts.TooltipOpts(trigger='item', formatter='{a} <br/>{b}: {c}%', is_show=True),
        label_opts=opts.LabelOpts(is_show=True, position='ourside'),
        itemstyle_opts=opts.ItemStyleOpts(border_color='#fff', border_width=1),
    )
    .set_global_opts(title_opts=opts.TitleOpts(title='用户转化漏斗', subtitle='活动'))
)

a.render_notebook()


- 活动期间日均从点击到加入购物车的转化率只有4.97%，购买的只有2%，说明点击浏览量不少但是吸引不了顾客购买，虽然是大的活动，但是转化率还是很低的，可以从提高加购率和收藏率着手，从而吸引顾客购买。

##### 2）日常期间的转化漏斗

In [26]:
# 日常转化
l_pv = daily[daily.behavior_type == '1']['user_id'].count()
l_cart = daily[daily.behavior_type == '3']['user_id'].count()
l_collect = daily[daily.behavior_type == '2']['user_id'].count()
l_buy = daily[daily.behavior_type == '4']['user_id'].count()

l_attr = ['点击', '加入购物车', '收藏', '购买']
value_l = [
    np.around((l_pv/l_pv*100), 2),
    np.around((l_cart/l_pv*100), 2),
    np.around((l_collect/l_pv*100), 2),
    np.around((l_buy/l_pv*100), 2),
]
data_l = [[l_attr[i], value_l[i]] for i in range(len(l_attr))]

dy = (
    Funnel()
    .add(
      series_name='用户行为',
      data_pair=data_l,
      gap=2,
      tooltip_opts=opts.TooltipOpts(trigger='item', formatter='{a} <br/>{b} : {c}%', is_show=True),
      label_opts=opts.LabelOpts(is_show=True, position='ourside'),
      itemstyle_opts=opts.ItemStyleOpts(border_color='#fff', border_width=1),
    )
    .set_global_opts(title_opts=opts.TitleOpts(title='用户转化漏斗', subtitle='日常'))
)
dy.render_notebook()

- 日常期间总的点击量中，有4.45%加入购物车，有3.3%收藏，而到最后只有1.4%购买，整体来看，购买的转化率最低，有很大的增长空间；
- 从占比变化来看，“点击-加入购物车”这一环节的转化率最低，按照“点击-加入购物车-收藏-购买”这一用户行为路径，我们可通过优化“点击-加入购物车”这一环节进而提升购买的转化率，可以通过鼓励用户收藏加购后可以领券来刺激用户加购收藏从而刺激用户的购买欲望。