# 用户行为分析学习目标
- 知道用户行为分析常用方法
- 知道AARRR模型含义
- 掌握使用Python代码进行用户行为分析

---


# 1、什么是用户行为分析？

概念：用户行为是指该用户在产品上产生的的行为，比如：登陆、浏览商品、加购物车、收藏、点赞、分享、视频播放、滑走视频等

# 2、什么是漏斗模型？
概念：是一种分析工具，用于理解和优化用户在产品或服务中的转化过程。它通常用于营销和销售领域，帮助企业识别用户在从初次接触产品到最终购买或完成目标行为的各个阶段中的流失点。

漏斗模型通常被分为6个阶段：
- 意识阶段：用户首次意识到产品或服务的存在。
- 兴趣阶段：用户对产品或服务产生兴趣，并可能进行进一步的探索。
- 考虑阶段：用户开始认真考虑是否要购买产品或使用服务。
- 评估阶段：用户比较不同的产品或服务选项，以决定哪一个最适合他们的需求。
- 购买/行动阶段：用户做出购买决定或采取行动，如注册、下载或购买。
- 留存阶段：用户购买后，企业需要确保用户满意并继续使用产品或服务



# 3、如何进行用户行为分析？
> 可以从事件分析、页面点击分析、漏斗模型分析、用户行为路径分析


- 事件分析：
    - 概念：研究某行为事件的发生对产品产生的影响以及影响程度。如用户注册、浏览产品详情页等，通过研究与事件发生关联的所有因素来挖掘用户行为事件背后的原因、交互影响等。
    - 场景：运营人员发现，7月12 日来自新浪渠道的 PV 数异常标高，因此需要快速排查原因：是异常流量还是虚假流量？（可以筛选广告系列来源为“新浪”的PV数据。再从其它多个维度进行细分下钻，比如“地理位置”、“时间”、“广告系列媒介”、“操作系统”、“浏览器”等）
    - 特点和价值：
        - 行为事件分析法具有强大的筛选、分组和聚合能力，逻辑清晰且使用简单，已被广泛应用。行为事件分析法一般经过事件定义与选择、下钻分析、解释与结论等环节。
        - 多维度下钻分析：最为高效的行为事件分析要支持任意下钻分析和精细化条件筛选。
        - **解释与结论。**此环节要对分析结果进行合理的理论解释，判断数据分析结果是否与预期相符，如判断产品的细节优化是否提升了触发用户数。如果相悖，则应该针对不足的部分进行再分析与实证。


- 页面点击分析：
    - 概念：点击分析被应用于显示页面区域中不同元素点击密度的图示
    - 场景：通常用于首页、活动页、产品详情页等存在复杂交互逻辑的页面分析。一般分为可视化热力图、固定埋点两种形式
    - 作用：
        - 精准评估用户与产品交互背后的深层关系
        - 实现产品的跳转路径分析，完成产品页面之间的深层次的关系需求挖掘
        - 与其他分析模型配合，全面视角探索数据价值
        - 直观的对比和分析用户在页面的聚焦度、页面浏览次数和人数以及页面内各个可点击元素的百分比

![页面点击热力图](./img/页面点击热力图.png)

- 漏斗模型分析：
    - 概念：漏斗分析是一套流程分析，它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型，漏斗分析模型广泛应用于流量监控、产品目标转化等日常数据运营工作中
    - 特点和价值：
        - 特点：对于业务流程相对规范、周期较长、环节较多的流程分析,能够直观地发现和说明问题所在；
        - 价值：业可以监控用户在各个层级的转化情况，聚焦用户选购全流程中最有效转化路径；同时找到可优化的短板，提升用户体验；降低流失是运营人员的重要目标，通过不同层级的转情况，迅速定位流失环节，针对性持续分析找到可优化点，如此提升用户留存率。
![漏斗分析图](./img/漏斗分析图.png)



- 用户行为路径分析：
    - 概念：了解用户从登录到购买整体行为的主路径和次路径，根据用户路径中各个环节的转化率，发现用户的行为规律和偏好，也可以用于监测和定位用户路径走向中存在的问题，判断影响转化的主要因素和次要因素，也可以发现某些冷僻的功能点
    - 价值和特点：
        - 路径分析对产品设计的优化与改进有着很大的帮助，了解用户从登录到购买整体行为的主路径和次路径，根据用户路径中各个环节的转化率，发现用户的行为规律和偏好，也可以用于监测和定位用户路径走向中存在的问题，判断影响转化的主要因素和次要因素，也可以发现某些冷僻的功能点。
        - 用户路径的分析结果通常以桑基图形式展现，以目标事件为起点／终点，详细查看后续／前置路径，可以详细查看某个节点事件的流向，科学的用户路径分析能够带来以下价值：可视化用户流，全面了解用户整体行为路径；定位影响转化的主次因素，产品设计的优化与改进有的放矢
    - 场景：某O2O服务平台。在一次评估客户总体转化率过程中，通过漏斗分析发现，从登录APP后，提交订单的商超客户仅有 30 %，接下来可以通过用户路径客户流失的原因所在。通过用户路径分析模型，清晰展示了商超客户的动作走向，为判断客户流失原因重要方式之一。
![用户路径分析例子](./img/用户路径分析例子.png)


# 4、什么是AARRR模型？
概念：AARRR模型是一个用于衡量和优化产品或服务的用户生命周期的营销框架。它由五个阶段组成，每个阶段的首字母共同构成了AARRR这个缩写

![AARRR模型](./img/AARRR模型.png)


# 总结
- 用户行为分析常用方法：
    - 时间分析
    - 页面点击分析
    - 漏斗模型分析
    - 用户行为路径分析
- AARRR模型
    - Acquisition（获得新用户）:PV、UV
    - Activation（用户激活）：用户活跃、按时间纬度
    - Retention（用户留存）：留存率（次日留存、七日留存）
    - Revenue（用户付费）：获取收入、用户购买率
    - Referral（用户推荐）：分享、朋友圈、砍一刀、返现、集满N人给优惠券

In [1]:
# 导入Pandas包（Pandas包在机器学习和数据分析中常用于数据分析、数据挖掘、数据探索）
import pandas as pd

# 加载数据
df = pd.read_csv('./file/customer_behavior.csv')
df.info()

In [2]:
# 去掉无用和为空数据
data = df[['cust_id', 'prod_id', 'group_id', 'be_type', 'day_id', 'buy_time']]
'''
    数据量：10224104条
    字段长度和为空字段：6 无
    字段类型：64位整型、数据类型
    占用内存：468.0+ MB
'''
data.info()
data.head()

In [3]:
# 数据类型转换

# 日期类型转换
data['day_id'] = pd.to_datetime(data['day_id'])

# 购买时间类型转换
data['buy_time'] = pd.to_datetime(data['buy_time'])

# 数据筛选，截取2019-11-05～2019-11-13 范围内数据
filter_condition = (data['buy_time'] >= '2019-11-05') & (data['buy_time'] <= '2019-11-13')
filter_data = data[filter_condition]
print(len(filter_data))
del data

In [10]:
filter_data.head()

In [11]:
filter_data.isnull().any()

In [4]:
# 提取day_id字段中年月日时星期
filter_data['month'] = filter_data['day_id'].dt.month
filter_data['buy_time'] = filter_data['day_id'].dt.date
filter_data['times'] = filter_data['day_id'].dt.time
filter_data['hours'] = filter_data['day_id'].dt.hour
filter_data['weekday'] = filter_data['day_id'].dt.dayofweek + 1
filter_data.head()

In [5]:
# 对数据进行分组
group_by_type_arr = ['be_type']
behavior_count = filter_data.groupby(group_by_type_arr)['cust_id'].count()

In [9]:
# 访问人数
PV = behavior_count['pv']
print(f'PV : {PV}%')

# 访问次数
UV = len(filter_data['cust_id'].unique())
print(f'UV : {UV}%')

# 平均访问量 = PV / UV
average_visit = PV / UV
print(f'average_visit : {average_visit}%')

In [13]:
# 计算跳失率
include_arr = ['cust_id']

filter_data_pv = filter_data.loc[filter_data['be_type'] == 'pv', include_arr]
filter_data_fav = filter_data.loc[filter_data['be_type'] == 'fav', include_arr]
filter_data_cart = filter_data.loc[filter_data['be_type'] == 'cart', include_arr]
filter_data_buy = filter_data.loc[filter_data['be_type'] == 'buy', include_arr]

# 只有点击行为的用户数/总用户数，总用户数即uv
data_pv_only = set(filter_data_pv['cust_id']) - set(filter_data_fav['cust_id']) - set(
    filter_data_cart['cust_id']) - set(filter_data_buy['cust_id'])
pv_only = len(data_pv_only)
print('跳失率为：%.2f%%' % (pv_only / UV * 100))

In [14]:
filter_data.head()

In [15]:
pv_day = filter_data[filter_data.be_type == 'pv'].groupby(['buy_time'])['be_type'].count()
pv_day

In [18]:
# 按天进行UV统计
uv_day = filter_data[filter_data.be_type == 'pv'].drop_duplicates(['cust_id', 'buy_time']).groupby(['buy_time'])[
    'cust_id'].count()
# uv_day = filter_data[filter_data.be_type == 'pv'].drop_duplicates(['cust_id', 'buy_time']).groupby('buy_time')['cust_id'].count()
uv_day

In [20]:
# 数据可视化
# 导入matplotlib包
import matplotlib.pyplot as plt

# 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 设置画布大小
plt.figure(figsize=(8, 5))

# 设置图数据和线宽
plt.plot(pv_day.index, pv_day.values, linewidth=4)

# 设置标题
plt.title('日点击量趋势图', fontsize=20)

# 设置x轴标签
plt.xlabel('日期', fontsize=10)

# 设置y轴标签
plt.ylabel('PV', fontsize=10)

In [27]:
# 绘制折线图
# 导入np包
import numpy as np

# 设置画布大小
plt.figure(figsize=(6, 6))

# 设置画布子图内容（参数一：垂直数量 参数二：水瓶数量 参数三：是否开启位置索引）
plt.subplot(2, 1, 1)

# 设置内容
plt.plot(range(len(pv_day.index)), pv_day.values)

# 设置x轴标签
plt.xticks(range(0, 9), '')

# 设置画布标题
plt.title('日独立访客数趋势图')

# 设置y标签
plt.ylabel('日访问人数')

# 设置每个节点信息
for a, b in zip(range(len(pv_day.index)), pv_day.values):
    plt.text(a, b, b, ha='center', va='bottom', fontsize=10)

plt.subplot(2, 1, 2)
plt.plot(range(len(pv_day.index)), uv_day.values)
pv_label = (
    '11-05 周二', '11-06 周三', '11-07 周四', '11-08 周五', '11-09 周六', '11-10 周日', '12-11 周一', '11-12 周二',
    '11-13 周三')
plt.xticks(np.arange(9), pv_label, rotation=45)
plt.title('日独立访客数趋势图')
plt.ylabel('日访问人数')
for a, b in zip(range(len(pv_day.index)), uv_day.values):
    plt.text(a, b, b, ha='center', va='bottom', fontsize=10)

# 展示内容
plt.show()

In [28]:
pv_hour = filter_data.groupby('hours')['cust_id'].count().reset_index().rename(columns={'用户ID': 'pv'})
uv_hour = filter_data.groupby('hours')['cust_id'].apply(lambda x: x.drop_duplicates().count()).reset_index().rename(
    columns={'用户ID': '时uv'})
pv_hour.head()

In [29]:
fig, axes = plt.subplots(2, 1, sharex=True)
pv_hour.plot(x='hours', y='cust_id', ax=axes[0])
uv_hour.plot(x='hours', y='cust_id', ax=axes[1])
plt.xticks(range(24), np.arange(24))
axes[0].set_title('按小时点击量趋势图')
axes[1].set_title('按小时独立访客数趋势图')

In [52]:
from datetime import datetime, timedelta, date
%matplotlib inline

def cal_retention(d, n):
    '''
        求用户的n日留存情况
    :param d: 数据源
    :param n: 留存天数
    :return:
    '''
    user = []
    date_arr = pd.Series(d['buy_time'].unique()).sort_values()[:-n]  #时间截取至最后一天的前n天
    retention_rates = []
    for i in date_arr:

        # 识别新用户，本案例中设初始用户量为零
        new_user = set(d[d['buy_time'] == i].cust_id.unique()) - set(user)

        # 将新用户加入用户群中
        user.extend(new_user)

        # 第n天留存情况
        user_n_day = d[d.buy_time == i + timedelta(n)].cust_id.unique()

        # 第n天登录的用户情况
        user_n_user = 0
        for cust_id in user_n_day:
            if cust_id in new_user:
                user_n_user += 1

        #计算该天第n日留存率
        retention_rate = user_n_user / len(new_user)
        retention_rates.append(retention_rate)  #汇总n日留存数据
    return pd.Series(retention_rates, index=date_arr)

In [53]:
data_retention = cal_retention(filter_data, 3)  #求用户的3日留存情况
data_retention

In [56]:
# 购买人数与购买率
buy_duplicates_arr = ['cust_id', 'buy_time']
day_buy_user_num = filter_data[filter_data.be_type == 'buy'].drop_duplicates(buy_duplicates_arr).groupby('buy_time')[
    'cust_id'].count()

active_duplicates_arr = ['cust_id', 'buy_time']
day_active_user_num = filter_data.drop_duplicates(active_duplicates_arr).groupby('buy_time')['cust_id'].count()

day_buy_rate = day_buy_user_num / day_active_user_num
attr = day_buy_user_num.index
v1 = day_buy_user_num.values
v2 = day_buy_rate.values

In [64]:

#设置线宽
plt.figure(figsize=(8, 5))
plt.plot(attr, v1, linewidth=4)
plt.xticks(rotation=45)
#设置图表标题，并给坐标轴添加标签
plt.title("日购买人数趋势图", fontsize=20)
plt.xlabel('日期', fontsize=10)
plt.ylabel('PV', fontsize=10)

In [66]:
#设置线宽
plt.figure(figsize=(8, 5))
plt.plot(attr, v2, linewidth=4)
plt.xticks(rotation=45)
#设置图表标题，并给坐标轴添加标签
plt.title("日购买率趋势图", fontsize=20)
plt.xlabel('日期', fontsize=10)
plt.ylabel('PV', fontsize=10)

In [67]:
df_repurchase = filter_data[filter_data.be_type == 'buy'].drop_duplicates(['cust_id', 'day_id']).groupby('cust_id')[
    'day_id'].count()
df_repurchase[df_repurchase >= 2].count() / df_repurchase.count()

In [68]:
data_AARR = filter_data.groupby('be_type')['cust_id'].count()
#点击量
pv_value = data_AARR['pv']
#收藏量
fav_value = data_AARR['fav']
#加购量
cart_value = data_AARR['cart']
#购买量
buy_value = data_AARR['buy']
##计算转化率，此处由于实际业务中用户收藏和加购没有先后顺序，所以二者合并后计算转化率
#收藏加购转化率
f_c_value = fav_value + cart_value
f_c_ratio = f_c_value / pv_value
print('收藏加购转化率为:%.2f%%' % (f_c_ratio * 100))
#购买转化率
buy_ratio = buy_value / pv_value
print('购买转化率为:%.2f%%' % (buy_ratio * 100))

In [69]:
# 准备漏斗数据
pv_users = filter_data[filter_data.be_type == 'pv']['cust_id'].count()
fav_users = filter_data[filter_data.be_type == 'fav']['cust_id'].count()
cart_users = filter_data[filter_data.be_type == 'cart']['cust_id'].count()
buy_users = filter_data[filter_data.be_type == 'buy']['cust_id'].count()
attr = ['点击', '加入购物车', '收藏', '购买']

In [72]:
import plotly.express as px

number_arr = [pv_users, cart_users, fav_users, buy_users]
data = dict(number=number_arr, stage=attr)
fig = px.funnel(data, x='number', y='stage')
fig.show()

In [75]:
product_buy = filter_data.loc[filter_data['be_type'] == 'buy', ['cust_id', 'group_id']]
product_buy_count = product_buy.groupby('group_id')['cust_id'].count().rename('销售次数')
product_buy_count = pd.DataFrame(product_buy_count)
#按照销售次数降序排序
product_buy_count = product_buy_count.sort_values(by='销售次数', axis=0, ascending=False)

In [76]:
product_buy_count = product_buy_count.iloc[:10, :]
product_buy_count

In [77]:
product_pv = filter_data.loc[filter_data['be_type'] == 'pv', ['cust_id', 'group_id']]
product_pv_count = product_pv.groupby('group_id')['cust_id'].count().rename('点击次数')
product_pv_count = pd.DataFrame(product_pv_count)
product_pv_count = product_pv_count.sort_values(by='点击次数', axis=0, ascending=False)
product_pv_count = product_pv_count.iloc[:10, :]
product_pv_count

In [78]:
columns_dict = {'pv': '点击量', 'fav': '收藏量', 'cart': '加购量', 'buy': '购买量'}
group_arr = ['group_id', 'be_type']
item_behavior = filter_data.groupby(group_arr)['cust_id'].count().unstack(1).rename(columns=columns_dict).fillna(0)
item_behavior.head()

item_behavior['转化率'] = item_behavior['购买量'] / item_behavior['点击量']
item_behavior.head()

In [79]:
top = pd.concat([product_buy_count, product_pv_count], axis=1, sort=False)
top