# 指标计算学习目标：
- 掌握数据指标的概念
- 知道常见业务指标的含义
- 掌握常用数据指标的计算方法


---

# 1、什么是数据指标？
概念：可将某个事件量化，且可形成数字，来衡量目标

# 2、常用的有哪些业务指标？
- 活跃用户指标：
    - 日活（DAU）：一天内日均活跃设备数(去重,有的公司启动过APP就算活跃，有的必须登录账户才算活跃)
    - 月活（MAU）：一个月内的活跃设备数(去重,一般用月活来衡量APP用户规模)。
    - 周活（WAU）：一周内活跃设备数(去重)
    - 活跃度（DAU/MAU）：体现用户的总体粘度，衡量期间内每日活跃用户的交叉重合情况
- 新增用户指标：
    - 日增注册用户数量：统计一天内，即指安装应用后，注册APP的用户数。
    - 周增注册用户数量：统计一周内，即指安装应用后，注册APP的用户数。
    - 月增注册用户数量：统计一月内，即指安装应用后，注册APP的用户数。
    - 注册转化率：从点击广告/下载应用到注册用户的转化。
    - DNU占比：新增用户占活跃用户的比例，可以用来衡量产品健康度
- 留存指标：
    - 次日留存率：某一统计时间段新增用户在第二天再次启动应用的比例
    - 七日留存率：某一统计时间段新增用户在第七天再次启动应用的比例（14/30日留存率以此类推）
- 行为指标：
    - 访问次数（PV）：一定时间内某个页面的浏览次数，用户每打开一个网页可以看作一个PV
    - 访问人数（UV）：一定时间内访问某个页面的人数
    - 转化率：
        - 淘宝店铺：转化率=购买产品的人数／所有到达店铺的人数
        - 广告业务：广告转化率=点击广告进入推广网站的人数／看到广告的人数
    - 转发率：转发某个功能用户数量/看到该功能的用户数量
- 产品数据指标：
    - 总成交额（GVM）：指总成交金额，对于零售行业就是所谓的“流水”，成交总额包括：销售额、取消订单金额、拒收订单金额、退货订单金额；成交数量就是下单产品数量
    - 人均付费：总收入/总用户数量（人均付费在游戏行业叫ARPU；电商行业叫客单价）
    - 付费用户人均付费（ARPPU）：总收入/付费人数
    - 付费率：付费人数/总用户数
    - 复购率：是指在一定时间内，用户重复购买的频率。消费两次以上用户/付费人数
- 推广付费指标：
    - 展示成本（CPM Cost Per Mille）：展示成本也叫千人展示成本（一般情况下APP启动开屏、视频贴片、门户Banner常见的都使用CPM收费）
    - 点击成本（CPC Cost Per Click）：没产生一次点击所花费的成本（一般搜索引擎的竞价排名，如谷歌、百度、360、搜狗竞价排名一般使用CPC收费模式，只要不点击就不产生费用）
    - 按投放实际效果付费（CPA Cost Per Action）：按照投放的世纪效果付费
    - 按APP下载数付费（CPD Cost Pre Download）：按照APP的下载数量付费
    - 按安装APP数量付费（CPI Cost Per Install）：按照安装APP数量付费，下载后有多少人安装
    - 按完策划难过购买的用户数或销售额来付费（CPS Cost Per Sales）：按完成购买用户数或者销售额来付费
# 3、如何选定指标？
- 好的数据指标应该是比例
- 根据目前业务重点，找到北极星指标（北极星指标没有唯一标准。不同的公司关注的业务重点不一样，同一家公司在不同的发展阶段，业务重点也不一样）

# 总结
- 我们可以用一套数据指标来衡量业务好坏
- 常用的业务指标：DAU、MAU、次留、七留、GMV、 PV、UV、CPC、CPD、ARPU、ARPPU
- 如何选定指标：
    - 大多数指标是比例：留存率、流失率、激活率、活跃率
    - 小部分指标是具体树枝：DAU、MAU、GMV
- Python指标计算：
    - pd.query()
    - pd.isin()
    - plt绘图


In [3]:
# 导入Pandas库（在数据分析和机器学习中，常用作数据清洗、数据分析、数据探索）
import pandas as pd

# 数据加载
data_1 = pd.read_excel('./file/online_retail_II.xlsx', sheet_name='Year 2009-2010')
data_2 = pd.read_excel('./file/online_retail_II.xlsx', sheet_name='Year 2010-2011')

In [None]:
data_1.info()
'''
    数据条目：525461条
    字段数据量和类型：7个字段，时间类型、浮点型、64位整型、对象类型
    存在空的字段：Description、Customer ID
    占用内存：32.1+ MB
'''
data_1.head()

In [5]:
data_2.info()
'''
    数据条目：541910
    字段数量和为有空值字段：7 Description、Customer ID
    字段类型：日期类型、64位浮点数、64位整型、对象类型
    占用内存：33.1+ MB
'''
data_2.head()

In [6]:
# 将两个sheet数据合并
data_sheet_arr = [data_1, data_2]
data = pd.concat(data_sheet_arr, ignore_index = True)
data.info()
'''
    数据量：1067371条
    字段数量和为空字段：7 Description、Customer ID
    字段类型：64位日期格式、64位浮点格式、64位整型、对象类型
    占用内存：65.1+ MB
    字段注释：
        CustomerID 用户ID
        UnitPrice 商品单价
        Quantity 商品购买数量
        InvoiceDate 购买日期
'''
data.head()

In [7]:
# 数据清洗，讲英文名替换中文
data.columns = ['订单编号','商品编号','商品描述','购买数量','购买时间','商品单价','用户ID','国家']
data.head()


In [8]:
data['购买时间'].describe()

# 查看数据分布情况
print(data.describe())

# 发现购买数量和商品单价最小值均小于零, 我们在计算GMV之类的指标时都不统计退货,所以需要处理这部分数据
print(data.query('购买数量 < 0 '))

# 通过dataframe 的query API查询 购买数量<0 和 商品单价<0的订单
# 购买数量< 0 订单的发票号码都是以C开头, 属于有退货的订单
print(data.query('商品单价 < 0'))

# price小于零的是坏账调整，我们把购买数量<0和商品单价<0的订单删除
data_clean = data.query('购买数量 > 0 & 商品单价 > 0')
print(data_clean.describe())

In [16]:
'''
    POST, DOT, C2 : 运费
    PADS, m, M : 配件
    B: 坏账调整
    BANK CHARGES, AMAZONFEE: 渠道费用
    TEST001, TEST002: 测试数据
'''
# 由于运费,包装费,银行的费用一般都计入到GMV中, 所以我们这里只是把['B','TEST001','TEST002'] 这几个去掉
data_clean = data_clean.query("(商品编号 != 'B') and (商品编号 != 'TEST001') and (商品编号 != 'TEST002')")
data_clean.shape

In [18]:
# 计算月交易额(月GMV)

# 添加一个表示交易的月份
data_clean['购买年月'] = data_clean['购买时间'].values.astype('datetime64[M]')

# 添加新列表示交易金额（单价*数量）按照月份分组，并计算每月总收入
data_clean['金额'] = data_clean['商品单价'] * data_clean['购买数量']
data_clean

# 对交易按照购买年份分组，计算每个月的GMV
group_by_arr = ['购买年月']
GMV_M = data_clean.groupby(group_by_arr)['金额'].sum().reset_index()
GMV_M


In [22]:
# 使用Pandas对数据做可视化

# 导入matplotlib包
import matplotlib.pyplot as plt

# 设置画布大小
plt.figure(figsize = (16, 6))

# 对金额绘制折线图
GMV_M['金额'].plot()

# 设置x轴展示长度范围，设置x轴标签，rotation:设置标签字体旋转45度
x_label_arr = GMV_M['购买年月'].astype('str').to_list()

plt.xticks(range(0, 25), x_label_arr, rotation = 45)

# 显示网格线
plt.grid(True)

'''
总结：从图上看出，我们的业务是具有周期性的，每年的三季度销售额开始上涨，从商品描述主要是圣诞新年礼品，印证了年底是销售旺季的原因
'''


In [24]:
# 计算月销售额的环比

# 导入matplotlib包
import matplotlib.pyplot as plt

GMV_M['月销售额环比'] = GMV_M['金额'].pct_change()
print(GMV_M.head())

# 绘制图形，可视化月销售额的环比数据
plt.figure(figsize =  (16, 6))

# 绘制月销售额的环比折线图
GMV_M['月销售额环比'].plot()

# 绘制X轴标签内容
plt.xticks(range(0, 25), x_label_arr, rotation = 45)

# 显示网格线
plt.grid(True)
'''
分析总结：
    - 一月份环比数据下跌明显，由于业务周期性的原因
    - 收入=活跃用户数 * 活跃用户平均消费金额，可以从月活跃用户数、活跃用户平均消费金额继续分析
'''


In [27]:
# 月均活跃用户分析

# 导入matplotlib模块
import matplotlib.pyplot as plt

# 去掉用户ID为空的数据
sub_set = ['用户ID']
data_clean.dropna(subset = sub_set, inplace = True)

# 根据用户购买年月分组
mau_group_by_arr = ['购买年月']
MAU = data_clean.groupby(mau_group_by_arr)['用户ID'].nunique().reset_index()

# 对字段进行重命名
MAU.columns = ['购买年月', '用户数']
print(MAU.head())

# 绘制一个16*6的绘图区域
plt.figure(figsize = (16, 6))

# 绘制“用户数”的条形图
MAU['用户数'].plot(kind = 'bar')

# 设置图例X轴标签
plt.xticks(range(0, 25), x_label_arr, rotation = 45)

# 显示图例网格
plt.grid(True)




In [34]:
# 月客单价（活跃用户平均消费金额）

# 导入matplotlib绘图工具
import matplotlib.pyplot as plt

ARPA = MAU.merge(GMV_M, on = '购买年月')
print(ARPA.head())
ARPA['客单价'] = ARPA['金额'] / ARPA['用户数']


plt.rcParams['font.family'] = ['sans-serif'] # 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['SimHei']

# 绘制16*6区域
plt.figure(figsize = (16, 6))

# 绘制“客单价”折线图
ARPA['客单价'].plot()

# 设置图例X轴标签
plt.xticks(range(0, 25), x_label_arr, rotation = 45)

# 设置标题
plt.title("2010 ~ 2011年月客单价")

# 设置显示网格
plt.grid(True)

In [39]:
# 新用户占比

# 获取用户最早购买数据
first_customer_order = data_clean.groupby('用户ID')['购买时间'].min().reset_index()

# 列重命名
first_customer_order.columns = ['用户ID', '首次购买时间']

# 增加新字段首次购买年月
first_customer_order['首次购买年月'] = first_customer_order['首次购买时间'].values.astype('datetime64[M]')
print(first_customer_order.head())

# 将首次购买日期和原始数据合并
data_clean = pd.merge(data_clean, first_customer_order, on = '用户ID')
print(data_clean.head())


In [44]:
# 增加“用户类型”字段区分新老用户
data_clean['用户类型'] = '新用户'
user_type_query = data_clean['购买年月'] > data_clean['首次购买年月']
data_clean.loc[user_type_query, '用户类型'] = '老用户'
data_clean['用户类型'].value_counts()

# 统计新用户老用户销售额
revenue_group_by_arr = ['购买年月', '用户类型']
revenue = data_clean.groupby(revenue_group_by_arr)['金额'].sum().reset_index()
print(revenue.head())

# 处理数据不全月份
incomplete_query = "购买年月 != '2009-12-01' and 购买年月 != '2011-12-01'"
revenue = revenue.query(incomplete_query)

# 新老用户数据可视化

# 绘制16*6区域
plt.figure(figsize = (16, 6))

# 绘制新老用户折线图
revenue[revenue['用户类型'] == '新用户']['金额'].plot()
revenue[revenue['用户类型'] == '老用户']['金额'].plot()

# 设置图例x标签
plt.xticks(range(0, 50, 2), x_label_arr, rotation = 45)

# 设置图例标题
plt.title('新老用户交易额的对比')

# 设置展示网格
plt.grid(True)

In [57]:
# 按月分组计算新用户和老用户数量，并计算新用户占比

user_ratio_query = "用户类型 == '新用户'"
user_ratio = data_clean.query(user_ratio_query).groupby(['购买年月'])['用户ID'].nunique().reset_index()
user_ratio.columns = ['购买年月', '新用户数']
print(user_ratio.head())

# 按月统计有购买的用户数量
total_user_group_by_arr = ['购买年月']
user_ratio['总用户数'] = data_clean.groupby(total_user_group_by_arr)['用户ID'].nunique().values

# 计算新用户占比
user_ratio['新用户占比'] = user_ratio['新用户数'] / user_ratio['总用户数']
user_ratio

In [None]:
# 切片获取
user_ratio[13:-1]

In [65]:
# 绘制新用户占比
plot_data = user_ratio[13:-1]

# 将购买年月转换成字符串之后作为行索引
ratio_x_label_arr = plot_data['购买年月'].astype(str).to_list()

# 绘制一个16*6区域
plt.figure(figsize = (16, 6))

# 绘制用户占比字段柱状图
plot_data['新用户占比'].plot(kind = 'bar')

# 设置图例x标签
plt.xticks(range(0, 11), ratio_x_label_arr, rotation = 45)

# 设置标题
plt.title('用户占比图')

# 设置网格图
plt.grid(True)

In [66]:
# 激活率计算

# 加载用户注册日期数据
retail = pd.read_csv('./file/retail_user_data.csv')
retail

In [70]:
retail['首次购买年月'] = retail['首次购买年月'].values.astype('datetime64[M]')
retail['注册年月'] = retail['注册年月'].values.astype('datetime64[M]')
retail['安装年月'] = retail['安装年月'].values.astype('datetime64[M]')
retail

In [72]:
# 统计每月激活用户数量
activation_condition = retail['首次购买年月'] == retail['注册年月']
activation_count = retail[activation_condition].groupby(['注册年月'])['用户ID'].count()

# 统计每月注册的用户数
register_count = retail.groupby('注册年月')['用户ID'].count()
# 计算激活率 = 每月激活用户/每月注册用户数
register_activation = activation_count / register_count
register_activation = register_activation.reset_index()
register_activation.head()

In [74]:
plot_data = register_activation[1:-1].reset_index()
plt.figure(figsize = (16,6))

# 绘制柱状图, 默认会使用行索引作为X轴标签
plot_data['用户ID'].plot(kind= 'bar')

plt.xticks(plot_data.index, plot_data['注册年月'].astype(str).to_list(),rotation = 45)
plt.title('用户每月激活率')
plt.grid(True)

In [75]:
#按渠道统计每月不同渠道的激活用户数
activation_count = retail[retail['首次购买年月'] == retail['注册年月']].groupby(['注册年月','渠道'])['用户ID'].count()

#按渠道统计每月注册用户数
register_count = retail.groupby(['注册年月','渠道'])['用户ID'].count()
#计算不同渠道激活率
activation_ratio = activation_count / register_count
activation_ratio = activation_ratio.reset_index()
activation_ratio

In [76]:
# 提取各渠道2010年的激活数据用于可视化
data_wechat = activation_ratio.query("注册年月 > 20091201 and 注册年月 < 20110101 and 渠道 == '微信'").reset_index()
data_baidu = activation_ratio.query("注册年月 > 20091201 and 注册年月 < 20110101 and 渠道 == '百度'").reset_index()
data_tiktok = activation_ratio.query("注册年月 > 20091201 and 注册年月 < 20110101 and 渠道 == '抖音'").reset_index()

In [78]:
# 渠道激活率可视化
plt.figure(figsize = (16,6))
# 微信渠道
data_wechat['用户ID'].plot()

# 百度渠道
data_baidu['用户ID'].plot()

#抖音渠道
data_tiktok['用户ID'].plot()

#获取年月信息作为行标签 设置X轴标签

plt.xticks(data_wechat.index,  data_tiktok['注册年月'].astype(str).to_list(),rotation=45) 
plt.title('渠道激活率')
plt.grid(True)

In [79]:
# 月留存率

# 统计每月用户购买情况
user_purchase = data_clean.groupby(['用户ID','购买年月'])['购买数量'].sum().reset_index()

#创建透视表,有购买的月份对购买数量求和, 没有购买的月份补0
user_retention = user_purchase.pivot_table(index = '用户ID',columns= '购买年月',values='购买数量').fillna(0)
user_retention

In [80]:
months = user_retention.columns[1:-1]
months

In [81]:
retention_list = []
for i in range(len(months)-1):
    # 创建字典,用来记录每一个字段的计算结果
    retention_ = {}
    # 当前的月份
    selected_mon = months[i]  #
    #下一个月份
    next_mon = months[i+1]  #
    #创建一列,用来记录当前的月份
    retention_['购买年月'] = selected_mon
    #前一个月有购买的用户数量
    retention_['总用户数'] = sum(user_retention[selected_mon]>0) #201001 所有有购买的用户数量
    #当前月和前一个月都有购买的用户数量
    activate_condition = (user_retention[selected_mon]>0) & (user_retention[next_mon]>0)
    retention_['留存用户数'] = user_retention[activate_condition][selected_mon].count()
    #把数据保存到list当中
    retention_list.append(retention_)

#把list中的数据转变成 dataframe 并计算留存率
monthly_retention = pd.DataFrame(retention_list)
monthly_retention['留存率'] = monthly_retention['留存用户数']/monthly_retention['总用户数']
monthly_retention

In [82]:
plt.figure(figsize = (16,6))
monthly_retention['留存率'].plot()
plt.xticks(monthly_retention.index, monthly_retention['购买年月'].astype(str).to_list(),rotation=45)
plt.title('每个月的月留存率')
plt.grid(True)