## RFM用户分析模型

- R :  Rencency，即每个客户最近一次购买到现在隔了多少天。
- F :  Frequency，是每个客户购买了多少次。
- M :  Monetary，代表每个客户平均购买金额，也可以是累计购买金额。

In [1]:
import pandas as pd
import numpy as np
import os

### 1. 数据概览

In [2]:
df = pd.read_excel('PYTHON-RFM数据.xlsx')
df.head()

Unnamed: 0,品牌名称,买家昵称,付款日期,订单状态,实付金额,邮费,省份,城市,购买数量
0,数据不吹牛,叫我李2,2019-01-01 00:17:59,交易成功,186,6,上海,上海市,1
1,数据不吹牛,0cyb1992,2019-01-01 00:59:54,交易成功,145,0,广东省,广州市,1
2,数据不吹牛,萝污萌莉,2019-01-01 07:48:48,交易成功,194,8,山东省,东营市,1
3,数据不吹牛,atblovemyy,2019-01-01 09:15:49,付款以后用户退款成功，交易自动关闭,84,0,江苏省,镇江市,1
4,数据不吹牛,小星期鱼,2019-01-01 09:59:33,付款以后用户退款成功，交易自动关闭,74,0,上海,上海市,1


- 订单每一行代表着单个用户的单次购买行为，即：如果一个用户在一天内购买了4次，订单表对应记录着4行，而在实际的业务场景中，一个用户在一天内的多次消费行为，应该从整体上看作一次。

In [3]:
df['订单状态'].unique()  # 查看所有的订单状态

array(['交易成功', '付款以后用户退款成功，交易自动关闭'], dtype=object)

- 在订单状态中，只有交易成功和用户退款导致交易关闭两种状态，其中退款订单对于RFM用户模型价值不大，需要在后续清洗中剔除。

In [4]:
df.info()  # 观察数据类型和缺失情况

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28833 entries, 0 to 28832
Data columns (total 9 columns):
品牌名称    28833 non-null object
买家昵称    28833 non-null object
付款日期    28833 non-null datetime64[ns]
订单状态    28833 non-null object
实付金额    28833 non-null int64
邮费      28833 non-null int64
省份      28833 non-null object
城市      28832 non-null object
购买数量    28833 non-null int64
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 2.0+ MB


- 订单一共28833行，只有城市列存在1个空值,由于分析的数据来自线上，不需要对个城市进行分析，所以该缺失值对要构建的RFM模型无影响，可以忽略。

    类型方面，付款日期是时间格式，实付金额、邮费和购买数量是数值型，其他均为字符串类型。

### 2. 数据清洗

In [5]:
# 剔除退款数据
df_drop = df[df['订单状态']=='交易成功']
df_drop.head()
print(f'剔除退款后还剩：{len(df_drop)}行')

Unnamed: 0,品牌名称,买家昵称,付款日期,订单状态,实付金额,邮费,省份,城市,购买数量
0,数据不吹牛,叫我李2,2019-01-01 00:17:59,交易成功,186,6,上海,上海市,1
1,数据不吹牛,0cyb1992,2019-01-01 00:59:54,交易成功,145,0,广东省,广州市,1
2,数据不吹牛,萝污萌莉,2019-01-01 07:48:48,交易成功,194,8,山东省,东营市,1
5,数据不吹牛,重碎叠,2019-01-01 10:00:07,交易成功,197,0,江苏省,南京市,1
6,数据不吹牛,iho_jann,2019-01-01 10:00:08,交易成功,168,0,广东省,广州市,1


剔除退款后还剩：27793行


- RFM模型只需要买家昵称，付款时间和实付金额这3个关键字段，故提取之：

In [6]:
# 提取关键字段
df_clean=df_drop[['买家昵称','付款日期','实付金额']]
df_clean.head()

Unnamed: 0,买家昵称,付款日期,实付金额
0,叫我李2,2019-01-01 00:17:59,186
1,0cyb1992,2019-01-01 00:59:54,145
2,萝污萌莉,2019-01-01 07:48:48,194
5,重碎叠,2019-01-01 10:00:07,197
6,iho_jann,2019-01-01 10:00:08,168


- **关键字段构造**
    
    构建模型所需的三个字段：R（最近一次购买距今多少天)，F（购买了多少次）以及M（平均或者累计购买金额）

① R值，即每个用户最后一次购买时间距今多少天。如果用户只下单过一次，用现在的日期减去付款日期即可；若是用户多次下单，需先筛选出这个用户最后一次付款的时间，再用今天减去它（这里把**订单生成日期“2019-7-1”**当作“今天”）。

In [7]:
# 筛选所有用户最近一次付款时间
r=df_clean.groupby('买家昵称')['付款日期'].max().reset_index()

# 计算R值（最近一次购买距今多少天)
r['R']=(pd.to_datetime('2019-7-1')-r['付款日期']).dt.days

r=r[['买家昵称','R']]
r.head()

Unnamed: 0,买家昵称,R
0,.blue_ram,146
1,.christiny,152
2,.willn1,170
3,.托托m,170
4,0000妮,2


② F值，即每个用户累计购买频次（单个用户一天内多次订单算作一次）。

In [8]:
# 引入日期标签
df_clean['日期标签'] = df_clean['付款日期'].astype(str).str[:10]

# 合并单个用户一天内的多次订单
f = df_clean.groupby(['买家昵称', '日期标签'])['付款日期'].count().reset_index()

# 统计同日订单合并后的用户购买频次
f = f.groupby('买家昵称')['付款日期'].count().reset_index()
f.columns=['买家昵称','F']  # 修改列名
f.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,买家昵称,F
0,.blue_ram,1
1,.christiny,1
2,.willn1,1
3,.托托m,1
4,0000妮,1


③ M值,即用户平均购买金额。

In [9]:
# 计算各用户的总支付金额
sum_m = df_clean.groupby('买家昵称')['实付金额'].sum().reset_index()
sum_m.rename(columns={'实付金额': '总支付金额'}, inplace=True)  # 修改列名

# 连接购买频次表
m=pd.merge(sum_m,f,left_on='买家昵称',right_on='买家昵称',how='inner')

# 计算用户平均支付金额
m['M']=m['总支付金额']/m['F']
m.head()

Unnamed: 0,买家昵称,总支付金额,F,M
0,.blue_ram,49,1,49.0
1,.christiny,183,1,183.0
2,.willn1,34,1,34.0
3,.托托m,37,1,37.0
4,0000妮,164,1,164.0


In [10]:
# 合并R、F、M三个指标
rfm=pd.merge(r,m,left_on='买家昵称',right_on='买家昵称',how='inner')
rfm=rfm[['买家昵称','R','F','M']]
rfm.head()

Unnamed: 0,买家昵称,R,F,M
0,.blue_ram,146,1,49.0
1,.christiny,152,1,183.0
2,.willn1,170,1,34.0
3,.托托m,170,1,37.0
4,0000妮,2,1,164.0


### 3. 维度打分

- 维度确认的核心是分值确定，按照设定的标准，给每个消费者的R/F/M值打分，分值的大小取决于个人偏好，即个人越喜欢的行为，打的分数就越高：

    以R值为例，R代表了用户有多少天没来下单，这个值越大，用户流失的可能性越大，当然我们不希望用户流失，所以R越大，分值越小。F值代表了用户购买频次，M值则是用户平均支付金额，这两个指标是越大越好，即数值越大，得分越高。


- RFM模型中打分一般采取5分制，有两种比较常见的方式，一种是按照数据的分位数来打分，另一种是依据数据和业务的理解，进行分值的划分。这里使用的是第二种，即提前制定好不同数值对应的分值。

**R值**
根据行业经验，设置为30天一个跨度，区间左闭右开：
![R值](./picture/R值.png)

**F值**
和购买频次挂钩，每多一次购买，分值就多加一分：
![F值](./picture/F值.png)

**M值**
先做个简单的区间统计，然后分组，这里按照50元的一个区间来进行划分：
![M值](./picture/M值.png)

### 4. 分值计算

In [11]:
# 给R、F、M分组打分
rfm['R-score']=pd.cut(rfm['R'],bins=[0,30,60,90,120,100000],labels=[5,4,3,2,1],right=False).astype(float)
rfm['F-score']=pd.cut(rfm['F'],bins=[1,2,3,4,5,100000],labels=[1,2,3,4,5],right=False).astype(float)
rfm['M-score']=pd.cut(rfm['M'],bins=[0,50,100,150,200,100000],labels=[1,2,3,4,5],right=False).astype(float)
rfm.head()

Unnamed: 0,买家昵称,R,F,M,R-score,F-score,M-score
0,.blue_ram,146,1,49.0,1.0,1.0,1.0
1,.christiny,152,1,183.0,1.0,1.0,4.0
2,.willn1,170,1,34.0,1.0,1.0,1.0
3,.托托m,170,1,37.0,1.0,1.0,1.0
4,0000妮,2,1,164.0,5.0,1.0,4.0


- 判断每个客户的R、F、M值是否大于平均值（0表示小于平均值，1表示大于平均值），整体组合，产生8种类别客户：

In [12]:
# 判断用户的R、F、M分值是否大于平均值：
rfm['R是否大于均值']=(rfm['R-score']>rfm['R-score'].mean())*1
rfm['F是否大于均值']=(rfm['F-score']>rfm['F-score'].mean())*1
rfm['M是否大于均值']=(rfm['M-score']>rfm['M-score'].mean())*1
rfm.head()

Unnamed: 0,买家昵称,R,F,M,R-score,F-score,M-score,R是否大于均值,F是否大于均值,M是否大于均值
0,.blue_ram,146,1,49.0,1.0,1.0,1.0,0,0,0
1,.christiny,152,1,183.0,1.0,1.0,4.0,0,0,1
2,.willn1,170,1,34.0,1.0,1.0,1.0,0,0,0
3,.托托m,170,1,37.0,1.0,1.0,1.0,0,0,0
4,0000妮,2,1,164.0,5.0,1.0,4.0,1,0,1


### 5. 客户分层

- RFM经典的分层会按照R/F/M每一项指标是否高于平均值，把用户划分为8类，总结如下：

![RFM客户分层](./picture/RFM客户分层.png)

In [13]:
# 引入辅助列，把之前判断的R、F、M是否大于均值的三个值串联起来：
rfm['人群数值']=rfm['R是否大于均值']*100+rfm['F是否大于均值']*10+rfm['M是否大于均值']
rfm.head()

Unnamed: 0,买家昵称,R,F,M,R-score,F-score,M-score,R是否大于均值,F是否大于均值,M是否大于均值,人群数值
0,.blue_ram,146,1,49.0,1.0,1.0,1.0,0,0,0,0
1,.christiny,152,1,183.0,1.0,1.0,4.0,0,0,1,1
2,.willn1,170,1,34.0,1.0,1.0,1.0,0,0,0,0
3,.托托m,170,1,37.0,1.0,1.0,1.0,0,0,0,0
4,0000妮,2,1,164.0,5.0,1.0,4.0,1,0,1,101


辅助列“人群数值”是数值类型，位于前面的0会自动略过，如1代表着“001”的高消费唤回客户人群，10对应着“010”的一般客户。

- **基于指标给客户打标签**

    定义一个判断函数，通过判断人群数值的值，返回对应的分类标签：

In [14]:
# 判断R、F、M是否大于均值
def tag_label(x):
    if x==111:
        label='重要价值客户'
    elif x==110:
        label='消费潜力客户'
    elif x==101:
        label='频次深耕客户'
    elif x==100:
        label='新客户'
    elif x==11:
        label='重要价值流失预警客户'
    elif x==10:
        label='一般客户'
    elif x==1:
        label='高消费唤回客户'
    else:
        label='流失客户'
    return label

In [15]:
# 把标签分类函数应用到人群数值列
rfm['人群类型']=rfm['人群数值'].apply(tag_label)
rfm.head()

Unnamed: 0,买家昵称,R,F,M,R-score,F-score,M-score,R是否大于均值,F是否大于均值,M是否大于均值,人群数值,人群类型
0,.blue_ram,146,1,49.0,1.0,1.0,1.0,0,0,0,0,流失客户
1,.christiny,152,1,183.0,1.0,1.0,4.0,0,0,1,1,高消费唤回客户
2,.willn1,170,1,34.0,1.0,1.0,1.0,0,0,0,0,流失客户
3,.托托m,170,1,37.0,1.0,1.0,1.0,0,0,0,0,流失客户
4,0000妮,2,1,164.0,5.0,1.0,4.0,1,0,1,101,频次深耕客户


### 6. RFM模型结果分析

一切模型结果最终都要服务于业务，所以基于现有模型结果做一些拓展、探索性分析。
- **查看各类用户占比情况：**

In [16]:
rfm_count=rfm['人群类型'].value_counts().reset_index()
rfm_count.columns=['客户类型','用户数']
rfm_count['用户占比']=rfm_count['用户数']/rfm_count['用户数'].sum()
rfm_count

Unnamed: 0,客户类型,用户数,用户占比
0,高消费唤回客户,7338,0.28867
1,流失客户,6680,0.262785
2,频次深耕客户,5427,0.213493
3,新客户,4224,0.166168
4,重要价值客户,756,0.02974
5,消费潜力客户,450,0.017703
6,重要价值流失预警客户,360,0.014162
7,一般客户,185,0.007278


![各类型客户人数分布及占比](./picture/各类型客户人数分布及占比.png)

- **探究不同类型客户消费金额贡献占比：**

In [17]:
rfm['购买总金额']=rfm['F']*rfm['M']
rfm_money=rfm.groupby('人群类型')['购买总金额'].sum().reset_index()
rfm_money.columns=['客户类型','消费金额']
rfm_money['消费金额占比']=rfm_money['消费金额']/rfm_money['消费金额'].sum()
rfm_money

Unnamed: 0,客户类型,消费金额,消费金额占比
0,一般客户,25803.0,0.007349
1,新客户,270869.0,0.077142
2,流失客户,444617.0,0.126624
3,消费潜力客户,64075.0,0.018248
4,重要价值客户,269230.0,0.076675
5,重要价值流失预警客户,116665.0,0.033226
6,频次深耕客户,981893.0,0.279638
7,高消费唤回客户,1338153.0,0.381098


![各类型客户消费金额及金额占比](./picture/各类型客户消费金额及金额占比.png)