# app客户流失及客户行为偏好分析

分类信息app，通过数据挖掘分析影响用户流失的关键因素、深入了解用户行为偏好以此做出调整，提升客户留存率，增强客户黏性，并通过随机森林算法预测客户流失，通过特征创造使模型分数提高2个百分点。

**项目内容:**

探索数据分布，缺失情况，针对性的进行缺失值填补，对于缺失较少的重要特征选择随机森林缺失填补法，使用3sigma、箱型图分析等对异常值进行处理，对分类型变量进行编码。
使用方差过滤、F检验过滤掉一部分特征，进行WOE分箱，对每个特征分箱结果进行可视化，分析每个特征分箱情况并以此分析 用户行为偏好，使用各个特征的IV值进一步筛选特征。
训练随机森林模型，模型调参、评估，输出模型，以此模型对用户流失进行预测，以便针对性地挽留用户。训练逻辑回归模型，通过其算法可解释性强的特点(特征系数)来对用户流失关键因素进行阐述。

**使用工具:**

python、pandas、numpy、matplotlib、seaborn、sklearn库

# 1 项目背景

## 1.1 项目目的

深入了解用户画像及行为偏好，挖掘出影响用户流失的关键因素，并通过算法预测客户访问的转化结果，从而更好地完善产品设计、提升用户体验！

## 1.2 数据说明

此次数据是携程用户一周的访问数据，为保护客户隐私，已经将数据经过了脱敏，和实际商品的订单量、浏览量、转化率等有一些差距，不影响问题的可解性。

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
columns = pd.read_excel("./file/字段说明.xlsx")
columns

## 1.3 模型选择

本次项目主要从三个方面来分析，客户流失、客户转化和客户价值。

- 客户流失
    - 目标变量label表示是否流失，是0-1二分类问题，目的是需要挖掘出关键因素，拟选用逻辑回归做模型训练及预测。

- 客户转化
    - 预测客户转化率，是连续型变量预测问题，拟选择集成数模型——随机森林回归。

- 客户价值
    - 为了更加细致的挖掘客户价值，选择RFM客户价值模型进行分析。

# 2 数据清洗

In [None]:
plt.rcParams["font.family"] = ["Arial Unicode MS"]
plt.rcParams['axes.unicode_minus']=False

## 2.1 导入数据

In [None]:
data = pd.read_table("./file/userlostprob.txt")
data.head()

## 2.2 数据探索性分析

In [None]:
data.shape

In [None]:
data.info()

### 重复值

In [None]:
data.drop_duplicates(inplace=True)
data.shape

### 缺失值

In [None]:
null_ = data.isna().mean().reset_index().sort_values(by=0)
null_1 = null_.rename(columns = {"index":"特征", 0:"缺失比"}).reset_index(drop=True)

In [None]:
null_1

In [None]:
plt.figure(figsize=(6, 6))
plt.barh(null_1.特征, null_1.缺失比, label="缺失比")
plt.legend(loc=4)
plt.ylabel("特征变量", fontsize=15)

In [None]:
null_.rename(columns={"index":"特征", 0:"缺失比"}).set_index("特征")

In [None]:
# 可视化缺失值
import missingno as msno
msno.matrix(data, labels=True)

In [None]:
# 删除缺失比例最高的列
data = data.drop(columns=["historyvisit_7ordernum"])

### 异常值

In [None]:
data.describe(percentiles=[0.01, 0.25, 0.5, 0.75, 0.99], include="all").T

In [None]:
# 箱线图
import seaborn as sns

sns.violinplot(x=data['lasthtlordergap'])

#### 定义盖帽法处理异常值

In [None]:
data.loc[:, ['lowestprice','lowestprice_pre']].describe(percentiles=[0.1, 0.25, 0.5, 0.75, 0.99]).T

In [None]:
def block_lower(x):
    # x是输⼊入的Series对象,替换1%分位数
    q1 = x.quantile(.99)
    out = x.mask(x<q1)
    return out

def block_upper(x):
    # x是输⼊入的Series对象,l替换99%分位数
    qu = x.quantile(.99)
    out = x.mask(x>qu, qu)
    return(out)

In [None]:
# 应用盖帽法
data.loc[:, ['lowestprice','lowestprice_pre']] = data.loc[:, ['lowestprice','lowestprice_pre']].apply(block_lower)
data.loc[:, ['lowestprice','lowestprice_pre']] = data.loc[:, ['lowestprice','lowestprice_pre']].apply(block_upper)

In [None]:
data.loc[:, ['lowestprice','lowestprice_pre']].describe(percentiles=[0.1, 0.25, 0.5, 0.75, 0.99]).T

# 3 划分测试集和训练集

In [None]:
# 备份数据
data_copy = data.copy()

In [None]:
from sklearn.model_selection import train_test_split

X = data_copy.iloc[:,2:]   # 特征
y = data_copy.label    # 目标值
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=666)

In [None]:
# 特征创造
date_train = X_train.iloc[:, :2]
date_test = X_test.iloc[:, :2]
date_train.reset_index(drop=True)
date_test.reset_index(drop=True)

**知识点：object数据类型是dataframe中特殊的数据类型,当某一列出现数字、字符串、特殊字符和时间格式两种及以上时,就会出现object类型,即便把不同类型的拆分开,仍然是object类型.**

In [None]:
col_no = ['sid', 'iforderpv_24h', 'h']    # 没有缺失值的特征
col_clf = ['decisionhabit_user']    # 分类型变量
# 筛选包含负值的列
dfc = pd.DataFrame([{k: False if str(t) == "object" else (data.loc[:, [k]]<0).any().all() for k, t in data.dtypes.to_dict().items()}]).T.reset_index().rename(columns={"index":"column_name", 0:"isnegative"})
col_neg = dfc[dfc["isnegative"]==True].column_name.to_list()
# std>100
col_std = data.columns[data.describe(include="all").T["std"] > 100].to_list()   
col_std.remove("sampleid")
col_std.remove("delta_price1")
col_std.remove("delta_price2")
col_std.remove("lasthtlordergap")

In [None]:
col_35 = null_1[(null_1.缺失比 >= 0.35) & (null_1.缺失比 <= 0.55)].特征.to_list()

In [None]:
cols = X.columns.to_list()
col_norm = list(set(cols)-set(col_clf + col_std + col_neg + col_no +col_35))
col_norm.remove("d")
col_norm.remove("arrival")
col_norm

# 4 缺失值填补

- 分类型变量用 '众数填补' —— col_clf
- 含有负数的特征用 '中值填补' —— col_neg
- std > 100 方差大于100的连续型变量用 '中值填补' —— col_std
- 缺失35%——55%用 '常数 -1 填充' 单独做一类
- 其余变量用 '均值填补' —— col_norm

**知识点：过拟合：算法具有高方差（用比较多的变量x去拟合数据集，但是数据量不足以多去约束这些变量，导致这个算法用到新的样本集中去时，表现效果不好，即泛化能力差）。**

In [None]:
X_train.loc[:, col_clf] = X_train.loc[:, col_clf].fillna(X_train.loc[:, col_clf].mode())
X_train.loc[:, col_neg] = X_train.loc[:, col_neg].fillna(X_train.loc[:, col_neg].median())
X_train.loc[:, col_std] = X_train.loc[:, col_std].fillna(X_train.loc[:, col_std].median())
X_train.loc[:, col_35] = X_train.loc[:, col_35].fillna(-1)
X_train.loc[:, col_norm] = X_train.loc[:, col_norm].fillna(X_train.loc[:, col_norm].mean())

In [None]:
X_test.loc[:,col_clf] = X_test.loc[:, col_clf].fillna(X_test.loc[:, col_clf].mode())
X_test.loc[:, col_neg] = X_test.loc[:, col_neg].fillna(X_test.loc[:, col_neg].median())
X_test.loc[:, col_std] = X_test.loc[:, col_std].fillna(X_test.loc[:, col_std].median())
X_test.loc[:, col_35] = X_test.loc[:, col_35].fillna(-1)
X_test.loc[:, col_norm] = X_test.loc[:, col_norm].fillna(X_test.loc[:, col_norm].mean())

#### 检查缺失值填补情况

In [None]:
X_train.isna().any().sum()

In [None]:
X_test.isna().any().sum()

# 5 特征选择

In [None]:
y.value_counts()

In [None]:
500588/189357

In [None]:
y.shape

In [None]:
X.shape

In [None]:
X_train.describe().T

本次选用简单粗暴的方差过滤、F_检验、 以及嵌入法特征选择，利用树模型的特征重要性输出结合模型效果，选择对模型贡献最大的那个几个变量。事实证明，此方法效果明显，最后成功选择出8个特征。

| 方法 |	说明 |
| :------: | :------: |
| 方差过滤	| 方差等于0 的直接过滤，结果无过滤特征 |
| F_检验	| 过滤没有相关性的变量。pvalues_f < 0.01 直接过滤，过滤掉6个特征 |
| 嵌入法特征选择 | 经过选择，等到贡献最大的8个特征 |

### 方差过滤

In [None]:
from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold()
X_train_var0 = selector.fit_transform(X_train.iloc[:,2:])
X_train_var0.shape

In [None]:
X_train.iloc[:,2:].shape

In [None]:
selector.feature_names_in_     # 查看模型拟合时导入的特征名称
selector.get_feature_names_out()     # 查看被留下特征的字符名称
selector.variances_    # 每个特征对应的方差值