In [None]:
任务描述：
随着电信行业的不断发展，运营商们越来越重视如何扩大其客户群体。据研究，获取新客户所需的成本远高于保留现有客户的成本，因此为了满足在激烈竞争中的优势，保留现有客户成为
一大挑战。对电信行业而言，可以通过数据挖掘等方式来分析可能影响客户决策的各村因素，以预测他们是否会产生流失（停用服务、转投其他运营商等）。

In [None]:
数据集：
数据集一共提供了7043条用户样本，每条样本包含21列属性，由多个维度的客户信息以及用户是否最终流失的标签组成，客户信息具体如下：
基本信息：包括性别、年龄、经济情况、入网时间等；
开通业务信息：包括是否开通电话业务、互联网业务、网络电视业务、技术支持业务等；
签署的合约信息：包括合同年限、付款方式、每月费用、总费用等。

In [None]:
工作流程：数据预处理、可视化分析、特征工程、模型预测、模型评估、分析与决策。

In [None]:
一：导包以及显示设置

In [None]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.neighbors import NearestNeighbors
import lightgbm
import random
import time
import sys
import warnings
warnings.filterwarnings('ignore')  # 设置忽略警告

plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置为黑体
plt.rcParams['axes.unicode_minus'] = False    # 解决负号显示问题:cite[1]:cite[3]:cite[6]

np.set_printoptions(precision=3, suppress=True)
pd.set_option('display.float_format', lambda x: '%.2f' % x) # 禁用科学计数法

pd.set_option('display.max_columns', None)  # 显示所有列
pd.set_option('display.max_rows', None)     # 显示所有行


In [None]:
二、数据导入（数据由kaggle下载）

In [None]:
data = pd.read_csv('D:\ProgramData\PycharmProjects\pythonProject1\WA_Fn-UseC_-Telco-Customer-Churn.csv')
# print(data.head(10))
# print(data.describe())
# print('-' * 50)
# print(data.isnull().any())
data[data['TotalCharges'] == '']

In [None]:
通过查看数据信息分析可以知道，21列原始属性中，除了最后一列Chun表示该数据集的目标变量（即标签列）外，其余20列按照原始数据集中的排列顺序网好可以分为三类特征群：
客户的基本信息、开通业务信息、签署的合约信息。每一列具体信息如下：
基本信息：0-5列
业务信息：6-12列
19合约信息：13-20列

In [None]:
三、异常值、缺失值处理

In [None]:
# 方式1: 固定值填充
# fnDF = data['TotalCharges'].fillna(0).to_frame()
# print('如果采用固定值填充方法还存在%s行缺失样本' % fnDF['TotalCharges'].isnull().sum())

In [None]:
# 方式2: 特殊值填充
# 特殊值填充，这里结合实际情况发现TotalCharges和MonthCharges有一定关系
# 且入网月数为0时，仍然收取了一个月的费用，所以这里我们用MonthCharges填充TotalCharges是合理的

In [None]:
data['TotalCharges'] = data ['TotalCharges'].apply(pd.to_numeric, errors='coerce')
print('此时TotalCharges已转为浮点型：', data['TotalCharges'].dtype == 'float')
print('此时TotalCharges存在%s行缺失样本' % data['TotalCharges'].isnull().sum())# 查看缺失行数
data['TotalCharges'] = data['TotalCharges'].fillna(data['MonthlyCharges'])  # 。fillna 填充
print('如果采用特殊值填充方法还存在%s行缺失样本' % data ['TotalCharges'].isnull().sum())
print(data.describe())

In [None]:
四、可视化分析

In [None]:
# 1.箱型图可视化分析百分比trenure特征  boxplot

In [None]:
fig = plt.figure(figsize=(9, 6))

# trenure特征
ax1 = fig.add_subplot(311) # 子图1
list1 = list(data['tenure'])
ax1.boxplot(list1, vert=False, showmeans=True, flierprops={'marker':'o', 'markerfacecolor':'steelblue'})
ax1.set_title('tenure')

ax2 = fig.add_subplot(312)
list2 = list(data['MonthlyCharges'])
ax2.boxplot(list2,vert=False, showmeans=True, flierprops={'marker':'o','markerfacecolor':'steelblue'})
ax2.set_title('MonthlyCharges')

ax3 = fig.add_subplot(313)
list3 = list(data['TotalCharges'])
ax3.boxplot(list3,vert=False, showmeans=True, flierprops={'marker':'o','markerfacecolor':'steelblue'})
ax3.set_title('TotalCharges')

plt.tight_layout(pad = 1.5) # 子图之间的间距
plt.show()

In [None]:
由上图的箱型图可以看出来tenure、MonthlyCharges及经过处理的TotalCharges特征均不含离群点，即异常值。

In [None]:
# 可视化分析流失客户占比
p = data['Churn'].value_counts()  #  目标变量的正负样本分布

plt.figure(figsize=(9,6))

patchs, l_text, p_text = plt.pie(p, labels=['No', 'Yes'], autopct='%1.2f%%', explode=(0.1, 0))
for t in p_text:
    t.set_size(15) # 文字大小
for t in l_text:
    t.set_size(15)

plt.show()

In [None]:
# 2.对三个类别的特征属性分别分析，客户对流失的影响

In [None]:
# （1）基本特征
baseCols = ['gender','SeniorCitizen','Partner','Dependents']

for i in baseCols:
    cnt = pd.crosstab(data[i], data['Churn']) # 构建基本特征与目标特征的列联表
    # pd.crosstab()函数，这是一个非常实用的pandas交叉表函数。
    # 必需参数
    # index：行 索引（数组、Series或列表）
    # columns：列 索引（数组、Series或列表）
    # 常用可选参数
    # values：要聚合的数值列
    # aggfunc：聚合函数（当指定values时使用），默认为计数
    # margins：是否添加行列总计，默认为False
    # margins_name：总计行的名称，默认为
    # 'All'
    # normalize：标准化选项
    cnt.plot.bar(stacked=True) #绘制柱状图的强大函数
    plt.show()

In [None]:
由图可知：
·性别对客户流失基本没有影响；
·年龄对客户流失有影响，老年人流失占比高于年轻人；
·是否有配偶对客户流失有影响，无配偶客户流失占比高于有配偶客户；
·是否有家属对客户流失有影响，无家属客户流失占比高于有家属客户，

In [None]:
groupDF = data[['tenure', 'Churn']]
groupDF['Churn'] = groupDF['Churn'].map({'Yes':1, 'No':0}) # 将正负样本改（.map函数）为0，1方便计算
percentageDF = groupDF.groupby(['tenure']).sum() / groupDF.groupby(['tenure']).count() # 计算每个 tenure 分组(.groupby函数)中各个数值列的平均值（百分比形式）。
percentageDF = percentageDF.reset_index() # 将索引变成列

plt.figure(figsize=(9,6))
plt.plot(percentageDF['tenure'], percentageDF['Churn'], label='Churn percentage') # 绘制折线图
plt.legend()
plt.show()

In [None]:
由图可知使用时长1-2个月的用户流失率高

In [None]:
# 对业务特征分析对流失的影响
posDF = data[data['PhoneService'] == 'Yes'] # 分别求yes和no情况下的流失占比
negDF = data[data['PhoneService'] == 'No']

fig = plt.figure(figsize=(9,6))
ax1 = fig.add_subplot(121)
p1 = posDF['Churn'].value_counts()
# print(p1)
ax1.pie(p1, labels=['No', 'Yes'], autopct='%1.2f%%', explode=(0.1, 0))
ax1.set_title('Churn of (PhoneService = Yes)')

ax2 = fig.add_subplot(122)
p2 = negDF['Churn'].value_counts()
ax2.pie(p2, labels=['No', 'Yes'], autopct='%1.2f%%', explode=(0.1, 0))
ax2.set_title('Churn of (PhoneService = no)')

plt.tight_layout(pad = 0.5)
plt.show()

In [None]:
由图可知，是否开通电话业务对客户流失影响很小。

In [None]:
# 多线业务对流失的影响
df1 = data[data['MultipleLines'] == 'Yes']
df2 = data[data['MultipleLines']== 'No']
df3 = data[data['MultipleLines']== 'No phone service']

fig = plt.figure(figsize=(9,6))

ax1 = fig.add_subplot(131)
p1 = df1['Churn'].value_counts()
ax1.pie(p1, labels=(['No', 'Yes']), autopct='%1.2f%%',explode=(0.1,0) )
ax1.set_title('Churn of (MultipleLines = Yes)')


ax2 = fig.add_subplot(132)
p2 = df2['Churn'].value_counts()
ax2.pie(p2, labels=(['No', 'Yes']), autopct='%1.2f%%',explode=(0.1,0) )
ax2.set_title('Churn of (MultipleLines = No)')


ax3 = fig.add_subplot(133)
p3 = df3['Churn'].value_counts()
ax3.pie(p3, labels=(['No', 'Yes']), autopct='%1.2f%%',explode=(0.1,0) )
ax3.set_title('Churn of (MultipleLines = No phone service)')

plt.tight_layout(pad=0.5)
plt.show()

In [None]:
由图可知，是否开通多线业务对客户流失影响很小。此外MultipleLines取值为No和No phone service的两种情况基本一致，后续可以合并在一起。

In [None]:
# 互联网业务对流失的影响
cnt = pd.crosstab(data['InternetService'],data['Churn']) # 建立特征与目标特征的列联表
cnt.plot.barh(stacked=True, figsize=(9, 6)) # plot.barh是横向柱状图，plot.bar是纵向
plt.show()

In [None]:
# 互联网相关的业务对流失的影响
internetClos = ['OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies']

for i in internetClos:
    df1 = data[data[i] == 'Yes']
    df2 = data[data[i] == 'No']
    df3 = data[data[i] == 'No internet service']

    fig = plt.figure(figsize=(12, 6))
    plt.title(i)
    j = 0

    ax1 = fig.add_subplot(131)
    p1 = df1['Churn'].value_counts()
    ax1.pie(p1, labels=(['No', 'Yes']), autopct='%1.2f%%', explode=(0.1, 0))
    ax1.set_title('Churn of (%s = Yes)' % internetClos[j])

    ax2 = fig.add_subplot(132)
    p2 = df2['Churn'].value_counts()
    ax2.pie(p2, labels=(['No', 'Yes']), autopct='%1.2f%%', explode=(0.1, 0))
    ax2.set_title('Churn of (%s = No)' % internetClos[j])

    ax3 = fig.add_subplot(133)
    p3 = df1['Churn'].value_counts()
    ax3.pie(p3, labels=(['No', 'Yes']), autopct='%1.2f%%', explode=(0.1, 0))
    ax3.set_title('Churn of (%s = No internet service)' % internetClos[j])

    j += 1

    plt.tight_layout(pad=0.5)
    plt.show()

In [None]:
由图可知：所有互联网相关业务中未开通互联网的客户流失率均为7.40%，可以判断原因是上述六列特征均只在客户开通互联网业务之后才有实际意义，因而不
会影响未开通互联网的客户：开通了这些新业务之后，用户的流失率会有不同程度的降低，可以认为多绑定业务有助于用户的留存：StreamingTV和StreamingMovies两列特征对客户流失
基本没有影响。此外，由于No internet service也算是No的一种情况，因此后续步骤中可以考虑将两种特征值进行合
井。

In [None]:
# 合约对流失的影响
df1 = data[data['Contract'] == 'Month-to-month']
df2 = data[data['Contract']== 'One year']
df3 = data[data['Contract']== 'Two year']

fig = plt.figure(figsize=(9,4))

ax1 = fig.add_subplot(131)
p1 = df1['Churn'].value_counts()
ax1.pie(p1, labels=(['No', 'Yes']), autopct='%1.2f%%',explode=(0.1,0) )
ax1.set_title('Churn of (Contract = Month-month)')


ax2 = fig.add_subplot(132)
p2 = df2['Churn'].value_counts()
ax2.pie(p2, labels=(['No', 'Yes']), autopct='%1.2f%%',explode=(0.1,0) )
ax2.set_title('Churn of (Contract = One year)')


ax3 = fig.add_subplot(133)
p3 = df3['Churn'].value_counts()
ax3.pie(p3, labels=(['No', 'Yes']), autopct='%1.2f%%',explode=(0.1,0) )
ax3.set_title('Churn of (Contract = Two year)')

plt.tight_layout(pad=0.5)
plt.show()

In [None]:
由图可知：合约期限越长，用户的流失率越低。

In [None]:
# 是否采用电子结算对流失的影响
df1 = data[data['PaperlessBilling'] == 'Yes']
df2 = data[data['PaperlessBilling'] == 'No']

fig = plt.figure(figsize=(9,4))

ax1 = fig.add_subplot(121)
p1 = df1['Churn'].value_counts()
ax1.pie(p1, labels=(['No', 'Yes']), autopct='%1.2f%%',explode=(0.1,0) )
ax1.set_title('Churn of (PaperlessBilling = Yes)')


ax2 = fig.add_subplot(122)
p2 = df2['Churn'].value_counts()
ax2.pie(p2, labels=(['No', 'Yes']), autopct='%1.2f%%',explode=(0.1,0) )
ax2.set_title('Churn of (PaperlessBilling = No)')

plt.tight_layout(pad=0.5)
plt.show()

In [None]:
由图可知：采用电子结算的客户流失率较高，原因可能是电子结算多为按月支付的形式。

In [None]:
# 付款方式对流失的影响
df1 = data[data['PaymentMethod'] == 'Bank transfer (automatic)']
df2 = data[data['PaymentMethod'] == 'Credit card (automatic)']
df3 = data[data['PaymentMethod'] == 'Electronic check']
df4 = data[data['PaymentMethod'] == 'Mailed check']


fig = plt.figure(figsize=(15,9))
plt.title('付款方式对客户流失的影响')

ax1 = fig.add_subplot(221)
p1 = df1['Churn'].value_counts()
labels1 = p1.index.tolist()
ax1.pie(p1, labels=labels1, autopct='%1.2f%%', explode=(0.1,0))
ax1.set_title('Churn of (PaymentMethod = Bank transfer (automatic))')

ax2 = fig.add_subplot(222)
p2 = df2['Churn'].value_counts()
labels2 = p2.index.tolist()
ax2.pie(p2, labels=labels2, autopct='%1.2f%%', explode=(0.1,0))
ax2.set_title('Churn of (PaymentMethod = Credit card automatic)')

ax3 = fig.add_subplot(223)
p3 = df3['Churn'].value_counts()
labels3 = p3.index.tolist()
ax3.pie(p3, labels=labels3, autopct='%1.2f%%',explode=(0.1,0) )
ax3.set_title('Churn of (PaymentMethod = Electronic check)')

ax4 = fig.add_subplot(224)
p4 = df4['Churn'].value_counts()
labels4 = p4.index.tolist()
ax4.pie(p4, labels=labels4, autopct='%1.2f%%',explode=(0.1,0) )
ax4.set_title('Churn of (PaymentMethod = Mailed check)')

plt.tight_layout(pad=0.5)
plt.show()

In [None]:
由图可知：四种付款方式中采用电子支票的客户流失率远高于其他三种。

In [None]:
# 每月费用核密度估计图
fit = plt.figure(figsize=(10, 5))

negdf = data[data['Churn'] == 'No']
sns.kdeplot(negdf['MonthlyCharges'], label='No') # 等价下面的写法，或者直接定义kind=ked/hist等
posdf = data[data['Churn'] == 'Yes']
sns.kdeplot(posdf['MonthlyCharges'], label='Yes')
plt.legend() # 显示label
plt.show()

# 总费用核密度估计图
fit = plt.figure(figsize=(10, 5))

negdf = data[data['Churn'] == 'No']
sns.distplot(negdf['TotalCharges'], hist=False, label='No')
posdf = data[data['Churn'] == 'Yes']
sns.distplot(posdf['TotalCharges'], hist=False, label='Yes')
plt.legend()
plt.show()

In [None]:
由图可知：客户的流失率的基本趋势是随每月费用的增加而增长，这与实际业务较为符合；当客户的总费用积累越多，流失率越低，这说明这些客户已经称为稳
定的客户，不会轻易流失；此外，当每月费用处于70~110之间时流失率较高。

In [None]:
五、特征工程

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data[['tenure']] = scaler.fit_transform(data[['tenure']])
data[['MonthlyCharges']] = scaler.fit_transform(data[['MonthlyCharges']])
data[['TotalCharges']] = scaler.fit_transform(data[['TotalCharges']])

print(data[['TotalCharges', 'tenure', 'MonthlyCharges']].head()) # 前十数据
print(data[['TotalCharges', 'tenure', 'MonthlyCharges']].describe()) # 查看中位数均值等

In [None]:
# 离散特征的处理
# 根据上面的数据挖掘结论，先把部分特征合并，好处是只剩下yes和no，不需要做one-hot编码
data.loc[data['MultipleLines'] == 'No phone service', 'MultipleLines'] = 'No' # 把MultipleLines这一列中值为No phone service的值，都改成No
# data.loc[data['MultipleLines'] == 'No phone service'] = 'No'                # 把MultipleLines这一列中值为No phone service的整行，都改成No
print('MultipleLines中还有%d条样本值为‘No phone service' % data[data['MultipleLines'] == 'No phone service'].shape[0])

internetClos = ['OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies']

j = 0
for i in internetClos:
    data.loc[data[i] == 'No internet service',i] = 'No'
    print('%s中还有%d条样本值为No phone service' % (internetClos[j], data[data[i] == 'No phone service'].shape[0]))
    j += 1


# 部分类别的特征只有两类取值，可以用0，1代替，另可视化过程发现对结果无影响的特征可以删除

# 选择特征值为yse和no的列并改为1，0
codeCols = list(data.columns[3: 17].drop(['tenure', 'PhoneService', 'InternetService', 'StreamingTV', 'StreamingMovies', 'Contract']))
# 从4-17列中删除以上无影响特征
for i in codeCols:
    data[i] = data[i].map({'Yes':1, 'No':0}) # 剩下的列，改值
data['Churn'] = data['Churn'].map({'Yes':1, 'No':0})

# 其他无序类别特征采用one-hot编码
onehotCols = ['InternetService', 'Contract', 'PaymentMethod']
churndf = data['Churn'].to_frame() # 取出目标列变量，方便后面合并
featuredf = data.drop(['Churn'], axis=1)  # 所有列特征  .drop函数：保留除了被drop以外的特征

for i in onehotCols:
    onehotdf = pd.get_dummies(featuredf[i], prefix=i)         # pd.get_dummies函数：pandas 中用于执行 独热编码的重要函数，
                                                              # 将分类变量转换为机器学习算法更容易理解的数值格式。prefix：新列名的前缀
    featuredf = pd.concat([featuredf, onehotdf], axis=1) # 编码后特征拼接到去除目标特征的数据集中 axis=1:横向合并

data = pd.concat([featuredf, churndf], axis=1) # 拼回目标特征，保证在最后一排
data = data.drop(onehotCols, axis=1)  # 删除原特征列
print(data.head())

In [None]:
# 特征选择
# 删除无用特征
# custonerID特征对模型预测不起贡献，可以直接删除。
# gender、PhoneService、StreaningTv和Streaminglovies则在可视化环节中较为明显地观察到其对目标变量的影响较小，因此也删去这四列特征
data = data.drop(['customerID', 'gender', 'PhoneService', 'StreamingTV', 'StreamingMovies'], axis=1)

# 计算特征之间相关系数，x与x，x与y
nu_fea = data[['tenure', 'MonthlyCharges','TotalCharges']] # 选择连续型特征计算相关系数
nu_fea = list(nu_fea)
person_mat = data[nu_fea].corr(method='spearman') # 计算皮尔逊相关稀系数矩阵 .corr()：计算相关系数矩阵,method='spearman'：指定使用斯皮尔曼相关系数

plt.figure(figsize=(8, 8))
sns.heatmap(person_mat, square=True, annot=True, cmap='coolwarm')
plt.show()

In [None]:
# 此外，还可以采用相关系数矩阵衡量连续型特征之间的相关性、用卡方检验衡量离散型特征与目标变量的相关关系等等，
# 从而进行进一步的特征选择。例如，可以对数据集中的三列连续型数值特征tenure，MonthlyCharges，TotalCharges计算相关系数，
# 其中TotalCharges与其他两列特征的相关系数均大于%60，后续可以考虑删除该列
data = data.drop(['TotalCharges'], axis=1) # 观察可知相关系数大于0.6，所以删除冗余特征

In [None]:
# 保存数据
data.to_csv('D:\ProgramData\PycharmProjects\pythonProject1\processed_data.csv', index=False) 
print(data.info())

In [None]:
# 解决数据不平衡问题
# 正负样本大概为3/1，通过smote方法做上采样处理，样本点7043比较少
# 加载修改过的新数据
# 在可视化环节中，我们观察到正负样本的比例大概在1:3左右，因此需要对正样本进行上采样或对负样本进行下采样。考虑到本数据集仅有7千多条样本，不能
# 采用下采样，进行上采样更为合理，本案例采用上采样中较为成熟的SMOTE方法生成更多的正样本。
data = pd.read_csv('D:\ProgramData\PycharmProjects\pythonProject1\processed_data.csv')

#定义Smote类
class Smote:
    def __init__(self, samples, N, k):   #samples是少数类别的样本的特征
        self.n_samples, self.n_attrs = samples.shape
        self.N = N #采样的倍率
        self.k = k
        self.samples = samples
        self.newindex = 0
    def over_sampling(self):
        N = int(self.N)
        self.synthetic = np.zeros((self.n_samples * N, self.n_attrs))         #用于存放新合成的样本
        neighbors = NearestNeighbors(n_neighbors=self.k).fit(self.samples)    #KDtree
        for i in range(len(self.samples)):             #对每个少数类样本均求其在所有少数类样本中的k近令邻
            nnarray = neighbors.kneighbors(self.samples[i].reshape(1,-1), return_distance=False) [0]
            self._populate(N, i, nnarray)
        return self.synthetic
#为每个少数类样本选择k个最近邻中的N个，并生成N个合成样本
    def _populate(self, N, i, nnarray):
        for j in range (N):
            nn = random.randint(0, self.k-1)
            dif=self.samples[nnarray[nn]] - self.samples[i]
            gap=random.random()
            self.synthetic[self.newindex] = self.samples[i] + gap * dif
            self.newindex += 1

# 每个正样本都采用smote方法随机生成两个新样本
posDf = data[data['Churn'] == 1].drop(['Churn'], axis=1) # 取删除目标特征列的所有正样本列
posArray = posDf.values # pd.DataFream转为np.array,smote输入是np.array格式
newposArray = Smote(posArray, 2, 5).over_sampling()
newposDf = pd.DataFrame(newposArray) # np.array --> pd.DataFream

# 调整为原来正样本的格式
newposDf.columns = posDf.columns # 还原特征名
cateCols = list(newposDf.columns.drop(['tenure', 'MonthlyCharges'])) # 提取离散特征组成列表
for i in cateCols:
    newposDf[i] = newposDf[i].apply((lambda x: 1 if x >= 0.5 else 0)) # 离散特征组成的列表含有小数，不是0，1，四舍五入转化成0，1
newposDf['Churn'] = 1 # 添加目标特征列

from sklearn.utils import shuffle
#newPosDf =newPosDf[:3305]
#直接选取前3305条样本
newposDf = newposDf.sample(n=3305)#随机抽歇3305条样本
data = pd.concat([data, newposDf])
#竖向拼接
data = shuffle(data).reset_index(drop=True) #祥本打乱
print(data['Churn'].value_counts())
print('此时数据集的规模为：', data.shape)
data.to_csv('D:\ProgramData\PycharmProjects\pythonProject1\processed_smote.csv', index=False)
data.head()

In [None]:
六、模型选型与训练：使用逻辑回归、SVC、随机森林、LightGBM，选择最优

In [None]:
from sklearn.linear_model import LogisticRegression as LR
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier as RF
from lightgbm import LGBMClassifier as LGB
from sklearn.metrics import precision_score, recall_score, f1_score, classification_report # 模型评分
from sklearn.model_selection import train_test_split # 训练
from sklearn.model_selection import KFold            # 交叉验证

In [None]:
# k折交叉验证，用于选出最佳模型， 仅仅是选型， 后续将用选出的模型对原数据再进行训练预测
def kfold_cv(X, y, classifier, **kwargs):
    '''
    :param X: 特征
    :param y: 目标变量
    :param classifier: 分类器
    :param kwargs: 参数
    :return: 预测结果
    '''
    kf = KFold(n_splits=5, shuffle=True) # 5折交叉验证,即会得到 5 组训练集和测试集
    y_pred = np.zeros(len(y)) # 初始化预测数组
    start = time.time()
    for train_index, test_index in kf.split(X):  # kf.split(X):从X中得到 5 组训练集和测试集
                                                 # 这里有多组数据，所以用index，下面用循环遍历，
                                                 # 都求出所有数据集的预测结果
        X_train = X[train_index]
        X_test = X[test_index]
        y_train = y[train_index]  #  划分数据集

        clf = classifier(**kwargs)
        clf.fit(X_train, y_train)
        y_pred[test_index] = clf.predict(X_test) # 模型预测

    end = time.time()
    usedtime = end - start
    print('训练预测用时：', usedtime)
    return y_pred

In [None]:
# 加载数据集，获取X,y
data = pd.read_csv('D:\ProgramData\PycharmProjects\pythonProject1\processed_smote.csv')
X = data.iloc[:,:-1]
Y = data.iloc[:,-1]
# print(X.shape)
# print(Y.shape)
# print(data.head(10))

x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=1)
# print(x_train.shape)
# print(x_test.shape)
# print(y_train.shape)
# print(y_test.shape)

LR_pred = kfold_cv(x_train.values, y_train.values, LR, penalty='l2', C=1.0) # penaly='l2', C=1.0： 惩罚系数 就是LR里的参数，所以上面要加**kwargs
SVC_pred = kfold_cv(x_train.values, y_train.values, SVC, C=1.0)
RF_pred = kfold_cv(x_train.values, y_train.values, RF, n_estimators=100, max_depth=10) #n_estimators=100: 选100个特征分割做决策树, max_depth=10： 树最大深度10层
LGB_pred = kfold_cv(x_train.values, y_train.values, LGB, learning_rate=0.1, n_estimators=100, max_depth=10)

In [None]:
# 评分，选出最佳模型
scoreDF =pd.DataFrame(columns=['LR', 'SVC', 'RF', 'LGB'])
pred = [LR_pred, SVC_pred, RF_pred, LGB_pred]

for i in range(len(pred)):
    p = precision_score(y_train.values, pred[i])
    r = recall_score(y_train.values, pred[i])
    f1 = f1_score(y_train.values, pred[i])
    scoreDF.iloc[:, i] = pd.Series([r, p, f1])

scoreDF.index = ['Recall', 'Precision', 'F1_score']
print(scoreDF)

In [None]:
# 选出LGB模型，对原数据做训练预测
lgb = LGB(learning_rate=0.1, n_estimators=1000, max_depth=10)
lgb.fit(x_train, y_train)

y_train_pred = lgb.predict(x_train)
y_test_pred = lgb.predict(x_test)
print(classification_report(y_train, y_train_pred))
print(classification_report(y_test, y_test_pred))


In [None]:
# 特征重要度，树模型都有特征重要度
feature_importances = lgb.feature_importances_
feature_important_df = pd.DataFrame(X.columns, columns=['feature']) # 列出特征
feature_important_df['importance'] = feature_importances   # 加上重要度列
print(feature_important_df)


mpl.use('TkAgg')  # 或者 'Qt5Agg'
plt, ax = plt.subplots(figsize=(10, 10))
lightgbm.plot_importance(lgb, height=0.5, ax=ax, grid=False)
# plt.title('Feature importances')
plt.savefig('feature_importance.png', dpi=300, bbox_inches='tight')
plt.show()

In [None]:
七、模型持久化

In [None]:
import joblib
joblib.dump(lgb, 'D:\ProgramData\PycharmProjects\pythonProject1\output_modle\lgb.m')
# joblib.load()

In [None]:
分析与决策
  在可视化阶段，可以发现较易流失的客户在各个特征的用户画像如下：
基本信息：
  老年人
  未婚
  无家属
  入网时间不长，特别是2个月之内

开通业务
  开通光纤网络
  未开通在线安全、在线备份、设备保护、技术支持等互联网增值业务

签订合约
  合约期限较短，特别是逐月付费客户最易流失
  采用电子结算（多为按月支付）
  采用电子支票
  每月费用较高，特别是70～110之间
  总费用较低（侧面反应入网时间较短）

根据用户画像，可以从各个方面推出相应活动以求留下可能流失的客户：
对老人推出亲情套餐等优惠
对未婚、无家属的客户推出暖心套餐等优惠
对新入网用户提供一定时期的优惠活动，直至客户到达稳定期
提高电话服务、光纤网络、网络电视、网络电影等的客户体验，尝试提高用户的留存率，避免客户流失
提高电话服务、光纤网络、网络电视、网络电影等的客户体验，尝试提高用户的留存率，避免客户流失
对能够帮助客户留存的在线安全、在线备份、设备保护、技术支持等互联网增值业务，加大宣传推广力度
对逐月付费用户推出年费优惠活动
对使用电子结算、电子支票的客户，推出其他支付方式的优惠活动
对每月费用在70～110之间推出一定的优惠活动

In [None]:
八、根据训练好的模型，输入原数据集进行预测，判断哪些用户进行重点留存

In [None]:
data = pd.read_csv('D:\ProgramData\PycharmProjects\pythonProject1\processed_data.csv')  # 上采样之前的数据
X = data.iloc[:, :-1]
y = data.iloc[:, -1]
pred_prob = lgb.predict_proba(X)
pred_prob = np.round(pred_prob, 1)  # 对预测的数据保留两位小数，便于分组观察 np.round:对数组进行四舍五入的函数 ,1表示保留一位小数
print(pred_prob[:5])
print(y[:5])
prodf = pd.DataFrame(pred_prob)
churnDF = pd.DataFrame(y)
df1 = pd.concat([prodf,churnDF], axis=1) # 合并预测值和真实值，便于观察
df1.columns = ['prob_0', 'prob_1', 'churn']
print(df1.head(10))

In [None]:
#分组计算每种概率值对应的真实流失率
df1.drop('prob_0', inplace=True, axis=1)
group = df1.groupby(['prob_1']) # 单个列分组
cnt = group.count() # 每种概率值对应的样本数
true_prob = group.sum() / group.count() # 真实流失率
df2 = pd.concat([cnt, true_prob], axis=1).reset_index()
df2.columns = ['prob_1', 'cnt', 'ture_prob']
# print(group.head(10))
print(df2)

In [None]:
可知：预测流失率越大的客户中越有可能真正发生流失。对运营商而言，可以根据各预测概率值分组的真实流失率设定阀值进行决策。例如，假设阀值为
true_prob=0.5，即优先关注真正流失为50%以上的群体，也就表示运营商可以对预测结果中大于等于0.6的客户进行重点留存。