# 电话营销结果预测
<p>在前面的基础篇中，对某银行产品的电话营销结果进行了分析，寻找哪些参数是影响结果的主要因素。通过分析可以发现成功进行营销的规律，那么如何能够借助计算机将这些规律应用到对新用户是否能够成功营销进行预测呢？机器学习就是解决这类问题的手段之一，通过让机器学习历史的数据，自动发现其规律，并应用这个规律到新数据上，并给出预测结果。这大大减少了学习的时间和成本，并能做出比较准确的预测结果。接下来将会介绍一下如何使用机器学习来进一步挖掘数据，并做出预测。</p>
<p>在使用机器学习进行预测之前，首先需要配置机器学习的类库，在Python中使用最广泛的是Scikit-Learn这个类库。首先安装该类库到环境中，执行一下命令完成安装配置过程。<br>
<code>$ pip install -U scikit-learn</code></p>
<p>执行成功后，就可以在Python中使用Scikit-Learn来进行预测结果。</p>
<p>这个例子使用的，银行电话营销的数据，首先引入需要的类库，并读入数据。</p>

In [73]:
import pandas as pd
import numpy as np

# 读入数据
df = pd.read_csv('data/银行电话营销/bank.csv', delimiter=';')
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,no
3,30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown,no
4,59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown,no


在进行机器学习的训练之前，需要先查看一下是否存在缺失值，如果有缺失值，则必须对缺失值进行处理。

In [74]:
print(df.shape)
df.isnull().any()

(4521, 17)


age          False
job          False
marital      False
education    False
default      False
balance      False
housing      False
loan         False
contact      False
day          False
month        False
duration     False
campaign     False
pdays        False
previous     False
poutcome     False
y            False
dtype: bool

结果可以看到，没有任何缺失值。因为数据中存在一些分类项目，在进行模型的训练之前，通常对分类项目进行one-hot编码。在这里使用pandas的方法，进行one-hot编码。

In [75]:
dataset = df.drop('y', axis=1)
dataset = pd.get_dummies(dataset)
label = df[['y']]
dataset = pd.concat([dataset, label], axis=1)
dataset.head()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous,job_admin.,job_blue-collar,job_entrepreneur,...,month_mar,month_may,month_nov,month_oct,month_sep,poutcome_failure,poutcome_other,poutcome_success,poutcome_unknown,y
0,30,1787,19,79,1,-1,0,0,0,0,...,0,0,0,1,0,0,0,0,1,no
1,33,4789,11,220,1,339,4,0,0,0,...,0,1,0,0,0,1,0,0,0,no
2,35,1350,16,185,1,330,1,0,0,0,...,0,0,0,0,0,1,0,0,0,no
3,30,1476,3,199,4,-1,0,0,0,0,...,0,0,0,0,0,0,0,0,1,no
4,59,0,5,226,1,-1,0,0,1,0,...,0,1,0,0,0,0,0,0,1,no


In [76]:
print(dataset.shape)
dataset.columns.tolist()

(4521, 52)


['age',
 'balance',
 'day',
 'duration',
 'campaign',
 'pdays',
 'previous',
 'job_admin.',
 'job_blue-collar',
 'job_entrepreneur',
 'job_housemaid',
 'job_management',
 'job_retired',
 'job_self-employed',
 'job_services',
 'job_student',
 'job_technician',
 'job_unemployed',
 'job_unknown',
 'marital_divorced',
 'marital_married',
 'marital_single',
 'education_primary',
 'education_secondary',
 'education_tertiary',
 'education_unknown',
 'default_no',
 'default_yes',
 'housing_no',
 'housing_yes',
 'loan_no',
 'loan_yes',
 'contact_cellular',
 'contact_telephone',
 'contact_unknown',
 'month_apr',
 'month_aug',
 'month_dec',
 'month_feb',
 'month_jan',
 'month_jul',
 'month_jun',
 'month_mar',
 'month_may',
 'month_nov',
 'month_oct',
 'month_sep',
 'poutcome_failure',
 'poutcome_other',
 'poutcome_success',
 'poutcome_unknown',
 'y']

<p>在正式进入机器学习的模型训练之前，有一个问题需要回答。如何验证机器学习的模型是否成功？使用历史数据，训练机器学习的算法生成模型，如何验证模型呢？如果使用相同的数据来进行验证，并不能证明算法模型的有效性，因此，必须使用新数据来验证算法模型。为了能够很好的验证算法模型，在对算法进行训练前，需要将现有的数据随机抽取一部分，作为验证数据集用来验证算法模型的准确型。</p>
<p>首先，对数据进行分割，生成训练数据集和评估数据集。</p>

In [77]:
from sklearn.model_selection import train_test_split

ds = dataset.drop('y', axis=1).values
label = dataset['y']
print(dataset.shape)
train_ds, test_ds, train_label, test_label = train_test_split(ds, label, test_size=0.3)
print(train_ds.shape)
print(test_ds.shape)
print(train_label.shape)
print(test_label.shape)

(4521, 52)
(3164, 51)
(1357, 51)
(3164,)
(1357,)


<p>目前，在机器学习算法主要分为两类：有监督学习和无监督学习。所谓，有监督学习就是在训练过程中，提供数据以及数据所对应的标签（结果）。无监督学习是让机器自动进行分类，主要算法是聚类算法。有监督学习目前应用比较广泛，分为回归（预测值）和分类算法，主要算法有线性算法，k近邻算法，支持向量机，决策树等算法，每种算法基本都有相对应的回归算法和分类算法。在这里先看一下最常见的线性分类算法——逻辑回归</p>

In [78]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(train_ds, train_label)
score = model.score(test_ds, test_label)
score



0.9005158437730287

可以看到，在使用默认参数的情况下，得到的模型的分类准确率为89.6%，相对比较不错的一个模型。

简单的看了一下线性回归算法之后，在比较一下其他的几个算法，从中选择最合适的算法来生产模型。在这里除了线性回归，还会考察一下k近邻、支持向量机（SVM）和决策树算法。首先生产要考察的算法模型。

In [79]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

models = {}
models['LR'] = LogisticRegression()
models['SVM'] = SVC()
models['KNN'] = KNeighborsClassifier()
models['CART'] = DecisionTreeClassifier()

如何评估算法呢？常用的方法有K折交叉验证。交叉验证是用来验证分类器性能的一种统计分析方法，有时也称为循环估计，在统计学上是将数据样本切割成小的子集，并分别进行验证的方法。在机器学习中，通常会采用k=10的交叉验证来验证算法模型的准确度。k=10也就是将数据分成10份，每次使用其中9份来训练数据，一份来验证模型，得到一个模型的准确的平均值来判断模型的优劣。

In [80]:
from sklearn.model_selection import cross_val_score, KFold
n_split = 10
seed = 7
kfold = KFold(n_splits=n_split, random_state=seed)
results = []
for name in models:
    result = cross_val_score(models[name], ds, label, cv=kfold)
    results.append(result)
    print("评估结果（%s）: %.3f%% (%.3f%%)" %(name, result.mean() * 100, result.std() * 100))



评估结果（LR）: 90.047% (1.923%)




评估结果（SVM）: 88.476% (1.420%)
评估结果（KNN）: 87.304% (1.515%)
评估结果（CART）: 87.481% (1.528%)


In [81]:
from pyecharts import Boxplot
boxplot = Boxplot("法模型评估结果")

attrs = list(models.keys())
boxplot.add("", attrs, boxplot.prepare_data(results))
boxplot

通过，执行结果和图表，可以看出逻辑回归具有最好的准确的。因此，在这里可以选择采用逻辑回归来训练最终的算法模型。

在机器学习中，选择合适的算法很重要。但是，如何提高算法的准确度有很多方法。如：选择合适的特征来训练算法模型，对算法参数进行调整。其中，特征工程是一个非常重要的方法。在业界一致流行一句话：数据和特征决定了机器学习的上限，而算法和模型只是无限逼近这个上限。在机器学习中有多种方法可以用来帮助选择合适的特征，如：特征的重要性，主要成分分析等。

使用决策树或者随机森林算法，可以得到每一个特征的重要度，然后，可以根据重要度选择合适的特征来训练算法。

In [90]:
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.feature_selection import SelectFromModel

model = ExtraTreeClassifier()
clf = model.fit(ds, label)
print(fit.feature_importances_)

# 选择特征重要性为高于平均值的特征
model = SelectFromModel(clf, threshold='0.6*mean', prefit=True, )
ds_selected = model.transform(ds)
print(ds_selected.shape)

[0.0719113  0.0565892  0.08179387 0.19649208 0.04575968 0.02997106
 0.01721605 0.01262267 0.01216465 0.0079042  0.00610634 0.01802546
 0.01212554 0.00391189 0.0109012  0.01199528 0.02068285 0.01386868
 0.00252495 0.00670486 0.01551663 0.01440405 0.01754224 0.01364001
 0.01307665 0.00477107 0.0064392  0.00168926 0.02490248 0.01555628
 0.00270435 0.00671238 0.00837793 0.00746039 0.01943214 0.00363891
 0.01503448 0.00253128 0.00278063 0.00219903 0.00704852 0.01224689
 0.00822225 0.01060004 0.00597065 0.01888893 0.00458589 0.01156496
 0.00421604 0.06518095 0.01379371]
(4521, 21)


得到选择的特征的数据集后，可以重新使用这个数据集训练逻辑回归算法。

In [91]:
model = LogisticRegression()
kfold = KFold(n_splits=n_split, random_state=seed)
result = cross_val_score(model, ds_selected, label, cv=kfold)
print("评估结果（%s）: %.3f%% (%.3f%%)" %("LR", result.mean() * 100, result.std() * 100))



评估结果（LR）: 90.113% (2.023%)




看到结果没有显著的提高，不过，在90%以上的准确率中，每一个小的进步都是很重要的。在这里可以通过调整特征选择的范围，来选择不同的特征，直到找到最优的特征。

通过特征，选择后对算法模型的准确度有所提高，还有什么方法可以进一步提高算法模型的准确度呢？现在的数据的尺度是不一样的，也许调整所有的数据线到相同的尺度，能够提高算法模型的准确度。在调整数据的尺度之前，先看一下数据的内容。

In [93]:
ds_selected[0]

array([  30, 1787,   19,   79,    1,   -1,    0,    0,    0,    0,    0,
          0,    1,    0,    1,    0,    0,    0,    0,    1,    0])

可以看到，数据的尺度明显不一样。在这里进行一次尺度调整。

In [98]:
from sklearn.preprocessing import StandardScaler

new_ds = StandardScaler().fit_transform(ds_selected)



重新训练一次逻辑回归算法模型，看一下预测的准确度是否有改善。

In [99]:
model = LogisticRegression()
kfold = KFold(n_splits=n_split, random_state=seed)
result = cross_val_score(model, ds_selected, label, cv=kfold)
print("评估结果（%s）: %.3f%% (%.3f%%)" %("LR", result.mean() * 100, result.std() * 100))



评估结果（LR）: 90.158% (2.203%)


执行结果看一看到，改善比较小。尺度调整对需要距离计算的算法（k近邻，支持向量机（SVM））等会有比较好的结果。对逻辑回归等作用不是很大。通常，可以先调整数据的尺度，然后在比较算法的准确度，并选择合适的算法。那么，可以重新看一下k近邻和svm的结果是否有改进。

In [101]:
model = KNeighborsClassifier()
kfold = KFold(n_splits=n_split, random_state=seed)
result = cross_val_score(model, ds_selected, label, cv=kfold)
print("评估结果（%s）: %.3f%% (%.3f%%)" %("KNN", result.mean() * 100, result.std() * 100))

评估结果（KNN）: 87.326% (1.521%)


In [102]:
model = SVC()
kfold = KFold(n_splits=n_split, random_state=seed)
result = cross_val_score(model, ds_selected, label, cv=kfold)
print("评估结果（%s）: %.3f%% (%.3f%%)" %("SVM", result.mean() * 100, result.std() * 100))



评估结果（SVM）: 88.476% (1.420%)


结果可以看到，线性回归依然有最好的准确度。因此，暂时可以决定选择线性回归算法来训练模型。