# 电话营销结果预测
<p>在前面的基础篇中，对某银行产品的电话营销结果进行了分析，寻找哪些参数是影响结果的主要因素。通过分析可以发现成功进行营销的规律，那么如何能够借助计算机将这些规律应用到对新用户是否能够成功营销进行预测呢？机器学习就是解决这类问题的手段之一，通过让机器学习历史的数据，自动发现其规律，并应用这个规律到新数据上，并给出预测结果。这大大减少了学习的时间和成本，并能做出比较准确的预测结果。接下来将会介绍一下如何使用机器学习来进一步挖掘数据，并做出预测。</p>
<p>在使用机器学习进行预测之前，首先需要配置机器学习的类库，在Python中使用最广泛的是Scikit-Learn这个类库。首先安装该类库到环境中，执行一下命令完成安装配置过程。<br>
<code>$ pip install -U scikit-learn</code></p>
<p>执行成功后，就可以在Python中使用Scikit-Learn来进行预测结果。</p>
<p>这个例子使用的，银行电话营销的数据，首先引入需要的类库，并读入数据。</p>

In [21]:
import pandas as pd
import numpy as np

# 读入数据
df = pd.read_csv('data/银行电话营销/bank.csv', delimiter=';')
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,no
3,30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown,no
4,59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown,no


在进行机器学习的训练之前，需要先查看一下是否存在缺失值，如果有缺失值，则必须对缺失值进行处理。

In [22]:
print(df.shape)
df.isnull().any()

(4521, 17)


age          False
job          False
marital      False
education    False
default      False
balance      False
housing      False
loan         False
contact      False
day          False
month        False
duration     False
campaign     False
pdays        False
previous     False
poutcome     False
y            False
dtype: bool

结果可以看到，没有任何缺失值。因为数据中存在一些分类项目，在进行模型的训练之前，通常对分类项目进行one-hot编码。在这里使用pandas的方法，进行one-hot编码。

In [25]:
dataset = df.drop('y', axis=1)
dataset = pd.get_dummies(dataset)
label = df[['y']]
dataset = pd.concat([dataset, label], axis=1)
dataset.head()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous,job_admin.,job_blue-collar,job_entrepreneur,...,month_mar,month_may,month_nov,month_oct,month_sep,poutcome_failure,poutcome_other,poutcome_success,poutcome_unknown,y
0,30,1787,19,79,1,-1,0,0,0,0,...,0,0,0,1,0,0,0,0,1,no
1,33,4789,11,220,1,339,4,0,0,0,...,0,1,0,0,0,1,0,0,0,no
2,35,1350,16,185,1,330,1,0,0,0,...,0,0,0,0,0,1,0,0,0,no
3,30,1476,3,199,4,-1,0,0,0,0,...,0,0,0,0,0,0,0,0,1,no
4,59,0,5,226,1,-1,0,0,1,0,...,0,1,0,0,0,0,0,0,1,no


In [26]:
print(dataset.shape)
dataset.columns.tolist()

(4521, 52)


['age',
 'balance',
 'day',
 'duration',
 'campaign',
 'pdays',
 'previous',
 'job_admin.',
 'job_blue-collar',
 'job_entrepreneur',
 'job_housemaid',
 'job_management',
 'job_retired',
 'job_self-employed',
 'job_services',
 'job_student',
 'job_technician',
 'job_unemployed',
 'job_unknown',
 'marital_divorced',
 'marital_married',
 'marital_single',
 'education_primary',
 'education_secondary',
 'education_tertiary',
 'education_unknown',
 'default_no',
 'default_yes',
 'housing_no',
 'housing_yes',
 'loan_no',
 'loan_yes',
 'contact_cellular',
 'contact_telephone',
 'contact_unknown',
 'month_apr',
 'month_aug',
 'month_dec',
 'month_feb',
 'month_jan',
 'month_jul',
 'month_jun',
 'month_mar',
 'month_may',
 'month_nov',
 'month_oct',
 'month_sep',
 'poutcome_failure',
 'poutcome_other',
 'poutcome_success',
 'poutcome_unknown',
 'y']

<p>在正式进入机器学习的模型训练之前，有一个问题需要回答。如何验证机器学习的模型是否成功？使用历史数据，训练机器学习的算法生成模型，如何验证模型呢？如果使用相同的数据来进行验证，并不能证明算法模型的有效性，因此，必须使用新数据来验证算法模型。为了能够很好的验证算法模型，在对算法进行训练前，需要将现有的数据随机抽取一部分，作为验证数据集用来验证算法模型的准确型。</p>
<p>首先，对数据进行分割，生成训练数据集和评估数据集。</p>

In [28]:
from sklearn.model_selection import train_test_split

ds = dataset.drop('y', axis=1).values
label = dataset['y']
print(dataset.shape)
train_ds, test_ds, train_label, test_label = train_test_split(ds, label, test_size=0.3)
print(train_ds.shape)
print(test_ds.shape)
print(train_label.shape)
print(test_label.shape)

(4521, 52)
(3164, 51)
(1357, 51)
(3164,)
(1357,)


<p>目前，在机器学习算法主要分为两类：有监督学习和无监督学习。所谓，有监督学习就是在训练过程中，提供数据以及数据所对应的标签（结果）。无监督学习是让机器自动进行分类，主要算法是聚类算法。有监督学习目前应用比较广泛，分为回归（预测值）和分类算法，主要算法有线性算法，k近邻算法，支持向量机，决策树等算法，每种算法基本都有相对应的回归算法和分类算法。在这里先看一下最常见的线性分类算法——逻辑回归</p>

In [32]:
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
model.fit(train_ds, train_label)
score = model.score(test_ds, test_label)
score



0.8960943257184967

可以看到，在使用默认参数的情况下，得到的模型的分类准确率为89.6%，相对比较不错的一个模型。