# 构建第一个人工神经网络

## 导入银行数据

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# 导入数据并选取对应的独立变量特征和因变量
data=pd.read_csv('Churn_Modelling.csv')
data.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


我们在这里选取第4到13列的数据作为自变量特征

In [3]:
X=data.iloc[:,3:13].values
Y=data.iloc[:,13].values
X[:5]

array([[619, 'France', 'Female', 42, 2, 0.0, 1, 1, 1, 101348.88],
       [608, 'Spain', 'Female', 41, 1, 83807.86, 1, 0, 1, 112542.58],
       [502, 'France', 'Female', 42, 8, 159660.8, 3, 1, 0, 113931.57],
       [699, 'France', 'Female', 39, 1, 0.0, 2, 0, 0, 93826.63],
       [850, 'Spain', 'Female', 43, 2, 125510.82, 1, 1, 1, 79084.1]], dtype=object)

可以看到确实是成功抽取出来了

# 对分类变量进行独热编码 

为什么要进行独热编码？  
这是因为如果不进行独热编码的话，对于数字型的分类变量，计算机会识别为是具有顺序大小关系的数值。
比如Germany被编码成了1，France被编码成了2，那么没有独热编码之前2就是大于1的，但实际上我们知道France和Germany不是数值变量，而是分类变量，没有大小的关系。

## labelencoder将文本转化为数字 

In [4]:
from sklearn.preprocessing import LabelEncoder

In [5]:
le1=LabelEncoder()
le2=LabelEncoder()
#我们直接用fir_transform的方法来转换
X[:,1]=le1.fit_transform(X[:,1])
X[:,2]=le2.fit_transform(X[:,2])#对性别进行转化

In [6]:
X[:5]

array([[619, 0, 0, 42, 2, 0.0, 1, 1, 1, 101348.88],
       [608, 2, 0, 41, 1, 83807.86, 1, 0, 1, 112542.58],
       [502, 0, 0, 42, 8, 159660.8, 3, 1, 0, 113931.57],
       [699, 0, 0, 39, 1, 0.0, 2, 0, 0, 93826.63],
       [850, 2, 0, 43, 2, 125510.82, 1, 1, 1, 79084.1]], dtype=object)

我们可以看到对分类变量字段Geography确实已经转换成功了

## onehotencoder将数字转化成0和1的独热编码 

[onehotencoder](http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)是将特征值为整数的分类变量转化成0和1分布的向量，这个向量来代表这个特征的类别

In [7]:
from sklearn.preprocessing import OneHotEncoder
enc=OneHotEncoder(categorical_features=[1])#说明是第几个字段要转化成独热编码
X=enc.fit_transform(X)

In [8]:
X

<10000x12 sparse matrix of type '<class 'numpy.float64'>'
	with 83633 stored elements in COOrdinate format>

转换之后是一个稀疏矩阵

In [9]:
X=X.toarray()
X

array([[  1.00000000e+00,   0.00000000e+00,   0.00000000e+00, ...,
          1.00000000e+00,   1.00000000e+00,   1.01348880e+05],
       [  0.00000000e+00,   0.00000000e+00,   1.00000000e+00, ...,
          0.00000000e+00,   1.00000000e+00,   1.12542580e+05],
       [  1.00000000e+00,   0.00000000e+00,   0.00000000e+00, ...,
          1.00000000e+00,   0.00000000e+00,   1.13931570e+05],
       ..., 
       [  1.00000000e+00,   0.00000000e+00,   0.00000000e+00, ...,
          0.00000000e+00,   1.00000000e+00,   4.20855800e+04],
       [  0.00000000e+00,   1.00000000e+00,   0.00000000e+00, ...,
          1.00000000e+00,   0.00000000e+00,   9.28885200e+04],
       [  1.00000000e+00,   0.00000000e+00,   0.00000000e+00, ...,
          1.00000000e+00,   0.00000000e+00,   3.81907800e+04]])

In [10]:
print (X[0])
print (len(X[0]))

[  1.00000000e+00   0.00000000e+00   0.00000000e+00   6.19000000e+02
   0.00000000e+00   4.20000000e+01   2.00000000e+00   0.00000000e+00
   1.00000000e+00   1.00000000e+00   1.00000000e+00   1.01348880e+05]
12


我们可以看到在转换以后确实字段的数目是对的，并且Geography那一项已经独热编码了，也就是变成了前面三项，但是我们需要移除掉第一项，否则的话就会陷入dummy variable trap，也就是前三项加和一直都为1

In [11]:
#我们移除掉第一列
X=X[:,1:]

In [12]:
X

array([[  0.00000000e+00,   0.00000000e+00,   6.19000000e+02, ...,
          1.00000000e+00,   1.00000000e+00,   1.01348880e+05],
       [  0.00000000e+00,   1.00000000e+00,   6.08000000e+02, ...,
          0.00000000e+00,   1.00000000e+00,   1.12542580e+05],
       [  0.00000000e+00,   0.00000000e+00,   5.02000000e+02, ...,
          1.00000000e+00,   0.00000000e+00,   1.13931570e+05],
       ..., 
       [  0.00000000e+00,   0.00000000e+00,   7.09000000e+02, ...,
          0.00000000e+00,   1.00000000e+00,   4.20855800e+04],
       [  1.00000000e+00,   0.00000000e+00,   7.72000000e+02, ...,
          1.00000000e+00,   0.00000000e+00,   9.28885200e+04],
       [  0.00000000e+00,   0.00000000e+00,   7.92000000e+02, ...,
          1.00000000e+00,   0.00000000e+00,   3.81907800e+04]])

In [13]:
from sklearn.cross_validation import train_test_split
x_train, x_test, y_train, y_test=train_test_split(X, Y, test_size=0.3,random_state=42)



In [14]:
from sklearn.preprocessing import StandardScaler
scaler=StandardScaler()
x_train=scaler.fit_transform(x_train)
x_test=scaler.fit_transform(x_test)

# 开始构造模型 

In [15]:
#我们需要两个模块，一个是模型，用sequential；另外一个是层，从layer导入
import keras
from keras.models import Sequential
from keras.layers import Dense

Using TensorFlow backend.


构建神经网络模型有两种办法，一种是初始化一个模型，在模型参数里面就设置好参数，构建整个神经网络的graph；另外一种就是初始化一个模型以后，依次添加相应的层

Just your regular densely-connected NN layer.

`Dense` implements the operation: `output = activation(dot(input, kernel) + bias)` where `activation` is the element-wise activation function passed as the activation argument, `kernel` is a weights matrix created by the layer, and `bias` is a bias vector created by the layer (only applicable if use_bias is True).

Note: if the input to the layer has a rank greater than 2, then it is flattened prior to the initial dot product with kernel.

以上就是英文官方文档的说明，传入Dense里面有几个重要的参数，包括units，也就是输出的维度，可以认为是下一层输入值的维度；input_shape也就是输入的形状，一般只用设置维度数目即可；activation激活函数，对于隐含层一般选择relu效果好，对于输出层为了做逻辑回归，也就是二分类，用sigmoid函数  
> 一般来说，隐含层里面神经元的数目是需要思考的，可以用gridsearchcv的方法，一般而言是输入的特征个数以及输出层神经元的平均值。在这里是有11个特征，1个输出层神经元，平均值是6

In [16]:
#1.首先我们要初始化一个模型
classifier=Sequential()
classifier.add(Dense(6,input_shape=(11,), activation='relu',kernel_initializer='glorot_uniform',use_bias=True))
classifier.add(Dense(6, activation='relu',kernel_initializer='glorot_uniform',use_bias=True))
classifier.add(Dense(1,kernel_initializer='glorot_uniform',activation='sigmoid'))

In [17]:
len(x_train[0])

11

# 编译模型(Compile the model) 

编译模型也就是告诉模型如何运行，以什么样的梯度下降去更新权重，选用什么损失函数用来比较真实值和预测值的误差

与上面模型对象逐步添加层用add方法类似，我们这里用compile方法，传入一些参数

compile里面有三个参数要传入，一个是loss，也就是损失函数，对于二分类问题可以用'binary_crossentropy'，对于多分类的问题用'categorical_crossentropy'；optimizer，也就是优化器，找出损失函数最低的那一组权重的方法；有随机梯度下降SGD也有adam；metrics，也就是衡量指标，可以选择accuracy

In [18]:
classifier.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])

# 训练模型 

在编译完模型之后，我们就可以开始训练模型了

In [19]:
classifier.fit(x_train,y_train,batch_size=10,epochs=20)#我们在这里设置每次只传入10个样本，然后训练20轮

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x120a2bf60>

我们这里可以看到随着训练轮数的增加，准确率也在大大增加

# 模型预测 

接下来我们看一下模型预测的结果如何

In [20]:
y_pred=classifier.predict_classes(x_test)
y_pred[:5]

array([[0],
       [0],
       [0],
       [0],
       [0]], dtype=int32)

然后我们用一下sklearn的混淆矩阵来查看一下准确预测离开的顾客和留下顾客的准确率

In [21]:
from sklearn.metrics import confusion_matrix as cm

In [22]:
cm(y_test,y_pred)

array([[2349,   67],
       [ 337,  247]])

我们可以看到混淆矩阵里面，预测准确的有2320+305个，计算一下准确率

In [23]:
acc=(y_test==y_pred).sum(axis=1)/len(y_test)

In [24]:
print (acc[0])

0.805333333333


最后结果能够达到80.5%，而在训练集上的训练效果是86%，说明该模型还是能够准确预测顾客的去留的

# 预测新数据 

Use our ANN model to predict if the customer with the following informations will leave the bank: 

- Geography: France
- Credit Score: 600
- Gender: Male
- Age: 40 years old
- Tenure: 3 years
- Balance: \$60000  
- Number of Products: 2  
- Does this customer have a credit card ? Yes
- Is this customer an Active Member: Yes
- Estimated Salary: $50000

接下来我们想知道具有以上数据的一个顾客是否会离开银行

In [25]:
###### 1.我们先输入这个数据
x_new=[ 600, 'France','Male', 40, 3, 60000, 2, 1, 1, 50000]

In [26]:
#labelencoder进行对应的分类变量转码
x_new[1]=le1.transform([x_new[1]]).tolist()[0]#对城市进行转化
x_new[2]=le2.transform([x_new[2]]).tolist()[0]#对性别进行转化

In [27]:
x_new

[600, 0, 1, 40, 3, 60000, 2, 1, 1, 50000]

In [28]:
np.array(x_new).reshape((1,-1))

array([[  600,     0,     1,    40,     3, 60000,     2,     1,     1,
        50000]])

可以看到经过以上的transform方法之后转换成功了

In [29]:
#2.接下来是进行独热编码
x_new_trans=enc.transform(np.array(x_new).reshape((1,-1)))

print (x_new_trans.toarray())
print ('_'*80)
#同样的我们需要移除掉第一列
x_new_trans_=x_new_trans.toarray()[:,1:]
print (x_new_trans_)

[[  1.00000000e+00   0.00000000e+00   0.00000000e+00   6.00000000e+02
    1.00000000e+00   4.00000000e+01   3.00000000e+00   6.00000000e+04
    2.00000000e+00   1.00000000e+00   1.00000000e+00   5.00000000e+04]]
________________________________________________________________________________
[[  0.00000000e+00   0.00000000e+00   6.00000000e+02   1.00000000e+00
    4.00000000e+01   3.00000000e+00   6.00000000e+04   2.00000000e+00
    1.00000000e+00   1.00000000e+00   5.00000000e+04]]


In [30]:
#接下来我们需要用scaler进行缩放
x_new_scale=scaler.transform(x_new_trans_)

In [31]:
#接下来我们用这个特征去预测
pred_class=classifier.predict_classes(x_new_scale)
print (pred_class)

[[0]]


最终的结果表明该顾客不会离开

模型对数据进行操作的时候，比如预测，训练，以及转化的时候，数据都是矩阵，如果是只有一维的数据，比如`array([1,2,3])`它实际上是1个字段3行数据，而对于`array([[1,2,3]])`这个二维的矩阵，实际上是具有3个字段的1条数据。因此我们在输入的时候要注意转换

# 方差与偏差的衡量 

并不是所有测试集都是都是适合用来评估模型的性能的，从单一的测试集来评估模型的性能是有失偏颇的。模型的性能包括了偏差和方差，偏差讲求的是准确率的大小，而方差讲求的是对不同的测试集的稳定性大小，为了评估这两者的情况，可以用keras的KerasClassifier方法来实现scikit-learn工具包的交叉验证。一般来说，要传入三个参数，build_fn传入的是构建好并编译的模型，batch_size以及n_epochs。

In [38]:
from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_selection import cross_val_score#cross_val_score可以返回每次交叉验证的平均值
from keras.layers import Dropout
def build_classifier():
    classifier=Sequential()
    classifier.add(Dense(6,input_shape=(11,), activation='relu',kernel_initializer='glorot_uniform',use_bias=True))
    classifier.add(Dropout(rate=0.1))
    classifier.add(Dense(6, activation='relu',kernel_initializer='glorot_uniform',use_bias=True))
    classifier.add(Dropout(rate=0.1))
    classifier.add(Dense(1,kernel_initializer='glorot_uniform',activation='sigmoid'))
    classifier.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])
    return classifier

In [41]:
classifier=KerasClassifier(build_fn=build_classifier,batch_size=10,epochs=2)
accuracies=cross_val_score(estimator=classifier,X=x_train,y=y_train,n_jobs=-1,cv=10,verbose=0)

Epoch 1/2
Epoch 1/2
Epoch 1/2
Epoch 1/2


KeyboardInterrupt: 

# 通过GridsearchCV来寻找最优参数

我们跟以上一样用同样的分类器，不同的是我们将分类器用于gridsearchcv而不是交叉分数

In [42]:
from sklearn.model_selection import GridSearchCV

In [45]:
def build_classifier(optimizer):
    classifier=Sequential()
    classifier.add(Dense(6,input_shape=(11,), activation='relu',kernel_initializer='glorot_uniform',use_bias=True))
    classifier.add(Dropout(rate=0.1))
    classifier.add(Dense(6, activation='relu',kernel_initializer='glorot_uniform',use_bias=True))
    classifier.add(Dropout(rate=0.1))
    classifier.add(Dense(1,kernel_initializer='glorot_uniform',activation='sigmoid'))
    classifier.compile(loss='binary_crossentropy', optimizer=optimizer,metrics=['accuracy'])
    return classifier

In [48]:
classifier=KerasClassifier(build_fn=build_classifier)
params={'batch_size':[25,32],
       'epochs':[10,20],
        'optimizer':['adam','sgd']
       }
grid_seach_cv=GridSearchCV(estimator=classifier,param_grid=params,cv=10,n_jobs=-1)

In [49]:
grid_seach_cv.fit(x_train,y_train)

Epoch 1/10
Epoch 1/10
Epoch 1/10
Epoch 1/10


KeyboardInterrupt: 