# 0.加载数据

数据来源：[UCI Machine Learning Repository: Pima Indians Diabetes Data Set](http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes)   


### Pima Indians dataset

- 特征8个
    - 怀孕次数 Number of times pregnant
    - 口服葡萄糖耐量试验中2小时的血糖浓度 Plasma glucose concentration a 2 hours in an oral glucose tolerance test.
    - 舒张压 Diastolic blood pressure (mm Hg)
    - 肱三头肌皮肤褶皱厚度 Triceps skin fold thickness (mm)
    - 两个小时血清胰岛素 2-Hour serum insulin (mu U/ml)
    - 体质指数 BMI-Body mass index
    - 糖尿病血系功能 Diabetes pedigree function
    - 年龄（岁）  Age (years)
- 标签1个
    - 类别：5年内糖尿病发病（1代表发病，0为不发病）Class, onset of diabetes within five years

> It describes patient medical record data for Pima Indians and whether they had an
onset of diabetes within five years. 

所以数据集中每个数据有8个属性（或特征），一个类别（或标签，1代表5年内发病，0表示5年内不发病）

若所有预测为不发病（0），则准确率为65.1%，因为数据集中，类别为0的数目为500，类别为1的数目为268，总个数为768.

In [1]:
# 加载数据集 和 相关库
from keras.models import Sequential
from keras.layers import Dense

import numpy as np

import urllib

# 使用url来获取 diabetes dataset
url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"

# 下载文件
raw_data = urllib.urlopen(url)

# 下载CSV文件 保存为 numpy matrix 格式
dataset = np.loadtxt(raw_data, delimiter=",")

# 数据特征与标签分开
X = dataset[:, 0:8]
y = dataset[:, 8]

# 随机数设置，便于产生相同的随机数
seed = 42
np.random.seed(seed)

Using Theano backend.


# 1.定义模型

In [2]:
# 创建模型
model = Sequential()

# 总4层神经网络
# 输入层 和 第一个隐含层 模型参数设置
# Dense calss 用来定义 完全连接层 的神经网络
# 其中 
# - 参数：12 是第一个隐含层的神经元个数，即12个神经元
# - 参数 input_dim=8 表示输入层神经元个数为8
# - 参数 init='uniform' 表示输入层到第一个隐含层之间的权重w初始化方式为uniform分布（keras中的默认权重初始化范围为0-0.05）
# - 参数 activation 表示所使用的激活函数，‘relu’表示使用的是 rectifier activation function
#                   ‘sigmoid’ 表示所使用的是 sigmoid activation function
model.add(Dense(12, input_dim=8, init='uniform', activation='relu')) 

# 第二个隐藏层模型参数设置: 8个神经元，权重初始方式为uniform分布形式，激活函数为 rectifier
model.add(Dense(8, init='uniform', activation='relu')) 

# 第三层输出层模型参数设置：1个神经元输出，权重初始化方式：uniform，激活函数：sigmoid
model.add(Dense(1, init='uniform', activation='sigmoid')) 



> 参考

> A unit employing the rectifier is also called a rectified linear unit (ReLU)

- rectifier activation function 参考 [Rectifier (neural networks) - Wikipedia](https://en.wikipedia.org/wiki/Rectifier_(neural_networks))
- [Sigmoid function - Wikipedia](https://en.wikipedia.org/wiki/Sigmoid_function)

# 2.编译模型

定义好模型，我们就需要编译。 我们可以使用便捷数字处理库under the covers （the so-called backend 后端），如Theano 或 TensorFlow. 这些后端库会自动选择最佳方式去训练神经网络并进行预测。

编译时，我们必须定义其他一些属性以便神经网络的训练。神经网络训练就是解决问题的一组最佳参数。

需要定义的属性：

- loss function 损失函数：用于评估神经网络的权重。下面使用 logarithmic loss
- optimizer 优化器：用于搜索神经网络权重的方法，方法为： gradient descent algorithm: adam
- metrics 度量： 以什么方式来度量训练后神经网络的效果呢？这里可以设置。 用预测的准确性 accuracy 来度量神经网络训练效果

## 参考

- [Adam: A Method for Stochastic Optimization](https://arxiv.org/abs/1412.6980)

In [3]:
# 编译模型
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 3.拟合模型 

> Fit model

定义好模型，编译好模型，我们就需要拟合模型（fit model）。

参数：

- 模型训练迭代次数 nb_epoch
- 更新一次神经网络权重时使用的训练样本数目 batch_size

In [4]:
# Fit the model
model.fit(X, y, nb_epoch=150, batch_size=10)



Epoch 1/150
Epoch 2/150
Epoch 3/150
Epoch 4/150
Epoch 5/150
Epoch 6/150
Epoch 7/150
Epoch 8/150
Epoch 9/150
Epoch 10/150
Epoch 11/150
Epoch 12/150
Epoch 13/150
Epoch 14/150
Epoch 15/150
Epoch 16/150
Epoch 17/150
Epoch 18/150
Epoch 19/150
Epoch 20/150
Epoch 21/150
Epoch 22/150
Epoch 23/150
Epoch 24/150
Epoch 25/150
Epoch 26/150
Epoch 27/150
Epoch 28/150
Epoch 29/150
Epoch 30/150
Epoch 31/150
Epoch 32/150
Epoch 33/150
Epoch 34/150
Epoch 35/150
Epoch 36/150
Epoch 37/150
Epoch 38/150
Epoch 39/150
Epoch 40/150
Epoch 41/150
Epoch 42/150
Epoch 43/150
Epoch 44/150
Epoch 45/150
Epoch 46/150
Epoch 47/150
Epoch 48/150
Epoch 49/150
Epoch 50/150
Epoch 51/150
Epoch 52/150
Epoch 53/150
Epoch 54/150
Epoch 55/150
Epoch 56/150
Epoch 57/150
Epoch 58/150
Epoch 59/150
Epoch 60/150
Epoch 61/150
Epoch 62/150
Epoch 63/150
Epoch 64/150
Epoch 65/150
Epoch 66/150
Epoch 67/150
Epoch 68/150
Epoch 69/150
Epoch 70/150
Epoch 71/150
Epoch 72/150
Epoch 73/150
Epoch 74/150
Epoch 75/150
Epoch 76/150
Epoch 77/150
Epoch 78

<keras.callbacks.History at 0xd502cc0>

# 4.模型评估

我们在整个数据集上训练好神经网络，此时我们在相同的数据集上评估网络的性能，即看看训练集上的模型准确性（训练准确率）。但是我们不知道在其他新的样本上网络的性能（泛化能力），怎么办呢？我们可将整个数据集划分为训练集和测试集。用训练集来训练模型，用测试集来评估模型在测试集上的性能（分类or预测准确率）。

In [5]:
# Evaluate the model
# 在整个数据集（同时也是训练集）上评估模型性能
scores = model.evaluate(X, y)
print("{0}: {1:.2f}%".format(model.metrics_names[1], scores[1]*100))

 32/768 [>.............................] - ETA: 0sacc: 78.39%
