# Brief 概述
当前市面上有非常多的模块包 （Tool-kit） 可以提供我们使用来建构一个深度学习的神经网络，各家的模块各有优势劣势，下面是对于两个模块的分析比较，分别是 Tensorflow 和 Keras。
### Tensorflow （developped by Google）
就老师自己的使用经验来说，对于一个新手而言并没有那么好用，原因在于它如同另一个模块包 theano 一样太开源并富有拓展性了，需要一段时间去适应和学习，站在初学的角度来看，它就是一个微分器，非常适合用来解决一次微分求极值与深度学习核心以外的问题，极值求出来之后我们就可以拿结果去做梯度下降的算法推估参数。
### Keras （developped by Staffs from Google)
反观这个模块不太一样，它可以让初学者在段时间内就熟悉使用，并建构一个属于自己的神经网络，而其内部机制说穿了其实就是 Tensorflow 和 theano 的二度打包界面，每每在呼叫这个包里面的函数时，其实就是在调用 Tensorflow 里面的功能了。但是即便如此，这个模块包也有足够的弹性空间可以让大部分的人去发挥创造性，建构出一个自己心目中的神经网络。如果需要更进阶使用这个模块，我们甚至可以自行修改该模块包后面的代码，完成深度定制的构思。

据悉由于 Keras 的开发者也是出自 Google 公司，因此这个模块将成为 Tensorflow 的 API ，让其界面和背后功能模块有一个更为强健的链接。

Keras means "horn" in Greek. Here is the [link](http://keras.io/) and related [example](https://github.com/fchollet/keras/tree/master/examples) about Keras.

# [mnist Database](http://yann.lecun.com/exdb/mnist)
它是一个非常普及的手写数字数据库模型，如果需要使用 Keras 模块包来引用该数据库，这个[链接](http://keras.io/datasets/)提供一个好的途径。

# Steps for using Keras
使用这个模块建立神经网络的过程就像是在叠积木一般，把功能一点一点的建构上去，最终完成一个完整的模型。下面是步骤列举：
1. Define a set of function 定义一个神经网络理想中的长相
2. Goodness of function 评判一个函数结果的好坏
3. Pick the best function 告知一个寻找最优解的方法

### Step No.1
这是一个积木堆积的起点，先宣告一个积木的名称后，再基于宣告的名字开始一层一层建构网络内容，如下面示例代码：

In [None]:
import keras

model = Sequential()

# Here is the old version of keras
model.add(Dense(input_dim=28*28, output_dim=500))
model.add(Activation('sigmoid'))

model.add(Dense(output_dim=500))
model.add(Activation('sigmoid'))

model.add(Dense(output_dim=10))
model.add(Activation('softmax'))

# Here is the new version of keras
model.add(Dense(input_dim=28*28, units=500, activation='sigmoid')
model.add(Dense(units=500, activation='sigmoid')
model.add(Dense(units=10, activation='softmax')

##### Function Explanation
+ .add（）: 用来添加神经层
  + Dense（）： 设定该神经层为全连接层
  + input_dim: 该层的输入为一个 28×28 的二维向量
  + output_dim: 该层为 500 个神经节点的输出
  + Activation（）： 每次输出到下一层神经层的输入时，经过的激励函数种类。 可以有 sigmoid, softplus, softsign, softmax, relu, tanh, hard_sigmoid, linear 等等

接下来挨着建构一层又一层的神经网络，并定义输入和输出的神经元维度，在输出到下一层神经网络中前，选择使用的激励函数种类，从此之后就不断循环到神经网络结束为止。

p.s. 除了第一层需要特别定义输入的维度之外，后面的神经层会自动的意识到前一层神经网络的输出，然后作为自己输入的大小，非常方便和人性化。

### Step No.2-3
评判神经网络结果好坏的方式就是看损失函数的分数值，它也是我们需要利用梯度下降训练到该函数最下值的一个关键点所在。在 Keras 启动损失函数的方法如下代码：

In [None]:
# Here is the old version of keras
model.compile(loss='categorical_crossentropy',
              optimizer='adam', metrics=['accuracy'])

model.fit(x_train, y_train, batch_size=100, nb_epoch=20)

# Here is the new version of keras
model.compile(loss='categorical_crossentropy',
              optimizer='adam', metrics=['accuracy'])

model.fit(x_train, y_train, batch_size=100, epochs=20)

##### Function Explanation
经过步骤一定义好一个神经网络之后，接下来就需要把他们打包起来做进一步的评估，对应的函数是： .compile（）。
+ .compile（）: 把被添加到 model 名字的神经层全部打包起来，进行下一阶段的事情。
  + loss： 定义使用的损失函数种类是什么，范例里面名字对应到的函数就是 cross entropy
  + optimizer： 定义梯度下降的方法，一般都使用最快且有效率的方法 adam。 其他支援的方法有： SGD, RMSprop, Adagrad, Adadelta, Adam, Adamax, Nadam, 等等。

p.s. 其他的损失函数种类都被完好的记录在其官方文档中，[链接于此](https://keras.io/objectives)。

实际开始训练的时候需要另一个函数来启动，并且在参数部分调整训练时的状态与模样，对应的使用函数是： .fit()。
+ .fit(): 用来拟合在设定好的各种参数下，神经网络的最佳分类结果。
  + x_train: 是一个 2 维的 numpy 向量值，第一个元素代表有多少个。如果有一百张图片，每张图片是 30×50 的像素大小，则值为 （100, 1500)。
  + y_train: 一个一维的 numpy 向量值，用来表示总共有几个类别需要被分类，如果是手写数字数据库来举例，那么就是一个一维向量里面有 10 个元素，每个元素中 0 表示否，1 表示是。
  + batch_size & nb_epoch 关联到算法与硬件的互相搭配，需要更为深度的解释，如后内容详述。

p.s. 更多的解释可以到[此链接](https://www.tensorflow.org/versions/r0.8/tutorials/mnist/beginners/index.html)寻找相关的解释。

# Mini-Batch & Epoch
在实际上操演深度学习框架的时候，训练的目标并非去把整体的损失函数值降到最低，而是把被我们训练的数据集分成一个又一个的单元 （batch） ，单元的分集必须随机的分，不能够有顺序性，否则训练出来的结果很容易和我们的预期产生大的偏差。分出单元后，接下来的操作步骤如下：
1. 随机对神经网络的参数初始化
2. 选第一个单元里元素的总体损失函数（非全部数据库的）
3. 使用梯度下降的方法找到总体损失函数的最小值
4. 重复步骤2-3直到所有的单元都被看过一遍为止，这样表示完成了一次的 Epoch。 有几个单元就表示完成了几次参数的更新后，才结束一次的 Epoch 操作。

而上面代码中未被解释到的 batch_size & nb_epoch 部分下面继续说明。
+ .fit(): ......
  + batch_size: 表示一个单元里面想要有多少个元素被包含其中， 100 则表示一个小单元中一共有 100 个测试数据被包含。
  + nb_epoch: 表示要经过几次对所有单元的运算，算完所有单元的损失函数值为一个 epoch，总共要算 20 轮。

### Advantage of GPU
如果我们把 batch_size 调整成 1， 其结果就跟 Stochastic gradient descent 的功效是一样的了，这种方法可以发挥其自身的速度去填补更新数值的时候歪七扭八的方向，但是在实际上配合硬件的时候，却有别的方法可以追赶上它的速度，原因出在 GPU 的平行计算功能上，如下图：
![batch_size.png](attachment:batch_size.png)

在前面机器学习的过程中说到如果使用了 cross entropy 的统计计算方式，其结果会更加的稳定，但是牺牲了运算速度，反观 Stochastic 的方法则是结果比较不稳定，但是速度快，但现在 GPU 横空出世，从硬件的角度解决了 cross entropy 的龟速问题。 对于一个单元而言，如果放到了 GPU 里面处理，则从上图的曲线来看，其内含一个或是十个元素的运算速度都是一样的，在 GPU 眼中没有任何不同。

GPU 之所以能够做到平行处理就是因为它视一个神经网络里面的参数结构为一个一个的大型矩阵，从外部来看，也就是一行算式的事情，但是在矩阵里面却同时完成了好多个一模一样的计算过程，如下图描述：
![matrix.png](attachment:matrix.png)

但是随着单元里面的元素增加，也会渐渐顶到 GPU 的能力上限，直到那时候计算的速度才会出现比较明显的差距。 不过只要是在 GPU 能力容许范围内，平行运算的优势就可以被用来弥补 cross entropy 方法造成的计算缓慢问题，同时保有结果很好的稳定性。

### Down side of small batch_size
虽然小的 batch_size 可以在每个 epoch 中有更多的参数更新，但是同时带来了另一个麻烦，很容易陷入区域最小值后，就卡在该洼地走不出来了。

损失函数的图像化结果越复杂的话，就越不可能是一个完美的下凹形状，要是用一个单一的数据个案算出来的损失函数值作为唯一的评判标准，则很大的机会就会失去宏观的判断能力，造成陷在自己的小框框世界中走不出来，使得周遭到处都是奇异点，到处都有坑。

解决此问题的方法就是让多一点的数据案例一起参与损失函数值的运算，共同商讨下一步的前进方向是什么，这么一来就可以大幅降低陷入坑里的可能性，找到真正的函数最小值位置。

# Save & Load & Evaluate
同理 Keras 也可以把训练好的结果读出来或是储存训练好的结果，详情如[此链接](http://keras.io/getting-started/faq/#how-can-i-save-a-keras-model)。

需要查看训练的模型准确率方法如下代码：

In [None]:
# The first approach
score = model.evaluate(x_test, y_test)
print('Total loss on Testing Set: ', score[0])
print('Accuracy of Testing Set: ', score[1])

# The second approach
result = model.predict(x_test)

### 1st Approach
这是基于一个有测试集的训练好的模型而设计的方法。。。