## 4.4 Keras中的重要对象

Keras预先定义了很多对象用于帮助构造Keras的网络结构，比如常用的激活函数、参数初始化方法、正则化方法等。这些丰富的预定义对象是让Keras方便易用的重要前提条件。下面简要介绍常用的激活对象、初始化对象和正则化对象。

### 4.4.1 激活对象

在定义网络层时，使用什么激活函数是很重要的选择。
<br>Keras提供了大量预定义好的激活函数，方便定制各种不同的网络结构。
<br>在Keras中使用激活对象有两种方法：一是**单独定义一个激活层**；二是**在前置层里面通过激活选项来定义所需的激活函数**。
<br>比如，下面两段代码是等效的，前一段是通过激活层来使用激活对象的；后一段是使用前置层的激活选项来使用激活对象的。

In [None]:
model.add(Dense(64,input_shape=(784,)))
model.add(Activation('tanh'))

model.add(Dense(64,input_shape=(784,),activation='tanh'))

Keras预定义的激活函数可以通过预先定义好的字符串来引用，比如上面代码使用了tanh激活函数。下面简要介绍这些预定义的激活函数。

**softmax**：这个激活函数也被称为归一化的指数函数，是逻辑函数的扩展，能将K维的实数域上的数值压缩到K维的（0，1）值域上，并且K个数值的和为1。这个函数可以写作：
![Softmax.jpg](attachment:Softmax.jpg)
在概率理论中，这个公式描述了一个有K种不同取值的离散变量的分布，因此也很自然地出现在其他多类别分类算法中，比如多类别逻辑回归、多类别线性分类器等都使用这个函数。

**softplus**：这个激活函数将原始值从任意实数区间投影到正实数区间，即值域从整个实数域变为（0，inf）。用公式表示如下：
![softplus.jpg](attachment:softplus.jpg)

**softsign**：这个激活函数起到的作用类似于三角函数，将实数域上的数值投影到（-1，1）区间。用公式表示如下：
![softsign.jpg](attachment:softsign.jpg)

**elu**：这个激活函数的英文全称为Exponential Linear Unit，带一个参数α。这个激活函数用公式表示为：
![elu.jpg](attachment:elu.jpg)
即当参数小于0时，使用α（exp（x）-1）作为输出，如果参数大于或等于0，则输出参数的值，因此其值域为（-α，inf）。

**relu**：这个激活函数的英文全称为Rectified Linear Unit，是一个阶梯函数，当参数小于0时，其取值为0；当参数大于或等于0时，则保持参数的值，因此将实数域上的数值投影到[0, inf)区间。

**tanh**：这个激活函数运用三角函数中的双曲正切函数将实数域上的取值压缩到（-1，1）区间。用公式表示如下：
![tanh.jpg](attachment:tanh.jpg)

**sigmoid**：这个激活函数在Keras中特指逻辑函数，是一个将实数域上的取值压缩到（0，1）区间的函数。如果读者有统计学背景，那么对这个函数应该非常熟悉。用公式表示如下：
![sigmoid.jpg](attachment:sigmoid.jpg)
sigmoid指代其压缩后的取值具有S形的曲线。有时候tanh也被纳入sigmoid这类函数中。

**hard_sigmoid**：这是上面提到的标准sigmoid激活函数的多段线性逼近形式，旨在避免exp（）函数的计算，加快速度。该函数可以用如下公式表示：
![hard_sigmoid.jpg](attachment:hard_sigmoid.jpg)

**linear**：线性激活函数不对参数做任何变换，即f（x）=x。当激活选项设置为None时，即选择线性激活函数。

### 4.4.2 初始化对象

初始化对象（Initializer）用于随机设定网络层激活函数中的权重值或者偏置项的初始值，包括kernel_initializer和bias_initializer。好的权重初始化值能帮助加快模型收敛速度。Keras预先定义了很多不同的初始化对象，包括：

1. Zeros，将所有参数值都初始化为0。
2. Ones，将所有参数值都初始化为1。
3. Constant（value=1），将所有参数值都初始化为某一个常量，比如这里设置为1。
4. RandomNormal，将所有参数值都按照一个正态分布所生成的随机数来初始化。正态分布的均值默认为0，而标准差默认为0.05。可以通过mean和stddev选项来修改。

5. TruncatedNormal，使用一个截断正态分布生成的随机数来初始化参数向量，默认参数均值为0，标准差为0.05。对于均值的两个标准差之外的随机数会被遗弃并重新取样。这种初始化方法既有一定的多样性，又不会产生特别偏的值，因此是比较推荐的方法。针对不同的常用分布选项，Keras还提供了两个基于这种方法的特例，即glorot_normal和he_normal。前者的标准差不再是0.05，而是输入向量和输出向量的维度的函数：![stddev.jpg](attachment:stddev.jpg)其中n1是输入向量的维度，而n2是输出向量的维度；后者的标准差只是输入向量的维度的函数：![stddev2.jpg](attachment:stddev2.jpg)

6. RandomUniform，按照均匀分布所生成的随机数来初始化参数值，默认的分布参数最小值为-0.05，最大值为0.05，可以通过minval和maxval选项分别修改。针对常用的分布选项，Keras还提供了两个基于这个分布的特例即glorot_uniform和he_uniform。前者均匀分布的上下限是输入向量和输出向量的维度的函数：![minval1.jpg](attachment:minval1.jpg) 而在后者上下限只是输入向量的维度的函数：![minval2.jpg](attachment:minval2.jpg)

7. 自定义，用户可以自定义一个与参数维度相符合的初始化函数。下面的例子来自于Keras手册，使用后台的正态分布函数生成一组初始值，在定义网络层的时候调用这个函数即可。

In [None]:
from keras import backendend as K

def my_init(shape, dtype=dtype):
    return K.random_normal(shape, dtype=dtype)

model.add(Dense(64, kernel_initalizer=my_init))

### 4.4.3 正则化对象

在建模的时候，正则化是防止过度拟合的一个很常用的手段。在神经网络中也提供了正则化的手段，分别应用于权重参数、偏置项以及激活函数，对应的选项分别是kernel_regularizer、bias_reuglarizier和activity_regularizer。它们都可以应用Keras.regularizier.Regularizer对象，这个对象提供了定义好的一阶、二阶和混合的正则化方法，分别将前面的Regularizier替换为l1(x)、l2(x)和l1_l2(x1，x2)，其中x或者x1，x2为非负实数，表明正则化的权重。

也可以设计自己的针对权重矩阵的正则项，只要接受权重矩阵为参数，并且输出单个数值即可。Keras手册提供的例子如下：

In [None]:
from keras import backendend as K

def l1_reg(weight_matrix):
    return 0.01 * K.sum(K.abs(weight_matrix))

model.add(Dense(64,input_dim=64,kernel_regularizer=l1_reg))

在这个例子中，用户自己定义了一个比例为0.01的一阶正则化项，返回的单个数值是权重参数的绝对值的和，乘以0.01这个比例，其用法跟预先提供的regularizier.l1（x）对象是一样的。