# Set up

In [1]:
# Python ≥3.5 is required
import sys
assert sys.version_info >= (3, 5)

# Scikit-Learn ≥0.20 is required
import sklearn
assert sklearn.__version__ >= "0.20"

try:
    # %tensorflow_version only exists in Colab.
    %tensorflow_version 2.x
except Exception:
    pass

# TensorFlow ≥2.0 is required
import tensorflow as tf
from tensorflow import keras
assert tf.__version__ >= "2.0"

%load_ext tensorboard

# Common imports
import numpy as np
import os

# to make this notebook's output stable across runs
np.random.seed(42)

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# Where to save the figures
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "deep"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

# 初始化方法

## Xavier初始化

glorot认为每层的输出方差应等于输入方差，这样可以避免梯度消失或梯度爆炸，要实现这一点可以对每层的权重进行如下的初始化，主要有两种

- **Glorot正态分布初始化方法**，也称作Xavier正态分布初始化，参数由0均值，标准差为sqrt(2 / (fan_in + fan_out))的正态分布产生，其中fan_in和fan_out是权重张量的扇入扇出（即输入和输出单元数目）
- **Glorot均匀分布初始化方法**，又成Xavier均匀初始化，参数从[-limit, limit]的均匀分布产生，其中limit为sqrt(6 / (fan_in + fan_out))。fan_in为权值张量的输入单元数，fan_out是权重张量的输出单元数。keras默认的初始化方式是glorot均匀分布初始化

## He初始化

* He正态分布初始化方法，参数由0均值，标准差为sqrt(2 / fan_in) 的正态分布产生，其中fan_in权重张量的扇入
* He均匀分布初始化方法，参数由[-limit, limit]的区间中均匀采样获得，其中limit=sqrt(6 / fan_in), fin_in是权重向量的输入单元数（扇入）
* 与Xavier的区别是，He使用的fan_in, glorot使用的是fan_avg = (fan_in + fan_out)/2
* 调用方法：在定义层的时候进行初始化设定，model.add(Dense(kernel_initializer='...', ...)

## LeCun初始化

* LeCun正态分布初始化方法，参数由0均值，标准差为stddev = sqrt(1 / fan_in)的正态分布产生
* LeCun均匀分布初始化方法，参数由[-limit, limit]的区间中均匀采样获得，其中limit=sqrt(3 / fan_in), fin_in是权重向量的输入单元数（扇入）
* 调用方法：在定义层的时候进行初始化设定，model.add(Dense(kernel_initializer='...', ...)

# 非饱和激活函数


## ReLU

* 优点：ReLU解决了因饱和激活函是在饱和值处梯度消失问题。
* 缺点：ReLU存在**Dying ReLU Problem**, 如果对ReLU的输入为负数时，神经元会死亡

使用：
`activation="relu"`

## Leaky ReLU

* 优点：Leaky ReLU可以解决Dying ReLU 问题，定义为$LeakyReLU_α(z) = max(αz, z)$ 其中超参数$α$定义函数泄露程度，它是z<0时的函数斜率，通常设置为0.01

使用：
```
# 构建网络的时候，需要单独添加leaky relu层
keras.layers.Dense(300, kernel_initializer="he_normal"),
keras.layers.LeakyReLU(),
```

### Random Leaky ReLU

* 在训练过程中在给定范围内随机选择α， 在测试过程中将其固定为平均值，可以减少过拟合的风险，当做正则化进行使用



### Parameter Leaky ReLU

* PReLU在大型图像数据集上的性能明显优于ReLU,但是在较小数据集上存在过拟合风险

使用：
```
# 构建网络的时候，需要单独添加leaky relu层
keras.layers.Dense(300, kernel_initializer="he_normal"),
keras.layers.PReLU(),
```

## ELU

$$
\mathrm{ELU}_{\alpha}(z)=\left\{\begin{array}{ll}
\alpha(\exp (z)-1) & \text { if } z<0 \\
z & \text { if } z \geq 0
\end{array}\right.
$$

* 当z<0时，取负值，使该单元的平均输出接近0，有助于缓解梯度消失问题
* 当z<0时，具有非零梯度，从而避免了神经元死亡的问题
* 超参数α，该值是当z为较大的负数时ELU函数毕竟的值，一般取1
* 如果α=1，ELU函数在所有位置都是平滑的，有助于加速梯度下降，如下面图像所示

![image-20210315171624532](images/image-20210315171624532.png)

缺点：
因为ELU中存在指数函数的缘故，因此计算会比ReLU慢，但是其在训练过程中有更多的收敛速度，可以弥补这种计算缓慢


使用：
`activation="elu"`

### Scaled ELU

* SELU的使用需要满足一些条件，目的使为了实现其自归一化：
    * 输入特征必须使标准化的（均值为0， 标准差为1）
    * 每个隐藏层的权重必须使用LeCun正态初始化，`kernel_initializer="lecun_normal"`
    * 网络架构必须是Sequential的，具有skip-connection的wide deep 网络无法保证自归一化
    
    
使用：
```
keras.layers.Dense(300, activation="selu",
                   kernel_initializer="lecun_normal"),
```
    
    
## 总结：

* 网络能够保证自归一化：SELU优于ELU
* 无法保证自归一化：ELU优于SELU
* 关心运行时的延迟：使用Leaky ReLU
* 网络过拟合：使用RReLU
* 训练集很大：使用PReLU

## 应用

In [None]:
# 使用Leaky ReLU
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.Dense(300, kernel_initializer="he_normal"),
    keras.layers.LeakyReLU(),
    keras.layers.Dense(100, kernel_initializer="he_normal"),
    keras.layers.LeakyReLU(),
    keras.layers.Dense(10, activation="softmax")
])

In [None]:
# 使用PReLU
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.Dense(300, kernel_initializer="he_normal"),
    keras.layers.PReLU(),
    keras.layers.Dense(100, kernel_initializer="he_normal"),
    keras.layers.PReLU(),
    keras.layers.Dense(10, activation="softmax")
])

# 重用预训练层

* `X_train_A`: all images of all items except for sandals and shirts (classes 5 and 6).
* `X_train_B`: a much smaller training set of just the first 200 images of sandals or shirts.

In [2]:
# 准备微调任务所需的数据

(X_train_full, y_train_full), (X_test, y_test) = keras.datasets.fashion_mnist.load_data()
X_train_full = X_train_full / 255.0
X_test = X_test / 255.0
X_valid, X_train = X_train_full[:5000], X_train_full[5000:]
y_valid, y_train = y_train_full[:5000], y_train_full[5000:]

def split_dataset(X, y):
    y_5_or_6 = (y == 5) | (y == 6) # sandals or shirts
    y_A = y[~y_5_or_6]
    y_A[y_A > 6] -= 2 # class indices 7, 8, 9 should be moved to 5, 6, 7
    y_B = (y[y_5_or_6] == 6).astype(np.float32) # binary classification task: is it a shirt (class 6)?
    return ((X[~y_5_or_6], y_A),
            (X[y_5_or_6], y_B))

(X_train_A, y_train_A), (X_train_B, y_train_B) = split_dataset(X_train, y_train)
(X_valid_A, y_valid_A), (X_valid_B, y_valid_B) = split_dataset(X_valid, y_valid)
(X_test_A, y_test_A), (X_test_B, y_test_B) = split_dataset(X_test, y_test)
X_train_B = X_train_B[:200]
y_train_B = y_train_B[:200]

## 加载预训练模型

In [3]:
model_A = keras.models.load_model("models/my_model_A.h5")

## 复制已有模型


In [4]:
model_B_on_A = keras.models.Sequential(model_A.layers[:-1])
model_B_on_A.add(keras.layers.Dense(1, activation="sigmoid", name='output'))

## 冻结预训练模型

由于我要做二分类任务，此时，只需要对最后一层进行训练即可，但是新的输出层是随机初始化的，可能在前几个轮次内产生较大的错误，产生的梯度可能会破坏重用的权重。一种方法是在前几个轮次冻结重用的层，给新层一些时间来学习合理的权重。因此冻结除预训练层最后一层以外的其他层，使其不可训练

In [5]:
for layer in model_B_on_A.layers[:-1]:
    layer.trainable = False

## 少轮次训练最后一层

In [6]:
model_B_on_A.compile(loss="binary_crossentropy",
                     optimizer=keras.optimizers.SGD(lr=1e-3),
                     metrics=["accuracy"])

history = model_B_on_A.fit(X_train_B, y_train_B, epochs=4,
                           validation_data=(X_valid_B, y_valid_B))

Epoch 1/4
Epoch 2/4
Epoch 3/4
Epoch 4/4


## 解冻其他层参数并再次训练

In [7]:
for layer in model_B_on_A.layers[:-1]:
    layer.trainable = True

model_B_on_A.compile(loss="binary_crossentropy",
                     optimizer=keras.optimizers.SGD(lr=1e-3),
                     metrics=["accuracy"])
history = model_B_on_A.fit(X_train_B, y_train_B, epochs=16,
                           validation_data=(X_valid_B, y_valid_B))

Epoch 1/16
Epoch 2/16
Epoch 3/16
Epoch 4/16
Epoch 5/16
Epoch 6/16
Epoch 7/16
Epoch 8/16
Epoch 9/16
Epoch 10/16
Epoch 11/16
Epoch 12/16
Epoch 13/16
Epoch 14/16
Epoch 15/16
Epoch 16/16


# 批量归一化

合适的初始化方法和正确的激活函数选择并不能完全消除vanish问题，批量归一化可以很好的解决该问题

数学表达：

$$
\begin{array}{l}
\boldsymbol{\mu}_{B}=\frac{1}{m_{B}} \sum_{i=1}^{m_{B}} \mathbf{x}^{(i)} \\
{\boldsymbol{\sigma}}_{B}^{2}=\frac{1}{m_{B}} \sum_{i=1}^{m_{B}}\left(\mathbf{x}^{(i)}-\boldsymbol{\mu}_{B}\right)^{2} \\
\widehat{\mathbf{x}}^{(i)}=\frac{\mathbf{x}^{(i)}-\boldsymbol{\mu}_{B}}{\sqrt{\boldsymbol{\sigma}_{B}^{2}+\epsilon}} \\
\mathbf{z}^{(i)}=\boldsymbol{\gamma} \otimes \widehat{\mathbf{x}}^{(i)}+\boldsymbol{\beta}
\end{array}
$$

* $m_B$是小批量中的实例数量
* $x_(i)$是实例i的零中心和归一化输入的向量
* $\gamma$是该层的输出缩放向量，用于控制均值
* $\beta$是该层的输出偏移向量，用于控制方差

需要学习的参数有：$\gamma$，$\beta$

使用方法：

* 训练期间：
    * 每个隐藏层的激活函数之前或之后添加一个批量归一化操作，该操作可以使模型学习到各层输入的最佳缩放和均值
    * 可以添加到输入层，此时便可以无需归一化训练集（例如StandardScaler）

* 测试期间：

    * 因为测试数据集有时很小的缘故，可以等到训练结束后，通过神经网络运行整个训练集，计算BN层每个输入的均值和方差，在进行预测时，可以使用这些均值和方差，而不是一个批次的输入均值和方差


优点：

* 使用BN后，可以使用饱和激活函数例如tanh
* 可以使用更大的学习率

缺点：
* 增加了模型的复杂性，额外的计算，预测速度较慢，虽然计算慢了，但是收敛更多，总得显示速度更快


In [3]:
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(300, activation="relu"),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(100, activation="relu"),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(10, activation="softmax")
])

In [5]:
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten (Flatten)            (None, 784)               0         
_________________________________________________________________
batch_normalization (BatchNo (None, 784)               3136      
_________________________________________________________________
dense (Dense)                (None, 300)               235500    
_________________________________________________________________
batch_normalization_1 (Batch (None, 300)               1200      
_________________________________________________________________
dense_1 (Dense)              (None, 100)               30100     
_________________________________________________________________
batch_normalization_2 (Batch (None, 100)               400       
_________________________________________________________________
dense_2 (Dense)              (None, 10)                1

如何在激活函数之前使用BN

In [6]:
# 由于BN层每个输入都包含一个偏移参数，因此可以从上一层中删除偏置项即use_bias = False
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(300, use_bias=False),
    keras.layers.BatchNormalization(),
    keras.layers.Activation("relu"),
    keras.layers.Dense(100, use_bias=False),
    keras.layers.BatchNormalization(),
    keras.layers.Activation("relu"),
    keras.layers.Dense(10, activation="softmax")
])

# 梯度裁剪

核心思想：反向传播期间，裁剪梯度，使他们永远不会超过某个阀值

应用场景：常用于RNN，对于其他类型网络，BN就足够了

```python
optimizer = keras.optimizers.SGD(clipvalue=1.0)
```

该优化器会将梯度向量的每个分量都裁剪为-1和1之间，注意，可能会改变梯度向量的方向，如果要确保梯度裁剪不更改梯度向量的方向，应该通过设置clipnorm，而不是clipvalue

```python
optimizer = keras.optimizers.SGD(clipnorm=1.0)
```

# 优化器选择

## Momentum

核心思想：关心先前的梯度是什么，通过动量向量$m$来跟踪上一个时刻的梯度，通过动量$\beta$来控制摩擦，为0时表示高摩擦，相当于原始的梯度，为1时表示无摩擦，通常0.9效果最好

$$
\begin{array}{l}
\mathbf{m} \leftarrow \beta \mathbf{m}-\eta \nabla_{\theta} J(\boldsymbol{\theta}) \\
\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\mathbf{m}
\end{array}
$$



In [8]:
optimizer = keras.optimizers.SGD(lr=0.001, momentum=0.9)

## Nesterov

核心思想：稍微提前测量梯度，通过在$\theta+\beta m$而不是在$\theta$

比常规动量优化要快。

$$
\begin{array}{l}
\mathbf{m} \leftarrow \beta \mathbf{m}-\eta \nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta}+\boldsymbol{\beta} \mathbf{m}) \\
\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\mathbf{m}
\end{array}
$$

In [None]:
optimizer = keras.optimizers.SGD(lr=0.001, momentum=0.9, nesterov=True)

## AdaGrad

核心思想：提前纠正梯度方向，使其更多的指向全局最优解，实现方式通过考虑各个分量的平方并按比例缩小梯度向量并累加

$$
\begin{array}{l}
\mathbf{s} \leftarrow \mathbf{s}+\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \otimes \nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \\
\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}-\eta \nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \oslash \sqrt{\mathbf{s}+\epsilon}
\end{array}
$$

该算法会自动降低学习率，因此是自适应的，几乎不需要调整学习率，


In [9]:
optimizer = keras.optimizers.Adagrad(lr=0.001)

## RMSProp

因为AdaGrad有时下降的太快，永远不会收敛到全局最优解的风险，因为AdaGrad累加了所有时刻的梯度，因此RMSProp的思想是只累加最近迭代中的梯度, 最近的度量通过下面公式的衰减率$\beta$衡量。

$$
\begin{array}{l}
\mathbf{s} \leftarrow \beta \mathbf{s}+(1-\beta) \nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \otimes \nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \\
\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}-\eta \nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \oslash \sqrt{\mathbf{s}+\epsilon}
\end{array}
$$

衰减率$\beta$通常设为0.9，即下面代码中rho

In [10]:
optimizer = keras.optimizers.RMSprop(lr=0.001, rho=0.9)

## Adam

核心思想：同时考虑动量优化即RMSProp,即考虑过去的梯度，又考虑过去梯度的方向

$$
\begin{array}{l}
\mathbf{m} \leftarrow \beta_{1} \mathbf{m}-\left(1-\beta_{1}\right) \nabla_{\theta} J(\boldsymbol{\theta}) \\
\mathbf{s} \leftarrow \beta_{2} \mathbf{s}+\left(1-\beta_{2}\right) \nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \otimes \nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta}) \\
\widehat{\mathbf{m}} \leftarrow \frac{\mathbf{m}}{1-\beta_{1}^{t}} \\
\widehat{\mathbf{s}} \leftarrow \frac{\mathbf{s}}{1-\beta_{2}^{t}} \\
\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\eta \widehat{\mathbf{m}} \oslash \sqrt{\hat{\mathbf{s}}+\epsilon}
\end{array}
$$

- 动量衰减超参数$\beta_1$通常初始化为0.9
- 缩放衰减超参数通常初始化为0.999

Adam,是自适应学习率算法，学习率可以使用默认值0.001

In [11]:
optimizer = keras.optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999)

## Nadam

核心思想：Adam优化 + Nesterov技巧，即提前考虑梯度

Nadam总体上胜过Adam,但是有时不如RMSProp


In [12]:
optimizer = keras.optimizers.Nadam(lr=0.001, beta_1=0.9, beta_2=0.999)

# 学习率调度

- 使用恒定学习率的策略：通常将恒定学习率从很小的值呈指数级增大到很大的值，再查看学习曲线并选择一个学习率略低于学习曲线开始回升的时刻的学习率，然后重新初始化模型开始训练


- 使用动态学习率的策略：从一个较大的学习率开始，一旦训练没有取得进展就降低它

## 幂调度

特点：越来越缓慢的降低学习率

```lr = lr0 / (1 + steps / s)**c```
* Keras uses `c=1` and `s = 1 / decay`

![image-20210316110724494](images/image-20210316110724494.png)

In [13]:
optimizer = keras.optimizers.SGD(lr=0.01, decay=1e-4)

## 指数调度

特点：学习率每s步降低10倍

```lr = lr0 * 0.1**(epoch / s)```

![image-20210316110908159](images/image-20210316110908159.png)

In [14]:
# step1:创建一个采用当前轮次并返回学习率的函数，该函数会根据不同的学习率和s,返回不同的学习率调度函数
def exponential_decay(lr0, s):
    def exponential_decay_fn(epoch):
        return lr0 * 0.1**(epoch / s)
    return exponential_decay_fn

exponential_decay_fn = exponential_decay(lr0=0.01, s=20)

In [15]:
# step2: 创建一个LearningRateScheduler回调函数，为其提供学习率调度函数
lr_scheduler = keras.callbacks.LearningRateScheduler(exponential_decay_fn)

## 分段恒定调度

![image-20210316112237052](images/image-20210316112237052.png)

In [17]:
# 创建一个可以根据不同epoch返回不同学习率的函数，然后将函数封装到一个函数中，该函数可以不同过硬编码进行分段的具体值
def piecewise_constant(boundaries, values):
    boundaries = np.array([0] + boundaries)
    values = np.array(values)
    def piecewise_constant_fn(epoch):
        return values[np.argmax(boundaries > epoch) - 1]
    return piecewise_constant_fn

piecewise_constant_fn = piecewise_constant([5, 15], [0.01, 0.005, 0.001])

In [18]:
# step2: 创建一个LearningRateScheduler回调函数，为其提供学习率调度函数
lr_scheduler = keras.callbacks.LearningRateScheduler(piecewise_constant_fn)

## 性能调度

每N步测量一次验证误差，并且当误差停止下降时，将学习率降低$\lambda$倍

![image-20210316112553249](images/image-20210316112553249.png)

In [19]:
# 每5步测量一次验证误差，并且当误差停止下降时，将学习率乘以0.5倍
lr_scheduler = keras.callbacks.ReduceLROnPlateau(factor=0.5, patience=5)

## 1周期调度

与上面的学习率调度（即从大到小）不同的是，1周期调度从提高学习率$\eta_0$开始，在训练中途线性增长到$\eta_1$, 然后在训练的后半部分将学习率再次线性降低到$\eta_0$

使用方法：先使用找最优恒定学习率的方法，找到$\eta_1$，然后将其除以10，即可得到$\eta_0$

In [None]:
# start 初步训练寻找最大学习率
K = keras.backend

class ExponentialLearningRate(keras.callbacks.Callback):
    def __init__(self, factor):
        self.factor = factor
        self.rates = []
        self.losses = []
    def on_batch_end(self, batch, logs):
        self.rates.append(K.get_value(self.model.optimizer.lr))
        self.losses.append(logs["loss"])
        K.set_value(self.model.optimizer.lr, self.model.optimizer.lr * self.factor)

def find_learning_rate(model, X, y, epochs=1, batch_size=32, min_rate=10**-5, max_rate=10):
    init_weights = model.get_weights()
    iterations = len(X) // batch_size * epochs
    factor = np.exp(np.log(max_rate / min_rate) / iterations)
    init_lr = K.get_value(model.optimizer.lr)
    K.set_value(model.optimizer.lr, min_rate)
    exp_lr = ExponentialLearningRate(factor)
    history = model.fit(X, y, epochs=epochs, batch_size=batch_size,
                        callbacks=[exp_lr])
    K.set_value(model.optimizer.lr, init_lr)
    model.set_weights(init_weights)
    return exp_lr.rates, exp_lr.losses

def plot_lr_vs_loss(rates, losses):
    plt.plot(rates, losses)
    plt.gca().set_xscale('log')
    plt.hlines(min(losses), min(rates), max(rates))
    plt.axis([min(rates), max(rates), min(losses), (losses[0] + min(losses)) / 2])
    plt.xlabel("Learning rate")
    plt.ylabel("Loss")
    
    
batch_size = 128
rates, losses = find_learning_rate(model, X_train_scaled, y_train, epochs=1, batch_size=batch_size)
plot_lr_vs_loss(rates, losses)

# end ----- 初步结束


# 构建1周期学习率调度函数
class OneCycleScheduler(keras.callbacks.Callback):
    def __init__(self, iterations, max_rate, start_rate=None,
                 last_iterations=None, last_rate=None):
        self.iterations = iterations
        self.max_rate = max_rate
        self.start_rate = start_rate or max_rate / 10
        self.last_iterations = last_iterations or iterations // 10 + 1
        self.half_iteration = (iterations - self.last_iterations) // 2
        self.last_rate = last_rate or self.start_rate / 1000
        self.iteration = 0
    def _interpolate(self, iter1, iter2, rate1, rate2):
        return ((rate2 - rate1) * (self.iteration - iter1)
                / (iter2 - iter1) + rate1)
    def on_batch_begin(self, batch, logs):
        if self.iteration < self.half_iteration:
            rate = self._interpolate(0, self.half_iteration, self.start_rate, self.max_rate)
        elif self.iteration < 2 * self.half_iteration:
            rate = self._interpolate(self.half_iteration, 2 * self.half_iteration,
                                     self.max_rate, self.start_rate)
        else:
            rate = self._interpolate(2 * self.half_iteration, self.iterations,
                                     self.start_rate, self.last_rate)
            rate = max(rate, self.last_rate)
        self.iteration += 1
        K.set_value(self.model.optimizer.lr, rate)
        
n_epochs = 25
onecycle = OneCycleScheduler(len(X_train) // batch_size * n_epochs, max_rate=0.05)

# 正则化技术

## L1

In [None]:
layer = keras.layers.Dense(100, activation="elu",
                           kernel_initializer="he_normal",
                           kernel_regularizer=keras.regularizers.l1(0.1))

## L2

In [None]:
layer = keras.layers.Dense(100, activation="elu",
                           kernel_initializer="he_normal",
                           kernel_regularizer=keras.regularizers.l2(0.01))

## L1 And L2

In [None]:
layer = keras.layers.Dense(100, activation="elu",
                           kernel_initializer="he_normal",
                           kernel_regularizer=keras.regularizers.l1_l2(0.1, 0.01))

## 最佳实践

如果想将相同的正则化函数应用于网络中所有层，又不想重复性的写上面的部分，可以使用functools.partial()函数封装，具体如下

In [None]:
from functools import partial
RegularizedDense = partial(keras.layers.Dense,
                           activation="elu",
                           kernel_initializer="he_normal",
                           kernel_regularizer=keras.regularizers.l2(0.01))

model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    RegularizedDense(300),
    RegularizedDense(100),
    RegularizedDense(10, activation="softmax")
])

## Dropout

在实践中，通常只对第一层至第三层(不包括输出层)中的神经元应用dropout

重要：训练后，需要将每个输入连接权重乘以保留概率（1-p）

注意：基于SELU激活函数应使用alpha dropout

In [None]:
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.Dropout(rate=0.2),
    keras.layers.Dense(300, activation="elu", kernel_initializer="he_normal"),
    keras.layers.Dropout(rate=0.2),
    keras.layers.Dense(100, activation="elu", kernel_initializer="he_normal"),
    keras.layers.Dropout(rate=0.2),
    keras.layers.Dense(10, activation="softmax")
])

In [None]:
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.AlphaDropout(rate=0.2),
    keras.layers.Dense(300, activation="selu", kernel_initializer="lecun_normal"),
    keras.layers.AlphaDropout(rate=0.2),
    keras.layers.Dense(100, activation="selu", kernel_initializer="lecun_normal"),
    keras.layers.AlphaDropout(rate=0.2),
    keras.layers.Dense(10, activation="softmax")
])

## MC Dropout

## 最大范数

# 总结

一般的DNN网络，考虑如下设置：

| 超参数类型 | 默认值                                 |
| ---------- | -------------------------------------- |
| 初始化     | He初始化                               |
| 激活函数   | ELU                                    |
| 归一化     | 浅层网络：不需要；深度网络：批量归一化 |
| 正则化     | 提前停止（如果需要，可加l2)            |
| 优化器     | 动量优化(or RMSProp or Nadam)          |
| 学习率调度 | 1周期                                  |




自归一化网络的DNN，考虑如下设置：


| 超参数类型 | 默认值                        |
| ---------- | ----------------------------- |
| 初始化     | Lecun初始化                   |
| 激活函数   | SELU                          |
| 归一化     | 不需要                        |
| 正则化     | 如果需要：alpha dropout       |
| 优化器     | 动量优化(or RMSProp or Nadam) |
| 学习率调度 | 1周期                         |

