# 11.1 梯度消失与梯度爆炸问题

## 11.1.1 Glorot 和 He 初始化

默认情况下，Keras使用具有均匀分布的Glorot初始化

## 11.1.2 非饱和激活函数

使用 leaky ReLU 激活函数

In [None]:
# model = keras.models.Sequential([
#     [...]
#     keras.layers.Dense(10, kernel_initializer="he_normal"),
#     keras.layers.LeakyReLU(alpha=0.2)
#     [...]
# ])

## 11.1.3 批量归一化

对每个输入零中心并归一化，然后每层使用两个新的参数向量缩放和偏移其结果：一个用于缩放，另一个用于偏移

Keras 实现

在每个隐藏层的激活函数之前或之后添加一个 BatchNormalization 层  

keras.layers.BatchNormalization()

## 11.1.4 梯度裁剪 

在反向传播期间裁剪梯度，使它们永远不会超过某个阈值  

Keras中，创建优化器时设置clipvalue 或 clipnorm 参数，例如：  
optimizer = keras.optimizers.SGD(clipvalue=1.0)  
model.compile(loss="mse", optimizer=optimizer)

# 11.2 重用预训练层

任务越相似，可重用的层越多

## 11.2.1 用 Keras 进行迁移学习

已有模型A，加载模型A并基于该模型的层创建一个新模型  

In [1]:
# 对模型A克隆，复制其权重
# model_A_clone = keras.models.clone_model(model_A)
# model_A_clone.set_weights(model_A.get_weights())

# 重用除输出层外的所有层
# model_B_on_A = keras.models.Sequential(model_A_clone.layers[:-1])
# model_B_on_A.add(keras.layers.Dense(1, activation="sigmoid"))

## 11.2.2 无监督预训练

在无监督训练中，使用一个无监督学习技术对无标记数据(或所有数据)进行训练，  
然后使用一个有监督学习技术对有标记数据进行最后任务的微调。

# 11.3 更快的优化器

## 11.3.1 动量优化

梯度下降等式：  
$\theta \leftarrow \theta-\eta\nabla_{\theta}J(\theta)$

动量优化关心先前的梯度是什么：在每次迭代时，从动量向量$m$ (乘以学习率$\eta$) 中减去局部梯度，  
并通过添加该动量向量来更新权重。  
1. $m \leftarrow \beta m-\eta\nabla_{\theta}J(\theta)$
2. $\theta \leftarrow \theta + m$

Keras 中实现：  
使用SGD优化器并设置其超参数momentum  
optimizer = keras.optimizers.SGD(lr=0.001, momentum=0.9)

## 11.3.2 Nesterov 加速梯度

在 $\theta + \beta m$ 处沿动量方向稍微提前处测量成本函数的梯度  
1. $m \leftarrow \beta m-\eta\nabla_{\theta}J(\theta + \beta m)$
2. $\theta \leftarrow \theta + m$

Keras 中实现：  
使用SGD优化器并设置nesterov = True  
optimizer = keras.optimizers.SGD(lr=0.001, momentum=0.9, nesterov=True)

## 11.3.3 AdaGrad

通过沿最陡峭的维度按比例缩小梯度向量

## 11.3.4 RMSProp

只累加最近迭代中的梯度

## 11.3.5 Adam 和 Nadam 优化

Adam 代表自适应矩估计，结合了动量优化和 RMSProp 的思想：  
像动量优化一样，追踪过去梯度的指数衰减平均值  
像RMSProp一样，追踪过去平方梯度的指数衰减平均值  

## 11.3.6 学习率调度

# 11.4 通过正则化避免过拟合