In [1]:
# 引入必需的库
import numpy as np
import matplotlib.pyplot as plt
import scipy.io
import math
import sklearn
import sklearn.datasets

from opt_utils import load_params_and_grads, initialize_parameters, forward_propagation, backward_propagation
from opt_utils import compute_cost, predict, predict_dec, plot_decision_boundary, load_dataset
from testCases import *


# 设置绘图参数
%matplotlib inline
plt.rcParams['figure.figsize'] = (7.0, 4.0)
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'


  assert(parameters['W' + str(l)].shape == layer_dims[l], layer_dims[l-1])
  assert(parameters['W' + str(l)].shape == layer_dims[l], 1)


# 动量梯度下降的效果

![](./images/opt_momentum.png)

下图中红色的箭头就是使用了动量梯度下降后的学习路径，蓝色的虚线是原始的路径。可以看出新路径比老路径要平滑。

# 计算详解

![](./images/introduce.png)

In [4]:
# 初始化指数加权平均值字典

def initialize_velocity(parameters):
    L = len(parameters) // 2 # 神经网络层数
    v = {}

    for l in range(L):
        v['dW' + str(l + 1)] = np.zeros_like(parameters['W' + str(l + 1)])
        v['db' + str(l + 1)] = np.zeros_like(parameters['b' + str(l + 1)])

    return v

In [8]:
# 使用动量梯度下降算法来更新参数

def update_parameters_with_momentum(parameters, grads, v, beta, learning_rate):
    L = len(parameters) // 2 # 神经网络层数

    for l in range(L):
        v['dW' + str(l + 1)] = beta * v['dW' + str(l + 1)] + (1 - beta) * grads['dW' + str(l + 1)]
        v['db' + str(l + 1)] = beta * v['db' + str(l + 1)] + (1 - beta) * grads['db' + str(l + 1)]

        # 更新参数
        parameters['W' + str(l + 1)] = parameters['W' + str(l + 1)] - learning_rate * v['dW' + str(l + 1)]
        parameters['b' + str(l + 1)] = parameters['b' + str(l + 1)] - learning_rate * v['db' + str(l + 1)]
    
    return parameters, v

# 注意

- 这里的指数加权平均值是没有添加修正算法的，所以前面一小段的梯度下降中，均势平均值是不准确的
- 如果 beta = 0，则编程普通的标准梯度下降算法了

# beta 选择

- beta 越大，则学习路径越平滑，如果 beta 太大，则不能准确实时反映梯度的真实情况
- beta 取值是 0.8 - 0.999，常用默认值为 0.9

# 其他

- 动量梯度下降可以用于 batch 梯度下降，也可以用于 mini-batch 梯度下降和随机梯度下降