# 丢弃法

除了前一节介绍的权重衰减以外，深度学习模型常常使用丢弃法（dropout）[1] 来应对过拟合问题。丢弃法有一些不同的变体。本节中提到的丢弃法特指倒置丢弃法（inverted dropout）。

## 方法

回忆一下，[“多层感知机”](mlp.ipynb)一节的图3.3描述了一个单隐藏层的多层感知机。其中输入个数为4，隐藏单元个数为5，且隐藏单元$h_i$（$i=1, \ldots, 5$）的计算表达式为

$$h_i = \phi\left(x_1 w_{1i} + x_2 w_{2i} + x_3 w_{3i} + x_4 w_{4i} + b_i\right),$$

这里$\phi$是激活函数，$x_1, \ldots, x_4$是输入，隐藏单元$i$的权重参数为$w_{1i}, \ldots, w_{4i}$，偏差参数为$b_i$。当对该隐藏层使用丢弃法时，该层的隐藏单元将有一定概率被丢弃掉。设丢弃概率为$p$，
那么有$p$的概率$h_i$会被清零，有$1-p$的概率$h_i$会除以$1-p$做拉伸。丢弃概率是丢弃法的超参数。具体来说，设随机变量$\xi_i$为0和1的概率分别为$p$和$1-p$。使用丢弃法时我们计算新的隐藏单元$h_i'$

$$h_i' = \frac{\xi_i}{1-p} h_i.$$

由于$E(\xi_i) = 1-p$，因此

$$E(h_i') = \frac{E(\xi_i)}{1-p}h_i = h_i.$$

即丢弃法不改变其输入的期望值。让我们对图3.3中的隐藏层使用丢弃法，一种可能的结果如图3.5所示，其中$h_2$和$h_5$被清零。这时输出值的计算不再依赖$h_2$和$h_5$，在反向传播时，与这两个隐藏单元相关的权重的梯度均为0。由于在训练中隐藏层神经元的丢弃是随机的，即$h_1, \ldots, h_5$都有可能被清零，输出层的计算无法过度依赖$h_1, \ldots, h_5$中的任一个，从而在训练模型时起到正则化的作用，并可以用来应对过拟合。$\color{\red}{在测试模型时，我们为了拿到更加确定性的结果，一般不使用丢弃法。}$

![隐藏层使用了丢弃法的多层感知机](img/dropout.svg)

## 从零开始实现


In [3]:
import numpy as np

def dropout(X, drop_prob):
    assert 0 <= drop_prob <= 1
    keep_prob = 1 - drop_prob
    # 这种情况下把全部元素都丢弃
    if keep_prob == 0:
        return X.zeros_like()
    mask = np.random.uniform(0, 1, X.shape) < keep_prob
    return mask * X / keep_prob # 拉伸

In [4]:
X = np.arange(16).reshape((2, 8))
dropout(X, 0)

array([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11., 12., 13., 14., 15.]])

In [5]:
dropout(X, 0.5)

array([[ 0.,  0.,  0.,  6.,  8.,  0., 12.,  0.],
       [16.,  0., 20., 22., 24.,  0.,  0., 30.]])

### keras版

In [6]:
# 基础
import numpy as np
import matplotlib.pyplot as plt

# keras
import keras
from keras.models import Sequential
from keras.layers import Dense,Activation
from keras.optimizers import SGD

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


In [7]:
import numpy as np
import matplotlib.pyplot as plt

# fashion-mnist
def load_mnist(path, kind='train'):
    import os
    import gzip

    """Load MNIST data from `path`"""
    labels_path = os.path.join(path,
                               '%s-labels-idx1-ubyte.gz'
                               % kind)
    images_path = os.path.join(path,
                               '%s-images-idx3-ubyte.gz'
                               % kind)

    with gzip.open(labels_path, 'rb') as lbpath:
        labels = np.frombuffer(lbpath.read(), dtype=np.uint8,
                               offset=8)

    with gzip.open(images_path, 'rb') as imgpath:
        images = np.frombuffer(imgpath.read(), dtype=np.uint8,
                               offset=16).reshape(len(labels), 784)

    return images, labels

X_train, y_train = load_mnist('F:/机器学习/动手学深度学习/data/fashion', kind='train')
X_test, y_test = load_mnist('F:/机器学习/动手学深度学习/data/fashion', kind='t10k')

In [8]:
# 处理数据
from keras.utils.np_utils import to_categorical


X_train_1 = X_train / 255
X_test_1 = X_test / 255
y_train_1 = to_categorical(y_train, num_classes=10)
y_test_1 = to_categorical(y_test, num_classes=10)

In [None]:
# 建立模型
# 添加一个隐藏层，有256个神经元。
num_inputs, num_outputs, num_hiddens = 784, 10, 256

model = Sequential([
    Dense(units=256, input_dim=784),
    Dropout(0.2),
    Activation('relu'),
    Dropout(0.5),
    Dense(10),
    Activation('softmax')
])

# 训练方法
sgd = SGD(lr=0.01)

model.compile(optimizer=sgd, loss='categorical_crossentropy', metrics=['accuracy'])