# Dropout
Dropout层仅在`training=True`时适用，保证推理时不会丢弃任何值。但是在使用 `model.fit` 时，`training` 会自动设置为True；在其他情况下需要显式设置为 True。

---

$$X_{batch_size,4} * W_{4,3} =A_{batch_size,3}$$
1. 对A的每个样本，的inputs按照`dropout_rate`进行随机置0；
2. 同时未置0的units按照$\frac{1}{1-rate}$放大。


假设A={0.1,0.2,0.3,0.4,0.5}，任一units按照0.2概率置0。
1. `sum`为1，任一units都有0.2的可能为0，那么sum的均值为为1.5*0.8；
2. 按照放大规则，未置0的units放大可使得`sum`保持稳定。



In [None]:
import tensorflow as tf
from tensorflow.keras.layers import Layer, Dense, LayerNormalization, Dropout, Embedding
import numpy as np

In [None]:
tf.random.set_seed(0)
layer = tf.keras.layers.Dropout(.2, input_shape=(2,))
layer

<keras.layers.core.dropout.Dropout at 0x7f1f08cee3d0>

In [None]:
data = np.arange(10).reshape(5, 2).astype(np.float32)
data

array([[0., 1.],
       [2., 3.],
       [4., 5.],
       [6., 7.],
       [8., 9.]], dtype=float32)

In [None]:
outputs = layer(data, training=True)
outputs

<tf.Tensor: shape=(5, 2), dtype=float32, numpy=
array([[ 0.  ,  1.25],
       [ 2.5 ,  3.75],
       [ 5.  ,  6.25],
       [ 7.5 ,  8.75],
       [10.  ,  0.  ]], dtype=float32)>

In [None]:
data*(1.0/(1-0.2))

array([[ 0.  ,  1.25],
       [ 2.5 ,  3.75],
       [ 5.  ,  6.25],
       [ 7.5 ,  8.75],
       [10.  , 11.25]], dtype=float32)