## tf.contrib.layers.batch_norm
> 批量标准化，通过减少内部协变量转换加速深度网络训练
> 它可以作为卷积神经网络和全连接层的标准化算法。

> 如果数据类型（data_type）是NCWH即（batch,channels,weight,height）.那么会将除第二个维度外的数据全部标准化

> 如果数据类型（data_type）是NWHC即（batch,weight,height,channels）,那么会将除最后一个维度外数据全部标准化

使用batch_norm可以缩小绝对差异，增加相对差异

```python
tf.contrib.layers.batch_norm(
    inputs,
    decay=0.999,
    center=True,
    scale=False,
    epsilon=0.001,
    activation_fn=None,
    param_initializers=None,
    param_regularizers=None,
    updates_collections=tf.GraphKeys.UPDATE_OPS,
    is_training=True,
    reuse=None,
    variables_collections=None,
    outputs_collections=None,
    trainable=True,
    batch_weights=None,
    fused=None,
    data_format=DATA_FORMAT_NHWC,
    zero_debias_moving_mean=False,
    scope=None,
    renorm=False,
    renorm_clipping=None,
    renorm_decay=0.99,
    adjustment=None
)
```

在训练的时候，moving_mean 和moving_variance 需要被更新。可以通过两种方式进行设置。

1. 设置 *update_collections=None*,但是会损失速度
2. 通过添加依赖
  ```python
    update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
    with tf.control_dependencies(update_ops):
        train_op = optimizer.minimize(loss)
  ```

### 参数

+ **inputs**  
  输入，维度大于等于2，第一个维度代表Batch_size,因为是批量标准化，因此在这里第一个维度必须是Batch_size, 也因为如此，维度才需要大于等于2.
+ *deacy=0.99* (感觉采取默认值就可以)  
  移动平均线的衰减。衰减的合理值接近1.0，通常在多9的范围内:0.999、0.99、0.9等。如果模型经历了相当好的训练性能，但验证和/或测试性能较差，则衰减值较低(建议尝试衰减=0.9)。为了提高稳定性，请尝试zero_debias_moving_mean=True
+ center  
  中心:如果为真，将偏移量加到归一化张量中。如果为假，则忽略。
+ scale  
  比例:如果是真的，乘以。如果为假，则不使用gamma。当下一层是线性的(也如nn.relu)，这可以禁用，因为缩放可以由下一层完成。
+ **epsilon=1e-5**  
  向方差中加入小浮点数，以避免除以0。
+ activation_fn  
  激活函数（感觉一般来说都会在标准化层后面添加一层非线性层的，所以这个参数指定不指定都可以吧）
+ param_initializers  
  为模型的参数指定可选的初始化函数，感觉不需要，如果我们这些参数都是我们自己指定的话
+ param_regularizers  
  参数的正则化其，感觉也不需要
+ update_collections=None  
  这个在上面说过了，在训练的时候要更新参数，因此这个需要指定，当然设置成None的话更为方便。
+ **is_training**  
  是否是训练过程，很显然，在这个方法内部使用了moment滑动平均算法，因此在训练的时候会根据我们上面设置的deacy参数更新权重，而如果不是训练的话，就不需要更新了，只需要用之前训练的时候的权重参数即可，因此这个参数必不可少。
+ reuse  
  指示该层的参数是否可以被重用，如果被冲用的话，需要指定scope
+ variables_collections
+ outputs_collections
+ trainable  
  表示该层是否是可训练的
+ batch_weight  
  权重
+ fused  
  默认即可
+ dataformat  
  两种方式 "NWHC"(默认) 和 "NCWH"
+ renorm  
+ renorm_clipping
+ renorm_decay
+ adjustment