# 概述：Batch Normalization

    使深层网络更容易训练的方法 
    -->>> 使用更复杂的优化程序：如SGD +momentum动量、RMSProp或Adam
    -->>> 改变网络的架构，使其更容易训练
    -->>> batch normalization

批量标准化/批量归一化/ batch normalization layer：

    通过 减少内部协变位移（Reducing Internal Covariate Shift）来加速深度网络训练

    在训练时 使用 minibatch数据 估计每个特征的均值和标准偏差

    这些 估计的均值和标准偏差 用来 中心化和标准化 minibatch特征

    在训练时 这些 估计的均值和标准偏差的 running average 保持着
    在测试时 这些  running average 用于 中心化和标准化 特性

    batch normalization layer包括 
       learnable shift（可学习的转移）
       每个特性维度的刻度参数（scale parameters）


# 各代码库 说明

# import

In [1]:
from __future__ import print_function
import time
import numpy as np
import matplotlib.pyplot as plt
from classifiers.fc_net import *
from data_utils import get_CIFAR10_data
from gradient_check import eval_numerical_gradient, eval_numerical_gradient_array
from solver import Solver

%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # 设置 size
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

# for auto-reloading external modules
# see http://stackoverflow.com/questions/1907993/autoreload-of-modules-in-ipython
%load_ext autoreload
%autoreload 2

def rel_error(x, y):
  """ returns relative error """
  return np.max(np.abs(x - y) / (np.maximum(1e-8, np.abs(x) + np.abs(y))))

run the following from the cs231n directory and try again:
python setup.py build_ext --inplace
You may also need to restart your iPython kernel


# 数据处理模块
- 导入 已预处理过的 data
- data_utils.py  --> get_CIFAR10_data()

In [2]:
data = get_CIFAR10_data()
for k, v in list(data.items()):
  print(('%s: ' % k, v.shape))

('y_val: ', (1000,))
('X_test: ', (1000, 3, 32, 32))
('y_test: ', (1000,))
('y_train: ', (49000,))
('X_train: ', (49000, 3, 32, 32))
('X_val: ', (1000, 3, 32, 32))


# 普通层模块：Batch normalization: Forward
- `layers.py` --> `batchnorm_forward`

# 普通层模块：Batch Normalization: backward
- `layers.py` --> `batchnorm_backward`.

为了得到向后的传递，你应该写出批量标准化的计算图，以及通过每个中间节点的支持。

一些中间产物可能有多个传出分支;

确保在向后通过的这些分支上有多个梯度



# 普通层模块：Batch Normalization: alternative backward 

    sigmoid backward pass 的实现策略
        1、写出 由简单的操作 和 通过所有中间值来backprop 的 计算图
        2、在纸上做衍生品：在纸上简化梯度来推导出一个非常简单的公式

- `layers.py` --> `batchnorm_backward_alt` 


# 分类器模块：FC Nets with Batch Normalization
- `classifiers/fc_net.py`--> add batch normalization.


    `use_batchnorm` is `True` :
       每个 ReLU nonlinearity 前 加入 a batch normalization layer
       最后一层的outputs 不需要 normalized.

HINT: You might find it useful to define an additional helper layer similar to those in the file `cs231n/layer_utils.py`. 

# 训练：Batchnorm for deep networks
训练 six-layer network on a subset of 1000 training examples both with and without batch normalization.

# 小实验：Batch normalization and initialization
运行一个小实验来研究批量标准化和权重初始化的交互

The first cell ：通过不同scales的权重初始化来训练8层网络 both with and without batch normalization  

The second layer ：画图 training accuracy, validation set accuracy, and training loss as a function of the weight initialization scale.