### Batch Normalization

#### Batch Normalization 的算法
Batch Normalization(下面简称 Batch Norm)是2015年提出的方法。它的思路是调整各层的激活值分布使其拥有适当的广度。它有以下优点。
* 可以使学习快速进行（可以增大学习率）。
* 不那么依赖初始值（对于初始值不用那么神经质）。
* 抑制过拟合（降低Dropout等的必要性）。

Batch Norm，顾名思义，以进行学习时的 mini-batch 为单位，按 mini-batch 进行正规化。具体而言，就是进行使数据分布的均值为0、方差为1的正规化。用数学式表达如下。
$$
均值：\mu \leftarrow \sum_{i=1}^{m}x_i
$$
$$
方差：\sigma_B^2 \leftarrow \frac {1}{m} \sum_{i=1}^{m}(x_i - \mu_B)^2
$$
$$
正规化：\hat{x}_i \leftarrow \frac{x_i - \mu_B}{\sqrt{\sigma_B^2+ \varepsilon }}
$$
这里对 mini-batch 的 m 个输入数据的集合 $B = \{x_1,x_2,...,x_m\}$求均值 $\mu_B$ 和方差 $\sigma_B^2$。然后，对数据进行均值为0、方差为1（合适的分布）正规化。式中的$\varepsilon $是一个微小值(比如，10e-7等)，它是为了防止出现除以0的情况。

上式所做的是将 mini-batch 的输入数据${x_1,x_2,..,x_m}$变换为均值为0、方差为1的数据$\{\hat{x}_1,\hat{x}_2,...,\hat{x}_m\}$。通过将这个处理插入到激活函数的前面（或者后面），可以减少数据分布的偏向。

接着，Batch Norm 层会对正规化后的数据进行缩放和平移的变换，用数学式可以表示如下。
$$
y_i \leftarrow \gamma \hat{x}_i + \beta
$$

这里，$\gamma$和$\beta$是参数。一开始 $\gamma=1$，$\beta=0$，然后再通过学习调整到合适的值。

上面是 Batch Norm 的算法，这个算法是神经网络上的正向传播。

#### Batch Normalization 的评估
现在我们使用 Batch Norm 层进行实验。首先，使用 MNIST 数据集，观察使用 Batch Norm 层和不使用 Batch Norm 层的学习的过程会如何变化。

In [None]:
# coding: utf-8
import sys, os
sys.path.append(os.pardir)  # 为了导入父目录的文件而进行的设定
import numpy as np
import matplotlib.pyplot as plt
from dataset.mnist import load_mnist
from common.multi_layer_net_extend import MultiLayerNetExtend
from common.optimizer import SGD, Adam

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True)

# 减少学习数据
x_train = x_train[:1000]
t_train = t_train[:1000]

max_epochs = 20
train_size = x_train.shape[0]
batch_size = 100
learning_rate = 0.01


def __train(weight_init_std):
    bn_network = MultiLayerNetExtend(input_size=784, hidden_size_list=[100, 100, 100, 100, 100], output_size=10, 
                                    weight_init_std=weight_init_std, use_batchnorm=True)
    network = MultiLayerNetExtend(input_size=784, hidden_size_list=[100, 100, 100, 100, 100], output_size=10,
                                weight_init_std=weight_init_std)
    optimizer = SGD(lr=learning_rate)
    
    train_acc_list = []
    bn_train_acc_list = []
    
    iter_per_epoch = max(train_size / batch_size, 1)
    epoch_cnt = 0
    
    for i in range(1000000000):
        batch_mask = np.random.choice(train_size, batch_size)
        x_batch = x_train[batch_mask]
        t_batch = t_train[batch_mask]
    
        for _network in (bn_network, network):
            grads = _network.gradient(x_batch, t_batch)
            optimizer.update(_network.params, grads)
    
        if i % iter_per_epoch == 0:
            train_acc = network.accuracy(x_train, t_train)
            bn_train_acc = bn_network.accuracy(x_train, t_train)
            train_acc_list.append(train_acc)
            bn_train_acc_list.append(bn_train_acc)
    
            print("epoch:" + str(epoch_cnt) + " | " + str(train_acc) + " - " + str(bn_train_acc))
    
            epoch_cnt += 1
            if epoch_cnt >= max_epochs:
                break
                
    return train_acc_list, bn_train_acc_list


# 3.绘制图形==========
weight_scale_list = np.logspace(0, -4, num=16)
x = np.arange(max_epochs)

for i, w in enumerate(weight_scale_list):
    print( "============== " + str(i+1) + "/16" + " ==============")
    train_acc_list, bn_train_acc_list = __train(w)
    
    plt.subplot(4,4,i+1)
    plt.title("W:" + str(w))
    if i == 15:
        plt.plot(x, bn_train_acc_list, label='Batch Normalization', markevery=2)
        plt.plot(x, train_acc_list, linestyle = "--", label='Normal(without BatchNorm)', markevery=2)
    else:
        plt.plot(x, bn_train_acc_list, markevery=2)
        plt.plot(x, train_acc_list, linestyle="--", markevery=2)

    plt.ylim(0, 1.0)
    if i % 4:
        plt.yticks([])
    else:
        plt.ylabel("accuracy")
    if i < 12:
        plt.xticks([])
    else:
        plt.xlabel("epochs")
    plt.legend(loc='lower right')
    
plt.show()

![image.png](attachment:image.png)

我们发现，几乎所有的情况下都是使用 Batch Norm 时学习进行得快。实际上，在不适用 Batch Norm 的情况下，如果不赋予一个尺度好的初始值，学习将完全无法进行。

综上，通过使用 Batch Norm，可以推动学习的进行。并且，对权重初始值变得健壮（不那么依赖初始值）。Batch Norm 具备了如此优良的性质，一定能应用在更多场合中。