## NumPy Batch Normalization 

Batch Normalization 논문에 따르면 (https://arxiv.org/abs/1502.03167),

layer input으로 X (n, D)가 들어온다고 했을 때 (n: batch size, D: feature size), 
맨 마지막 axis에 대해 normalization을 하고, scale by gamma, shift by beta를 취한다. 

즉, D번 normalization + scale and shift를 한다. 
이 때 trainable parameter는 총 D * 2개가 된다. (D * {gamma, beta})

<img src="https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/image_folder_5/Compute_BatchNorm.png"/>

<img src="https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/image_folder_5/batch_norm_fp.png"/>

Conv2D도 마찬가지로 channel 축에 대해서 각각 normalizatoin을 한다. 

예를 들어, Conv2D를 거쳐서 나온 output shape이 (N, w, h, c)라고 했을때, 
총 c번 normalization + scale by gamma, shift by beta를 취한다. 
이 때 trainable parameter는 총 c * 2개가 된다. 


# NumPy Implementation

In [5]:
import numpy as np

In [40]:
def batch_normalization_forward(x, gamma, beta):
    # x shape: arbitrary. only the last feature axis matters.
    
    channels = x.shape[-1]
    x_flatten = x.reshape((-1, channels))
    batch_size = x.shape[0]

    mu = np.mean(x_flatten, axis=0) / batch_size
    var = np.sum((x_flatten - mu) ** 2, axis=0) / batch_size
    
    norm_x = (x_flatten - mu) / np.sqrt(var + 0.0001)
    
    print(mu.shape)
    print (var.shape)
    print (norm_x.shape)
    
    out = gamma * norm_x + beta
    return out.reshape(x.shape)

In [41]:
x = np.ones((100, 120, 80, 3))
out = batch_normalization_forward(x, 1., .5)

print(out.shape)

(3,)
(3,)
(960000, 3)
(100, 120, 80, 3)
