### Batch Normalization

$$ x_{s} = \frac{x - \hat{x}}{\sigma} $$
$$ \hat{x} = \sigma x_{s} + \beta $$

### Layer Normalization

$$\mu^{l} = \frac{1}{H} \sum_{i=1}^{H} \alpha^{l}_{i}  $$
$$\alpha^{l} = \sqrt{\frac{1}{H} \sum_{i=1}^{H} (\alpha^{l}_{i} - \mu^{l})^{2}}  $$

Batch Normalizationが、ミニバッチ毎（サンプル方向）に標準化を行うのに対して、
Layer Normalizationは 、1つのサンプルにおける各レイヤーの隠れ層の値の平均・分散で正規化する

In [1]:
import numpy as np
import pandas as pd
import torch
import torch.nn as nn

In [2]:
# 画像の作成：(C, H, W) = (3, 28, 28)
input = torch.rand(1, 3, 28, 28)
input.shape

torch.Size([1, 3, 28, 28])

In [3]:
# 画像を確認
input

tensor([[[[0.2117, 0.5617, 0.9664,  ..., 0.5292, 0.2169, 0.2054],
          [0.3558, 0.3703, 0.4561,  ..., 0.7974, 0.5192, 0.6712],
          [0.1011, 0.1756, 0.8697,  ..., 0.0114, 0.6608, 0.4918],
          ...,
          [0.3632, 0.4285, 0.7972,  ..., 0.7495, 0.3126, 0.4290],
          [0.3066, 0.3918, 0.4270,  ..., 0.1841, 0.2785, 0.0787],
          [0.6787, 0.4572, 0.5339,  ..., 0.9754, 0.4797, 0.7979]],

         [[0.2856, 0.2147, 0.3213,  ..., 0.8876, 0.2945, 0.2835],
          [0.4598, 0.7339, 0.6797,  ..., 0.0769, 0.8199, 0.2718],
          [0.4718, 0.0178, 0.3338,  ..., 0.5118, 0.8639, 0.6437],
          ...,
          [0.9543, 0.6597, 0.2724,  ..., 0.2706, 0.4850, 0.0444],
          [0.3520, 0.1686, 0.8206,  ..., 0.9651, 0.6378, 0.7685],
          [0.8162, 0.8924, 0.4770,  ..., 0.0891, 0.1188, 0.7805]],

         [[0.6312, 0.1654, 0.4232,  ..., 0.2291, 0.0288, 0.1466],
          [0.5285, 0.4453, 0.9092,  ..., 0.7442, 0.3052, 0.8597],
          [0.8435, 0.8897, 0.1183,  ..., 0

In [4]:
LN = nn.LayerNorm(input.size()[1:])
LN

LayerNorm((3, 28, 28), eps=1e-05, elementwise_affine=True)

In [5]:
out = LN(input)
out.shape

torch.Size([1, 3, 28, 28])

In [6]:
input.view(-1)

tensor([0.2117, 0.5617, 0.9664,  ..., 0.0564, 0.9045, 0.0421])

In [7]:
print(f'入力の標準偏差：{input.view(-1).std()}')
print(f'入力の平均：{input.view(-1).mean()}')

入力の標準偏差：0.28660666942596436
入力の平均：0.5007555484771729


In [8]:
print(f'出力の標準偏差：{out.view(-1).std()}')
print(f'出力の平均：{out.view(-1).mean()}')

出力の標準偏差：1.0001517534255981
出力の平均：-3.308666123302828e-07


### Instance Normalization

Batch Normalizationが、ミニバッチ毎（サンプル方向）に標準化を行うのに対して、
Instance Normalizationは 、各チャネル独立に画像の縦横方向についてのみ使用して計算した
平均・分散で標準化する

$$\mu_{ti} = \frac{1}{HW} \sum_{l=1}^{W} \sum_{m=1}^{H} x_{tilm}  $$
$$\alpha_{ti} = \sqrt{\frac{1}{HW} \sum_{l=1}^{W} \sum_{m=1}^{H} (x_{tilm} - \mu_{ti})}  $$

In [9]:
IN = nn.InstanceNorm2d(input.size(1))
IN

InstanceNorm2d(3, eps=1e-05, momentum=0.1, affine=False, track_running_stats=False)

In [10]:
out = IN(input)
out.shape

torch.Size([1, 3, 28, 28])

In [11]:
out_channel1 = out[0][0].view(-1)

print(f'出力の平均：{out_channel1.mean()}')
print(f'出力の標準偏差：{out_channel1.std()}')

出力の平均：-1.459705600836969e-07
出力の標準偏差：1.0005773305892944
