In [1]:
import tensorflow
from tensorflow import keras

배치 정규화 층도 다른 케라스 층과 마찬가지로

In [2]:
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(300, activation='elu', kernel_initializer='he_normal'),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(100, activation='relu', kernel_initializer='he_normal'),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(10, activation='softmax')
])

이렇게 하면 끝입니다.<br>
여기서는 은닉층이 겨우 두개뿐이라 배치 정규화로 큰 이익은 볼 수 없을 수 있습니다.

하지만 깊은 네트워크에서는 엄청난 차이를 만들 수 있습니다.

In [3]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten (Flatten)           (None, 784)               0         
                                                                 
 batch_normalization (BatchN  (None, 784)              3136      
 ormalization)                                                   
                                                                 
 dense (Dense)               (None, 300)               235500    
                                                                 
 batch_normalization_1 (Batc  (None, 300)              1200      
 hNormalization)                                                 
                                                                 
 dense_1 (Dense)             (None, 100)               30100     
                                                                 
 batch_normalization_2 (Batc  (None, 100)              4

위 코드에서 볼 수 있듯이 배치 정규화 층은 입력마다 네 개의 파라미터 \\(\gamma, \beta, \mu, \sigma\\)를 추가합니다. (예를 들어 첫 배치 정규화 층을 보면 4 * 784개로 3,136 개의 파라미터가 있습니다.)

마지막 두 개의 파라미터 \\(\mu\\)와 \\(\sigma\\)는 이동 평균입니다.

이 파라미터는 역전파로 학습되지 않기 때문에 케라스는 'Non-trainable' 파라미터로 분류합니다.

첫 번째 배치 정규화 층의 파라미터를 살펴봅시다.<br>
두 개는 훈련되고 두 개는 훈련되지 않습니다.

In [4]:
[(var.name, var.trainable) for var in model.layers[1].variables]

[('batch_normalization/gamma:0', True),
 ('batch_normalization/beta:0', True),
 ('batch_normalization/moving_mean:0', False),
 ('batch_normalization/moving_variance:0', False)]

배치 정규화 논문의 저자들은 (방금 전 예제처럼) 활성화 함수 이후보다<br>
이전에 배치 정규화 층을 추가하는 게 좋다고 조언합니다.

하지만 작업에 따라 선호되는 방식이 달라서 이 조언에 대해서는 논란이 있습니다.

두 가지 방법 모두 실험해보고 어떤 것이 주어진 데이터셋에 가장 잘 맞는지 확인하는 게 좋습니다.<br>
활성화 함수 전에 배치 정규화 층을 추가하려면 은닉층에서 활성화 함수를 지정하지 말고<br>
배치 정규화 층 뒤에 별도의 층으로 추가해야 합니다.

또한 배치 정규화 층은 입력마다 이동 파라미터를 포함하기 때문에 이전 층에서 편향을 뺄 수 있습니다.<br>
use\_bias=False로 지정해야 합니다.

In [5]:
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28, 28]),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(300, kernel_initializer='he_normal', use_bias=False),
    keras.layers.BatchNormalization(),
    keras.layers.Activation('elu'),
    keras.layers.Dense(100, kernel_initializer='he_normal', use_bias=False),
    keras.layers.BatchNormalization(),
    keras.layers.Activation('elu'),
    keras.layers.Dense(10, activation='softmax')
])