# 知識點
- Batch Normalization 是  2015 年時 Google 在論文 [Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift](https://arxiv.org/abs/1502.03167) 提出的概念，並將其應用在 Inception v2 中。


- 其算法如下: <img src='https://pic4.zhimg.com/80/9ad70be49c408d464c71b8e9a006d141_720w.jpg?source=1940ef5c' width=400>

    其中 $\gamma$ 與 $\beta$ 為 BN 層內唯二需要學習的參數 (做縮放與平移)
    

- 一般來說我們都是以 Mini Batch的方式訓練資料，然而每一個 Batch 間的資料分佈可能不太相同，而輸入每一層神經元的資訊分布也都可能會改變，造成收斂上的困難。<br>
透過 BN，將每一層輸入資料的分佈歸一化為平均值為 0，方差為 1，確保資料分佈的穩定性。<br>
然而 Normalize 改變資料的分佈，可能會造成上一層學到的特徵消失，因此 BN 的最後一步透過學習 $\gamma$ 與 $\beta$ 為，去微調 Normalize 後資料的分佈。<br>
請參考 [Understanding the backward pass through Batch Normalization Layer](https://kratzert.github.io/2016/02/12/understanding-the-gradient-flow-through-the-batch-normalization-layer.html)


- [梯度消失](https://hackmd.io/@allen108108/ByCqzBfC4)


## 『本次練習內容』
#### 搭建 Conv2D-BN-Activation層


## 『本次練習目的』
  #### 了解如何搭建CNN基礎架構，Conv2D-BN-Activation

In [1]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten,\
                                    Dense, BatchNormalization, Activation

## 依照指示建立模型

In [2]:
input_shape = (32, 32, 3)

model = Sequential([
    Conv2D(32, (3, 3), padding='same', input_shape=input_shape),
    BatchNormalization(),
    Activation('sigmoid'),
    Conv2D(32, (3, 3), padding='same'),
    BatchNormalization(),
    Activation('sigmoid')
])

model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d (Conv2D)              (None, 32, 32, 32)        896       
_________________________________________________________________
batch_normalization (BatchNo (None, 32, 32, 32)        128       
_________________________________________________________________
activation (Activation)      (None, 32, 32, 32)        0         
_________________________________________________________________
conv2d_1 (Conv2D)            (None, 32, 32, 32)        9248      
_________________________________________________________________
batch_normalization_1 (Batch (None, 32, 32, 32)        128       
_________________________________________________________________
activation_1 (Activation)    (None, 32, 32, 32)        0         
Total params: 10,400
Trainable params: 10,272
Non-trainable params: 128
__________________________________________________