### initializing

- 글로럿  초기화를 사용하면 훈련 속도를 상당히 높일 수 있습니다.

In [1]:
import tensorflow as tf
from tensorflow import keras

In [2]:
keras.layers.Dense(10, activation='relu', kernel_initializer='he_normal')

<tensorflow.python.keras.layers.core.Dense at 0x1e443769e48>

In [4]:
he_avg_init = keras.initializers.VarianceScaling(scale=2, mode='fan_avg', distribution='uniform')
keras.layers.Dense(10, activation='sigmoid', kernel_initializer=he_avg_init)

<tensorflow.python.keras.layers.core.Dense at 0x1e443a0d4c8>

### activation function
- 그렇다면 심층 신경망의 으닉층에는 어떤 활성화 함수를 써야 할까요 
 -> 사람마다 다르겠지만 일반적으로 SELU-> ELU -> LeakyRelu -> Relu -> tanh -> 로지스틱 순 입니다. 
 네트워크가 자기 정규화되지 못하는 구조라면  ELU가 SELU보다 더 너을 수 있습니다(SELU가 z=0 에서 연속적이지 않기 때문에)
 실행속도가 중요하다면 LeakyReLu를 선택할 수 있습니다. 하이퍼파라미터를 더 추가하고 싶지 않다면 케라스에서 사용하는 기본값 a를 사용합니다. 시간과 컴퓨팅 파워가 충분하다면 교차 검증을 사용해 여러 활성화 함수를 평가해볼수 있습니다. 특히 신경망이 과대적합되었다면 RReLu, 훈련세트가 아주 크다면 PReLU를 포함시키면 좋습니다.

In [None]:
model = keras.models.Sequential([
    [...]
    keras.layers.Dense(10, kernel_initializer='he_normal'),
    keras.layers.LeakyReLu(alpha=0.2)
    [...]
])

In [None]:
layer = keras.layers.Dens(10, activation='selu', kernel_initializer='lecun_normal')

### 배치 정규화

- 입력을 원점에 맞추고 정규화한 다음 각 층에서 두개의 새로운 파라미터로 결괏값의 스케일을 조정하고 이동시킵니다. 하나는 스케일 조정에 다른 하나는 이동에 사용합니다. 많은 경우 신경망의 첫 번째 층의 배ㅣ 정규화를 추가하면 훈련세트를  (예를 들면 StandardScaler를 사용하여) 표준화할 필요가 없습니다. 배치 정규화 층이 이런 역할을 대신합니다.

In [6]:
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28,28]),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(300, activation='elu', kernel_initializer='he_normal'),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(100, activation='elu', kernel_initializer='he_normal'),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(10, activation='softmax')
])

In [7]:
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten_1 (Flatten)          (None, 784)               0         
_________________________________________________________________
batch_normalization (BatchNo (None, 784)               3136      
_________________________________________________________________
dense_2 (Dense)              (None, 300)               235500    
_________________________________________________________________
batch_normalization_1 (Batch (None, 300)               1200      
_________________________________________________________________
dense_3 (Dense)              (None, 100)               30100     
_________________________________________________________________
batch_normalization_2 (Batch (None, 100)               400       
_________________________________________________________________
dense_4 (Dense)              (None, 10)                1

* 배치 정규화 논문의 저자들은 활성화 함수 이후보다 활성화 함수 이전에 배치 정규화 층을 추가하는 것이 좋다고 조언합니다. 하지만 상황에 따라서 방식이 달라서 이 조언에 대해서는 논란이 조금 있습니다.

In [9]:
model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[28,28]),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(300, kernel_initializer='he_normal', use_bias=False),
    keras.layers.Activation('elu'),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(100, kernel_initializer='he_normal', use_bias=False),
    keras.layers.Activation('elu'),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(10, activation='softmax')
])