# 심층 신경망 훈련

## 11.1 그래디언트 소실, 폭주

### 11.1.1 가중치 초기화

In [1]:
import tensorflow as tf




In [2]:
dense = tf.keras.layers.Dense(
    50,
    activation="relu",
    kernel_initializer="he_normal"
)




In [3]:
he_avg_init = tf.keras.initializers.VarianceScaling(
    scale=2, mode="fan_avg",
    distribution="uniform"
)

dense = tf.keras.layers.Dense(50, activation="sigmoid", kernel_initializer=he_avg_init)

### 11.1.2 활성화 함수

In [4]:
leaky_relu = tf.keras.layers.LeakyReLU(alpha=0.2)
dense = tf.keras.layers.Dense(50, activation=leaky_relu, kernel_initializer="he_normal")

In [5]:
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(50, kernel_initializer="he_normal"),
    tf.keras.layers.LeakyReLU(alpha=0.2)
])

In [6]:
elu = tf.keras.layers.ELU(alpha=1)
dense = tf.keras.layers.Dense(50, activation=elu, kernel_initializer="he_normal")

In [7]:
dense = tf.keras.layers.Dense(50, activation="elu", kernel_initializer="he_normal")

### 11.1.3 배치 정규화

In [8]:
model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=[28, 28]),
    tf.keras.layers.BatchNormalization(),
    tf.keras.layers.Dense(300, activation="relu", kernel_initializer="he_normal"),
    tf.keras.layers.BatchNormalization(),
    tf.keras.layers.Dense(100, activation="relu", kernel_initializer="he_normal"),
    tf.keras.layers.BatchNormalization(),
    tf.keras.layers.Dense(10, activation="softmax")
])

In [9]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten (Flatten)           (None, 784)               0         
                                                                 
 batch_normalization (Batch  (None, 784)               3136      
 Normalization)                                                  
                                                                 
 dense_6 (Dense)             (None, 300)               235500    
                                                                 
 batch_normalization_1 (Bat  (None, 300)               1200      
 chNormalization)                                                
                                                                 
 dense_7 (Dense)             (None, 100)               30100     
                                                                 
 batch_normalization_2 (Bat  (None, 100)              

In [10]:
[(var.name, var.trainable) for var in model.layers[1].variables]

[('batch_normalization/gamma:0', True),
 ('batch_normalization/beta:0', True),
 ('batch_normalization/moving_mean:0', False),
 ('batch_normalization/moving_variance:0', False)]

## 전이 학습

### 케라스를 이용한 전이 학습

#### 1-1. 로컬에 저장된 모델 불러오기 + 사용할 층만 선택 -> 모델 구조, 가중치 복사

#### 1-2. 모델 복제 -> 구조만 복사, 가중치는 별도로 지정 필요

#### 2. 재사용할 층 동결 후 재컴파일

#### 3. 훈련, 이후 동결 해제

## 옵티마이저

### 모멘텀 최적화 : 경사하강 가속

In [None]:
optimizer = tf.keras.optimizers.SGD(learning_rate=1e-3, momentum=0.9)

### 네스테로프 : 모멘텀 최적화 + 점멸

In [14]:
# 교재에선 use_nesterov=True로 설정하지만 최근 버전은 nesterov=True로 설정

optimizer = tf.keras.optimizers.SGD(learning_rate=1e-3, momentum=0.9, nesterov=True)

### RMSProp : AdaGrad EMA

In [16]:
optimizer = tf.keras.optimizers.RMSprop(learning_rate=1e-3, rho=0.9)

### Adam : 모멘텀 + RMSProp

In [17]:
optimizer = tf.keras.optimizers.Adam(learning_rate=1e-3, beta_1=0.9, beta_2=0.999)

## 학습률 스케줄링

### 거듭제곱 기반

In [18]:
optimizer = tf.keras.optimizers.SGD(learning_rate=0.01, weight_decay=1e-4)

### 그 외 스케줄링은 별도 처리  필요

## 규제

In [19]:
layer = tf.keras.layers.Dense(
    100,
    activation="relu", kernel_initializer="he_normal",
    kernel_regularizer=tf.keras.regularizers.l2(0.01)
)

은닉 층들은 같은 활성화 함수, 규제, 가중치 초기화를 사용하기 때문에 (거의 대부분 -> 출력 층 같은 것 빼고) functools.partial()을 사용하면 좋음 -> 혹시라도 어디 잘못 입력해서 이상해지는 것 방지

In [20]:
from functools import partial

RegularizedDense = partial(
    tf.keras.layers.Dense,
    activation="relu",
    kernel_initializer="he_normal",
    kernel_regularizer=tf.keras.regularizers.l2(0.01)
)

model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=[28, 28]),
    RegularizedDense(100),
    RegularizedDense(100),
    RegularizedDense(10, activation="softmax")
])