In [10]:
import tensorflow as tf

## [ 8-a ] 
**문제**: 100개의 뉴런을 가진 은닉층 20개로 심층 신경망을 만들어보세요(너무 많은 것 같지만 이 연습문제의 핵심입니다). He 초기화와 ELU 활성화 함수를 사용하세요.

## [ 8-b ] 
**문제**: Nadam 옵티마이저와 조기 종료를 사용하여 CIFAR10 데이터셋에 이 네트워크를 훈련하세요. keras.datasets.cifar10.load_ data()를 사용하여 데이터를 적재할 수 있습니다. 이 데이터셋은 10개의 클래스와 32×32 크기의 컬러 이미지 60,000개로 구성됩니다(50,000개는 훈련, 10,000개는 테스트). 따라서 10개의 뉴런과 소프트맥스 활성화 함수를 사용하는 출력층이 필요합니다. 모델 구조와 하이퍼파라미터를 바꿀 때마다 적절한 학습률을 찾아야 한다는 것을 기억하세요.


* cifar10 데이터셋을 로드합니다. 데이터셋의 차원을 확인해봅시다.

In [40]:
(x_train_full, y_train_full), (x_test, y_test) = tf.keras.datasets.cifar10.load_data()

x_train = x_train_full[5000:]
y_train = y_train_full[5000:]
x_valid = x_train_full[:5000]
y_valid = y_train_full[:5000]
x_train.shape, y_train.shape, x_valid.shape, y_valid.shape

((45000, 32, 32, 3), (45000, 1), (5000, 32, 32, 3), (5000, 1))

**#모델생성**
* x_train을 받아서 먼저 Flatten 하는 층을 만듭니다.
* **100**개의 뉴런을 가진 **은닉층** **20개**를 쌓아 심층 신경망을 만듭니다.
* Initializer는 **He 초기화**를, 활성화 함수는 **Elu** 함수를 사용합니다.
* 출력층은 **10개**의 뉴런과 **소프트맥스 활성화** 함수를 사용합니다. 
* 출력층에서는 Initializer를 사용하지 않습니다. 

In [41]:
#모델 생성
model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Flatten(input_shape=[32, 32, 3]))
for _ in range(20):
    model.add(tf.keras.layers.Dense(100,
                                 activation="elu",
                                 kernel_initializer="he_normal"))  
model.add(tf.keras.layers.Dense(10, activation="softmax"))


**#모델 컴파일**
* Nadam 옵티마이저를 이용해서 모델을 컴파일 합시다.

In [42]:
# 모델 컴파일
optimizer = tf.keras.optimizers.Nadam(lr=5e-5)
model.compile(loss="sparse_categorical_crossentropy",
              optimizer=optimizer,
              metrics=["accuracy"])

**#콜백 선언**
* 조기 종료 콜백과 체크포인트 콜백을 사용합니다.

In [43]:
# 콜백 선언

early_stopping_cb = tf.keras.callbacks.EarlyStopping(patience=20)
model_checkpoint_cb = tf.keras.callbacks.ModelCheckpoint("b_model.h5", save_best_only=True)
callbacks = [early_stopping_cb, model_checkpoint_cb]
               

**#모델 훈련**
* 모델을 훈련합니다.

In [47]:
# 모델 훈련

model.fit(x_train, y_train, epochs=10,
          validation_data=(x_valid, y_valid),
          callbacks=callbacks)


Train on 45000 samples, validate on 5000 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x15d000290>

**#모델 평가**
* 모델을 불러오고 평가합니다.

In [45]:
# 모델 평가

model = tf.keras.models.load_model("b_model.h5")
model.evaluate(x_test, y_test)



[1.6270238901138305, 0.4137]

* 수렴이 언제부터 시작되나요? 

* 모델의 성능은 어떤가요?

* 전체 훈련 속도는 몇인가요? 

## [ 8-c ] 

**문제**: 배치 정규화를 추가하고 학습 곡선을 비교해보세요. 이전보다 빠르게 수렴하나요? 더 좋은 모델이 만들어지나요? 훈련 속도에는 어떤 영향을 미치나요?

**# 모델 생성**
* 출력층을 제외하고 모든 Dense 층 다음에 (활성화 함수 전에) BN 층을 추가하세요. 
* 처음 Flatten 층 이후에도 BN 층을 추가하세요.

In [29]:
# 모델 생성




**# 모델 컴파일**
* 학습률을 5e-4로 바꾸세요.

In [30]:
# 모델 컴파일



**# 콜백 선언**
* 모델 파일 이름을 c_bn_model.h5로 변경하세요

In [31]:
# 콜백 선언



In [32]:
# 모델 훈련



# 모델 평가

* 이전보다 빠르게 수렴하나요? 

* BN이 더 좋은 모델을 만드나요? 

* BN이 훈련 속도에 영향을 미치나요? 

## [ 8-d ] 


**문제**: 배치 정규화를 SELU로 바꾸어보세요. 네트워크가 자기 정규화하기 위해 필요한 변경 사항을 적용해보세요(즉, 입력 특성 표준화, 르쿤 정규분포 초기화, 완전 연결 층만 순차적으로 쌓은 심층 신경망 등).

**# 데이터 로드**
* 입력특성 표준화

In [28]:
# 데이터 로드
x_means = x_train.mean(axis=0)
x_stds = x_train.std(axis=0)
x_train_scaled = (x_train - x_means) / x_stds
x_valid_scaled = (x_valid - x_means) / x_stds
x_test_scaled = (x_test - x_means) / x_stds

**# 모델 생성**
* 르쿤 정규분포 초기화
* 완전연결층으로만 쌓은 심층신경망

In [26]:
# 모델 생성





In [34]:
# 모델 컴파일



**# 콜백 선언**
* 모델 파일 이름을 **d_selu_model.h5** 로 변경하세요

In [35]:
# 콜백 선언



In [37]:
# 모델 훈련


# 모델 평가



* 이전보다 빠르게 수렴하나요? 

* 더 좋은 모델을 만드나요? 

* 훈련 속도에 영향을 미치나요? 