## Chapter 07 딥러닝을 시작합니다 ▶️패션 럭키백을 판매합니다!
#### 07-2 심층 신경망 ▶️인공 신경망에 층을 추가하여 심층 신경망 만들어 보기

In [1]:
## 데이터셋 준비 
import tensorflow as tf
from tensorflow import keras 
from sklearn.model_selection import train_test_split

## fashion minist를 불러와, 표준화(fixel : 0~255 -> 0~1)하고, 1차원 array로 변환(28x28 -> 784)
## train, validation set을 구분 

(train_input, train_target), (test_input, test_target) = \
    keras.datasets.fashion_mnist.load_data()

print(train_input.shape, train_target.shape, test_input.shape, test_target.shape)

train_scaled = (train_input / 255).reshape(-1, 28*28)
train_scaled, val_scaled, train_target, val_target = train_test_split(train_scaled, train_target, test_size = 0.2, random_state = 42)

print(train_scaled.shape, val_scaled.shape, train_target.shape, val_target.shape)

(60000, 28, 28) (60000,) (10000, 28, 28) (10000,)
(48000, 784) (12000, 784) (48000,) (12000,)


---- 
#### 1. 심층 신경망 구성 
- Sequencial 클래스에 새로운 dense 객체를 추가(activation function이 지정된...) 

In [2]:
model = keras.Sequential(name = 'fashion_mnist')
model.add(keras.layers.Dense(100, activation = 'sigmoid', input_shape = (784,)))
model.add(keras.layers.Dense(10, activation = 'softmax'))

model.summary()

Model: "fashion_mnist"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 100)               78500     
                                                                 
 dense_1 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


- 1차 은닉층에서 100개의 노드를 지정했으므로, 100x784 + 절편 100 = 총 78500개의 파라미터가 생성되었다. 
- 출력층에서는 앞서 100개의 노트로 부터 10개의 노드가 값을 받으므로, 100x10 + 절편 10 = 1010개의 파라미터 생성 
- 따라서 총 파라미터 갯수는 78500+1010 = 79510 

In [3]:
model.compile(loss = 'sparse_categorical_crossentropy', metrics = 'accuracy')
model.fit(train_scaled, train_target, epochs = 5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x17815204700>

In [4]:
model.evaluate(val_scaled, val_target)



[0.34891557693481445, 0.8735833168029785]

---- 
#### 2. relu 함수와 flatten layer의 사용 
- relu는 sigmoid가 값이 일정수준 이상 커지면(작아지면) 출력값에 변화가 거의 없는 단점을 극복하기 위해 탄생 
- relu는 입력값이 양수이면 그대로 출력하고, 음수이면 0으로 출력함 
- flatten 층은 2차원 배열의 입력값을 자동으로 reshape하여 1차원 배열로 변환시켜 준다. 

In [5]:
## 데이터셋 주닙, Flatten을 사용할 것이므로 입력할 값의 행렬을 1차원으로 변환시킬 필요가 없다.
(train_input, train_target), (test_input, test_target) = \
    keras.datasets.fashion_mnist.load_data()

print(train_input.shape, train_target.shape, test_input.shape, test_target.shape)

train_scaled = train_input / 255
train_scaled, val_scaled, train_target, val_target = train_test_split(train_scaled, train_target, test_size = 0.2, random_state = 42)

print(train_scaled.shape, val_scaled.shape, train_target.shape, val_target.shape)

(60000, 28, 28) (60000,) (10000, 28, 28) (10000,)
(48000, 28, 28) (12000, 28, 28) (48000,) (12000,)


In [6]:
model_2 = keras.Sequential(name = 'fashion_mnist_relu')
model_2.add(keras.layers.Flatten(input_shape = (28,28)))
model_2.add(keras.layers.Dense(100, activation = 'relu'))
model_2.add(keras.layers.Dense(10, activation = 'softmax'))
model_2.summary()

Model: "fashion_mnist_relu"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten (Flatten)           (None, 784)               0         
                                                                 
 dense_2 (Dense)             (None, 100)               78500     
                                                                 
 dense_3 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [7]:
model_2.compile(loss = 'sparse_categorical_crossentropy', metrics = 'accuracy')
model_2.fit(train_scaled, train_target, epochs = 5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1787a02d130>

In [8]:
model_2.evaluate(val_scaled, val_target)



[0.3716014325618744, 0.8777499794960022]

- sigmoid 적용시에 비해 다소 모형성능이 증가했다. (0.8795 -> 0.8870) 
---

#### 3. Optimizer 사용 
- compile() 메서드에서 매개변수를 원하는 옵티마이저로 지정해 준다. 
- default optimizer는 32개의 미니배치를 사용하는 미니배치 경사하강법이다. 
- 그외 다른 경사하강법 사용시에는 SGD를, 적응적 학습률 사용시에는 RMSprop나 Adam을 많이 사용함

In [10]:
model_2.compile(optimizer = 'SGD', loss = 'sparse_categorical_crossentropy', metrics = 'accuracy')
model_2.fit(train_scaled, train_target, epochs = 5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1780c1f2400>

In [11]:
model_2.evaluate(val_scaled, val_target)



[0.31593915820121765, 0.8930000066757202]

In [12]:
model_2.compile(optimizer = 'RMSprop', loss = 'sparse_categorical_crossentropy', metrics = 'accuracy')
model_2.fit(train_scaled, train_target, epochs = 5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1780b298e20>

In [13]:
model_2.evaluate(val_scaled, val_target)



[0.3746594190597534, 0.8825833201408386]

In [14]:
model_2.compile(optimizer = 'Adam', loss = 'sparse_categorical_crossentropy', metrics = 'accuracy')
model_2.fit(train_scaled, train_target, epochs = 5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1780b376f40>

In [15]:
model_2.evaluate(val_scaled, val_target)



[0.3559648096561432, 0.8853333592414856]

- 각 옵티마이저에 따른 모형성능 비교결과, Adam이 가장 우수하였다. 
- 1) default(32개 미니배치 경사하강법) = 0.8867 / 2) SGD = 0.9109 / 3) RMSprop = 0.9038 / 4) Adam = 0.9175