# 층 추가하기

In [1]:
from tensorflow import keras
(train_input, train_target), (test_input, test_target) = \
keras.datasets.fashion_mnist.load_data()

In [2]:
from sklearn.model_selection import train_test_split
train_scaled = train_input / 255.0
train_scaled = train_scaled.reshape(-1, 28*28)
train_scaled, val_scaled, train_target, val_target = train_test_split(
train_scaled, train_target, test_size=0.2, random_state=42)

##### 입력층과 출력층 사이에 있는 모든 층을 은닉층이라고 한다.
##### 은닉층에도 활성화 함수가 적용된다.

In [3]:
# 층 추가하기
# 은닉층 활성화 함수 sigmoid 적용
dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(784,))
dense2 = keras.layers.Dense(10, activation='softmax')

In [4]:
model = keras.Sequential([dense1, dense2])

In [5]:
# 층에 대한 정보 확인
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense (Dense)                (None, 100)               78500     
_________________________________________________________________
dense_1 (Dense)              (None, 10)                1010      
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


##### 케라스 모델의 fit() method에 훈련데이터를 주입하면 미니배치 경사 하강법을 사용합니다. 케라스의 기본 미니배치 크기는 32입니다. 은닉층의 뉴런 개수를 100개로 했기 때문에 100개의 출력이 나왔습니다. 마지막 파라미터 개수는 입력픽셀과 100개의 모든 조합에 가중치 100개를 더한 값이고 출력층도 100개의 입력과 10개의 출력 10개의 절편이 더해져 나온 값 입니다.

## 층을 추가하는 방법들

In [6]:
model = keras.Sequential([
    keras.layers.Dense(100, activation='sigmoid', input_shape=(784,),
                      name='hidden'),
    keras.layers.Dense(10, activation='softmax', name='output')
], name='패션 MNIST 모델')

In [7]:
# 각 층과 모델의 이름을 정해줄 수 있다.
model.summary()

Model: "패션 MNIST 모델"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
hidden (Dense)               (None, 100)               78500     
_________________________________________________________________
output (Dense)               (None, 10)                1010      
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [8]:
# add로 추가
model = keras.Sequential()
model.add(keras.layers.Dense(100, activation='sigmoid', input_shape=(784,)))
model.add(keras.layers.Dense(10, activation='softmax'))

In [9]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_2 (Dense)              (None, 100)               78500     
_________________________________________________________________
dense_3 (Dense)              (None, 10)                1010      
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [10]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x1be7c7e0730>

##### 은닉층을 추가해주니 정확도가 더 올랐다.

# ReLU

##### 시그모이드 함수의 단점은 함수의 양쪽 끝으로 갈 수록 그래프가 완만해져 올바른 출력을 신속하게 대응하지 못한다는 것입니다. 
##### 이 단점을 보완하는 함수가 렐루(ReLU)함수 입니다. 
##### 렐루는 입력이 양수일 경우 활성화 함수가 없는 것 처럼 입력을 통과시키고 음수일 경우는 0으로 만듭니다. 
##### 렐루 함수는 이미지 처리에서 좋은 성능을 낸다고 알려져 있습니다.

In [11]:
model = keras.Sequential()
# Flatten층을 사용하면 2차원 배열을 1차원 배열로 펼칠 필요 없이 바로 사용 가능합니다.
model.add(keras.layers.Flatten(input_shape=(28,28)))
model.add(keras.layers.Dense(100, activation='relu')) # ReLU 사용
model.add(keras.layers.Dense(10, activation='softmax'))

In [12]:
model.summary()

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten (Flatten)            (None, 784)               0         
_________________________________________________________________
dense_4 (Dense)              (None, 100)               78500     
_________________________________________________________________
dense_5 (Dense)              (None, 10)                1010      
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [13]:
# flatten 층에 대한 데이터 준비
(train_input, train_target), (test_input, test_target) = \
keras.datasets.fashion_mnist.load_data()
train_scaled = train_input / 255.0
train_scaled, val_scaled, train_target, val_target = train_test_split(
train_scaled, train_target, test_size=0.2, random_state=42)

In [14]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x1be315e4b80>

##### sigmoid보다 정확도가 더 올랐다.

In [15]:
model.evaluate(val_scaled, val_target)



[0.38300782442092896, 0.8710833191871643]

# Optimizer

##### 케라스는 다양한 종류의 경사하강법 알고리즘을 제공하는데 이를 옵티마이저(optimizer)라고 합니다.
##### 기본적으로 미니배치를 사용합니다. 배치 크기 기본 32

### SGD(확률적 경사 하강법 사용)

In [16]:
# sgd = keras.optimizers.SGD() 없이도 자동 객체 생성된다.
model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy',
             metrics='accuracy')

##### 기본 경사 하강법 옵티마이저는 SGD Class에서 제공합니다.
##### SGD Class의 momentum 매개변수 기본값은 0입니다. 0보다 큰 값으로 지정하면 그레이디언트 가속도처럼 사용하는 모멘텀 최적화를 사용합니다.
##### nesterov 매개변수를 기본값 False에서 True로 바꾸면 네스테로프 모멘텀 최적화를 사용합니다.

In [17]:
# momentum
sgd = keras.optimizers.SGD(momentum=0.9, nesterov=True)

##### 모델이 최적점에 가까이 갈 수록 학습률을 낮출 수 있습니다.
##### 이런 학습률을 적응적 학습률(adaptive learning rate)이라고 합니다.
##### 적응적 학습률을 사용하는 대표적인 옵티마이저는 Adagrad와 RMSprop입니다.

In [18]:
# adagrad
adagrad = keras.optimizers.Adagrad()
model.compile(optimizer=adagrad, loss='sparse_categorical_crossentropy',
             metrics='accuracy')

In [19]:
# rmsprop
rmsprop = keras.optimizers.RMSprop()
model.compile(optimizer=rmsprop, loss='sparse_categorical_crossentropy',
             metrics='accuracy')

##### 모멘텀 최적화와 RMSprop의 장점을 접목한 것이 Adam입니다.
##### 적응적 학습률을 사용하는 이 3개의 클래스는 learning_rate 매개변수의 기본값으로 모두 0.0001을 사용합니다.

### Adam 사용

In [20]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28,28)))
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

In [21]:
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy',
             metrics='accuracy')
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x1be3cd7cca0>

In [22]:
model.evaluate(val_scaled, val_target)



[0.3251563012599945, 0.8826666474342346]