# 2개의 층

## 데이터 준비

In [1]:
from tensorflow import keras
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz


In [2]:
from sklearn.model_selection import train_test_split
train_scaled = train_input / 255
train_scaled = train_scaled.reshape(-1, 28*28)
train_scaled, val_scaled, train_target, val_target = train_test_split(train_scaled, train_target, test_size=0.2, random_state=42)

## 인공 신경망 모델에 층을 2개 추가
 - 은닉층(hidden layer) : 입력층과 출력층 사이에 있는 모든 층
 - 출력층에 적용하는 활성화 함수는 종류가 제한되어 있음 (이진 분류 - 시그모이드 함수, 다중 분류 - 소프트맥스)
 - 은닉층의 활성화 함수는 비교적 자유로움 (대표적으로 시그모이드 함수와 볼 렐루 함수 등을 사용)
 - 분류 문제는 클래스에 대한 확률을 출력하기 위해 활성화 함수를 사용하지만, 회귀의 출력은 임의의 숫자이므로 활성화 함수를 적용할 필요가 없음
 - 모든 신경망의 은닉층에는 항상 활성화 함수가 있다

In [3]:
dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(784,)) # 신경망의 첫 번째 층은 입력의 크기를 꼭 지정해줘야 함
dense2 = keras.layers.Dense(10, activation='softmax')

# 심층 신경망 만들기
 - 앞에서 만든 dense1, dense2 객체를 Sequential 클래스에 추가하여 심층 신경망(deep neural network. DNN) 만들기

In [4]:
model = keras.Sequential([dense1, dense2])

In [5]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 100)               78500     
                                                                 
 dense_1 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


# 층을 추가하는 다른 방법
 - Sequential 클래스의 생성자 안에서 바로 Dense 클래스의 객체를 만듬
 - 모델의 이름 지정

In [6]:
model = keras.Sequential([
  keras.layers.Dense(100, activation='sigmoid', input_shape=(784,), name='hidden'),
  keras.layers.Dense(10, activation='softmax', name='output')],
  name='패션 MNIST 모델')

In [7]:
model.summary()

Model: "패션 MNIST 모델"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 hidden (Dense)              (None, 100)               78500     
                                                                 
 output (Dense)              (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


## add() 메서드를 통해 층 추가

In [8]:
model = keras.Sequential()
model.add(keras.layers.Dense(100, activation='sigmoid', input_shape=(784,)))
model.add(keras.layers.Dense(10, activation='softmax'))

In [9]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_2 (Dense)             (None, 100)               78500     
                                                                 
 dense_3 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


# 훈련

In [10]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f182d038c90>

# 렐루 함수
 - max(0, z)
 - 이미지 처리에 좋은 성능을 냄

데이터를 1차원으로 펼치지 않고 케라스의 Flatten 층 사용

In [11]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

In [12]:
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten (Flatten)           (None, 784)               0         
                                                                 
 dense_4 (Dense)             (None, 100)               78500     
                                                                 
 dense_5 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [13]:
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()
train_scaled = train_input / 255
train_scaled, val_scaled, train_target, val_target = train_test_split(train_scaled, train_target, test_size=0.2, random_state=42)

In [14]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f182cf52910>

시그모이드 함수를 사용했을 떄와 비교하면 성능이 조금 향상됨

검증세트 성능 확인

In [15]:
model.evaluate(val_scaled, val_target)



[0.34539803862571716, 0.8796666860580444]

# 옵티마이저

하이퍼 파라미터 : 사람이 지정해주어야 하는 파라미터
- 추가할 은닉층의 개수, 활성화 함수, 층의 종류
- fit() 메서드의 batch_size 매개변수<BR>
(케라스는 기본적으로 미니배치 경사 하강법으로 사용하며, 미니배치 개수는 32개)
- fit() 메서드의 epochs 매개변수 : 반복 횟수

compile() 메서드에서는 케라스의 기본 경사 알고리즘인 RMSprop을 사용함

**옵티마이저**
- optimizer
- 케라스는 다양한 종류의 경사 하강법 알고리즘을 제공함

## SDG 옵티마이저 사용
가장 기본적인 옵티마이저인 확률적 경사 하강법(SGD)로 모델 생성<br>
이름이 SGD이지만 1개의 샘플을 뽑아서 훈련하지 않고 기본적으로 미니배치를 사용

In [16]:
model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics='accuracy')

# 아래 코드와 동작이 일치함
sgd = keras.optimizers.SGD()
model.compile(optimizer=sgd, loss='sparse_categorical_crossentropy', metrics='accuracy')

SDG 클래스의 learning_rate 매개변수
- 기본값 0.01
- SGD 클래스의 학습률 설정

In [17]:
sgd = keras.optimizers.SGD(learning_rate=0.1)

기본 경사 하강법 옵티마이저는 모두 SGD 클래스에서 제공됨.<br><br>
SGD 클래스의 momentum 매개변수
- 기본값 0
- 0보다 큰 값을 지정하면 마치 이전의 그레이디언트를 가속도처럼 사용하는 **모멘텀 최적화**(momentum optimization)를 사용
- 보통 momentum 매개변수는 0.9 이상을 지정

SGD 클래스의 nesterov 매개변수
- 기본값 False
- True로 설정 시 **네스테로프 모멘텀 최적화**(nesterov momentum optimization)를 사용

In [18]:
sgd = keras.optimizers.SGD(momentum=0.9, nesterov=True)

**적응적 학습률**(adaptive learning rate)
- 대부분의 경우 네스테로프 모멘텀 최적화가 기본 확률적 경사 하강법보다 더 나은 성능을 제공
- 모델이 최적점에 가까이 갈수록 학습률을 낮출 수 있는 것을 말함
- 학습률 매개변수를 튜닝하는 수고를 덜 수 있는 것이 장점
- 적응적 학습률을 사용하는 대표적인 옵티마이저 - Adagrad, RMSprop

In [19]:
# Adagrad
adagrad = keras.optimizers.Adagrad()
model.compile(optimizer=adagrad, loss='sparse_categorical_crossentropy', metrics='accuracy')
# RMSprop
rMSprop = keras.optimizers.RMSprop()
model.compile(optimizer=rMSprop, loss='sparse_categorical_crossentropy', metrics='accuracy')

Adam
- 모멘텀 최적화와 RMSprop의 장점을 접목한 것
- RMSprop과 함께 맨처음 시도해볼 수 있는 좋은 알고리즘

In [23]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28,28)))
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(100, activation='softmax'))

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f182c9648d0>

이 출력 결과를 보면 기본 RMSprop을 사용했을 때와 거의 같은 성능을 보여준다

In [24]:
model.evaluate(val_scaled, val_target)



[0.3385463356971741, 0.8775833249092102]