## 5. 옵티마이저
- 하이퍼파라미터 중 하나
- 모델 훈련 전 설정 단계인 메서드 `compile()`에서 손실함수를 지정해주면서 여러 *경사 하강법 알고리즘* 중 하나를 선택 가능하게 해주는 매개변수
- 케라스의 기본 경사하강법 알고리즘: **RMSprop**

**가장 기본적인 옵티마이저: 확률적 경사 하강법 (SGD)**
- 이름은 SGD지만 기본적으로 미니배치를 사용한다.

In [12]:
model.compile(optimizer = 'sgd'
              , loss = 'sparse_categorical_crossentropy'
             , metrics = 'accuracy')
# tensorflow.keras.optimizers 패키지 아래에 구현된 SGD 클래스와 동일

In [13]:
sgd = keras.optimizers.SGD() # keras.optimizers.SGD() 객체 정의
    # learning_rate 매개변수 지정 가능

model.compile(optimizer = sgd
              , loss = 'sparse_categorical_crossentropy'
             , metrics = 'accuracy')

### 5-1. 기본 경사 하강법 옵티마이저 (SGD 클래스에서 모두 제공)

##### learning_rate (학습률)
- `sgd = keras.optimizers.SGD(learning_rate = 0.1)`
- 경사하강법 알고리즘은 기울기에 학습률 (learning rate) 또는 보폭 (step size)라고 불리는 스칼라를 곱해 다음 지점을 결정짓는다.
- local minimum에 효율적으로 도달할 수 있도록 너무 크지도 작지도 않은 적절한 학습률을 지정해야 한다.

In [14]:
sgd = keras.optimizers.SGD(learning_rate = 0.1)

##### momentum > 0 (모멘텀)
- `sgd = keras.optimizers.SGD(momentum = 0.9`
- SGD 클래스의 momentum 매개변수의 기본값은 0
- 0보다 큰 값으로 지정하면 이전의 그레디언트를 가속도처럼 사용하는 모멘텀 최적화를 사용
- 보통 momentum 매개변수는 0.9 이상을 지정

##### nesterov = True (네스테로프 모멘텀)
- `sgd = keras.optimizers.SGD(nesterov = True)`
- 네스테로프 모멘텀 최적화 사용
- 모멘텀 최적화를 2번 반복하여 구현
- 기본 SGD보다 더 나은 성능

In [15]:
sgd = keras.optimizers.SGD(momentum = 0.9, nesterov = True)

### 5-2. 적응적 학습률 옵티마이저
- 모델이 최적점에 가까이 갈수록 학습률(보폭)을 낮추어 안정적으로 최적점에 수렴하게 해주는 학습률
- 학습률 매개변수를 튜닝하는 수고를 덜 수 있다는 장점

##### RMSprop (옵티마이저 기본값)
- `rmsprop = keras.optimizers.RMSprop()`

In [16]:
rmsprop = keras.optimizers.RMSprop()
model.compile(optimizer = rmsprop
             , loss = 'sparse_categorical_crossentropy'
             , metrics = 'accuracy')

##### Adagrad
- `adagrad = keras.optimizers.Adagrad()`

In [17]:
adagrad = keras.optimizers.Adagrad()
model.compile(optimizer = adagrad
             , loss = 'sparse_categorical_crossentropy'
             , metrics = 'accuracy')

### 5-3. Adam optimizers
- 모멘텀 최적화와 RMSprop 장점을 접목한 옵티마이저
- 널리 사용됨

## 6. Adam optimizers를 이용한 모델 훈련

### 6-1. 모델 만들기

In [19]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape = (28, 28)))
model.add(keras.layers.Dense(100, activation = 'relu'))
model.add(keras.layers.Dense(10, activation = 'softmax'))

### 6-2. 모델 설정

In [None]:
model.compile(optimizer = 'adam'
             , loss = 'sparse_categorical_crossentropy'
             , metrics = 'accuracy')

### 6-3. 모델 훈련

In [20]:
model.fit(train_scaled, train_target, epochs = 5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7feeed8ad600>

### 6-4. 모델 성능 평가

In [21]:
model.evaluate(val_scaled, val_target)



[0.3568277060985565, 0.8694166541099548]

- **train set, test set 각각 소폭 정확성이 하락했으나, 통상적으로 RMSporp 보다 조금 나은 성능을 낸다고 알려져있다.**