## 심층 신경망

### 2개의 층

In [3]:
# 케라스 API로 패션 MNIST 데이터셋 불러오기
from tensorflow import keras
(train_input, train_target), (test_input, test_target) =\
    keras.datasets.fashion_mnist.load_data() # 훈련, 테스트 데이터셋 나눠서 반환; 각각 입력과 타깃의 쌍으로 구성

In [4]:
from sklearn.model_selection import train_test_split
train_scaled = train_input / 255.0
train_scaled = train_scaled.reshape(-1, 28*28)
train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42)

- 은닉층(hidden layer) : 입력층과 출력층 사이에 있는 모든 층
- 활성화 함수 : 신경망 층의 선형 방정식의 계산 값에 적용하는 함수

- 분류 문제를 위한 신경망의 출력층에는 시그모이드 함수나 소프트맥스 함수를 활성화 함수로 사용

In [5]:
# 시그모이드 함수를 사용한 은닉층과 소프트맥스 함수를 사용한 출력층을 케라스의 Dense 클래스로 구현
dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(784,))
dense2 = keras.layers.Dense(10, activation='softmax')

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


### 심층 신경망 만들기

- 앞에서 만든 dense1과 dense2 객체를 sequential 클래스에 추가하여 심층 신경망 만들기

In [6]:
# seqential 클래스의 객체를 만들 때 층을 리스트로 전달
model = keras.Sequential([dense1, dense2])

- 출력층을 가장 마지막에 둬야 함

- 리스트는 가장 처음 등장하는 은닉층에서 마지막 출력층의 순서로 나열해야 함

- 인공 신경망의 강력한 성능은 층을 추가하여 입력 데이터에 대해 연속적인 학습을 진행하는 능력에서 나옴

In [7]:
model.summary()  # 신경망의 구조 출력

### 층을 추가하는 다른 방법

- sequential 클래스의 생성자 안에서 바로 dense 클래스의 객체 만들기

In [8]:
model = keras.Sequential([
    keras.layers.Dense(100, activation='sigmoid', input_shape=(784,), name = 'hidden'),
    keras.layers.Dense(10, activation='softmax', name = 'output')
], name = 'fashion_mnist_model')

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [9]:
model.summary()  # 신경망의 구조 출력

In [10]:
# seqential 클래스의 객체를 만들고 이 객체의 add() 메서드로 층 추가
model = keras.Sequential()
model.add(keras.layers.Dense(100, activation='sigmoid', input_shape=(784,)))
model.add(keras.layers.Dense(10, activation='softmax'))

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [11]:
model.summary()  # 신경망의 구조 출력

In [13]:
# 모델 훈련
model.compile(loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 530us/step - accuracy: 0.8072 - loss: 0.5675
Epoch 2/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 536us/step - accuracy: 0.8505 - loss: 0.4129
Epoch 3/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 530us/step - accuracy: 0.8639 - loss: 0.3772
Epoch 4/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 642us/step - accuracy: 0.8719 - loss: 0.3534
Epoch 5/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 537us/step - accuracy: 0.8775 - loss: 0.3374


<keras.src.callbacks.history.History at 0x296738fd0>

### 렐루 함수

- 초창기 인공 신경망의 은닉층에 많이 사용된 활성화 함수

- 이 함수의 오른쪽과 왼쪽 끝으로 갈수록 그래프가 누워있기 때문에 올바른 출력을 만드는데 신속하게 대응하지 못함
- 층이 많은 심층 신경망일수록 그 효과가 누적되어 학습을 더 어렵게 만든다

렐루(ReLU) 함수
- 입력이 양수일 경우 마치 활성화 함수가 없는 것처럼 그냥 입력을 통과

- 입력이 음수일 경우에는 0으로 만든다
- 심층 신경망에서 뛰어남

In [14]:
### 렐루 함수
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28,28)))  # 입력층
model.add(keras.layers.Dense(100, activation='relu'))  # 은닉층
model.add(keras.layers.Dense(10, activation='softmax'))  # 출력층

  super().__init__(**kwargs)


In [15]:
model.summary()  # 신경망의 구조 출력

In [16]:
# 훈련 데이터로 모델 훈련
(train_input, train_target), (test_input, test_target) =\
    keras.datasets.fashion_mnist.load_data()
train_scaled = train_input / 255.0
train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42)

In [17]:
# 모델 컴파일, 훈련
model.compile(loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 532us/step - accuracy: 0.8121 - loss: 0.5321
Epoch 2/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 562us/step - accuracy: 0.8581 - loss: 0.3913
Epoch 3/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 604us/step - accuracy: 0.8736 - loss: 0.3517
Epoch 4/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 647us/step - accuracy: 0.8814 - loss: 0.3326
Epoch 5/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 540us/step - accuracy: 0.8860 - loss: 0.3175


<keras.src.callbacks.history.History at 0x295a72f90>

In [18]:
# 검증 세트에서의 성능 확인
model.evaluate(val_scaled, val_target)

[1m375/375[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 380us/step - accuracy: 0.8734 - loss: 0.3710


[0.37104037404060364, 0.8734166622161865]

### 옵티마이저

- 하이퍼파라미터 : 모델이 학습하지 않아 사람이 지정해 주어야 하는 파라미터

- 하나 또는 여러 개의 은닉층을 추가할 수 있음
- 추가할 은닉층의 개수는 모델이 학습하는 것이 아니라 우리가 지정해 주어야 할 하이퍼파라미터임
- 은닉층 뉴런 개수, 활성화 함수, 층의 종류 등

옵티마이저(optimizer)
- 최소값을 찾아가는 것 최적화 = Optimization

- 이를 수행하는 알고리즘이 최적화 알고리즘 = Optimizer 이다.


모멘텀 최적화(momentum optimizer)
- 기본 경사 하강법 옵티마이저는 모두 SGD 클래스에서 제공

- SGD 클래스의 momentum 매개변수의 기본값을 0이다
- 이를 0보다 큰 값으로 지정하면 마치 이전의 그레이디언트를 가속도처럼 사용하는 모멘텀 최적화를 사용
- 보통 momentum 매개변수는 0.9 이상을 지정

- SGD 클래스의 nesterov 매개변수를 기본값 False에서 True로 바꾸면 네스테로프 모멘텀 최적화(nesterov momentum optimizer)(또는 네스테로프 가속 경사)를 사용함

- 네스테로프 모멘텀 최적화를 2번 반복하여 구현
- 대부분의 경우 네스테로프 모멘텀 최적화가 기본 확률적 경사 하강법보다 더 나은 성능을 제공함

적응적 학습률(adaptive learning rate)
- 모델이 최적점에 가까이 갈수록 학습률을 낮출 수 있음
- 이렇게 하면 안정적으로 최적점에 수렴할 가능성이 높음
- 이런 학습률을 적응적 학습률이라 함

- 이런 방식들은 학습률 매개변수를 튜닝하는 수고를 덜 수 있다는 것이 장점

Adam 클래스의 매개변수 기본값을 사용해 패션 MNIST 모델을 훈련

In [19]:
# 모델 생성
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
model.add(keras.layers.Dense(100, activation = 'relu'))
model.add(keras.layers.Dense(10, activation = 'softmax'))

  super().__init__(**kwargs)


In [20]:
# compile() 메서드의 optimizer 매개변수에 Adam 클래스의 매개변수 기본값을 사용해 패션 MNIST 모델을 훈련
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 594us/step - accuracy: 0.8155 - loss: 0.5274
Epoch 2/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 614us/step - accuracy: 0.8587 - loss: 0.3961
Epoch 3/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 586us/step - accuracy: 0.8700 - loss: 0.3582
Epoch 4/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 588us/step - accuracy: 0.8819 - loss: 0.3297
Epoch 5/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 587us/step - accuracy: 0.8876 - loss: 0.3085


<keras.src.callbacks.history.History at 0x2a03fa150>

In [21]:
# 검증 세트에서의 성능 확인
model.evaluate(val_scaled, val_target)

[1m375/375[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 377us/step - accuracy: 0.8809 - loss: 0.3411


[0.34110328555107117, 0.8809166550636292]