In [1]:
#인공 신경망의 성능 높이기

In [3]:
from tensorflow import keras
(train_input, train_target), (test_input, test_target) = \
    keras.datasets.fashion_mnist.load_data()

In [5]:
#픽셀값 0~255 범위에서 0~1 사이로 변환
#2차원 배열의 크기를 1차원 배열로
#훈련 세트와 검증 세트로 나누기

from sklearn.model_selection import train_test_split
train_scaled = train_input / 255.0
train_scaled = train_scaled.reshape(-1, 28 * 28)
train_scaled, val_scaled, train_target, val_target = train_test_split(train_scaled, train_target, test_size=0.2, random_state=42)

In [9]:
#은닉층 추가하기
#은닉층에서도 활성화 함수를 사용한다. 활성화 함수는 선형 방정식의 계산 값에 적용하는 함수이다.
#은닉층에 활성화 함수를 적용하는 이유? -> 다음 층의 계산과 합쳐지지 않도록 선형 계산을 적당하게 비선형적으로 비틀어 주어야 한다.

dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(784,)) #뉴런 갯수, 활성화 함수, 입력의 크기
dense2 = keras.layers.Dense(10, activation='softmax') #출력층

#경험에 의한 결정이지만, 한 가지 제약사항은 적어도 출력층의 뉴런보다는 많게 만들어야한다는 것 !
#-> 10개 대한 확률을 예측해야 하는데 이전 은닉층의 뉴런이 10개보다 적다면 부족한 정보가 전달될 것이다.

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [11]:
#앞에서 만든 dense1과 dense2 객체를 sequential 클래스에 추가하여 심층 신경망 만들기

model = keras.Sequential([dense1, dense2])

In [13]:
model.summary()

In [15]:
#출력 크기에서 첫번째 차원이 None인 이유 : 미니배치 경사 하강법을 사용하기 때문에 샘플 개수를 고정하지 않고 어떤 배치 크기에도 유연하게 대응할 수 있게 한다.

In [17]:
#층을 추가하는 다른 방법

#Sequential 클래스의 생성자 안에서 바로 Dense 클래스의 객체 만들기

model = keras.Sequential([
    keras.layers.Dense(100, activation='sigmoid', input_shape=(784, ),
                       name='hidden'),
    keras.layers.Dense(10, activation='softmax', name='output')
], name='패션 MNIST 모델')

In [19]:
model.summary()

In [21]:
#이번엔 name 매개변수를 사용했기 때문에 모델 이름과 층 이름이 바뀌었다.

In [23]:
#add 메서드를 사용하여 층을 추가하기
#Dense 클래스의 객체를 따로 변수에 담지 않아도 된다.

model = keras.Sequential()
model.add(keras.layers.Dense(100, activation='sigmoid', input_shape=(784, )))
model.add(keras.layers.Dense(10, activation='softmax'))

In [25]:
model.summary()

In [27]:
#모델 훈련하기

model.compile(loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 745us/step - accuracy: 0.7595 - loss: 0.7620
Epoch 2/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 849us/step - accuracy: 0.8487 - loss: 0.4226
Epoch 3/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 736us/step - accuracy: 0.8624 - loss: 0.3848
Epoch 4/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 736us/step - accuracy: 0.8739 - loss: 0.3489
Epoch 5/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 734us/step - accuracy: 0.8767 - loss: 0.3421


<keras.src.callbacks.history.History at 0x306f79370>

In [29]:
#1. 활성화 함수 중에는 렐루 함수라는 것이 존재한다. -> 양수일 경우 그냥 입력을 통과시키고 음수일 경우에는 0으로 만든다.
#2. 인공 신경망에 주입하기 위해 데이터를 1차원으로 펼쳤었다. -> 케라스에서는 이를 위한 flatten 층을 제공한다. -> 입력층 바로 뒤에 추가!

model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

  super().__init__(**kwargs)


In [31]:
model.summary()

In [33]:
#Flatten 클래스에 포함된 모델 파라미터는 0개이다.

In [35]:
#모델 훈련하기
#Flatten 클래스를 사용했으므로 reshape() 메서드를 적용하지 않는다.

(train_input, train_target), (test_input, test_target) =\
    keras.datasets.fashion_mnist.load_data()
train_scaled = train_input / 255.0
train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42)

In [39]:
model.compile(loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 810us/step - accuracy: 0.7625 - loss: 0.6807
Epoch 2/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 805us/step - accuracy: 0.8567 - loss: 0.3990
Epoch 3/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 885us/step - accuracy: 0.8696 - loss: 0.3549
Epoch 4/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 796us/step - accuracy: 0.8818 - loss: 0.3306
Epoch 5/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 791us/step - accuracy: 0.8888 - loss: 0.3104


<keras.src.callbacks.history.History at 0x1103b34a0>

In [41]:
#렐루 함수를 사용하니 시그모이드를 사용했을 때보다 성능이 향상되었다.
#검증 세트에서의 성능 확인하기

model.evaluate(val_scaled, val_target)

[1m375/375[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 548us/step - accuracy: 0.8696 - loss: 0.3751


[0.3832484185695648, 0.8681666851043701]

In [43]:
#가장 기본적인 옵티마이저는 확률적 경사 하강법인 SGD이다.
#기본 경사 하강법 옵티마이저는 모두 SGD 클래스에서 제공한다. (모멘텀, 네스테로프 모멘텀)
#적응적 학습률 옵티마이저 - RMSprop, Adagrad
#모멘텀 최적화와 RMSprop의 장점을 접목한 것이 Adam이다.

In [45]:
#Adam 클래스의 매개변수 기본값을 사용해 패션 MNIST 모델 훈련하기
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

In [47]:
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 910us/step - accuracy: 0.7681 - loss: 0.6752
Epoch 2/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 893us/step - accuracy: 0.8567 - loss: 0.3963
Epoch 3/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 883us/step - accuracy: 0.8755 - loss: 0.3474
Epoch 4/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 819us/step - accuracy: 0.8821 - loss: 0.3249
Epoch 5/5
[1m1500/1500[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 809us/step - accuracy: 0.8863 - loss: 0.3028


<keras.src.callbacks.history.History at 0x308efb650>

In [49]:
model.evaluate(val_scaled, val_target)

[1m375/375[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 525us/step - accuracy: 0.8757 - loss: 0.3376


[0.3399391174316406, 0.875]