In [6]:
from tensorflow import keras

In [7]:
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()

In [8]:
train_scaled = train_input/255.0
train_scaled = train_scaled.reshape(-1,28*28)

In [4]:
print(train_scaled.shape)

(60000, 784)


In [9]:
from sklearn.model_selection import train_test_split

In [10]:
# 훈련 데이터셋과 검증 데이터셋 나누기.
train_scaled, val_scaled, train_target, val_target = train_test_split(train_scaled, train_target)

In [None]:
print(train_scaled.shape)

In [None]:
print(val_scaled.shape)

In [None]:
dense = keras.layers.Dense(10, activation='softmax', input_shape=(784,))
# 밀집층 객체를 만들어준다. 첫번째 매개변수는 출력값의 갯수,
# 두번째는 활성화함수 뭘로 할 것인지,
# 마지막, input_shape 은 입력층의 갯수. 튜플식으로 넣어준다.

In [None]:
model = keras.Sequential(dense)
# 밀집층을 이용하여 인공신경망을 만든다.


In [None]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')
# 짜준 인공신경망을 컴파일(실행가능한 상태로 만드는 작업)한다.
# metrics 에 원하는 매개변수를 넣으면 fit 하는 과정에서 한 epoch 를 돌릴 때마다
# 해당 매개변수를 출력하여 보여준다.
# 이 경우는 정확도를 출력하도록 해주었다.

# 다중분류의 경우 loss 함수로
# 'sparse_categorical_crossentropy' 와
# categorical_crossentropy 가 들어갈 수 있다.
# sparse 은 티셔츠:3, 바지:8 이런 식으로 타겟이 정수로 되어 있는 경우에 오차를 계산하는 손실함수이고,
# categorical_cross 은 티셔츠 : [0 0 1 0 0 0 0 0 0 ], 바지 : [0 0 0 0 0 0 0 1 0 0 ]
# 이런 식으로 One-hot encoding 되어 있는 타겟데이터을 이용하여 오차를 계산하는 손실함수이다.

# 이진 분류는
# 'binary_crossentropy' 를 쓴다.

# 회귀의 경우는 'mean_square_error'를 쓴다

In [None]:
train_target[:10]

In [None]:
model.fit(train_scaled, train_target, epochs=5)
# 데이터와 타겟데이터를 넣어주고, 에포크수(훈련 횟수)를 정해준다

In [None]:
model.evaluate(val_scaled, val_target)
# 머신러닝에선 score 을 통해 검증했다면,
# 텐서플로우(케라스)에선 evaluate 를 통해 검증한다.

In [None]:
# 이제 인공신경망의 층을 2개로 늘려보자.
dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(784,))
dense2 = keras.layers.Dense(10, activation='softmax')

In [None]:
model = keras.Sequential([dense1, dense2])

In [None]:
# model.fit(train_scaled,train_target,epochs=5)
model.summary()

In [None]:
dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(784,),name='hidden')
dense2 = keras.layers.Dense(10, activation='softmax', name='output')
model = keras.Sequential([dense1, dense2], name='MNIST')

In [None]:
model.summary()

In [None]:
model.compile(loss='sparse_categorical_crossentropy',metrics='accuracy')
model.fit(train_scaled,train_target,epochs=5)

In [None]:
# hidden layer 가 있어서 fit 하는데 시간은 조금 더 걸렸음.
# 하지만 정확도가 0.03 만큼 올라감.성능 향상!

# <tensorflow.python.keras.callbacks.History at 0x7f642cfe86d0>
# 텐서플로우에 훈련을 끝마치고 나면 맨 마지막에 이 출력문이 뜸.
# 텐서플로우의 fit 메소드는 "History" 객체를 반환한다.
# 그 객체 안에는 계산한 지표, 손실과 정확도 값이 저장되어 있다.

In [None]:
# 이제 flatten 층을 알아보자.

model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28,28)))
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10,activation='softmax'))

# 위 인공신경망은 깊이가 2인 신경망.
# flatten 은 2차원 데이터를 넣을 수 있는 공간일 뿐이지,
# 인공신경망에 기여하는 층이 아니기 때문
# flatten 을 넣으면 그 다음 층에 input_shape 를 규정할 필요가 없어진다.

In [None]:
model.summary()

In [None]:
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()

In [None]:
train_scaled = train_input/255.0

In [None]:
train_scaled, val_scaled, train_target, val_target = train_test_split(train_scaled, train_target, test_size=0.2)

In [None]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy', optimizer = 'adam')

In [None]:
model.fit(train_scaled, train_target, epochs=5)

In [None]:
# 2차원 데이터를 1차원으로 바꾸지 않고 Flatten 층을 이용해서 그대로 사용해줌.
# keras 가 이래서 편하구나.
# 뿐만 아니라, 밀집층을 relu 로 해준 덕분에 정확도가 아까보다 0.1 가량 더 올라감.
# 이미지 분석에는 relu 가 좋은 성능을 보인다.

# 그리고 optimizer 에 'adam' 을 넣어준 결과 정확도가 0.006 가량 높아짐
# (그 전에 기본 optimizer 은 RMSprop - 적응적 학습률 기능만 가짐)
# 'adam' 은 모멘텀 최적화와 적응적 학습률 기능을 가지고 있다
# 모멘텀 최적화는 그래디언트(손실함수오차)에 가속을 붙이는 기능이고,
# 적응적 학습률은 계산에 따라 learning rate(학습율)을 알아서 바꿔가며 최적값을 찾는 방식이다.
model.evaluate(val_scaled,val_target)

In [11]:
# 7-3. 신경망 모델 훈련

def model_fn(a_layer=None):
  model = keras.Sequential()
  model.add(keras.layers.Flatten(input_shape=(28,28)))
  model.add(keras.layers.Dense(100, activation='relu'))
  if a_layer:
    model.add(a_layer)
  model.add(keras.layers.Dense(10, activation='softmax'))
  return model

In [None]:
model = model_fn()
model.summary()

In [None]:
model.compile(loss='sparse_categorical_crossentropy',metrics='accuracy')
history = model.fit(train_scaled,train_target,epochs=5)

In [None]:
history.history['accuracy']
history.history['loss']

In [None]:
import matplotlib.pyplot as plt
plt.plot(history.history['loss'])
plt.xlabel('epochs')
plt.ylabel('loss')

In [None]:
plt.plot(history.history['accuracy'])
plt.xlabel('epochs')
plt.ylabel('loss')

In [None]:
model = model_fn()
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')
history2 = model.fit(train_scaled, train_target, epochs=20, verbose=0, validation_data=(val_scaled,val_target))


In [None]:
history2.history.keys()

In [None]:
plt.plot(history2.history['loss'])
plt.plot(history2.history['val_loss'])
plt.xlabel('epochs')
plt.ylabel('loss')
plt.legend(['loss','val_loss'])

In [None]:
model = model_fn()
model.compile(optimizer = 'adam',loss='sparse_categorical_crossentropy',metrics='accuracy')
history3_adam = model.fit(train_scaled,train_target, validation_data=(val_scaled,val_target), epochs=20)

In [None]:
plt.plot(history3_adam.history['loss'])
plt.plot(history3_adam.history['val_loss'])
plt.xlabel('epochs')
plt.ylabel('loss')
plt.legend(['train','val'])

In [None]:
# optimizer 을 adam 으로 바꿔주니 RMSprop 보다 더 과대적합이 줄어듬.
# 여기서 Adam 옵티마이저가 이 데이터셋에 잘 맞는다는 것을 보여줌.

In [None]:
# 드롭아웃 : 한 층에 존재하는 뉴런들 중 임의의 뉴런들을 꺼버려서(출력이 0이 되도록 만듬)
#            과대적합을 막는 기능.
# keras.layers.dropout(0.3) -> 30%를 꺼버린다.

In [13]:
model4 = model_fn(keras.layers.Dropout(0.3))

In [None]:
model4.summary()

In [14]:
model4.compile(optimizer='adam',loss='sparse_categorical_crossentropy',metrics='accuracy')
history_dropout = model4.fit(train_scaled,train_target,epochs=20,verbose=0,validation_data=(val_scaled,val_target))



In [None]:
plt.plot(history_dropout.history['loss'])
plt.plot(history_dropout.history['val_loss'])
plt.xlabel('epochs')
plt.ylabel('loss')
plt.legend(['train','val'])

In [None]:
# dropout 을 하니 과대적합이 어느정도 방지가 되었다.
# 여기서 epochs 가 10 정도일 때가 최적화 값이라고 예상할 수 있다.
# 그럼 epochs 10으로 모델을 다시 만들어보자.

In [15]:
model_opt = model_fn(keras.layers.Dropout(0.3))
model_opt.summary()
model_opt.compile(optimizer='adam',loss='sparse_categorical_crossentropy',metrics='accuracy')
history_opt = model_opt.fit(train_scaled,train_target,epochs=10,verbose=0,validation_data=(val_scaled,val_target))

Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten_2 (Flatten)          (None, 784)               0         
_________________________________________________________________
dense_4 (Dense)              (None, 100)               78500     
_________________________________________________________________
dropout_2 (Dropout)          (None, 100)               0         
_________________________________________________________________
dense_5 (Dense)              (None, 10)                1010      
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [17]:
# 케라스에는 model 의 파라미터들을 저장하는 메소드가 존재한다.
# model.save_weights('model-weights.h5')
# 모델 구조와 모델 파라미터를 모두 저장하는 save() 메소드도 존재.

model_opt.save_weights('model-weights.h5')

In [18]:
!ls -al *.h5

-rw-r--r-- 1 root root 332480 Mar  8 07:57 model-weights.h5


In [12]:
model5 = model_fn(keras.layers.Dropout(0.3))

In [37]:
model5.compile(optimizer = 'adam', loss='sparse_categorical_crossentropy',metrics='accuracy')

In [38]:
model5.fit(train_scaled, train_target, epochs=10, validation_data=(val_scaled,val_target))
# 최적화된 모델을 만든다

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f7652e66d50>

In [39]:
model5.save_weights('model-weights.h5')
# 모델의 weight 에 대한 계수값들을 위 파일명에 저장한다.

In [40]:
model = model_fn(keras.layers.Dropout(0.3))
model.load_weights('model-weights.h5')
# 그리고 weights 파라미터가 저장된 위 계수를 로딩하려면
# 해당 모델은 같은 구조를 이미 가지고 있어야 함.

In [25]:
import numpy as np

In [27]:
val_labels = np.argmax(model5.predict(val_scaled),axis=-1)
print(np.mean(val_labels == val_target))
# 그래서 해당 예측치를 실제 데이터랑 비교해보면 87.62 퍼센트 정도의 정확도를 보여준다.

0.8762666666666666


In [30]:
!ls -al *.h5

-rw-r--r-- 1 root root 332480 Mar  8 07:57 model-weights.h5


In [43]:
model5.save('model-whole.h5')
# save_weights 가 아닌, save 메소드는 가중치 파라미터들 뿐만 아니라 아예 그 모델의 구조까지도 파일에 저장해준다.

In [44]:
model6 = keras.models.load_model('model-whole.h5')
# 그래서 save 한 파일을 로딩할 경우엔 따로 같은 구조의 모델을 만들 필요가 없다. (구조가 파일에 저장되어 있기 때문.)
# 그래서 해당 정보로 모델을 만들어주고 싶을 경우엔 keras.models.load_model('model-whole.h5') 이 방식으로 로딩한다.

In [45]:
model6.evaluate(val_scaled,val_target)



[0.3316963016986847, 0.8836666941642761]

In [46]:
# 이제 콜백을 배워보자.

# 우리가 최적값을 얻기 위해서 처음에 에포크 값을 20으로 돌리고,
# 그 기록값들을 히스토리에 저장하고,
# 히스토리를 플라팅해서
# 최적의 에포크 수를 구한 후에,
# 그 에포크 수로 다시 모델을 훈련시켜 최적의 모델을 완성시켰음.

# 근데 굳이 2번이나 이렇게 해야 되나?
# 노노. 콜백을 사용하면 한번으로 충분함.

model7 = model_fn(keras.layers.Dropout(0.3))
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy',metrics='accuracy')
checkpoint_cb = keras.callbacks.ModelCheckpoint('best-model.h5') # 최고의 모델을 여기에 저장시킨다
model.fit(train_scaled,train_target,epochs=20,verbose=0,validation_data=(val_scaled,val_target),callbacks=[checkpoint_cb])
# callbacks 원리 -> 검증(val) 데이터에 대한 정확도가 올라가는 기미가 보일 때,
# 그때 컴퓨터가 알아서 종료시키는 방식을 말함.



<tensorflow.python.keras.callbacks.History at 0x7f76571d9910>

In [47]:
model = keras.models.load_model('best-model.h5')
model.evaluate(val_scaled,val_target)

# 콜백을 사용한 최적검증세트로 정확도가 0.8897이 나왔다.



[0.3424144387245178, 0.8897333145141602]

In [49]:
# 근데 여전히 비효율적인 것은,
# 최적의 값을 찾았는데도 왜 굳이 20번을 다 돌려야 하나?
# 중간에 멈출 수 있지 않을까? -> 있다.

# EarlyStopping 콜백을 사용한다.

model = model_fn(keras.layers.Dropout(0.3))
model.compile(optimizer='adam',loss='sparse_categorical_crossentropy',metrics='accuracy')
checkpoint_cb = keras.callbacks.ModelCheckpoint('best-model.h5')
early_stopping_cb = keras.callbacks.EarlyStopping(patience=2, restore_best_weights=True)
history = model.fit(train_scaled,train_target,epochs=20, verbose=0, validation_data=(val_scaled,val_target),callbacks=[checkpoint_cb, early_stopping_cb])

# 여기서 patience 가 2로 되어 있는데,
# 그건 어떤 의미냐면,
# 컴퓨터가 2번쯤은 올라가더라도 참겠다는 의미.
# epoch 2번 연이어 올라간다? -> 그럼 종료하겠다 라는 의미.

# 근데 데이터가 많으면 patience 가 많아져야함. 보통 10~100 정도.
# 왜냐면 데이터가 많으면 샘플을 랜덤하게 뽑아오는데, 그 사이에 차이가 심할 수 있음.
# 그렇게 되면 4~5번 손실이 올라가더라도 그 다음에 대폭 내려갈 수도 있는 것이고,
# 그런 경우가 생기는게 빈번함.
# 그래서 데이터가 많을 경우 patience 값이 크다.

# 여기서 earlystopping 의 경우는 patience 에 대한 부분이 정말 중요하다.



In [50]:
early_stopping_cb.stopped_epoch

7

In [51]:
model.evaluate(val_scaled, val_target)



[0.3373469114303589, 0.8778666853904724]