<a href="https://colab.research.google.com/github/jong9810/TensorFlow-2.0/blob/main/4_2_Deep_Learning_Fashion_MNIST.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Deep Learning Ex2 : Fashion-MNIST

### Fashion MNIST 데이터
1. 28 * 28 크기의 60000개 학습데이터, 10000개의 테스트 데이터로 이루어져 있음
1. 정답은 10가지의 옷 종류 
- (0 : T-shirt/top, 1 : Trouser, 2 : Pullover, 3 :Dress, 4 : Coat, 5 : Sandal, 6 : Shirt, 7 : Sneaker, 8 : Bag, 9 : Ankle boot)

In [None]:
import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Flatten, Dense

In [None]:
from tensorflow.keras.datasets import fashion_mnist

In [None]:
# 1. 데이터 정의 : Fasion-MNIST 데이터 불러옴
(x_train, t_train), (x_test, t_test) = fashion_mnist.load_data()

print('x_train.shape =', x_train.shape, 't_train.shape =', t_train.shape)
print('x_test.shape =', x_test.shape, 't_test.shape =', t_test.shape)

# print(x_train)
# print(t_train)

In [None]:
# 25개의 이미지 출력
plt.figure(figsize=(6, 6))
for index in range(25):
    plt.subplot(5, 5, index + 1)
    plt.imshow(x_train[index], cmap='gray')
    plt.axis('off')
    # plt.title(str(t_train[index]))
plt.show()

In [None]:
# 2. 데이터 전처리 : 입력 데이터 정규화, 정답 데이터는 원핫 인코딩을 하지 않고 진행!!!
# from tensorflow.keras.utils import to_categorical

x_train = (x_train - 0.0) / (255.0 - 0.0)
x_test = (x_test - 0.0) / (255.0 - 0.0)

# t_train = to_categorical(t_train, num_classes=10)
# t_test = to_categorical(t_test, num_classes=10)

# print(x_test)
# print(t_test)

In [None]:
# 3. 모델 구축 : 모델 생성, 입력, 은닉, 출력층 정의해줌
model = Sequential()

model.add(Flatten(input_shape=(28, 28))) # 입력층 구성
model.add(Dense(100, activation='relu')) # 은닉층 구성
model.add(Dense(10, activation='softmax')) # 출력층 구성

In [None]:
from tensorflow.keras.optimizers import Adam

# 정답 데이터가 원핫 인코딩 방식이 아니기 때문에 손실함수는 loss='sparse_categorical_crossentropy'로 지정
model.compile(optimizer=Adam(learning_rate=1e-3), loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.summary()

In [None]:
# 4. 학습 : 훈련 데이터를 가지고 모델을 생성하기 위해 학습시키는 과정
hist = model.fit(x_train, t_train, epochs=30, validation_split=0.3)

In [None]:
# 5. 모델 평가 및 예측 : 모델이 적절하게 생성되었는지 평가하고, 임의의 테스트 데이터에 대해 결과를 예측하는 과정
model.evaluate(x_test, t_test) # 테스트 데이터에 대한 모델의 손실함수 값, 정확도를 출력

In [None]:
plt.title('Loss')
plt.xlabel('epochs')
plt.ylabel('loss')
plt.grid()

plt.plot(hist.history['loss'], label='train loss')
plt.plot(hist.history['val_loss'], label='validation loss')

plt.legend(loc='best')
plt.show()

In [None]:
plt.title('Accuracy')
plt.xlabel('epochs')
plt.ylabel('accuracy')
plt.grid()

plt.plot(hist.history['accuracy'], label='train accuracy')
plt.plot(hist.history['val_accuracy'], label='validation accuracy')

plt.legend(loc='best')
plt.show()

In [None]:
from sklearn.metrics import confusion_matrix  # 어떤 데이터에 대해 모델이 잘 맞추고 못 맞추는지를 보여줌
import seaborn as sns

In [None]:
plt.figure(figsize=(6, 6))

predicted_value = model.predict(x_test) # x_test 데이터에 대한 모델 예측값
cm = confusion_matrix(t_test, np.argmax(predicted_value, axis=-1)) # 혼동 행렬 : confusion_matrix(테스트 정답 데이터, 테스트 예측 데이터)  인자 : axis=-1 ->> 
# 정답 데이터를 원핫 인코딩 방식으로 하지 않았기 때문에 np.argmax() 함수를 사용하지 않고 그냥 t_test 자체로 대입해야 한다 (t_test 데이터는 10진수 값이 저장되어 있기 때문)
# 테스트 데이터를 통해 예측된 데이터는 activation='softmax'로 인해 10개의 노드로 표시되기 때문에 np.argmax() 함수로 가장 큰 값(확률)을 가지는 인덱스 값을 대입해주어야 한다.

sns.heatmap(cm, annot=True, fmt='d')
plt.show()

In [None]:
print(cm,'\n')

for i in range(10):
    print('label = {0}\t({1}/{2})\taccuracy = {3}'.format(i, np.max(cm[i]), np.sum(cm[i]), np.max(cm[i])/np.sum(cm[i])))