# 딥러닝으로 MNIST 손글씨 인식하기 

## MNIST 손글씨 데이타 세트

<img src="./img/mnist_data.png" align=left width=500>

- MNIST 데이터셋은 미국 국립표준기술원(NIST)이 고등학생과 인구조사국 직원등이 
     - 쓴 손글씨를 이용해 만든 데이터로 구성
- 70,000개의 글자 이미지에 각각 0부터 9까지 이름표를 붙인 데이터셋
- 머신러닝을 배우는 사람이라면 자신의 알고리즘과 다른 알고리즘의 성과를 비교해 보고자 
     - 한 번씩 도전해 보는 가장 유명한 데이터 중 하나

### 1. MNIST 데이터셋 다운로드

In [None]:
from tensorflow.keras.datasets.mnist import load_data

# 텐서플로우 저장소에서 데이터를 다운받습니다.


### 데이터의 형태 확인하기

In [None]:
# 훈련 데이터


# 테스트 데이터


### 데이터 그려보기

In [None]:
import matplotlib.pyplot as plt
import numpy as np




### 2. 검증 데이터 만들기

In [None]:
from sklearn.model_selection import train_test_split

# 훈련/검증 데이터를 0.7/0.3의 비율로 분리합니다.



### 3. 모델 입력을 위한 데이터 전처리

In [None]:
# 모델의 입력으로 사용하기 위한 전처리 과정입니다.


### 4. 모델 입력을 위한 레이블 전처리

In [None]:
from tensorflow.keras.utils import to_categorical

# 각 데이터의 레이블을 범주형 형태로 변경합니다.




### 5. 모델 구성하기

### 6. 컴파일 함수로 학습과정 설정하기

### 7. 모델 학습하기

### history를 통해 확인해볼 수 있는 값 출력하기
- history는 딕셔너리 형태

In [None]:
# history.history

### 8. 학습 결과 그려보기

In [None]:
import matplotlib.pyplot as plt

his_dict = history.history
loss = his_dict['loss']
val_loss = his_dict['val_loss'] # 검증 데이터가 있는 경우 ‘val_’ 수식어가 붙습니다.

epochs = range(1, len(loss) + 1)
fig = plt.figure(figsize = (10, 5))

# 훈련 및 검증 손실 그리기
ax1 = fig.add_subplot(1, 2, 1)
ax1.plot(epochs, loss, color = 'blue', label = 'train_loss')
ax1.plot(epochs, val_loss, color = 'orange', label = 'val_loss')
ax1.set_title('train and val loss')
ax1.set_xlabel('epochs')
ax1.set_ylabel('loss')
ax1.legend()

acc = his_dict['acc']
val_acc = his_dict['val_acc']

# 훈련 및 검증 정확도 그리기
ax2 = fig.add_subplot(1, 2, 2)
ax2.plot(epochs, acc, color = 'blue', label = 'train_loss')
ax2.plot(epochs, val_acc, color = 'orange', label = 'val_loss')
ax2.set_title('train and val loss')
ax2.set_xlabel('epochs')
ax2.set_ylabel('loss')
ax2.legend()

plt.show()

### 9. 모델 평가하기

### 10. 학습된 모델을 통해 값 예측하기

### 예측값 그려서 확인해보기

In [None]:
import matplotlib.pyplot as plt

arg_results = np.argmax(results, axis = -1) # 가장 큰 값의 인덱스를 가져옵니다.
plt.imshow(x_test[0].reshape(28, 28))
plt.title('Predicted value of the first image : ' + str(arg_results[0]), fontsize = 15)
plt.show()

### 11. 모델 평가 방법 1 - 혼동 행렬

In [None]:
# sklearn.metrics 모듈은 여러가지 평가 지표에 관한 기능을 제공합니다.
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns

# 혼동 행렬을 만듭니다.


### 모델 평가 방법 2 - 분류 보고서

### 전체 코드

In [None]:
import tensorflow as tf
from tensorflow.keras.datasets.mnist import load_data

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.utils import to_categorical

from sklearn.model_selection import train_test_split
tf.random.set_seed(777)

# 1. 데이타 로드
(x_train, y_train), (x_test, y_test) = load_data(path='mnist.npz')

# 2. 검증 데이타 분할
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, 
                                                  test_size = 0.3, 
                                                  random_state = 777)
# 3. 피쳐 정규화/레이블 원-핫 인코딩
num_x_train = x_train.shape[0]
num_x_val = x_val.shape[0]
num_x_test = x_test.shape[0]

x_train = (x_train.reshape((num_x_train, 28 * 28))) / 255
x_val = (x_val.reshape((num_x_val, 28 * 28))) / 255
x_test = (x_test.reshape((num_x_test, 28 * 28))) / 255

y_train = to_categorical(y_train)
y_val = to_categorical(y_val)
y_test = to_categorical(y_test)

# 4. 딥러닝 모델 구성
model = Sequential()
model.add(Dense(64, activation = 'relu', input_shape = (784, )))
model.add(Dense(32, activation = 'relu'))
model.add(Dense(10, activation = 'softmax'))

# 5. 컴파일 설정
model.compile(optimizer='adam', 
              loss = 'categorical_crossentropy', 
              metrics=['acc'])

# 6. 모델 학습
history = model.fit(x_train, y_train, 
                    epochs = 30, 
                    batch_size = 128, 
                    validation_data = (x_val, y_val))

# 7. 모델 평가
# model.evaluate(x_test, y_test)
results = model.predict(x_test)