- 데이터: MNIST 데이터 사용
- 학습모델 : 신경망 모델
- 동작: 0~9 사이 숫자 판별

In [1]:
# 모듈로딩
import tensorflow as tf
from tensorflow.keras import Sequential # 모델 객체
from tensorflow.keras.layers import Dense, Dropout # 모델 레이어(층)
from tensorflow.keras.datasets.mnist import load_data # 데이터셋
from sklearn.model_selection import train_test_split

In [2]:
# 데이터 불러오기
(x_train, y_train), (x_test, y_test)=load_data()

In [3]:
# 데이터 모양 확인
print(f"x_train => {x_train.shape}, x_test => {x_test.shape}")
print(f'y_train.shape: {y_train.shape}, y_test.shape:{y_test.shape}')

x_train => (60000, 28, 28), x_test => (10000, 28, 28)
y_train.shape: (60000,), y_test.shape:(10000,)


In [4]:
# 검증용 데이터셋 준비
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, stratify=y_train)

In [5]:
print(f'x_train.shape: {x_train.shape}, x_val.shape:{x_test.shape}')
print(f'y_train.shape: {y_train.shape}, y_val.shape:{y_test.shape}')

x_train.shape: (45000, 28, 28), x_val.shape:(10000, 28, 28)
y_train.shape: (45000,), y_val.shape:(10000,)


## [2] 데이터 전처리
- 수치형 데이터 => 스케일링
- 범주형 데이터 => 원 핫 인코딩

In [6]:
# 저장된 값 확인
x_train[0],y_train[0]

(array([[  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0],
        [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0],
        [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0],
        [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0],
        [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
           0,   0],
        [  0,   0,   0,   0,   0,   0,   0,   0,  90,  64,   0,   0,   0,
           0,   0,   0,   0,   0,   3, 129, 253, 253,  99,   0,   0,   0,
           0

In [7]:
# 이미지 데이터의 픽셀값 즉 특성(Feature) 0.0 ~ 1.0으로 스케일링
x_train = x_train/255.0
x_val = x_val/255.0
x_test = x_test/255.0

In [8]:
# 타켓 라벨 => OHE으로 변환
from sklearn.preprocessing import OneHotEncoder,LabelEncoder

encoder=OneHotEncoder()
encoder.fit(y_train.reshape(-1, 1))
y_train=encoder.transform(y_train.reshape(-1, 1))
y_val=encoder.transform(y_val.reshape(-1, 1))
y_test=encoder.transform(y_test.reshape(-1, 1))

In [10]:
# 원핫인코딩 후 타입확인
type(y_train), type(y_val), type(y_test)

(scipy.sparse.csr.csr_matrix,
 scipy.sparse.csr.csr_matrix,
 scipy.sparse.csr.csr_matrix)

In [11]:
# 타겟 타입 변경
y_train=y_train.toarray()
y_val=y_val.toarray()
y_test=y_test.toarray()

In [12]:
# 타입변경 후
type(y_train), type(y_val), type(y_test)

(numpy.ndarray, numpy.ndarray, numpy.ndarray)

### [3] 모델
- (1) 모델구성
- (2) 모델 생성

#### [3-1] 모델 구성
- 입력 데이터 : 784 => 28*28 이미지 데이터
- 출력 데이터 : 10 => 0~9 숫자 라벨
- 학습 방법 : 분류-다중분류