In [1]:
from keras.datasets import mnist

from keras import models
from keras import layers

## MNIST 데이터 로드

In [2]:
# mnist 데이터 로드
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz


In [12]:
# check mnist data shape
print(train_images.shape)
print(len(train_labels))
print(train_labels)
print(test_images.shape)
print(len(test_labels))
print(test_labels)

(60000, 28, 28)
60000
[5 0 4 ... 5 6 8]
(10000, 28, 28)
10000
[7 2 1 ... 4 5 6]


<hr>

## 모델 만들기
- 하나의 model에는 여러 개의 layer가 존재하고, 하나의 layer에는 여러 개의 node가 존재한다.
- `models.add()` : model에 layer를 추가한다.
- `layers.Dense()` : Dense() 메서드의 매개변수로 layer에 대한 정보를 입력한다.

In [14]:
network = models.Sequential()    #network란 이름을 가진 model을 하나 만든다.
#입력값으로 28*28 크기의 일차원 배열이 들어오고, node가 512개이며 활성화 함수가 relu인 layer를 생성한다.ㅠ
network.add(layers.Dense(512, activation='relu', input_shape=(28*28, )))     
network.add(layers.Dense(10, activation='softmax'))

### softmax 함수
- output layer에서 많이 사용하는 활성화 함수이다.

- 만약에 출력값이 y1~y10 총 10개라고 하자.
- softmax 활성화 함수를 통해 output layer에서는 y1에서 y10까지 출력값의 범위를 0~1 사이인 실수로 변환한다.
- 단,  `y1 + y2 + y3 +...+ y10 = 1`이어야 한다.

이것이 의미하는 건 바로 각각의 출력값이 해당 input의 결과로 각각의 출력값을 갖게 될 `확률`을 의미한다.

<hr>

## 손실 함수(loss function)
- 실제값(목표값 또는 target)과 예측값(output layer에서 활성화 함수를 통해 얻은 값)의 차이를 구하는 함수
- 손실 함수로도 여러가지가 존재하지만 오늘까지 배운 손실 함수는 `MSE, MAE, Cross Entropy`

### 1. MSE
<img src='https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbOjubP%2FbtqGdzPuz5F%2FBOIrid8N4irE7w82WSaoy0%2Fimg.png' width='400px' height='200px'>

- 예측값과 실제값의 차이를 `제곱`하여 더하는 함수
- 오차가 클수록 제곱으로 인해 차이가 뚜렷해 오차를 확인하기 수월하다.

### 2. MAE
<img src='https://miro.medium.com/max/1210/1*ULbb_rvDsURwuRXZbG9YmA.png' width='400px' height='200px'>

- 예측값과 실제값의 차이의 `절댓값`을 더하는 함수

### 3. Categorical Cross Entropy
<img src='https://user-images.githubusercontent.com/66666533/111270027-ae15f380-8672-11eb-9c54-db2373665fad.png' width='400px' height='400px'>

- softmax의 손실함수로 많이 사용됨.
- 카테고리(출력값)이 두개라면 Binary Cross Entropy 사용하면 된다.

<hr>

## Optimizer
- gradient(미분값)을 통해 `weight의 변화를 주는 과정`
- 이때 gradient는 활성화 함수를 미분한 값을 말한다.
- Optimizer의 종류로는 `SGD, Momentum, NAG, Adagrad, Adadelta, Rmsprop` 등이 있다.

In [15]:
# 해당 모델은 rmsprop 방법을 사용해 optimizer를 수행하고, 손실 함수는 categorical_crossentropy 함수를 사용한다.
network.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

<hr>

## 데이터 전처리 - Scaling
- 데이터가 너무 크거나 작을 때 학습을 시키다 보면 데이터가 0에 수렴하거나 발산해버리는 상황이 발생한다.
- 또 데이터 갯수가 광범위할 때 학습 효율이 굉장히 떨어지게 된다.
- 이를 방지하기 위해 데이터 전처리 과정을 거쳐야 한다.
- 데이터 전처리 방법으로는 `scaling`과 `차원 축소`와 같은 방법이 존재한다.

In [24]:
train_images = train_images.reshape((60000, 28*28))    #차원 축소(3차원 배열->2차원 배열)
train_images = train_images.astype('float32') / 255    #scaling
test_images = test_images.reshape((10000, 28*28))
test_images = test_images.astype('float32') / 255