# 2. 신경망의 수학적 구성 요소

## 2.1 신경망과의 첫 만남

In [27]:
import warnings
warnings.filterwarnings('ignore')

<br>

**\[코드 2-1\] 케라스에서 MNIST 데이터셋 적재하기**

In [28]:
from keras.datasets import mnist

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

- `images` : 넘파이 배열로 인코딩되어 있음
- `labels` : 0부터 9까지의 숫자 배열

<br>

훈련 데이터 확인

In [29]:
train_images.shape

(60000, 28, 28)

In [30]:
len(train_labels)

60000

In [31]:
train_labels

array([5, 0, 4, ..., 5, 6, 8], dtype=uint8)

<br>

테스트 데이터 확인

In [32]:
test_images.shape

(10000, 28, 28)

In [33]:
len(test_labels)

10000

In [34]:
test_labels

array([7, 2, 1, ..., 4, 5, 6], dtype=uint8)

<br>

### 2.1.1 신경망 만들기 작업 순서

1. 훈련 데이터 `train_images`, `train_labels`를 네트워크에 주입
2. 네트워크가 이미지와 레이블을 연관시킬 수 있도록 학습됨
3. `test_images`에 대한 예측을 네트워크에 요청
4. 이 예측이 `test_labels`와 맞는 지 확인

<br>

**\[코드 2-2\] 신경망 구조**

In [35]:
from keras import models
from keras import layers

network = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28, )))
network.add(layers.Dense(10, activation='softmax'))

<br>

### 2.1.2 층(layer)

- 신경망의 핵십 구성 요소
- 일종의 데이터 처리 필터
- 어떤 데이터가 들어가면 더 유용한 형태로 출력됨
- 층은 주어진 문제에 더 의미 있는 **표현(representation)**을 입력된 데이터로부터 추출

<br>

### 2.1.3 컴파일 단계에 포함될 3가지 요소

1. **손실 함수 (loss function)**  
  - 훈련 데이터에서 신경망의 성능을 측정하는 방법
  - 네트워크가 옳은 방향으로 학습될 수 있도록 도와준다.  
  
  
2. **옵티마이저 (optimizer)**  
  - 입력된 데이터와 손실 함수를 기반으로 네트워크를 업데이트하는 메커니즘  
  
  
3. **훈련과 테스트 과정을 모니터링할 지표**  
  - 정확도

<br>

**\[코드 2-3\] 컴파일 단계**

In [36]:
network.compile(optimizer='rmsprop',
                loss='categorical_crossentropy',
                metrics=['accuracy'])

<br>

### 2.1.4 데이터 준비

- 훈련하기 전 데이터를 네트워크에 맞는 크기로 바꾸고 모든 값을 0과 1 사이로 스케일을 조정
  - 신경망은 입력 데이터의 스케일에 민감
  - 적절한 데이터 전처리 과정이 필요
  - 이미지의 경우 보통 픽셀의 최댓값인 255로 나누어 사용  
  
  
- 훈련 이미지는 \[0, 255\] 사이의 값인 `unit8` 타입의 (60000, 28, 28) 크기를 가진 배열로 저장되어 있음
- 이 데이터를 0과 1 사이의 값을 가지는 `float32` 타입의 (60000, 28 * 28) 크기인 배열로 바꿈

<br>

**\[코드 2-4\] 이미지 데이터 준비하기**

In [37]:
print(train_images.shape)
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255
print(train_images.shape)

(60000, 28, 28)
(60000, 784)


In [38]:
print(test_images.shape)
test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255
print(test_images.shape)

(10000, 28, 28)
(10000, 784)


<br>

### 2.1.5 레이블 인코딩

- 레이블을 범주형으로 인코딩

<br>

**\[코드 2-5\] 레이블 준비하기**

In [39]:
from keras.utils import to_categorical

print(train_labels[0])

train_labels = to_categorical(train_labels)

print(train_labels[0])

5
[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]


In [41]:
print(test_labels[0])

test_labels = to_categorical(test_labels)

print(test_labels[0])

7
[0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]


<br>

### 2.1.6 모델 학습

- `fit` 메서드를 호출하여 훈련 데이터에 모델을 학습시킴

In [42]:
network.fit(train_images, train_labels, epochs=5, batch_size=128)

Instructions for updating:
Use tf.cast instead.
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1640008a668>

<br>

**훈련하는 동안 출력되는 정보**

1. `loss` : 훈련 데이터에 대한 네트워크의 손실
2. `acc` : 훈련 데이터에 대한 네트워크의 정확도

<br>

$\Rightarrow$ 훈련 데이터에 대한 네트워크의 정확도 = 0.9887(98.9%)

<br>

### 2.1.7 모델 성능 확인

- 테스트 세트에서 모델이 잘 동작하는 지 확인

In [43]:
test_loss, test_acc = network.evaluate(test_images, test_labels)



In [44]:
print('test_acc: ', test_acc)

test_acc:  0.9808


$\Rightarrow$ 테스트 데이터에 대한 네트워크의 정확도 = 0.9808(98.1%)

<br>

### 2.1.8 과대적합 (overfitting)

- 훈련 세트 정확도(98.9%)보다 테스트 세트 정확도(98.1%)가 약간 낮다.
- 이 차이는 **과대적합** 때문이다.