# Convolutional Neural Networks (CNNs)

**Note:** 이 `notebook`을 실행하기 이전에 다음의 내용을 설명하고 진행하겠습니다. 
 1. Convolution layer
 2. Filter
 3. Stride
 4. Padding
 5. Max-pooling
 6. mnist 데이터

**Note:** 아래 스크립트는 [이 곳](https://github.com/fchollet/keras/blob/master/examples/mnist_cnn.py)의 내용을 참고하였습니다. 

아래의 스크립트는 `mnist` 데이터를 **CNN** 모델로 분류하는 스크립트입니다. 12 epoch 이후에 99.25%의 성능을 보였습니다. 

## MNIST 데이터

MNIST 데이터는 손으로 쓰여진 숫자들의 이미지로 구성되어 있습니다. 데이터를 분류하는 목적은, 손으로 쓰여진 우편번호를 컴퓨터로 인식하기 위함이었습니다. 

## Import modules

필요한 모듈들을 불러오겠습니다. 

In [2]:
from __future__ import print_function
import numpy as np

from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten
from keras.layers import Conv2D, MaxPooling2D
from keras.utils import np_utils
from keras import backend as K

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


## Set parameters

필요한 `hyperparameter`를 설정하도록 하겠습니다. **np.random.seed()** 값을 미리 지정함으로써 나중에도 같은 결과를 얻을 수 있습니다. 

 - batch_size: 한 번에 훑어볼 데이터의 수
 - nb_classes: 분류할 클래스의 수
 - nb_epoch: 전체 데이터를 몇 번 반복할지
 

In [3]:
np.random.seed(1337)  # for reproducibility

batch_size = 128
nb_classes = 10
nb_epoch = 12

# input image dimensions
img_rows, img_cols = 28, 28
# number of convolutional filters to use
nb_filters = 32
# size of pooling area for max pooling
pool_size = (2, 2)
# convolution kernel size
kernel_size = (3, 3)

## Import mnist data, and create training/test data

MNIST 데이터를 불러온 이후, `training`과 `test` 데이터로 분류하겠습니다. 

전체 값을 **255**로 나눠주는 이유는, 28 * 28의 이미지 각각의 구역이 `0-255`의 값으로 구성되어있기 때문입니다. 전체 값을 **255**로 나눠줄 경우, 모든 값을 `0-1` 사이의 값으로 만들 수 있습니다. 

In [4]:
(X_train, y_train), (X_test, y_test) = mnist.load_data()

X_train = X_train.reshape(X_train.shape[0], img_rows, img_cols, 1)
X_test = X_test.reshape(X_test.shape[0], img_rows, img_cols, 1)
input_shape = (img_rows, img_cols, 1)

X_train = X_train.astype('float32')
X_test = X_test.astype('float32')
X_train /= 255
X_test /= 255
print('X_train shape:', X_train.shape)
print(X_train.shape[0], 'train samples')
print(X_test.shape[0], 'test samples')

Downloading data from https://s3.amazonaws.com/img-datasets/mnist.npz
X_train shape: (60000, 28, 28, 1)
60000 train samples
10000 test samples


## One-hot encoding

**`one-hot encoding`** 은 각 클래스를 분류할 때 주로 사용되는 레이블링 방법입니다. 분류할 클래스의 갯수만큼의 `<list>`를 생성한 이후, 해당하는 클래스의 위치에는 **1**을, 나며지 경우에는 **0**을 할당합니다. 

`keras`에 있는 `np_utils` 기능을 활용하면 전체 결과값을 **`one-hot encoding`** 으로 쉽게 변환할 수 있습니다. 

In [5]:
# convert class vectors to binary class matrices
Y_train = np_utils.to_categorical(y_train, nb_classes)
Y_test = np_utils.to_categorical(y_test, nb_classes)

for i in range(0, 10):
    print(y_train[i], "\t", Y_train[i])

5 	 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
0 	 [1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
4 	 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
1 	 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
9 	 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
2 	 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
1 	 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
3 	 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
1 	 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
4 	 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]


## Build a model

전체 모델을 구축해보도록 하겠습니다. `CNN` 모델에서 각각의 레이어에서 어떠한 일이 일어나는지는 앞서 설명되었을 것입니다. 

이 모델은 두 개의 `convolutional layer`가 존재합니다. 두 개의 레이어를 거친 이후, `max-pooling`을 통해 전체 사이즈를 축소합니다. 그 이후 두 개의 `Fully-connected layer`를 통해 각각의 클래스에 대한 점수를 얻게 됩니다. 마지막으로 각각의 점수를 `softmax` 활성화 함수를 이용하여 확률로 정규화하며, 확률이 가장 높은 숫자를 예측값으로 선택합니다. 


이번에는 `이진 분류 (binary classification)`이 아니기 때문에, `categorical_crossentropy` 값을 이용하여서 전체 `weight` 및 `bias` 값을 수정하고, `adam` optimizer를 이용하여 값을 최적화하겠습니다. 결과값은 `accuracy`로 확인하도록 하겠습니다. 

In [6]:
model = Sequential()

model.add(Conv2D(nb_filters, kernel_size, padding='valid', input_shape=input_shape))
model.add(Activation('relu'))
model.add(Conv2D(nb_filters, kernel_size))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=pool_size))
model.add(Dropout(0.25))


## Flatten the output of convolution layer, and send the output to fully-connected layer. 

model.add(Flatten())
model.add(Dense(128))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(nb_classes))
model.add(Activation('softmax'))

model.compile(loss='categorical_crossentropy',
              optimizer='adam',
metrics=['accuracy'])

## Train the model

모델을 `training` 데이터를 이용하여 학습시키겠습니다. `callbacks`로 **tensorboard**를 설정하여 나중에 결과를 확인할 수 있게 하였습니다. 

In [7]:
tensorboard = TensorBoard(log_dir='./logs', histogram_freq = 0, 
                         write_graph=True, write_images=False)

model.fit(X_train, Y_train, batch_size=batch_size, epochs=nb_epoch,
verbose=1, validation_data=(X_test, Y_test), callbacks = [tensorboard])

Train on 60000 samples, validate on 10000 samples
Epoch 1/12
Epoch 2/12
Epoch 3/12
Epoch 4/12
Epoch 5/12
Epoch 6/12
Epoch 7/12
Epoch 8/12
Epoch 9/12
Epoch 10/12
Epoch 11/12
Epoch 12/12


<keras.callbacks.History at 0x7f6644cf7550>

## Evaluate the model

모델의 성능을 확인해보겠습니다. 

In [8]:
score = model.evaluate(X_test, Y_test, verbose=0)
print('Test score:', score[0])
print('Test accuracy:', score[1])

Test score: 0.02962192776228476
Test accuracy: 0.9909


주어진 `test` 데이터의 결과가 매우 높은 정확도를 나타내는 것을 확인할 수 있습니다. `CNN` 구조를 이용하지 않고 `DNN` 구조를 이용하여서 학습하였을 경우보다 높은 정확도입니다. 관심있으신 분들은 일반적인 `Multilayer Perceptron/Deep Neural Networks`를 이용하여 MNIST 데이터 분류를 해보신 이후, 결과값을 비교해보셔도 재미있는 결과를 확인하실 수 있을 것입니다. 또한 이 `notebook`에 있는 `CNN` 구조를 변화시켜서 정확도가 높아지는지 확인해보시는 것도 재미있는 작업일 것이라고 생각합니다. 