# Convolutional Neural Network
이전에 FCNN 을 통해 MNIST 이미지를 분류하였는데, 이번에는 CNN(Convolution Neural Netork)라는 방법을 이야기 하고자 한다.   
CNN 은 간단하게 설명하자면 Convolutional Filter 와 Max Pool Filter 두 가지가 핵심이라고 생각하면 된다.  
이 두 가지를 사용하게 되면 Hidden Layer 에서 원본 이미지의 특정 Feature를 추출한 Matrix 를 얻을 수 있는 효과가 있다.   
때문에 CNN 은 다양한 데이터 타입의 분석이 가능하지만 통상적으로 이미지 분석에 가장 많이 사용되는 것으로 알려져 있다.   

<H3>(1) 데이터 준비</H3>   
다른 Factor 들은 기존에 설명했던 것과 크게 다르지 않다. 여기서 처음 나오는 Hyperparameter 는 dropout 이라는 개념인데 보통 이 수치는 0 ~ 1사이의 값을 갖게 되며, 1은 연결을 하나도 버리지 않는 것이고 0은 연결을 전부 버리는 것이다. 이때 어떤 연결을 끊을 것인지는 Random 이며, 주의해야 할 점은 Dropout 은 Train 시에만 적용하고 Predict 시에는 적용하지 않는다는 것이다. 

In [None]:
from __future__ import print_function

import tensorflow as tf

#tensorboard log directoy
logs_path = '/tmp/tensorflow_logs/chap4-cnn'

# Import MNIST data
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

# Parameters
learning_rate = 0.001
training_iters = 200000
batch_size = 128
display_step = 10

# Network Parameters
n_input = 784 # MNIST data input (img shape: 28*28)
n_classes = 10 # MNIST total classes (0-9 digits)
dropout = 0.75 # Dropout, probability to keep units

# tf Graph input
x = tf.placeholder(tf.float32, [None, n_input])
y = tf.placeholder(tf.float32, [None, n_classes])
keep_prob = tf.placeholder(tf.float32) #dropout (keep probability)

<H3>(2) Graph 정의</H3>   
Conv2D Matrix 는 정해진 Size 의 Mask Matrix 를 생성하고 주어진 Stride 값 만큼씩 움직이면서 Feature 를 추출하여 또 다른 Matrix 를 만들어 낸다. Padding 은 Stride (Filter Matrix 이동하는 Size)가 1일 때 Output Matrix 가 가로 세로 1씩 줄어드는 현상이 생기게 되는데 줄어든 사이즈 만큼 Padding 을 하여 사이즈를 유지할 것인지 아닌지를 결정하는 옵션이다. (SAME 은 유지 한다는 뜻이다)    
MaxPool 은 간단하게 Filter Matrix 에서 Max 값만 뽑아내는 것이다. 즉 [2,2] Size 의 MaxPool Matirx가 있다고 하면 원본 4개 데이터중 가장큰 데이터 하나만 뽑아내는 것이다. Stride 가 [1,1]이라고 가정하였을때, [2,2] MaxPool 의 사용은 다음 Layer 의 메트릭스 사이즈를 가로 1/2, 세로 1/2로 만들게 된다. 즉, 뒷쪽 Layer 로 갈수로 Matirx 의 사이즈가 작아지는 것이다.   
이러한 개념들을 이해해야 아래의 코드에서 Matirx Size 들이 왜 저렇게 되는지 이해할 수 있을 것이다. 

In [None]:
# Create some wrappers for simplicity
def conv2d(x, W, b, strides=1):
    # Conv2D wrapper, with bias and relu activation
    x = tf.nn.conv2d(x, W, strides=[1, strides, strides, 1], padding='SAME')
    x = tf.nn.bias_add(x, b)
    return tf.nn.relu(x)


def maxpool2d(x, k=2):
    # MaxPool2D wrapper
    return tf.nn.max_pool(x, ksize=[1, k, k, 1], strides=[1, k, k, 1],
                          padding='SAME')


# Create model
def conv_net(x, weights, biases, dropout):
    # Reshape input picture
    x = tf.reshape(x, shape=[-1, 28, 28, 1])

    # Convolution Layer
    conv1 = conv2d(x, weights['wc1'], biases['bc1'])
    # Max Pooling (down-sampling)
    conv1 = maxpool2d(conv1, k=2)

    # Convolution Layer
    conv2 = conv2d(conv1, weights['wc2'], biases['bc2'])
    # Max Pooling (down-sampling)
    conv2 = maxpool2d(conv2, k=2)

    # Fully connected layer
    # Reshape conv2 output to fit fully connected layer input
    fc1 = tf.reshape(conv2, [-1, weights['wd1'].get_shape().as_list()[0]])
    fc1 = tf.add(tf.matmul(fc1, weights['wd1']), biases['bd1'])
    fc1 = tf.nn.relu(fc1)
    # Apply Dropout
    fc1 = tf.nn.dropout(fc1, dropout)

    # Output, class prediction
    out = tf.add(tf.matmul(fc1, weights['out']), biases['out'])
    return out

# Store layers weight & bias
weights = {
    # 5x5 conv, 1 input, 32 outputs
    'wc1': tf.Variable(tf.random_normal([5, 5, 1, 32])),
    # 5x5 conv, 32 inputs, 64 outputs
    'wc2': tf.Variable(tf.random_normal([5, 5, 32, 64])),
    # fully connected, 7*7*64 inputs, 1024 outputs
    'wd1': tf.Variable(tf.random_normal([7*7*64, 1024])),
    # 1024 inputs, 10 outputs (class prediction)
    'out': tf.Variable(tf.random_normal([1024, n_classes]))
}

biases = {
    'bc1': tf.Variable(tf.random_normal([32])),
    'bc2': tf.Variable(tf.random_normal([64])),
    'bd1': tf.Variable(tf.random_normal([1024])),
    'out': tf.Variable(tf.random_normal([n_classes]))
}

# Construct model
pred = conv_net(x, weights, biases, keep_prob)

# Define loss and optimizer
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=pred, labels=y))
optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)

# Evaluate model
correct_pred = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1))
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

# Initializing the variables
init = tf.global_variables_initializer()

In [None]:
<H3>(3) Session 실행</H3>
별 다른 특이 사항은 없다. 

In [None]:
# Launch the graph
with tf.Session() as sess:
    sess.run(init)
    tf.summary.FileWriter(logs_path, graph=tf.get_default_graph())
    step = 1
    # Keep training until reach max iterations
    while step * batch_size < training_iters:
        batch_x, batch_y = mnist.train.next_batch(batch_size)
        # Run optimization op (backprop)
        sess.run(optimizer, feed_dict={x: batch_x, y: batch_y,
                                       keep_prob: dropout})
        if step % display_step == 0:
            # Calculate batch loss and accuracy
            loss, acc = sess.run([cost, accuracy], feed_dict={x: batch_x,
                                                              y: batch_y,
                                                              keep_prob: 1.})
            print("Iter " + str(step*batch_size) + ", Minibatch Loss= " + \
                  "{:.6f}".format(loss) + ", Training Accuracy= " + \
                  "{:.5f}".format(acc))
        step += 1
    print("Optimization Finished!")

    # Calculate accuracy for 256 mnist test images
    print("Testing Accuracy:", \
        sess.run(accuracy, feed_dict={x: mnist.test.images[:256],
                                      y: mnist.test.labels[:256],
                                      keep_prob: 1.}))