In [None]:
# 텐서플로를 이용해 LeNet-5 합성곱 아키텍처를 MNIST 데이터에 대해 학습

In [3]:
import argparse
import gzip
import os
import sys
import time

import numpy
from six.moves import urllib
from six.moves import xrange
import tensorflow as tf

  from ._conv import register_converters as _register_converters


In [4]:
SOURCE_URL = 'http://yann.lecun.com/exdb/mnist/'
WORK_DIRECTORY = 'data'
IMAGE_SIZE = 28
NUM_CHANNELS = 1
PIXEL_DEPTH = 255
NUM_LABELS = 10         # 10가지
VALIDATION_SIZE = 5000  # size of the validation set
SEED = 66478            # set to None for random seed
BATCH_SIZE = 64
NUM_EPOCHS = 10
EVAL_BATCH_SIZE = 64
EVAL_FREQUENCY = 100    # Number of steps between evaluations

### 1. MNIST 데이터 집합

### 2. MNIST 적재

In [2]:
# MNIST 데이터 집합을 다운로드하는 함수

def download(filename) :
    
    # WORK_DIRECTORY가 존재하는지 확인
    if not os.path.exists(WORK_DIRECTORY) :
        os.makedirs(WORK_DIRECTORY)
    
    filepath = os.path.join(WORK_DIRECTORY, filename)
    print(filepath)
    
    if not os.path.exists(filepath) :
        filepath, _ = urllib.request.urlretrieve(SOURCE_URL + filename, filepath)
        print(filepath)
        size = os.stat(filepath).st_size
        print('Successfully downloaded', filename, size, 'bytes.')
        
    return filepath

In [14]:
# filename = 'train-images-idx3-ubyte.gz'
# filepath = os.path.join(WORK_DIRECTORY, filename)
# print(filepath)
# os.path.join(WORK_DIRECTORY, 'train-images-idx3-ubyte.gz')
# 'data\\train-images-idx3-ubyte.gz'
# print(SOURCE_URL + filename)

In [21]:
# 다운로드한 데이터 집합 이미지를 넘파이 배열로 추출

def extract_data(filename, num_images) :
    '''
    이미지를 4차원 텐서[이미지 인덱스, y, x, 채널]로 추출한다.
    값의 범위를 [0, 255]에서 [-0.5, 0.5]로 줄인다.
    '''
    print('Extracting', filename)
    with gzip.open(filename) as bytestream :
        bytestream.read(16)
        buf = bytestream.read(IMAGE_SIZE * IMAGE_SIZE * num_images * NUM_CHANNELS)
        # 원본 바이트 버퍼를 숫자 배열로 편리하게 변환
        data = numpy.frombuffer(buf, dtype = numpy.uint8).astype(numpy.float32)
        data = (data - (PIXEL_DEPTH / 2.0)) / PIXEL_DEPTH
        data = data.reshape(num_images, IMAGE_SIZE, IMAGE_SIZE, NUM_CHANNELS)
    
    return data

In [16]:
# 다운로드한 데이터 집합에서 레이블 배열로 추출
# - 레이블은 문자열 바이트로 파일에 저장된다
# - 8바이트로 된 헤더가 있고, 나머지 데이터는 레이블

def extract_labels(filename, num_images) :
    '''
    int64형의 레이블 ID 벡터로 레이블을 추출한다.
    '''
    print('Extracting', filename)
    with gzip.open(filename) as bytestream :
        bytestream.read(8)
        buf = bytestream.read(1 * num_images)
        labels = numpy.frombuffer(buf, dtype = numpy.uint8).astype(numpy.int64)
    
    return labels

In [None]:
# train-images-idx3-ubyte.gz :  training set images (9912422 bytes)
# train-labels-idx1-ubyte.gz :  training set labels (28881 bytes)
# t10k-images-idx3-ubyte.gz :   test set images (1648877 bytes)
# t10k-labels-idx1-ubyte.gz :   test set labels (4542 bytes)

In [19]:
# 데이터를 가져온다
train_data_filename = download('train-images-idx3-ubyte.gz')
train_labels_filename = download('train-labels-idx1-ubyte.gz')
test_data_filename = download('t10k-images-idx3-ubyte.gz')
test_labels_filename = download('t10k-labels-idx1-ubyte.gz')

data\train-images-idx3-ubyte.gz
Successfully downloaded train-images-idx3-ubyte.gz 9912422 bytes.
data\train-labels-idx1-ubyte.gz
Successfully downloaded train-labels-idx1-ubyte.gz 28881 bytes.
data\t10k-images-idx3-ubyte.gz
Successfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes.
data\t10k-labels-idx1-ubyte.gz
Successfully downloaded t10k-labels-idx1-ubyte.gz 4542 bytes.


In [23]:
# 넘파이 배열로 추출한다
train_data = extract_data(train_data_filename, 60000)
train_labels = extract_labels(train_labels_filename, 60000)
test_data = extract_data(test_data_filename, 10000)
test_labels = extract_labels(test_labels_filename, 10000)

Extracting data\train-images-idx3-ubyte.gz
Extracting data\train-labels-idx1-ubyte.gz
Extracting data\t10k-images-idx3-ubyte.gz
Extracting data\t10k-labels-idx1-ubyte.gz


In [26]:
train_data.shape, train_labels.shape, test_data.shape, test_labels.shape

((60000, 28, 28, 1), (60000,), (10000, 28, 28, 1), (10000,))

In [27]:
# MNIST 데이터 집합은 하이퍼파라미터 튜닝을 위한 검증 데이터 집합을 명확히 정의 X
# => 학습 데이터 집합의 최종 5000개 데이터를 검증 데이터로 수동 지정

# 검증 집합 생성
validation_data = train_data[:VALIDATION_SIZE, ...]
validation_labels = train_labels[:VALIDATION_SIZE]
train_data = train_data[VALIDATION_SIZE:, ...]
train_labels = train_labels[VALIDATION_SIZE:]

In [28]:
validation_data.shape, validation_labels.shape, train_data.shape, train_labels.shape

((5000, 28, 28, 1), (5000,), (55000, 28, 28, 1), (55000,))

In [None]:
num_epochs = NUM_EPOCHS
train_size = train_labels.shape[0] # 55000

In [61]:
# 아키텍처의 플레이스홀더 정의
# - 학습할 이미지와 레이블을 입력할 두 개의 플레이스홀더 정의
# - 이러한 특수 네트워크에서 커다란 배치 입력을 평가할 수 있도록 
#   별도의 플레이스홀더 정의

train_data_node = tf.placeholder(tf.float32, 
                                 shape = (BATCH_SIZE, IMAGE_SIZE, IMAGE_SIZE, NUM_CHANNELS))
train_labels_node = tf.placeholder(tf.int64, 
                                  shape = (BATCH_SIZE, ))
eval_data = tf.placeholder(tf.float32, 
                           shape = (EVAL_BATCH_SIZE, IMAGE_SIZE, IMAGE_SIZE, NUM_CHANNELS))

### 3. 텐서플로 합성곱 기본 요소

In [None]:
# 텐서플로에서 2차원 합성곱 정의
# tf.nn.conv2d 함수는 텐서플로 내장 함수이며 합성곱 계층을 정의
tf.nn.conv2d(
    input,     # 텐서 형상(batch, height, width, channels)
    filter,    # 텐서 형상(filter_height, filter_width, channels, out_channels) 
               #  : 합성곱 커널에서 학습되는 비선형 변환의 학습 가능한 가중치 
    strides,   # 필터 스트라이드, 길이 4의 배열(입력 차원마다 하나)
    padding,   # 입력 텐서에 여백을 넣는 것, "SAME" / "VALID"
    use_cudnn_on_gpu = None,
    data_format = None,
    name = None
)

In [None]:
# 텐서플로에서 최대 풀링 정의
# tf.nn.max_pool 함수는 최대 풀링을 수행
tf.nn.max_pool(
    value,    # 텐서 형상(batch, height, width, channels)
    ksize,    # 풀링 창의 크기, 길이 4의 리스트
    strides,
    padding,
    data_format='NHWC',
    name = None
)

### 4. 합성곱 아키텍처

In [37]:
# 네트워크 아키텍처 정의
# : 합성곱 - 풀링 - 합성곱 - 풀링 - 완전연결 - 완전연결 (6개 계층)

def model(data, train=False) :
    
    # 'SAME' 패딩을 적용한 2D 합성곱(출력 피처 맵은 입력과 동일한 크기)
    # {strides}는 4D 배열이며,
    # 형상은 데이터 레이아웃과 동일한 [이미지 인덱스, y, x, 깊이]
    conv = tf.nn.conv2d(data, conv1_weights, strides=[1, 1, 1, 1], padding = 'SAME')
    # 편향과 렐루
    relu = tf.nn.relu(tf.nn.bias_add(conv, conv1_biases))
    
    # 최대 풀링
    # 커널 크기 {ksize}는 데이터 레이아웃과 동일
    # 풀링 창은 2이고, 스트라이드는 2
    pool = tf.nn.max_pool(relu, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding = 'SAME')
    
    conv = tf.nn.conv2d(pool, conv2_weights, strides=[1, 1, 1, 1], padding = 'SAME')
    relu = tf.nn.relu(tf.nn.bias_add(conv, conv2_biases))
    pool = tf.nn.max_pool(relu, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding = 'SAME')
    
    # 직육면체 피처 맵을 2D 행렬로 변형한 다음 완전연결 계층에 전달
    pool_shape = pool.get_shape().as_list()
    print('pool_shape : ', pool_shape)
    reshape = tf.reshape(pool, [pool_shape[0], pool_shape[1] * pool_shape[2] * pool_shape[3]])
    
    # 완전연결 계층
    # '+' 연산은 자동으로 편향에 브로드캐스트
    hidden = tf.nn.relu(tf.matmul(reshape, fc1_weights) + fc1_biases)
    
    # 학습 중에만 50% 드롭아웃을 추가
    # 또 드롭아웃은 평가 시점에 조절이 필요 없도록 활성화 정도를 조절
    if train :
        hidden = tf.nn.dropout(hidden, 0.5, seed = SEED)
        
    return tf.matmul(hidden, fc2_weights) + fc2_biases

In [35]:
# 합성곱 계층을 위한 학습 가능한 가중치 정의

conv1_weights = tf.Variable( tf.truncated_normal([5, 5, NUM_CHANNELS, 32], # 5x5 필터, 깊이 32 
                                                 stddev = 0.1, 
                                                 seed = SEED, 
                                                 dtype = tf.float32) )
conv1_biases = tf.Variable(tf.zeros([32], dtype=tf.float32))

conv2_weights = tf.Variable( tf.truncated_normal([5, 5, 32, 64], 
                                                 stddev = 0.1, 
                                                 seed = SEED, 
                                                 dtype = tf.float32) )
conv2_biases = tf.Variable(tf.constant(0.1, shape=[64], dtype=tf.float32))

In [36]:
# 완전연결 계층을 위한 학습 가능한 가중치 정의

fc1_weights = tf.Variable( # 완전 연결, 깊이 512
    tf.truncated_normal([IMAGE_SIZE//4 * IMAGE_SIZE//4 * 64, 512],
                                                 stddev = 0.1, 
                                                 seed = SEED, 
                                                 dtype = tf.float32) )
fc1_biases = tf.Variable(tf.constant(0.1, shape=[512], dtype=tf.float32))

fc2_weights = tf.Variable( tf.truncated_normal([512, NUM_LABELS], 
                                                 stddev = 0.1, 
                                                 seed = SEED, 
                                                 dtype = tf.float32) )
fc2_biases = tf.Variable(tf.constant(0.1, shape=[NUM_LABELS], dtype=tf.float32))

In [None]:
# Training computation : logits + cross_entropy loss
logits = model(train_data_node, True)
loss = tf.reduce_mean(
    tf.nn.sparse_softmax_cross_entropy_with_logits(labels = train_labels_node, logits = logits))

In [None]:
# L2 regularization for the fully connected parameters
regularizers = (tf.nn.l2_loss(fc1_weights)
               + tf.nn.l2_loss(fc1_biases)
               + tf.nn.l2_loss(fc2_weights)
               + tf.nn.l2_loss(fc2_biases))


In [None]:
# Add the regularization term to the loss
loss += 5e-4 * regularizers

In [None]:
# Optimizer :
# set up a variable 
# that's incremented once per batch and controls the learning rate decay

In [None]:
# LeNet-5 아키텍처 학습

# 학습을 수행하기 위해 지역 세션을 생성
start_time = time.time()

with tf.Session() as sess :
    
    # 모든 initializers를 실행해 학습 가능한 매개변수 준비
    tf.global_variables_initializer().run()
    
    # 학습 단계 순환
    for step in xrange(int(num_epochs * train_size) // BATCH_SIZE) :
        
        # 데이터에서 현재 미니배치의 오프셋 계산
        # 에폭마다 더 나은 무작위 추출을 사용할 수도 있다
        offset = (step * BATCH_SIZE) % (train_size - BATCH_SIZE)
        batch_data = train_data[offset:(offset + BATCH_SIZE), ...]
        batch_labels = train_labels[offset:(offset + BATCH_SIZE)]
        
        feed_dict = {
            train_data_node : batch_data,
            train_labels_node : batch_labels
        }
        
        # Run the optimizer to update weights
        sess.run(optimizer, feed_dict = feed_dict)