### CNN

- 합성곱 신경망( CNN:Convolutional Neural Network)

- 1998: 얀 레쿤 교수 제안
- 이미지 인식분야에 강력한 성능 발휘
- 음성인식, 자연어 처리에도 사용 -> 활용성 높아지고 있다

- 이미지 인식 대회 ILSVRC (ImageNet Large Scale Recognition Competition)
     - 2010 - NEC-UIUC
     - 2011 - XRCE
     - 2012 - AlexNet(CNN 알고리즘 기반. 딥러닝시도)
     - 2013 - ZFNet
     - 2014 - GoogLeNet(Inception v2),  VGGNet 더 유명(간결함, 편의성) 
     - 2015 - ResNet -> 사람의 정확도(오차율 5%)를 돌파
     - 2016 - GoogLeNet-v4
     - 2017 - SENet : 2.3% 

<img src='./7.ILSVRC_랭킹.png' width='400'>

<img src='./5.CNN_도식.png'>

- 기본 구성 
    - [입력층] -> [중간층:[합성곱층][풀링층]...[합성곱층][풀링층][전결합층]] -> [출력층]

- 중간층
    - 합성곱 은닉 계층
        - 합성곱층 : Convolution Layer
        - 풀링층   : Pooling Layer
    - 전결합층(완전 연결 은딕 계층)
    <img src='./3.CNN_중간층.jpeg'>

- 합성곱층
    - 이미지의 특징을 추출
    - 입력 x의 이미지를 일부분을 조금씩 잘라가면서, 가중치 필터 (W)를 적용:(평활화,윤곽선검출) 
        - 평활화 : 명암의 분포를 균일하게 처리
        - 윤곽선 검출 : 이미지 내부의 대상들의 윤곽만 추출
    - 움직이는 크기 한 픽셀에서 n칸으로 이동 => 스트라이드(stride)
    - 가중치 필터 W의 행렬의 크기는 3x3라고 한다면, 이 가중치 kenel:커널(필터)라고 부르고, 이 구성을 위해서는 편향(바이어스:bias) b도 같이 필요하다
    - 입력층 28x28이라면 784개에 대한 가중치를 찾아야 하는데, 연산량도 많고, 시간도 많이 걸리고, 비효율적 => 컨볼류션계층을 도입 => 3x3으로 적용하여 줄인다면 => 가중치는 9개의 값만있으면되니까, 계산량이 적어지고, 학습량도 줄어들어서 효율적이게 된다
    - 커널이 1개면 비효율적이니까, 하이퍼파라미터 조정을 통해서 커널의 수, 크기등을 조절하여 계층을 처리할수도 있다
    

<img src='./dp1.png'>

- 풀링층
    - 합성곱층으로 얻는 특징 맵 C를 축소하는 층
    - 특징을 유지한 상태로, 축소
    - 직선 인식 -> 직선이 미세하게 흐트러지더라고, 직선으로 인진한다!!
    - 축소방법 : 최대 풀링(해단 구성원중에서 최대값을 대표값취한다), 
                 최소 풀링(해단 구성원중에서 최대값을 최소값취한다), 
                 평균 풀링(해단 구성원중에서 최대값을 평균값취한다)
    <img src='./dp2.png'>                

- 전결합층
    - 각 층의 유닉들을 통합
    - 2차원 특징맵들을 1차워으로 전개한다  
    - 활성화함수가(렐루, 시그모이드) 사용되고, 특성을 더욱 강조한다

- cnn기반 텐서플로우를 이용하여 구현
    - 데이터 : mnist를 사용

In [1]:
import tensorflow as tf

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  from ._conv import register_converters as _register_converters
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [2]:
# 데이터 수집
mnist = tf.keras.datasets.mnist.load_data( path='mnist.npz' )

In [3]:
# 훈련용
len(mnist[0][0]), len(mnist[0][1])

(60000, 60000)

In [4]:
# 테스트용
len(mnist[1][0]), len(mnist[1][1])

(10000, 10000)

In [5]:
# 레이블 확인
mnist[0][1][:2] # 백터화 진행..

array([5, 0], dtype=uint8)

In [6]:
# 텐서플로우의 샘플에서 획득
from tensorflow.examples.tutorials.mnist import input_data

In [7]:
mnist = input_data.read_data_sets('./data/mnist/', one_hot=True)

Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.
Instructions for updating:
Please write your own downloading logic.
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting ./data/mnist/train-images-idx3-ubyte.gz
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting ./data/mnist/train-labels-idx1-ubyte.gz
Instructions for updating:
Please use tf.one_hot on tensors.
Extracting ./data/mnist/t10k-images-idx3-ubyte.gz
Extracting ./data/mnist/t10k-labels-idx1-ubyte.gz
Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.


In [8]:
# 훈련용
mnist.train.images.shape, mnist.train.labels.shape

((55000, 784), (55000, 10))

In [9]:
mnist.train.labels[:2]

array([[0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.]])

In [10]:
import numpy as np

In [11]:
# 특정 조건을 만족하는 인덱스
print( np.where( mnist.train.labels[0] )[0][0] )

7


In [20]:
# 784의 제곱근
pixel_size = int(np.sqrt( mnist.train.images.shape[1] ))
pixel_size

28

In [13]:
# 이미지 한개에 대한 레이블 크기
pixels = mnist.train.images.shape[1]
nums   = mnist.train.labels.shape[1]
pixels, nums

(784, 10)

### 텐서플로우의 CNN 작업

In [14]:
# 입력 채널 -> 손글시 이미지 데이터 -> n개(None),  이미지 1개당 특성(픽셀) pixels개
x = tf.placeholder( tf.float32, shape=[None, pixels], name='x' )
x

<tf.Tensor 'x:0' shape=(?, 784) dtype=float32>

In [15]:
# 출력 -> 손글씨가 0~9 로 레이블값 : 데이터 n개(None), 출력의종류,분류개수(nums)
y_ = tf.placeholder( tf.float32, shape=[None, nums], name='y_')
y_

<tf.Tensor 'y_:0' shape=(?, 10) dtype=float32>

In [16]:
# (가중치, 필터, 커널)을 초기화하는 함수 구현 -> 여기, 저기에서 사용될것이다
# name을 붙인 이뉴는 합성곱층마나다 사용이 될텐데, 이를 구분하기 위함
# -> 텐서보드에서 그래프를 구분하기 위함
def weight_variable(name, shape):
    # 절단 정규 분포 함수
    # 평균값을 기준으로 표준편차보다 크거가, 작은 데이터는 제외하는 난수 생성
    # stddev: 표준편차
    W_init = tf.truncated_normal(shape, stddev=0.1)
    # 가중치 변수 생성
    W = tf.Variable( W_init, name='W_' + name )
    return W

In [17]:
# 바이어스(편향), 필터를 통과한 값을 전체적으로 올리거나, 내리거나
def bias_variable(name, size):
    # 0.1 설정값
    b_init = tf.constant( 0.1, shape=[size] )
    b = tf.Variable( b_init, name='b_' + name )
    return b

In [18]:
# 합성곱 계층 생성
def conv2d(x, W):
    # 스트라이드 : 커널(필터, 가중치) 얼마 단위로 이동시킬것인가
    return tf.nn.conv2d( x, W, strides=[1,1,1,1], padding='SAME' )

tf.nn.conv2d(
    input,
    filter=None,
    strides=None,
    padding=None,
    use_cudnn_on_gpu=True,
    data_format='NHWC',
    dilations=[1, 1, 1, 1],
    name=None,
    filters=None
)
- input   : [batch, in_height, in_width, in_channels] 
    - batch : n 개의 이미지, 학습시키고자 하는 데이터의 개수
    - in_height :  입력 데이터의 세로 크기 
    - in_width :  입력 데이터의 가로 크기
    - in_channels : 입력 채널, 흑백 -> 1, 칼라 -> 3(RGB)
- filter  : [filter_height, filter_width, in_channels, out_channels] 
    - filter_height : 필터의 세로 
    - filter_width  : 필터의 가로
    - in_channels   : 입력 채널수
    - out_channels  : 출력 채널수 
- strides
    - 슬라이딩 윈도우의 보폭 / 필터가 슬라이딩하는 폭
    - [ batch, width, height, depth ]
    - 통상 batch, depth는 1
    - 통상적으로 width, height는 같은값 => 정사각형
- padding
    - strides가 이동하다보면, 공간이 않맞게 될수도 있다
    - SAME 옵션을 주면 연산을 위해서 경계선을 채워준다

In [22]:
# 합성곱층 1 생성
# 텐서 보드 상에서 그래프에 관련된 범위(scope)를 부여하여 관계를 쉽게 확인
c_name1 = 'conv1'
with tf.name_scope(c_name1) as scope:
    # 5, 32는 설정한것이다
    # 가중치 or 필터 or 커널 생성
    #W_conv1 = weight_variable( c_name1, [filter_height, filter_width, in_channels, out_channels])
    W_conv1 = weight_variable( c_name1, [5, 5, 1, 32])
    # 편향 or 바이어스 생성
    b_conv1 = bias_variable( c_name1, 32 )
    # 입력 데이터에 대한 행렬 준비
    #x_img = tf.reshape( x, [batch, in_height, in_width, in_channels] )
    x_img = tf.reshape( x, [-1, pixel_size, pixel_size, 1] )
    # 컨볼루젼 생성
    # 활성화 함수를 사용 마감처리
    h_conv1 = tf.nn.relu( conv2d( x_img, W_conv1 ) + b_conv1  )

In [23]:
h_conv1.get_shape

<bound method Tensor.get_shape of <tf.Tensor 'conv1_1/Relu:0' shape=(?, 28, 28, 32) dtype=float32>>

In [24]:
# 풀링층 생성 -> 크기를 대폭 줄여서, 데이터량을 줄이고, 특징은 유지
# 최대풀링, 최소풀링등 존재
# x의 shape : [?, 28, 28, 32]
def max_pool(x):
    # 2, 2는 설정값
    return tf.nn.max_pool( x, ksize=[1, 2, 2, 1], 
                           strides=[1, 2, 2, 1], padding='SAME' )

tf.nn.max_pool(
    value,
    ksize,
    strides,
    padding,
    data_format='NHWC',
    name=None,
    input=None
)
- value: x, [batch, height, width, channels], 합성곱층의 ReLU를 통과한 출력 결과
- ksize: 입력 텐서에 대한 창(윈도우)의 크기, 통상적으로 strides와 동일값을 취한다
- strides: 슬라이딩 윈도우의 보폭 / 필터가 슬라이딩하는 폭, [1, 2, 2, 1]라면 가로 2칸, 세로 2칸씩 이동해서 그 칸에 들어온 2x2 픽셀중 가장 큰값을 취하게 되므로, 가로가 1/2, 세로가 1/2로 축소된다
- padding: 동일의미(위에)

In [25]:
with tf.name_scope('pool1') as scope:
    h_pool1 = max_pool( h_conv1 )

In [26]:
# [?, 14, 14, 32], 이전층 대비 가로, 세로길이가 반으로 줄었다
h_pool1.get_shape

<bound method Tensor.get_shape of <tf.Tensor 'pool1/MaxPool:0' shape=(?, 14, 14, 32) dtype=float32>>

In [27]:
# 합성곱층2 생성 -> 출력 : 채널이 64로 늘어난다
c_name2 = 'conv2'
with tf.name_scope(c_name2) as scope:
    W_conv2 = weight_variable( c_name2, [5, 5, 32, 64])
    b_conv2 = bias_variable( c_name2, 64 )    
    h_conv2 = tf.nn.relu( conv2d( h_pool1, W_conv2 ) + b_conv2  )

In [28]:
# 풀링층2 생성 -> 출력 : 가로, 세로길이가 7로 즉, 다시 반으로 줄어든다
with tf.name_scope('pool2') as scope:
    h_pool2 = max_pool( h_conv2 )

In [29]:
# [?, 7, 7, 64]
h_pool2.get_shape

<bound method Tensor.get_shape of <tf.Tensor 'pool2/MaxPool:0' shape=(?, 7, 7, 64) dtype=float32>>

In [30]:
# 전결합층
# 현재 이미지의 크기는 합성곱층을 2번 통과 했으므로 => 28/2/2 = 7

In [32]:
fc_name = 'fc'
with tf.name_scope('fully_connected_layer') as scope:
    n = 7 * 7 * 64
    # 가중치 , 출력 채널을 1024개로 설정
    W_fc = weight_variable( fc_name, [n, 1024] )
    # 편향
    b_fc = bias_variable( fc_name, 1024 )
    # [-1, n] * [n, 1024] + [1024] = [-1, 1024]
    h_pool2_fc = tf.reshape( h_pool2, [-1, n] )
    # 활성화 함수 통과
    h_fc = tf.nn.relu( tf.matmul( h_pool2_fc , W_fc ) + b_fc )

In [33]:
# (?, 1024)
h_fc.get_shape

<bound method Tensor.get_shape of <tf.Tensor 'fully_connected_layer/Relu:0' shape=(?, 1024) dtype=float32>>

In [34]:
# 과잉 적합 막기 (옵션)
with tf.name_scope('dropout') as scope:
    keep_prob = tf.placeholder( tf.float32 )
    h_fc_drop = tf.nn.dropout( h_fc, rate=1-keep_prob )

In [35]:
# (?, 1024)
h_fc_drop.get_shape

<bound method Tensor.get_shape of <tf.Tensor 'dropout/dropout/mul_1:0' shape=(?, 1024) dtype=float32>>

In [36]:
# 출력층 구성 - 활성화 함수로 softmax 사용
ro_name = 'read_out'
with tf.name_scope(ro_name) as scope:
    W_ro   = weight_variable( ro_name, [1024, 10])
    b_ro   = bias_variable( ro_name, 10 )
    y_conv = tf.nn.softmax( tf.matmul( h_fc_drop, W_ro ) + b_ro )

In [37]:
# (?, 10)
y_conv.get_shape

<bound method Tensor.get_shape of <tf.Tensor 'read_out/Softmax:0' shape=(?, 10) dtype=float32>>

In [39]:
# 손실값 
with tf.name_scope('loss') as scope:
    # 크로스 엔트로피
    # 비용(cost)/손실(loss) : 원하는 결과에 얼마나 떨어져 있는가. 이 격차를 줄이는데
    cross_entropy = -tf.reduce_sum(y_ * tf.log(y_conv))

In [41]:
# 모델 훈련
with tf.name_scope('training') as scope:
    # 확률적 경사 하강법
    # 무작위로 초기화한 매개변수를 손실 함수가 작아지도록 지속적으로 반복하여 변경
    optimizer  = tf.train.AdamOptimizer( 1e-4 )
    train_step = optimizer.minimize( cross_entropy )

In [42]:
# 모델 평가
with tf.name_scope('predict') as scope:
    predict_step   = tf.equal( tf.argmax( y_conv, 1 ), tf.argmax( y_, 1) )
    accuracy_step  = tf.reduce_mean(tf.cast(predict_step, tf.float32))

In [43]:
# 데이터를 훈련 및 예측 평가시 사용할수 있는 구조로 변형 
def set_feed( images, labels, prob ):
    return { x:images  , y_:labels    , keep_prob:prob }

In [44]:
# 세션 시작 -> 연산 시작
with tf.Session() as sess:
    # 텐서플로우 변수 초기화
    sess.run( tf.global_variables_initializer() )
    
    # 테스트 전용 피드 데이터
    test_fd = set_feed( mnist.test.images, mnist.test.labels, 1 )
    
    # 학습
    for step in range( 3000 ): #10000 )
        # 데이터를 50개씩 사용하겟다
        # 훈련용 데이터에서 50개 획득
        batch = mnist.train.next_batch(50)
        # 0.5 : 설정
        fd = set_feed( batch[0], batch[1], 0.5 )
        # 훈련
        _, loss = sess.run( [train_step, cross_entropy], feed_dict=fd  )
        # 100번째 마다 출력
        if step % 100 == 0:
            acc = sess.run( accuracy_step, feed_dict=test_fd )
            print( 'step=%s loss=%s acc=%s'% (step, loss, acc))
    # 최종 결과 출력
    acc = sess.run( accuracy_step, feed_dict=test_fd )
    print( '정확도 = ', acc)
    
    # 텐서보드 기록
    tf.summary.FileWriter('./log_tf_cnn', graph=sess.graph)
    
    # 다 종료후
    # $ tensorboard --logdir=log_tf_cnn

step=0 loss=575.8098 acc=0.1855
step=100 loss=53.984283 acc=0.8272
step=200 loss=31.580788 acc=0.8894
step=300 loss=27.331343 acc=0.9162
step=400 loss=22.057465 acc=0.9319
step=500 loss=18.754917 acc=0.9389
step=600 loss=14.779924 acc=0.9461
step=700 loss=12.614549 acc=0.9512
step=800 loss=9.283625 acc=0.9557
step=900 loss=13.861797 acc=0.9579
step=1000 loss=4.6125245 acc=0.9619
step=1100 loss=13.500902 acc=0.9639
step=1200 loss=9.945362 acc=0.9621
step=1300 loss=5.4113398 acc=0.9673
step=1400 loss=3.2832246 acc=0.9651
step=1500 loss=8.034591 acc=0.9701
step=1600 loss=6.333889 acc=0.9697
step=1700 loss=9.862274 acc=0.9711
step=1800 loss=5.3638167 acc=0.9729
step=1900 loss=6.0039525 acc=0.975
step=2000 loss=4.33366 acc=0.9729
step=2100 loss=9.253002 acc=0.9757
step=2200 loss=1.7749764 acc=0.9775
step=2300 loss=4.2364573 acc=0.9758
step=2400 loss=2.309727 acc=0.9784
step=2500 loss=3.0060415 acc=0.9783
step=2600 loss=0.29478785 acc=0.9782
step=2700 loss=3.3752103 acc=0.9799
step=2800 loss