In [1]:
import tensorflow as tf

# CNN의 기본 개념


## Convolution Layer

이미지를 입력으로 받아 이미지 내의 '특징들을 검출'하는 역할

컨볼루션 레이어의 Output을 우리는 'feature map'이라고 한다.  -> 컨볼루션의 결과 값이 이미지가 가지고 있는 특징을 의미한다고 볼 수 있다.


### 1. kernel(filter)

컨볼루션 연산을 통해 이미지 내의 특징들을 '기억'하는 가중치 텐서


이미지들의 공통적인 특징들을 kernel이 기억하고 있다가 해당 공통적인 특징을 통해 검출된 이미지의 특징을 레이어의 출력인 feature map이라고 한다.


kernel size 3X3, 5X5로 홀수의 크기를 가지며, 크기가 클수록 더 큰 범위, 크기의 특징들을 기억한다.


레이어의 Output인 출력 텐서의 마지막 차원의 크기는 해당 컨볼루션 레이어가 가진 필터(커널)의 수가 된다.


(128, 128, 3)의 크기의 이미지가 들어올 때, 컨볼루션 레이어가 가지는 필터의 수가 64라면, 레이어의 Output의 shape(~, ~, ~, 64)가 된다.



### 2. stride

컨볼루션 연산을 수행하는 커널이 이미지를 얼마나 자세하게 볼 것인가를 결정하는 값. 커널은 공통적인 특징을 기억을 했다가 입력으로 들어오는 이미지의 특징을 반환한다고 설명했다. 특징들을 얼마나 세세하게 검출해낼 것인가를 결정하는 것과 동일한 의미를 가진다.


컨볼루션 연산의 결과인 feature map의 크기를 결정할 수 있다.


### 3. padding

컨볼루션 연산의 결과인 feature map의 크기를 결정하기 위해 사용되는 값


'valid' - padding을 사용하지 않는다.


'same' - 컨볼루션 레이어의 Input shape, Output shape를 동일하게 하기위해 패딩을 추가한다.


## Keras를 통한 Convolution Layer 구현


Dense() -> fully connected layer를 구현하지 않아도 사용할 수 있었다.

Conv2D() -> convolution layer를 미리 구현하여 사용할 수 있도록 제공


```python

tf.keras.layers.Conv2D(
    filters,
    kernel_size,
    strides=(1, 1),
    padding="valid",
    data_format=None,
    dilation_rate=(1, 1),
    groups=1,
    activation=None,
    use_bias=True,
    kernel_initializer="glorot_uniform",
    bias_initializer="zeros",
    kernel_regularizer=None,
    bias_regularizer=None,
    activity_regularizer=None,
    kernel_constraint=None,
    bias_constraint=None,
    **kwargs
)

```

- filters


    커널의 갯수 -> 해당 컨볼루션 레이어의 마지막 차원의 크기 64 -> output shape (~, ~, ~, 64)


- kernel_size


    커널의 크기 -> 3X3, 5X5 정수값으로 사용합니다. 예를 들어 kernel_size = 3이라면  실제 커널의 사이즈 (3,3)일 것이다.


- strides

    stride의 값을 나타낸다. 기본값은 (1, 1), 정수값을 사용할 수 있다.
    

- padding


    'valid', 'same' 두가지 옵션이 존재한다. 


- activation

    컨볼루션 레이어의 최종적인 결과인 Output에 대해서 활성화 함수를 거친뒤 반환할 것인가에 대해서 결정합니다.

    activation = 'relu'으로 사용시, 컨볼루션 연산을 수행한 결과값에 대해서 relu 활성화 함수를 거친 최종 값을 해당 레이어의 결과값으로 반환합니다.

    옵션을 통해서 컨볼루션 레이어에 끝에 활성화 함수를 추가할 수 있으나 여러 논문에서는 활성화 함수 레이어를 따로 구현하여 사용합니다.



## Activation Layer


컨볼루션 레이어의 결과인 feature map(이미지 내의 특징)에 대해서 활성화 함수를 거치기 위해서 컨볼루션 레이어 뒤에 추가하는 레이어


컨볼루션 - () - activation layer 의 순서는 거의 사실상 하나의 레이어라고 볼 수 있습니다.


선형적인 convolution 연산과정을 수행하는 convolution layer에 대해서 여러 층을 쌓는 효과를 위해 해당 연산들 사이에 비 선형성을 추가하는 함수

선형적인 함수들의 연속에서는 연속된 함수들이 하나의 함수로 표현될 수 있습니다. 

-> 여러 층을 쌓는 효과가 없어지게 된다. 하지만 딥러닝을 사용하는 이유가 선형적인 모델이 풀 수 없는 문제들을 풀어내기위해 사용하는 것이기 때문 

-> 비선형성을 추가함으로써 선형 함수들이 할 수 없는 것들을 해낼 수 있게 된다.


### relu


### sigmoid


## MaxPooling Layer

풀링 레이어의 한 종류, 주로 사용되는 풀링 레이어

컨볼루션 레이어의 결과인 이미지 내의 특징들을 '종합'하는 함수


이미지의 입력(개, 고양이 사진)에서부터 최종적인 분류 출력값(0, 1)을 나타내기위해 필요한 차원축소를 수행


특징들 중에서도 더 중요한 특징들로 간추리기 위한 연산과정이다.


```python
tf.keras.layers.MaxPooling2D(
    pool_size=(2, 2), strides=None, padding="valid", data_format=None, **kwargs
)

```

In [2]:
from tensorflow.keras.datasets import mnist

In [3]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# MNIST

기존 이미지 데이터의 픽셀 값은 [0-255]의 값을 가진다. [0-1]사이의 데이터로 변환하는 작업은 수행해줘야 한다. 대신 배열형태로 변환했던 과정은 생략합니다.

CNN을 구현할 때, 원래 이미지는 3차원의 행렬형태 입니다. (이미지의 너비, 이미지의 높이, 이미지의 채널 수) 3개의 차원으로 이미지를 표현하는데, MNIST의 경우에는 현재 2차원의 행렬형태입니다. (이미지의 너비, 이미지의 높이)이기 때문에 채널 수라는 하나의 차원을 추가해줘야 한다.


- 채널이 존재하지 않는다는 것은 해당 이미지가 흑백이라는 뜻 <-> 3-4개의 채널을 가지면 해당 이미지는 컬러이다.

In [4]:
# 행렬 형태의 이미지를 배열 형태의 이미지로 변환하는 작업
x_train = x_train.astype('float32') / 255
x_test = x_test.astype('float32') / 255

In [5]:
x_train.shape

(60000, 28, 28)

In [6]:
# 튜플 간의 덧셈
x_train.shape + (1,)

(60000, 28, 28, 1)

In [8]:
# 차원을 하나 추가
x_train = x_train.reshape(x_train.shape + (1,))
x_test = x_test.reshape(x_test.shape + (1,))

In [9]:
# 이미지로 다루기 위해서 차원을 1개 추가하였다.
x_train.shape

(60000, 28, 28, 1)

## 구현 방법



convolution layer -> activation layer -> max pooling layer 

-> convolution layer -> activation layer -> max pooling layer 

-> convolution layer -> activation layer -> max pooling layer

-> flatten ->  fully connected layer -> 결과값

In [6]:
# Sequential API로 CNN을 구현해보자.


seq_model = tf.keras.models.Sequential([
    
    # 32는 필터의 갯수, (3,3)은 필터의 크기
    # 데이터 하나의 shape를 의미합니다.
    #  (input_shape - filter + (padding * 2)) / stride + 1 
    # (28 - 3) / 1  + 1 = 26_
    # 최종적인 레이어의 output shape (None, 26, 26, 32)
    tf.keras.layers.Conv2D(32, (5,5), input_shape = (28, 28, 1)),
    
    # activation function 
    tf.keras.layers.ReLU(),
    
    # stride가 2이다. 
    #  (input_shape - filter + (padding * 2)) / stride + 1 
    # (26 - 2) / 2  + 1 =  13 
    # 최종적인 레이어의 output shape (None, 13, 13, 32)
    tf.keras.layers.MaxPooling2D(2),
    
    # 이미지의 크기가 26 -> 13으로 줄어들게 되면 모델이 파악할 수 있는 정보의 크기가 절반으로 줄어든다.
    # maxpooling을 거친 뒤에 output shape가 절반으로 줄어들기 때문에 그만큼 filter수를 2배 증가시켜줘야합니다.
    tf.keras.layers.Conv2D(64, (5,5)),
    
    # activation function 
    tf.keras.layers.ReLU(),
    
    # stride가 2이다.
    tf.keras.layers.MaxPooling2D(2),
    
    # Flatten을 통해서 fully connected layer의 입력으로 들어갈 수 있도록 배열의 형태로 변환한다.
    tf.keras.layers.Flatten(),
    
    # output shape의 크기는 대부분 짝수
    tf.keras.layers.Dense(64),
    
    # activation function 
    tf.keras.layers.ReLU(),
    
    # 최종적인 결과값이 0-9사이의 정수값으로 손글씨를 분류하는 것이기 때문에 
    # softmax란, 각 10개의 output shape를 가지는 출력값을 확률값으로 변환하는 과정
    tf.keras.layers.Dense(10, activation = 'softmax')
])

In [7]:
seq_model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_5 (Conv2D)            (None, 24, 24, 32)        832       
_________________________________________________________________
re_lu_6 (ReLU)               (None, 24, 24, 32)        0         
_________________________________________________________________
max_pooling2d_4 (MaxPooling2 (None, 12, 12, 32)        0         
_________________________________________________________________
conv2d_6 (Conv2D)            (None, 8, 8, 64)          51264     
_________________________________________________________________
re_lu_7 (ReLU)               (None, 8, 8, 64)          0         
_________________________________________________________________
max_pooling2d_5 (MaxPooling2 (None, 4, 4, 64)          0         
_________________________________________________________________
flatten_2 (Flatten)          (None, 1024)              0

In [21]:
# compile을 통한 학습 루프 정의

seq_model.compile(
    loss = tf.keras.losses.SparseCategoricalCrossentropy(),
    optimizer = tf.keras.optimizers.Adam(),
    metrics = ['accuracy']
)

In [22]:
# 
seq_model.fit(x_train, y_train, epochs = 5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x2b9b3a1f340>

In [18]:
seq_model.evaluate(x_test, y_test)



[0.04214546084403992, 0.9879000186920166]

# 기존의 모델 다른 방식으로 구현해보기


## functional 

In [1]:
import tensorflow as tf

In [4]:
# Sequential API로 CNN을 구현해보자.
inputs = tf.keras.layers.Input(shape = (28, 28, 1))

x = tf.keras.layers.Conv2D(32, (5,5))(inputs)

x = tf.keras.layers.ReLU()(x)

x = tf.keras.layers.MaxPooling2D(2)(x)

x = tf.keras.layers.Conv2D(64, (5,5))(x)

x = tf.keras.layers.ReLU()(x)

x = tf.keras.layers.MaxPooling2D(2)(x)

x = tf.keras.layers.Flatten()(x)

x = tf.keras.layers.Dense(64)(x)

x = tf.keras.layers.ReLU()(x)

y = tf.keras.layers.Dense(10, activation = 'softmax')(x)

func_model = tf.keras.Model(inputs = inputs, outputs = y)

In [5]:
func_model.summary()

Model: "functional_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_3 (InputLayer)         [(None, 28, 28, 1)]       0         
_________________________________________________________________
conv2d_3 (Conv2D)            (None, 24, 24, 32)        832       
_________________________________________________________________
re_lu_3 (ReLU)               (None, 24, 24, 32)        0         
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 12, 12, 32)        0         
_________________________________________________________________
conv2d_4 (Conv2D)            (None, 8, 8, 64)          51264     
_________________________________________________________________
re_lu_4 (ReLU)               (None, 8, 8, 64)          0         
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 4, 4, 64)         

# sub class 방식

In [None]:
class 