# 5-2. Pooling

## 이미지 분류를 위한 전형적인 Convolutional Neural Network

아래의 이미지는 이미지 분류를 위한 전형적인 Convolutional Neural Network 구조를 표현한 것입니다. Convolution 사이에 있는 Pool이 지금부터 배울 Pooling입니다.

<img src="https://drive.google.com/uc?id=1x9sh9MvWpTpcj9g2r5NCKTqek3MNSagk">

[이미지 분류 Convolutional Neural Network의 구조]

https://towardsdatascience.com/applied-deep-learning-part-4-convolutional-neural-networks-584bc134c1e2

Pooling은 Feature map으로 표현된 정보를 축약(down sampling)하는 역할을 하며, Parameter를 사용하지 않고 정보를 압축할 수 있다는 장점이 있습니다.

- Max Pooling: 각 영역에서 가장 큰 값만 뽑아냅니다.
- Average Pooling: 각 영역의 평균값을 사용합니다.


<img src="https://drive.google.com/uc?id=14PYt9AaJbmNdCOtOPWQvLz3vhbNAtnpe">

[Max Pooling과 Average Pooling]

https://towardsdatascience.com/applied-deep-learning-part-4-convolutional-neural-networks-584bc134c1e2


또한 Pooling은 비선형성을 강화하고, Feature map의 크기를 줄여서 연산 성능을 향상시킬 수 있습니다.

<img src="https://drive.google.com/uc?id=1VwmsNolTaqKGUnXCiriwh8xUSj33It8b">

Max Pooling, Average Pooling, Sum Pooling(출처: https://www.kaggle.com/discussions/getting-started/171212)


# 5-3. Convolution + Pooling 종합

## CNN 구조의 특징

CNN은 크게 Feature Extraction과 Classification 영역으로 구성됩니다. 연속적인 CNN 연산(Convolution + Pooling)을 순차적으로 수행하면서 일련의 Feature Map을 생성합니다. CNN 연산을 통해 순차적으로 생성된 Feature map의 크기(높이x너비)는 줄어들지만 채널(깊이)은 증가합니다.

최근에는 더 복잡하고 다양한 Feature 정보를 반영하기 위해, CNN 깊이를 증가시키는 방향으로 점차 발전하고 있습니다.



<img src="https://drive.google.com/uc?id=13poBjREpTLz1DoZO2qrt3CkZpeE2mAJ6">

[CNN의 구조]

https://developersbreach.com/convolution-neural-network-deep-learning/

# 5-4. CNN 구조 구현하기

tf.keras 라이브러리를 이용해서 CNN 구조를 구현해봅시다.
2D convolutional layer는 tf.keras.layers.Conv2D 객체를 생성하여 구현할 수 있습니다.
Conv2D 객체의 자료형은 keras.engine.keras_tensor.KerasTensor입니다.
모델을 생성할 때, tf.keras.layers.Input 레이어를 맨 처음에 정의해야 합니다. 여기서는 (28, 28, 1) 크기의 데이터를 입력받는 input layer를 생성했습니다.
input_layer.shape 결과에서 처음 보이는 None은 데이터셋의 batch size에 해당됩니다. x라는 레이어 객체는 output 채널이 4개인 convolutional layer이므로 x.shape의 결과는 (None, 28, 28, 4)가 됩니다.

중요한 점은, 레이어를 생성할 때 output = Conv2D(params)(input) 형태로 input과 output 변수를 넣고, 이전 레이어의 output을 다음 레이어의 input으로 설정함으로써 레이어들이 서로 연결되도록 해야 한다는 것입니다.

In [1]:
import tensorflow as tf

## 기본적인 형태의 CNN 모델 구현

In [2]:
# 가로 28, 세로 28, 채널 수 1의 input 데이터를 받는 input layer 생성하기
input_layer = tf.keras.layers.Input(shape=(28, 28, 1))

# 커널의 가로 세로 사이즈는 3이고, 채널 수는 4, zero-padding을 넣고, stride는 1로한 Conv2D layer
x = tf.keras.layers.Conv2D(filters=4, kernel_size=3, strides=1, padding='same', activation='relu')(input_layer)
print(type(x))
print(x)

<class 'keras.src.engine.keras_tensor.KerasTensor'>
KerasTensor(type_spec=TensorSpec(shape=(None, 28, 28, 4), dtype=tf.float32, name=None), name='conv2d/Relu:0', description="created by layer 'conv2d'")


In [3]:
print(input_layer.shape)
print(x.shape)

(None, 28, 28, 1)
(None, 28, 28, 4)


패딩을 사용했기 때문에 input과 동일한 가로 세로 사이즈를 가지고 있고, 채널 수를 4로 했기 때문에 feature map의 채널 수도 4입니다.

## pooling layer가 포함된 CNN 모델 구현

이번에는 pooling layer가 포함된 CNN 모델을 만들어봅시다.
(27, 27, 1) 크기의 입력을 받는 input_tensor와 Conv2D 레이어 x1, 그리고 pooling layer에 해당하는 MaxPooling2D 레이어 x2로 구성되어 있습니다.

In [4]:
input_tensor = tf.keras.layers.Input(shape=(27, 27, 1))

# 커널의 가로 세로 사이즈는 2이고, stride는 2인 Conv2D layer
x1 = tf.keras.layers.Conv2D(filters=5, kernel_size=2, strides=2, padding='same', activation='relu')(input_tensor)

# 가로 세로 사이즈가 2인 영역에서 최대값을 뽑는 Maxpooling을 적용
x2 = tf.keras.layers.MaxPooling2D(2)(x1)
print(x1)
print(x2)

KerasTensor(type_spec=TensorSpec(shape=(None, 14, 14, 5), dtype=tf.float32, name=None), name='conv2d_1/Relu:0', description="created by layer 'conv2d_1'")
KerasTensor(type_spec=TensorSpec(shape=(None, 7, 7, 5), dtype=tf.float32, name=None), name='max_pooling2d/MaxPool:0', description="created by layer 'max_pooling2d'")


레이어 객체를 쭉 정의한 다음, tf.keras.Model 함수에 input과 output을 연결해서 모델 객체를 생성합니다. model.summary() 함수를 이용하면 완성된 모델의 구조를 한번에 살펴볼 수 있습니다.

In [5]:
input_layer = tf.keras.layers.Input(shape=(7, 7, 5))
convlayer1 = tf.keras.layers.Conv2D(filters=4, kernel_size=3, strides=1, padding='same')(input_layer)
convlayer2 = tf.keras.layers.Conv2D(filters=8, kernel_size=3, strides=1, padding='valid')(convlayer1)
pooling = tf.keras.layers.MaxPooling2D(2)(convlayer2)

model = tf.keras.Model(inputs=input_layer, outputs=pooling)
model.summary()

Model: "model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_3 (InputLayer)        [(None, 7, 7, 5)]         0         
                                                                 
 conv2d_2 (Conv2D)           (None, 7, 7, 4)           184       
                                                                 
 conv2d_3 (Conv2D)           (None, 5, 5, 8)           296       
                                                                 
 max_pooling2d_1 (MaxPoolin  (None, 2, 2, 8)           0         
 g2D)                                                            
                                                                 
Total params: 480 (1.88 KB)
Trainable params: 480 (1.88 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


다음 코드를 실행하면 오류가 발생합니다.

In [6]:
input_layer = tf.keras.layers.Input(shape=(13, 13, 5))
convlayer1 = tf.keras.layers.Conv2D(filters=8, kernel_size=5, strides=2, padding='valid')(input_layer)
convlayer2 = tf.keras.layers.Conv2D(filters=16, kernel_size=5, strides=2, padding='valid')(convlayer1)
pooling = tf.keras.layers.MaxPooling2D(2)(convlayer2)

model = tf.keras.Model(inputs=input_layer, outputs=pooling)
model.summary()

ValueError: Exception encountered when calling layer "max_pooling2d_2" (type MaxPooling2D).

Negative dimension size caused by subtracting 2 from 1 for '{{node max_pooling2d_2/MaxPool}} = MaxPool[T=DT_FLOAT, data_format="NHWC", explicit_paddings=[], ksize=[1, 2, 2, 1], padding="VALID", strides=[1, 2, 2, 1]](Placeholder)' with input shapes: [?,1,1,16].

Call arguments received by layer "max_pooling2d_2" (type MaxPooling2D):
  • inputs=tf.Tensor(shape=(None, 1, 1, 16), dtype=float32)

- Q1. 위의 코드는 왜 오류가 났을까요? 각 Layer로부터의 연산 결과를 손으로 계산하신 것을 근거로 설명해 보세요. => 두 번째 Conv2D 레이어의 output convlayer2의 크기가 작아서 pooling 연산을 수행할 공간이 부족하기 때문입니다.

## 학습정리

- Pooling을 통해 Parameter 연산 없이 Feature map의 차원을 축소할 수 있습니다.
- CNN 구조는 feature extraction과 classification을 수행하는 영역으로 나뉩니다.
- CNN은 구조의 깊이를 증가시킴으로써 다양하고 복잡한 feature를 찾아낼 수 있습니다.