### CNN Performance
- CNN 모델을 제작할 때, 다양한 기법을 통해 성능 개선 및 과적합 해소가 가능하다.

<br>

#### Weight Initialization (가중치 초기화)
- 처음 가중치를 어떻게 줄 것인지 정하는 방법이며, 처음 가중치를 어떻게 설정하느냐에 따라 모델의 성능이 크게 달라진다.

> 1. 사비에르 글로로트 초기화
> - 고정된 표준편차를 사용하지 않고, 이전 층의 노드 수에 맞게 현재 층의 가중치를 초기화한다.
> - 층마다 노드 개수를 다르게 설정하더라도, 이에 맞게 가중치가 초기화되기 때문에  
고정된 표준편차를 사용하는 것보다 이상치에 민감하지 않다.
> - 활성화 함수가 ReLU일 경우, 층을 통과할수록 활성화 값이 고르지 못하게 되는 문제가 있기 때문에 출력층에서만 사용한다.
> 
> <div style='display: flex;' style='margin-left: 50px;'>
    <div>
        <img src='./images/xavier01.png'>
    </div>
    <div>
        <img src='./images/xavier02.png' style='margin-left: 50px;'>
    </div>
</div>

> 2. 카이밍 히 초기화
> - 고정된 표준편차를 사용하지 않고, 이전 층의 노드 수에 맞게 현재 층의 가중치를 초기화한다.
> - 층마다 노드 개수를 다르게 설정하더라도, 이에 맞게 가중치가 초기화되기 때문에  
고정된 표준편차를 사용하는 것보다 이상치에 민감하지 않다.
> - 활성화 함수가 ReLU일 때 추천하는 초기화 방식으로서, 층이 깊어지더라도 모든 활성화 값이 고르게 분포된다.
> <img src='./images/he.png' style='margin-left: 50px;'>

<br>

#### Batch Normalization (배치 정규화)
- 입력 데이터 간 값의 차이가 발생하면, 그에 따라 가중치의 비중도 달라지기 때문에 층을 통과할수록 편차가 심해진다.  
  이를 내부 공변량 이동(Internal Convariant Shift)이라고 한다.
- 가중치의 값의 비중이 달라지면, 특정 가중치에 중점을 두면서 경사 하강법이 진행되기 때문에  
  모든 입력값을 표준 정규화하여 최적의 파라미터를 보다 빠르게 학습할 수 있도록 해야한다.
- 가중치를 표준화할 때 민감도를 감소시키고, 학습 속도를 증가시키며, 모델을 일반화하기 위해 사용한다.

<div style='display: flex;' width='90%'>
    <div>
        <img src='./images/BN01.png' width='900px' style='margin-top: 20px;'>
    </div>
    <div>
        <img src='./images/BN02.png' width='900px'>
    </div>
</div>

<br>

- BN을 활성화 함수 앞에 적용하면, Weight(가중치) 값은 평균이 0, 분산이 1인 상태로 정규분포가 된다.
- ReLU가 activation 파라미터로 적용되면, 음수에 해당하는 부분(절반 정도)이 0이 된다.
- 이러한 문제를 해결하기 위해 γ(감마)와 β(베타)를 활용해서 음수 부분이 모두 0이 되는 것을 막아준다.

<div style='display: flex;' width='70%'>
    <div>
        <img src='./images/BN03.png' width='1000px' style='margin-top: 20px;'>
    </div>
    <div>
        <img src='./images/BN04.png' width='800px'>
    </div>
</div>

<br>

#### Batch Size
- Batch Size를 작게 설정하면 적절한 noise가 생겨서 overfitting을 방지하게 된다.  
  이는 모델의 성능을 향상시키는 계기가 될 수 있지만, 그렇다고 해도 너무 작아지면 안된다.
- Batch Size를 너무 작게 설정했을 경우, Batch 하나 당 샘플 수가 줄어들기 때문에  
  그만큼 훈련 데이터를 학습하는 데에는 부족해질 수 있다.
- 따라서 매우 크게 주는 것보다는 매우 작게 주는 것이 낫지만, 너무 작게 주면 안 된다.
- 논문에 따르면, **Batch Size는 8 ~ 32 사이로(2<sup>n</sup>개) 주는 것이 효과적이라고 한다.**

<div style='display: flex;' width='70%'>
    <div>
        <img src='./images/batch_size01.png' width='800px'>
    </div>
    <div>
        <img src='./images/batch_size02.png' width='700px' style='margin-top: 10px;'>
    </div>
</div>

<br>

#### Global Average Pooling
- 이전의 Pooling은 면적을 줄이기 위해 사용했지만,  
  Global Average Pooling은 면적을 없애고 채널 수 만큼의 값이 나오게 한다.
- feature map의 가로 * 세로의 특정 영역을 Sub Sampling하지 않고 채널 별 평균 값을 추출한다.
- 보통 feature map의 채널 수가 많을 때(512개 이상) 적용하는 방식이며, 채널 수가 적을 때는 Flatten을 적용한다.
- Flatten 이후 Classification Dense Layer로 이어지면서  
  많은 파라미터들로 인한 overfitting 유발 가능성 및 학습 시간 증가로 이어지기 때문에,  
  맨 마지막 feature map의 채널 수가 크다면 Global Average Pooling을 적용하는 것이 더 나을 수도 있다.

<img src='./images/global_average_pooling.png' width='650px'>

<br>

#### Weight Regularization (가중치 규제), Weight Decay (가중치 감소)
- Loss Function은 loss 값이 작아지는 방향으로 가중치를 업데이트한다.
- 하지만, loss를 줄이는 데에만 신경쓰게 되면 특정 가중치가 지나치게 커지면서 결과는 오히려 악화될 수 있다.
- 기존 가중치에 특정 연산을 수행하여 loss function의 출력 값과 더해주면  
  loss function의 결과를 어느 정도 제어할 수 있게 된다.
- 보통 파라미터 수가 많은 Dense Layer(분류기)에서 많이 사용되며,  
  가중치보다는 loss function에 규제를 걸어 가중치를 감소시키는 게 원리다.
- kernel_reguarlizer 파라미터에서 l1, l2 중 하나를 선택하여 사용한다.

<img src='./images/regularization.png' width='450px'>

In [2]:
from tensorflow.keras.datasets import cifar10

# 데이터 세트 불러오기
(train_images, train_targets), (test_images, test_targets) = cifar10.load_data()

# train, test 데이터 shape 출력
# .squeeze()를 사용해서 target 데이터의 dimension을 1차원으로 맞춰준다
# 원핫 인코딩 적용 여부를 편하게 판단하기 위함
print(train_images.shape, train_targets.shape)
print(test_images.shape, test_targets.shape)

(50000, 32, 32, 3) (50000, 1)
(10000, 32, 32, 3) (10000, 1)


In [3]:
# target 데이터 차원 축소(2차원 → 1차원)
train_targets = train_targets.squeeze()
test_targets = test_targets.squeeze()

print(train_images.shape, train_targets.shape)
print(test_images.shape, test_targets.shape)

(50000, 32, 32, 3) (50000,)
(10000, 32, 32, 3) (10000,)


In [4]:
import numpy as np

# images MinMaxScaling 함수 선언
def get_preprocessed_data(images, targets):
    images = np.array(images / 255.0, dtype=np.float32)
    targets = np.array(targets, dtype=np.float32)

    return images, targets

In [6]:
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Flatten, Dense, Conv2D, MaxPooling2D, Activation, Dropout, GlobalAveragePooling2D, BatchNormalization
from tensorflow.keras.callbacks import ModelCheckpoint, ReduceLROnPlateau, EarlyStopping
from tensorflow.keras.regularizers import l1, l2

IMAGE_SIZE = 32

input_tensor = Input(shape=(IMAGE_SIZE, IMAGE_SIZE, 3))

# Convolution Backbone
# alpha 값이 커질수록 Weight가 작아지기 때문에 과적합을 개선할 수 있고
# alpha 값이 작아질수록 Weight 값이 커지지만, 어느 정도 상쇄하므로 과소적합을 개선할 수 있다
x = Conv2D(filters=64, kernel_size=3, padding='same', kernel_regularizer=l2(1e-5), kernel_initializer='he_normal')(input_tensor)

# 배치 정규화
x = BatchNormalization()(x)
x = Activation('relu')(x)

x = Conv2D(filters=64, kernel_size=3, padding='same', kernel_regularizer=l2(1e-5), kernel_initializer='he_normal')(x)
x = BatchNormalization()(x)
x = Activation('relu')(x)
x = MaxPooling2D(2)(x)

x = Conv2D(filters=128, kernel_size=3, padding='same', kernel_regularizer=l2(1e-5), kernel_initializer='he_normal')(x)
x = BatchNormalization()(x)
x = Activation('relu')(x)

x = Conv2D(filters=128, kernel_size=3, padding='same', kernel_regularizer=l2(1e-5), kernel_initializer='he_normal')(x)
x = BatchNormalization()(x)
x = Activation('relu')(x)
x = MaxPooling2D(2)(x)

x = Conv2D(filters=256, kernel_size=3, padding='same', kernel_regularizer=l2(1e-5), kernel_initializer='he_normal')(x)
x = BatchNormalization()(x)
x = Activation('relu')(x)

x = Conv2D(filters=256, kernel_size=3, padding='same', kernel_regularizer=l2(1e-5), kernel_initializer='he_normal')(x)
x = BatchNormalization()(x)
x = Activation('relu')(x)
x = MaxPooling2D(2)(x)

# Classifier
x = GlobalAveragePooling2D()(x)
x = Dropout(rate=0.5)(x)
x = Dense(300, activation='relu', kernel_regularizer=l2(1e-5), kernel_initializer='he_normal')(x)
x = Dropout(rate=0.5)(x)
output = Dense(10, activation='softmax', kernel_initializer='glorot_normal')(x)

model = Model(inputs=input_tensor, outputs=output)
model.summary()

In [7]:
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.losses import SparseCategoricalCrossentropy

# 모델 컴파일링
model.compile(optimizer=Adam(), loss=SparseCategoricalCrossentropy(), metrics=['acc'])

In [8]:
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.losses import CategoricalCrossentropy
from tensorflow.keras.callbacks import ModelCheckpoint, ReduceLROnPlateau, EarlyStopping

# callback (ModelCheckpoint) 선언
# val_loss의 최소값이 갱신될 때마다 모델 파일 생성
mcp_cb = ModelCheckpoint(
    filepath="./callback_files/model.{epoch:03d}-{val_loss:.4f}-{acc:.4f}.model.keras",
    monitor='val_loss',
    save_best_only=True,
    save_weights_only=False,
    mode='min'
)

# callback (ReduceLROnPlateau) 선언
# epoch 2회 동안 val_loss의 최소값이 갱신되지 않으면, 다음 epoch의 learning rate가 1/10로 감소
rlr_cb = ReduceLROnPlateau(
    monitor='val_loss',
    factor=0.1,
    patience=2,
    mode='min'
)

# callback (EarlyStopping) 선언
# epoch 3회 동안 val_loss의 최소값이 갱신되지 않으면 학습 조기 종료
ely_cb = EarlyStopping(
    monitor='val_loss',
    patience=3,
    mode='min'
)

In [9]:
# validation_split: train 데이터 중 일정 비율을 validation 데이터로 자동 분리해준다
# validation 데이터 따로 분리할 필요 없음
history = model.fit(x=train_images, 
                    y=train_targets, 
                    batch_size=32, 
                    epochs=20, 
                    validation_split=0.2, 
                    callbacks=[mcp_cb, rlr_cb, ely_cb])

Epoch 1/20
[1m1250/1250[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m194s[0m 151ms/step - acc: 0.3004 - loss: 2.0209 - val_acc: 0.4855 - val_loss: 1.4022 - learning_rate: 0.0010
Epoch 2/20
[1m 695/1250[0m [32m━━━━━━━━━━━[0m[37m━━━━━━━━━[0m [1m1:16[0m 138ms/step - acc: 0.5505 - loss: 1.2817

KeyboardInterrupt: 

In [None]:
from tensorflow.keras.models import load_model

# validation 데이터에 대한 loss가 가장 적은 n번째 epoch의 모델 사용
model = load_model('./callback_files/model.008-0.0313-0.9982.model.keras')

In [None]:
# 모델 성능 검증
model.evaluate(test_images, test_oh_targets, batch_size=32)