<a href="https://colab.research.google.com/github/boctory/AIFFEL_quest_cr/blob/main/%08Exploration/Ex01/quest02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from keras_tuner import RandomSearch
import numpy as np

# ResNet 블록 정의
def resnet_block(x, filters, kernel_size=3, stride=1, conv_shortcut=True):
    shortcut = x

    if conv_shortcut:
        shortcut = layers.Conv2D(filters, 1, strides=stride)(shortcut)
        shortcut = layers.BatchNormalization()(shortcut)

    x = layers.Conv2D(filters, kernel_size, strides=stride, padding='same')(x)
    x = layers.BatchNormalization()(x)
    x = layers.Activation('relu')(x)

    x = layers.Conv2D(filters, kernel_size, padding='same')(x)
    x = layers.BatchNormalization()(x)

    x = layers.Add()([shortcut, x])
    x = layers.Activation('relu')(x)

    return x

# 하이퍼파라미터 튜닝을 위한 모델 빌더
def build_model(hp):
    inputs = keras.Input(shape=(32, 32, 3))

    # 초기 컨볼루션 레이어
    x = layers.Conv2D(
        hp.Int('initial_filters', 32, 64, step=16),  # 1. Unit size 튜닝
        kernel_size=hp.Choice('initial_kernel', [3, 5, 7]),  # 2. Kernel size 튜닝
        strides=2,
        padding='same'
    )(inputs)
    x = layers.BatchNormalization()(x)
    x = layers.Activation('relu')(x)
    x = layers.MaxPooling2D(3, strides=2, padding='same')(x)

    # ResNet 블록
    for i in range(hp.Int('n_blocks', 2, 4)):  # 3. 레이어 수 튜닝
        x = resnet_block(x, 64 * (2 ** i))

    # 글로벌 풀링
    x = layers.GlobalAveragePooling2D()(x)

    # Dropout
    dropout_rate = hp.Float('dropout', 0.2, 0.5, step=0.1)  # 4. Dropout rate 튜닝
    x = layers.Dropout(dropout_rate)(x)

    # 출력 레이어
    outputs = layers.Dense(10, activation='softmax')(x)

    model = keras.Model(inputs, outputs)

    # 옵티마이저 및 학습률 튜닝
    learning_rate = hp.Float('learning_rate', 1e-4, 1e-2, sampling='log')  # 5. Learning rate 튜닝
    optimizer = keras.optimizers.Adam(learning_rate=learning_rate)

    model.compile(
        optimizer=optimizer,
        loss='sparse_categorical_crossentropy',
        metrics=['accuracy']
    )

    return model

# 데이터 로드 및 전처리
(x_train, y_train), (x_test, y_test) = keras.datasets.cifar10.load_data()
x_train = x_train.astype("float32") / 255.0
x_test = x_test.astype("float32") / 255.0

# 검증 세트 분리
val_size = 5000
x_val = x_train[-val_size:]
y_val = y_train[-val_size:]
x_train = x_train[:-val_size]
y_train = y_train[:-val_size]

# GPU 확인
print("GPU Available: ", tf.config.list_physical_devices('GPU'))

# 하이퍼파라미터 튜닝 실행
tuner = RandomSearch(
    build_model,
    objective='val_accuracy',
    max_trials=10,
    directory='cifar10_resnet_tuning',
    project_name='cifar10_resnet'
)

tuner.search(
    x_train,
    y_train,
    epochs=5,
    batch_size=64,
    validation_data=(x_val, y_val),
    callbacks=[keras.callbacks.EarlyStopping(patience=3)]
)

# 최적의 하이퍼파라미터 출력
best_hps = tuner.get_best_hyperparameters(num_trials=1)[0]
print("\n최적의 하이퍼파라미터:")
print(f"Initial filters: {best_hps.get('initial_filters')}")
print(f"Initial kernel size: {best_hps.get('initial_kernel')}")
print(f"Number of ResNet blocks: {best_hps.get('n_blocks')}")
print(f"Dropout rate: {best_hps.get('dropout')}")
print(f"Learning rate: {best_hps.get('learning_rate')}")

# 최적의 모델로 최종 평가
best_model = tuner.get_best_models(num_models=1)[0]
evaluation = best_model.evaluate(x_test, y_test)
print(f"\n테스트 세트 성능:")
print(f"Loss: {evaluation[0]:.4f}")
print(f"Accuracy: {evaluation[1]:.4f}")

# 학습 곡선 시각화
best_model.fit(
    x_train,
    y_train,
    epochs=30,
    batch_size=64,
    validation_data=(x_val, y_val),
    callbacks=[keras.callbacks.EarlyStopping(patience=5)],
)


Trial 2 Complete [00h 16m 57s]
val_accuracy: 0.6818000078201294

Best val_accuracy So Far: 0.6818000078201294
Total elapsed time: 01h 09m 02s

Search: Running Trial #3

Value             |Best Value So Far |Hyperparameter
64                |48                |initial_filters
7                 |7                 |initial_kernel
2                 |2                 |n_blocks
0.4               |0.4               |dropout
0.00053985        |0.0020706         |learning_rate

Epoch 1/5
[1m704/704[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m215s[0m 297ms/step - accuracy: 0.3928 - loss: 1.6811 - val_accuracy: 0.4848 - val_loss: 1.5510
Epoch 2/5
[1m704/704[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m212s[0m 301ms/step - accuracy: 0.5822 - loss: 1.1647 - val_accuracy: 0.5166 - val_loss: 1.3313
Epoch 3/5
[1m704/704[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m256s[0m 293ms/step - accuracy: 0.6507 - loss: 0.9901 - val_accuracy: 0.4998 - val_loss: 1.4707
Epoch 4/5
[1m533/704[0m [32

ResNet
장점
성능 관련
	•	매우 깊은 네트워크(수백 개의 레이어)를 효과적으로 학습할 수 있음
	•	이미지넷과 같은 벤치마크 데이터셋에서 최고 수준의 성능을 달성
	•	학습 속도가 빠르고 수렴이 더 잘됨
구조적 이점
	•	Skip connection을 통해 그래디언트 소실 문제를 해결
	•	초기 레이어가 마지막 레이어만큼 빠르게 학습 가능
	•	전이학습에 매우 적합하여 적은 데이터로도 좋은 성능 달성 가능

단점
리소스 관련
	•	깊은 네트워크로 인한 높은 계산 비용과 긴 학습 시간 소요
	•	메모리 사용량이 많음
기술적 한계
	•	모델의 복잡성으로 인한 해석의 어려움
	•	데이터셋이 작을 경우 과적합 위험이 있음
	•	모바일 기기나 임베디드 시스템과 같은 제한된 환경에서 사용이 어려움