In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [2]:
%config Completer.use_jedi = False

# AlexNet 모델 생성
* AlexNet을 직접 구현하고, CIFAR10 데이터에 대한 분류작업을 통해 성능을 확인한다.
* tensorflow version 상황에 맞춰 어느정도 유동적으로 copy할 예정이다.

In [3]:
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense, Conv2D, Dropout, Flatten, Activation, MaxPooling2D, GlobalAveragePooling2D, BatchNormalization
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import ReduceLROnPlateau, EarlyStopping, ModelCheckpoint, LearningRateScheduler
from tensorflow.keras import regularizers

# input shape, classes 개수, kernel_regularizer등을 인자로 가져간다.
# 당시 imagenet 대회를 감안하면 원래 n_classes는 1000으로 가져가는 게 맞지만 축소해서 본다.
def create_alexnet(in_shape=(227,227,3), n_classes=10, kernel_regular=None):
    # 첫 번째 CNN -> Relu -> Maxpool, kernel_size를 매우 크게 가져감(11,11)
    input_tensor = Input(shape=in_shape)
    
    x = Conv2D(filters=96, kernel_size=(11,11), strides=(4,4), padding='valid')(input_tensor)
    x = Activation('relu')(x)
    # LRN(Local Response Normalization)을 대신해서 batch noramlization 적용
    x = BatchNormalization()(x)
    x = MaxPooling2D(pool_size=(3,3), strides=(2,2))(x)
    
    # 두 번째 CNN -> Relu -> Maxpool, kernel_size=(5,5)
    x = Conv2D(filters=256, kernel_size=(5,5), strides=(1,1), padding='same', kernel_regularizer=kernel_regular)(x)
    x = Activation('relu')(x)
    x = BatchNormalization()(x)
    x = MaxPooling2D(pool_size=(3,3), strides=(2,2))(x)
    
    # 3x3 Conv 2번 연속 적용. flilters는 384개
    x = Conv2D(filters=384, kernel_size=(3,3), strides=(1,1), padding='same', kernel_regularizer=kernel_regular)(x)
    x = Activation('relu')(x)
    x = BatchNormalization()(x)

    x = Conv2D(filters=384, kernel_size=(3,3), strides=(1,1), padding='same', kernel_regularizer=kernel_regular)(x)
    x = Activation('relu')(x)
    x = BatchNormalization()(x)
    
    # 3x3 Conv를 적용하되 filters 수를 줄이고 maxpooling을 적용
    x = Conv2D(filters=256, kernel_size=(3,3), strides=(1,1), padding='same', kernel_regularizer=kernel_regular)(x)
    x = Activation('relu')(x)
    x = BatchNormalization()(x)
    x = MaxPooling2D(pool_size=(3,3), strides=(2,2))(x)

    # Dense 연결을 위한 Flatten
    x = Flatten()(x)

    # Dense + Dropout을 연속 적용. 
    x = Dense(units = 4096, activation = 'relu')(x)
    x = Dropout(0.5)(x)

    x = Dense(units = 4096, activation = 'relu')(x)
    x = Dropout(0.5)(x)

    # 마지막 softmax 층 적용. 
    output = Dense(units = n_classes, activation = 'softmax')(x)

    model = Model(inputs=input_tensor, outputs=output)
    model.summary()
    
    return model

    

2024-03-03 08:21:26.241179: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-03-03 08:21:26.241280: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-03-03 08:21:26.372624: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


In [4]:
model = create_alexnet(in_shape=(227,227,3), n_classes=10, kernel_regular=regularizers.l2(l2=1e-4))

### CIFAR10 데이터세트를 이용해 AlexNet 학습 및 성능 검증

In [5]:
from tensorflow.keras.datasets import cifar10

# 전체 6만개 데이터 중에서 5만개는 학습용, 1만개는 시험용 데이터로 분리된다.
(train_images, train_labels), (test_images, test_labels) = cifar10.load_data()
print(train_images.shape, train_labels.shape)
print(test_images.shape, test_labels.shape)

Downloading data from https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
[1m170498071/170498071[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 0us/step
(50000, 32, 32, 3) (50000, 1)
(10000, 32, 32, 3) (10000, 1)


### 학습/검증/테스트 데이터 세트로 나누고 데이터 전처리 수행
* 학습/검증/테스트 데이터로 분할, 검증 데이터는 학습 데이터의 20%를 할당
* 레이블의 one hot encoding과 이미지 픽셀값의 스케일링 적용

In [6]:
import tensorflow as tf

import random as python_random
from tensorflow.keras.utils import to_categorical
from sklearn.model_selection import train_test_split
from tensorflow.keras.datasets import cifar10

def zero_one_scaler(image):
    return image/255.0

def get_preprocessed_ohe(images, labels, pre_func=None):
    if pre_func is not None:
        images = pre_func(images)
        
    '''
    OHE 적용
    참고로 dataframe에서 OHE을 적용하고 싶으면 pandas의 get_dummies를 쓰고
    혹은 그냥 numpy array에서 바로 OHE을 적용하고 싶으면 keras의 to_categorical을 쓴다.
    '''
    
    oh_labels = to_categorical(labels)
    
    return images, oh_labels

# 학습/검증/테스트 데이터 세트에 전처리 및 OHE 적용한 뒤에 반환
def get_train_valid_test_set(train_images, train_labels, test_images, test_labels, valid_size=0.15, random_state=42):
    # 학습 및 텟그트 데이터 세트를 0 ~ 1 사잇값 float32로 변환하고 OHE 적용
    train_images, train_oh_labels = get_preprocessed_ohe(train_images, train_labels)
    test_images, test_oh_labels = get_preprocessed_ohe(test_images, test_labels)
    
    # 학습 데이터를 학습과 검증용 데이터 세트로 분리
    tr_images, val_images, tr_oh_labels, val_oh_labels = train_test_split(train_images, train_oh_labels, test_size=valid_size, random_state=random_state)
    
    return (tr_images, tr_oh_labels), (val_images, val_oh_labels), (test_images, test_oh_labels)

# CIFAR10 데이터 로딩 및 scaling/ohe 젅처리 적용하여 학습/검증/테스트 데이터로 분리
(train_images, train_labels), (test_images, test_labels) = cifar10.load_data()
print(train_images.shape, train_labels.shape, test_images.shape, test_labels.shape)

(tr_images, tr_oh_labels), (val_images, val_oh_labels), (test_images, test_oh_labels) = \
    get_train_valid_test_set(train_images, train_labels, test_images, test_labels, valid_size=0.2, random_state=42)

print(tr_images.shape, tr_oh_labels.shape, val_images.shape, val_oh_labels.shape, test_images.shape, test_oh_labels.shape)

(50000, 32, 32, 3) (50000, 1) (10000, 32, 32, 3) (10000, 1)
(40000, 32, 32, 3) (40000, 10) (10000, 32, 32, 3) (10000, 10) (10000, 32, 32, 3) (10000, 10)


In [7]:
# 이미지 사이즈가 너무 작으면 모델의 MaxPooling에서 오류가 발생한다. 최소한 128x128 사이즈로 잡아줘야 한다.
model = create_alexnet(in_shape=(128,128,3), n_classes=10, kernel_regular=regularizers.l2(l2=1e-4))

### CIFAR10 원본 이미지 크기 32x32를 128x128로 증가시키는 Sequence Dataset 생성
* 128x128로 CIFAR10 모든 이미지 배열값을 증가시키면 RAM 부족 발생
* 배치 크기만큼의 개수만 원본 이미지를 128x128로 증가시킨 뒤(opencv의 resize() 사용) 이를 모델에 입력하는 방식으로 Sequence Dataset 구성

In [8]:
IMAGE_SIZE = 128
BATCH_SIZE = 64

In [9]:
from tensorflow.keras.utils import Sequence
import cv2
import sklearn


'''
참고로 위 과정에서도 imageDataGenerator를 통해서 학습을 수행하면
flow_from_dataframe은 image resize 기능이 있는 반면,
numpy array를 받아서 처리하는 그냥 flow의 경우 해당 기능이 없다.

이런식으로 imageDataGenerator를 통해선 제약이 있는 부분이 있어 Sequence로 만들어 쓰는 편이 낫다.
'''

class CIFAR10_Dataset(Sequence):
    def __init__(self, images_array, labels, batch_size=BATCH_SIZE, augmentor=None, shuffle=False, pre_func=None):
        '''
        파라미터 설명
        images_array: 원본 32x32 만큼의 image 배열값. 
        labels: 해당 image의 label들
        batch_size: __getitem__(self, index) 호출 시 마다 가져올 데이터 batch 건수
        augmentor: albumentations 객체
        shuffle: 학습 데이터의 경우 epoch 종료시마다 데이터를 섞을지 여부
        '''
        
        # 객체 생성 인자로 들어온 값을 객체 내부 변수로 할당. 
        # 인자로 입력되는 images_array는 전체 32x32 image array임.
        # 여기서 32x32로 들어온 이미지를 128x128로 키워야 한다.
        self.images_array = images_array
        self.labels = labels
        self.batch_size = batch_size
        self.augmentor = augmentor
        self.pre_func = pre_func
        # train data의 경우
        self.shuffle = shuffle
        if self.shuffle:
            pass
        
    # Sequence를 상속받은 Dataset은 batch_size 단위로 입력된 데이터를 처리한다.
    # __len__()은 전체 데이터 건수가 주어졌을 때 batch_size 단위로 몇 번 데이터를 변환하는지 나타낸다.
    def __len__(self):
        # batch_size 단위로 데이터를 몇 번 갖고와여 하는지 계산하기 위해서 전체 데이터 건수를 batch_size로 나눈다.
        # 하지만, 정수로 나누어 떨어지지 않을 경우 +1을 한다.
        return int(np.ceil(len(self.labels)/self.batch_size))
    
    # batch_size 단위로 image_array, label_array 데이터를 가져와서 변환한 뒤에 다시 반환
    # 인자로 몇 번째 batch인지를 나타내는 index를 입력하면 해당 순서에 해당하는 batch_size 만큼의 데이터를 가공하여 반환
    # batch_size 개수만큼 변환된 image_array의 label_array 변환
    def __getitem__(self, index):
        # index는 몇 번째 batch인지를 나타낸다.
        # 32x32 image array를 self.batch_size만큼 갖고 옴
        image_fetch = self.images_array[index*self.batch_size:(index+1)*self.batch_size]
        label_batch = self.labels[index*self.batch_size:(index+1)*self.batch_size]
        
        image_batch = np.zeros((image_fetch.shape[0], IMAGE_SIZE, IMAGE_SIZE, 3), dtype='float32')
        
        # batch_size에 담긴 건수만큼 iteration하면서 opencv image load -> image augmentation 변환 -> image batch에 담음.
        for image_index in range(image_fetch.shape[0]):
            # 원본 이미지 크기를 IMAGE_SIZE 크기로 resize
            image = cv2.resize(image_fetch[image_index], (IMAGE_SIZE, IMAGE_SIZE))
            # 먼역 augmentor가 주어진다면 활용
            if self.augmentor is not None:
                image = self.augmentor(image=image)['image']
                
            if self.pre_func is not None:
                image = self.pre_func(image)
                
            # image batch에 순차적으로 변환된 image를 담음.
            image_batch[image_index] = image
        
        return image_batch, label_batch
    
    # epoch가 한 번 수행이 끝날 때마다 모델의 fit에서 호출된다
    def on_epoch_end(self):
        if self.shuffle:
            self.images_array, self.labels = sklearn.utils.shuffle(self.images_array, self.labels)
        else:
            pass
    

In [10]:
def zero_one_scaler(image):
    return image/255.0

tr_ds = CIFAR10_Dataset(tr_images, tr_oh_labels, batch_size=BATCH_SIZE, augmentor=None, shuffle=True, pre_func=zero_one_scaler)
val_ds = CIFAR10_Dataset(val_images, val_oh_labels, batch_size=BATCH_SIZE, augmentor=None, shuffle=False, pre_func=zero_one_scaler)

print(next(iter(tr_ds))[0].shape, next(iter(val_ds))[0].shape)
print(next(iter(tr_ds))[1].shape, next(iter(val_ds))[1].shape)

(64, 128, 128, 3) (64, 128, 128, 3)
(64, 10) (64, 10)


### Input 크기가 128x128인 AlexNet 모델을 생성하고 epochs는 15로 설정하고 학습

In [11]:
model = create_alexnet(in_shape=(128,128,3), n_classes=10, kernel_regular=regularizers.l2(l2=1e-4))

model.compile(optimizer=Adam(learning_rate=0.0001), loss='categorical_crossentropy', metrics=['accuracy'])

rlr_cb = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=5, mode='min', verbose=1)
ely_cb = EarlyStopping(monitor='val_loss', patience=10, mode='min', verbose=1)

history = model.fit(tr_ds, epochs=15, validation_data=val_ds, callbacks=[rlr_cb, ely_cb])

Epoch 1/15


  self._warn_if_super_not_called()


[1m  6/625[0m [37m━━━━━━━━━━━━━━━━━━━━[0m [1m16s[0m 27ms/step - accuracy: 0.0910 - loss: 3.6073

I0000 00:00:1709454121.441105      71 device_compiler.h:186] Compiled cluster using XLA!  This line is logged at most once for the lifetime of the process.
W0000 00:00:1709454121.463560      71 graph_launch.cc:671] Fallback to op-by-op mode because memset node breaks graph update


[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 21ms/step - accuracy: 0.3422 - loss: 2.0954

W0000 00:00:1709454135.918526      69 graph_launch.cc:671] Fallback to op-by-op mode because memset node breaks graph update


[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m33s[0m 29ms/step - accuracy: 0.3423 - loss: 2.0948 - val_accuracy: 0.4124 - val_loss: 1.8078 - learning_rate: 1.0000e-04
Epoch 2/15
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m16s[0m 25ms/step - accuracy: 0.5710 - loss: 1.3202 - val_accuracy: 0.4839 - val_loss: 1.5459 - learning_rate: 1.0000e-04
Epoch 3/15
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m16s[0m 25ms/step - accuracy: 0.6699 - loss: 1.0534 - val_accuracy: 0.6517 - val_loss: 1.0929 - learning_rate: 1.0000e-04
Epoch 4/15
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m15s[0m 24ms/step - accuracy: 0.7282 - loss: 0.8902 - val_accuracy: 0.5059 - val_loss: 1.6065 - learning_rate: 1.0000e-04
Epoch 5/15
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 24ms/step - accuracy: 0.7738 - loss: 0.7595 - val_accuracy: 0.6346 - val_loss: 1.1802 - learning_rate: 1.0000e-04
Epoch 6/15
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━

In [12]:
test_ds = CIFAR10_Dataset(test_images, test_oh_labels, batch_size=BATCH_SIZE, augmentor=None, shuffle=False, pre_func=zero_one_scaler)
model.evaluate(test_ds)

[1m157/157[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 12ms/step - accuracy: 0.8076 - loss: 1.2089


[1.2318028211593628, 0.8030999898910522]