## Code sau đây mô phỏng lại quá trình thí nghiệm của em:
*Các tham số và log của lần train cuối cùng được lưu lại trong thư mục experiments_stuff*

In [1]:
from __future__ import print_function
import keras
from keras.datasets import cifar10
from keras.preprocessing.image import ImageDataGenerator
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Flatten, BatchNormalization
from keras.layers import Conv2D, MaxPooling2D
from keras.models import load_model
from keras.callbacks import ModelCheckpoint, EarlyStopping
from keras import backend as K
from keras import regularizers, optimizers
import os

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


In [2]:
batch_size = 32
num_classes = 10

In [3]:
(x_train, y_train), (x_test, y_test) = cifar10.load_data()

Chia nhỏ dữ liệu để khảo sát kiến trúc

In [4]:
x_train_sm = x_train[:5000]
y_train_sm = y_train[:5000]
x_test_sm = x_test[:1000]
y_test_sm = y_test[:1000] 

Chuẩn hóa dữ liệu

In [5]:
x_train = x_train.astype('float32') / 255
x_test = x_test.astype('float32') / 255
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

x_train_sm = x_train_sm.astype('float32') / 255
x_test_sm = x_test_sm.astype('float32') / 255
y_train_sm = keras.utils.to_categorical(y_train_sm, num_classes)
y_test_sm = keras.utils.to_categorical(y_test_sm, num_classes)

Kiến trúc đầu tiên sử dụng mạng CNN đơn giản với:
- 4 tầng convolution và 2 tầng fully connected
- Dropout với rate = 0.25 được thêm vào sau mỗi 2 lớp CNN 
- Hàm activation được sử dụng là Relu
- Activation softmax ở lớp cuối cho đầu ra output

In [7]:
def SimpleCNN():
    model = Sequential()

    model.add(Conv2D(32, (3, 3), padding='same', input_shape=x_train.shape[1:]))
    model.add(Activation('relu'))
    model.add(Conv2D(32, (3, 3)))
    model.add(Activation('relu'))
    model.add(MaxPooling2D(pool_size=(2, 2)))
    model.add(Dropout(0.25))

    model.add(Conv2D(64, (3, 3), padding='same'))
    model.add(Activation('relu'))
    model.add(Conv2D(64, (3, 3)))
    model.add(Activation('relu'))
    model.add(MaxPooling2D(pool_size=(2, 2)))
    model.add(Dropout(0.25))

    model.add(Flatten())
    model.add(Dense(512))
    model.add(Activation('relu'))
    model.add(Dropout(0.5))
    model.add(Dense(num_classes))
    model.add(Activation('softmax'))

    return model

Hàm đánh giá mô hình đơn giản 

In [8]:
def evaluate(to_load_model, x_test, y_test):
    model = load_model(to_load_model)
    scores = model.evaluate(x_test, y_test, verbose=1)
    print('Test loss: {}\tTest accuracy: {}'.format(scores[0], scores[1]))
    K.clear_session()

Hàm huấn luyện được sử dụng với các model
- Để tiện quan sát và huấn luyện, hàm train được truyền vào weight của model để có thể train tiếp từ epoch trước đã dừng
- Nếu tham số to_load_model không được truyền vào, script sẽ tạo ra một instance mới của model và thực hiện train từ đầu
- Quá trình train sử dụng tập test để làm validation và earlyStopping để dừng khi loss không còn giảm.
- Việc sử dụng test làm validation chỉ để quan sát chứ không ảnh hưởng đến việc tune tham số hay quyết định thay đổi kiến trúc

In [10]:
def train(to_load_model = None):
    if to_load_model:
        model = load_model(to_load_model)
    else:
        #model = SimpleCNN()
        model = AdvancedCNN()
    opt = optimizers.rmsprop(lr=0.0003, decay=1e-6)
    model.compile(loss='categorical_crossentropy', optimizer=opt, metrics=['accuracy'])

    earlyStopping = EarlyStopping(monitor='val_loss', patience=10, verbose=0, mode='min')
    mcp_save = ModelCheckpoint(model_path, save_best_only=True, monitor='val_loss', mode='min')

    model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, callbacks=[earlyStopping, mcp_save], validation_data=(x_test, y_test), shuffle=True)

Khảo sát mô hình trên tập test nhỏ trước để tìm ra kiến trúc phù hợp

In [11]:
evaluate(os.path.join(os.getcwd(), 'experiments_stuff/cifar10_model_3.h5'), x_test_sm, y_test_sm)

Test loss: 1.2325805826187133	Test accuracy: 0.583


Đề xuất mô hình mới:
- Có thêm 2 tầng convolution nữa 
- Dropout rate giữa 2 tầng một tăng dần 0.2, 0.3, 0.4
- Thêm Batch Normalization và Regulrization

In [13]:
def AdvancedCNN(baseMapNum = 32, weight_decay = 1e-4):
    model = Sequential()

    model.add(Conv2D(32, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay), input_shape=x_train.shape[1:]))
    model.add(Activation('relu'))
    model.add(BatchNormalization())
    model.add(Conv2D(32, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay)))
    model.add(Activation('relu'))
    model.add(BatchNormalization())
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(Dropout(0.2))

    model.add(Conv2D(64, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay)))
    model.add(Activation('relu'))
    model.add(BatchNormalization())
    model.add(Conv2D(64, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay)))
    model.add(Activation('relu'))
    model.add(BatchNormalization())
    model.add(MaxPooling2D(pool_size=(2,2)))
    model.add(Dropout(0.3))

    model.add(Conv2D(128, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay)))
    model.add(Activation('relu'))
    model.add(BatchNormalization())
    model.add(Conv2D(128, (3,3), padding='same', kernel_regularizer=regularizers.l2(weight_decay)))
    model.add(Activation('relu'))
    model.add(BatchNormalization())
    model.add(MaxPooling2D(pool_size=(2,2)))ơn
    model.add(Dropout(0.4))

    model.add(Flatten())
    model.add(Dense(num_classes, activation='softmax'))

    model.summary()
    return model

Sau khi huấn luyện trên tập dữ liệu nhỏ và so sánh, model được đề xuất có kết quả trên tập test trội hơn hẳn

In [14]:
# SimpleCNN
print("SimpleCNN with small data")
evaluate(os.path.join(os.getcwd(), 'experiments_stuff/cifar10_model_3.h5'), x_test_sm, y_test_sm)
# AdvancedCNN
print("AdvancedCNN with small data")
evaluate(os.path.join(os.getcwd(), 'experiments_stuff/advanced_cifar10_model_1.h5'), x_test_sm, y_test_sm)

SimpleCNN with small data
Test loss: 1.2325805826187133	Test accuracy: 0.583
AdvancedCNN with small data
Test loss: 1.1409394645690918	Test accuracy: 0.633


Huấn luyện trên toàn bộ tập dữ liệu:
- SimpleCNN được chạy trên toàn bộ tập dữ liệu từ đầu và dừng lại ở epoch thứ 73
- AdvacedCNN được chạy trên toàn bộ tập dữ liệu với khởi tạo tham số từ model train với tập dữ liệu nhỏ, train với 50 epoch tiếp theo với learning rate = 0.0001, sau đó train với 50 epoch nữa với learning rate = 0.0003 (do em muốn đẩy nhanh quá trình giảm loss) và dừng lại ở epoch 33

In [16]:
# SimpleCNN
print("SimpleCNN with full data")
evaluate(os.path.join(os.getcwd(), 'experiments_stuff/cifar10_model_0.h5'), x_test, y_test)
# AdvancedCNN
print("AdvancedCNN with full data")
evaluate(os.path.join(os.getcwd(), 'experiments_stuff/advanced_cifar10_model_0.h5'), x_test, y_test)

SimpleCNN with full data
Test loss: 0.7480912349700928	Test accuracy: 0.7467
AdvancedCNN with full data
Test loss: 0.5762299317836761	Test accuracy: 0.8482


### Kết luận
Như vậy bằng cách thay đổi kiến trúc mới và một số tuning tham số, kết quả đạt được trên tập test la 84.82%. Để xuất tiếp theo có thể augment thêm cho training dataset với hy vọng làm đa dạng được dữ liệu hoặc thử những kiến trúc phức tạp hơn.