**Домашнее задание**

Возьмите датасет https://www.kaggle.com/ajayrana/hymenoptera-data

Реализуйте сверточную нейронную сеть с использованием tf.keras или keras. Используйте сверточные, пуллинговые и полносвязанные слои. Обучите на train выборке в течении 10 эпох, оцените качество на отложенной выборке

Добавьте в предыдущую архитектуру слои BatchNorm. Обучите на train выборке в течении 10 эпох, оцените качество на отложенной выборке

Создайте модель ResNet 50 (https://www.tensorflow.org/api_docs/python/tf/keras/applications/ResNet50), инициализированную случайными весами, и обучите ее на train выборке в течении 10 эпох, оцените качество на отложенной выборке

Создайте модель ResNet 50, инициализированную весами ImageNet, и обучите ее на train выборке в течении 10 эпох, оцените качество на отложенной выборке

Результат пришлите в виде Jupyter Notebook на github’е или расшаренного Google Colab-блокнота

In [1]:
import numpy as np
from scipy import stats
import tensorflow as tf
from matplotlib import pyplot as plt
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

Загрузим изображения, приведем к единому размеру и разделим выборки.

In [2]:
shape=(224, 224, 3)
batch_size=32
seed=42

train_generator = tf.keras.preprocessing.image.ImageDataGenerator(rescale=1./255, validation_split=0.15)
val_generator = tf.keras.preprocessing.image.ImageDataGenerator(rescale=1./255.)

train = train_generator.flow_from_directory("hymenoptera_data/train", target_size=shape[:2], batch_size=batch_size, class_mode='binary', subset='training', seed=seed)
test = train_generator.flow_from_directory("hymenoptera_data/train", target_size=shape[:2], batch_size=batch_size, class_mode='binary', subset='validation', seed=seed)
val = val_generator.flow_from_directory("hymenoptera_data/val", target_size=shape[:2], batch_size=batch_size, class_mode='binary')

x_val = np.concatenate([val.next()[0] for i in range(val.__len__())])
y_val = np.concatenate([val.next()[1] for i in range(val.__len__())])

Found 208 images belonging to 2 classes.
Found 36 images belonging to 2 classes.
Found 153 images belonging to 2 classes.


Построим простую модель сверточной сети  и обучим ее.

In [3]:
s_model = tf.keras.models.Sequential([
    tf.keras.layers.Conv2D(filters=6,
                           kernel_size=(3, 3),
                           padding='same',
                           activation='relu',
                           input_shape=shape),
    tf.keras.layers.MaxPool2D(pool_size=(2, 2), padding='valid'),
    tf.keras.layers.Conv2D(filters=16, 
                           kernel_size=(5, 5),
                           padding='same',
                           activation='relu'),
    tf.keras.layers.MaxPool2D(pool_size=(2, 2), padding='valid'),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(32, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')]
)

s_model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
s_model.summary()
s_model.fit(train, validation_data=test, epochs=10);

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d (Conv2D)              (None, 224, 224, 6)       168       
_________________________________________________________________
max_pooling2d (MaxPooling2D) (None, 112, 112, 6)       0         
_________________________________________________________________
conv2d_1 (Conv2D)            (None, 112, 112, 16)      2416      
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 56, 56, 16)        0         
_________________________________________________________________
flatten (Flatten)            (None, 50176)             0         
_________________________________________________________________
dense (Dense)                (None, 32)                1605664   
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 3

Посчитаем accuracy на отложенной выборке.

In [4]:
def score_and_show(model, x, y):
    y_pred = model.predict(x).round()
    print(f'Accuracy: {accuracy_score(y, y_pred)}')
    print('\nClassification Report')
    print(classification_report(y, y_pred))
    print('Confusion matrix')
    print(confusion_matrix(y, y_pred))

In [5]:
score_and_show(s_model, x_val, y_val)

Accuracy: 0.477124183006536

Classification Report
              precision    recall  f1-score   support

         0.0       0.44      0.57      0.50        70
         1.0       0.52      0.40      0.45        83

    accuracy                           0.48       153
   macro avg       0.48      0.48      0.48       153
weighted avg       0.49      0.48      0.47       153

Confusion matrix
[[40 30]
 [50 33]]


Далеко не лучший результат на отложенной выборке.

Построим модель со слоями батч-нормализации и обучим ее.

In [6]:
b_model = tf.keras.models.Sequential([
    tf.keras.layers.Input(shape=shape),
    tf.keras.layers.BatchNormalization(),
    tf.keras.layers.Conv2D(filters=6,
                           kernel_size=(3, 3),
                           padding='same',
                           activation='relu'),
    tf.keras.layers.MaxPool2D(pool_size=(2, 2), padding='valid'),
    tf.keras.layers.BatchNormalization(),
    tf.keras.layers.Conv2D(filters=16, 
                           kernel_size=(5, 5),
                           padding='same',
                           activation='relu'),
    tf.keras.layers.MaxPool2D(pool_size=(2, 2), padding='valid'),
    tf.keras.layers.BatchNormalization(),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(32, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')]
)

b_model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
b_model.summary()
b_model.fit(train, validation_data=test, epochs=10);

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
batch_normalization (BatchNo (None, 224, 224, 3)       12        
_________________________________________________________________
conv2d_2 (Conv2D)            (None, 224, 224, 6)       168       
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 112, 112, 6)       0         
_________________________________________________________________
batch_normalization_1 (Batch (None, 112, 112, 6)       24        
_________________________________________________________________
conv2d_3 (Conv2D)            (None, 112, 112, 16)      2416      
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 56, 56, 16)        0         
_________________________________________________________________
batch_normalization_2 (Batch (None, 56, 56, 16)       

Посчитаем accuracy на отложенной выборке.

In [7]:
score_and_show(b_model, x_val, y_val)

Accuracy: 0.45098039215686275

Classification Report
              precision    recall  f1-score   support

         0.0       0.44      0.71      0.54        70
         1.0       0.49      0.23      0.31        83

    accuracy                           0.45       153
   macro avg       0.46      0.47      0.43       153
weighted avg       0.46      0.45      0.42       153

Confusion matrix
[[50 20]
 [64 19]]


Как видим, введение батч-нормализации в нашем случае не помогло. Модель явно переобучилась и на отложенной выборке показала более худший результат.

Построим модель ResNet 50 инициализированную случайными весами и обучим ее.

In [8]:
shape=(224, 224, 3)
batch_size=32
seed=42

train_generator = tf.keras.preprocessing.image.ImageDataGenerator(validation_split=0.15)
val_generator = tf.keras.preprocessing.image.ImageDataGenerator()

train = train_generator.flow_from_directory("hymenoptera_data/train", target_size=shape[:2], batch_size=batch_size, class_mode='binary', subset='training', seed=seed)
test = train_generator.flow_from_directory("hymenoptera_data/train", target_size=shape[:2], batch_size=batch_size, class_mode='binary', subset='validation', seed=seed)
val = val_generator.flow_from_directory("hymenoptera_data/val", target_size=shape[:2], batch_size=batch_size, class_mode='binary')

x_val = np.concatenate([val.next()[0] for i in range(val.__len__())])
y_val = np.concatenate([val.next()[1] for i in range(val.__len__())])

Found 208 images belonging to 2 classes.
Found 36 images belonging to 2 classes.
Found 153 images belonging to 2 classes.


In [9]:
i = tf.keras.layers.Input(shape, dtype=tf.uint8)
o = tf.cast(i, tf.float32)
o = tf.keras.applications.resnet50.preprocess_input(o)
o = tf.keras.applications.ResNet50(include_top=False, weights=None)(o)
o = tf.keras.layers.Flatten()(o)
o = tf.keras.layers.Dense(1, activation='sigmoid')(o)

rnnw_model = tf.keras.Model(inputs=[i], outputs=[o])
rnnw_model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
rnnw_model.summary()
rnnw_model.fit(train, validation_data=test, epochs=10);

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_2 (InputLayer)         [(None, 224, 224, 3)]     0         
_________________________________________________________________
tf.cast (TFOpLambda)         (None, 224, 224, 3)       0         
_________________________________________________________________
tf.__operators__.getitem (Sl (None, 224, 224, 3)       0         
_________________________________________________________________
tf.nn.bias_add (TFOpLambda)  (None, 224, 224, 3)       0         
_________________________________________________________________
resnet50 (Functional)        (None, None, None, 2048)  23587712  
_________________________________________________________________
flatten_2 (Flatten)          (None, 100352)            0         
_________________________________________________________________
dense_4 (Dense)              (None, 1)                 100353

Посчитаем accuracy на отложенной выборке.

In [10]:
score_and_show(rnnw_model, x_val, y_val)

Accuracy: 0.5620915032679739

Classification Report
              precision    recall  f1-score   support

         0.0       0.80      0.06      0.11        70
         1.0       0.55      0.99      0.71        83

    accuracy                           0.56       153
   macro avg       0.68      0.52      0.41       153
weighted avg       0.67      0.56      0.43       153

Confusion matrix
[[ 4 66]
 [ 1 82]]


Как видим, модель предсказывает довольно плохо. Вероятно, слишком мало сэмплов для обучения.

Построим модель ResNet 50 инициализированную весами ImageNet и обучим ее.

In [11]:
resnet50 = tf.keras.applications.ResNet50(include_top=False, weights='imagenet')
resnet50.trainable = False

i = tf.keras.layers.Input(shape=shape, dtype=tf.uint8)
o = tf.cast(i, tf.float32)
o = tf.keras.applications.resnet50.preprocess_input(o)
o = resnet50(o)
o = tf.keras.layers.Flatten()(o)
o = tf.keras.layers.Dense(1, activation='sigmoid')(o)

rniw_model = tf.keras.Model(inputs=[i], outputs=[o])
rniw_model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
rniw_model.summary()
rniw_model.fit(train, validation_data=test, epochs=10);

Model: "model_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_5 (InputLayer)         [(None, 224, 224, 3)]     0         
_________________________________________________________________
tf.cast_1 (TFOpLambda)       (None, 224, 224, 3)       0         
_________________________________________________________________
tf.__operators__.getitem_1 ( (None, 224, 224, 3)       0         
_________________________________________________________________
tf.nn.bias_add_1 (TFOpLambda (None, 224, 224, 3)       0         
_________________________________________________________________
resnet50 (Functional)        (None, None, None, 2048)  23587712  
_________________________________________________________________
flatten_3 (Flatten)          (None, 100352)            0         
_________________________________________________________________
dense_5 (Dense)              (None, 1)                 1003

Посчитаем accuracy на отложенной выборке.

In [12]:
score_and_show(rniw_model, x_val, y_val)

Accuracy: 0.5555555555555556

Classification Report
              precision    recall  f1-score   support

         0.0       0.51      0.51      0.51        70
         1.0       0.59      0.59      0.59        83

    accuracy                           0.56       153
   macro avg       0.55      0.55      0.55       153
weighted avg       0.56      0.56      0.56       153

Confusion matrix
[[36 34]
 [34 49]]


Наличие весов помогло модели несколько лучше произвести классификацию в сравнении с простой моделью. Тем не менее, результы не слишком хорошие. Как и в предыдущем случае, проблема скорее всего в малом кол-ве сэмплов для обучения.

Построим модель ResNet 50 инициализированную весами ImageNet, не будем запрещать ResNet 50 обучаться и обучим ее.

In [15]:
resnet50 = tf.keras.applications.ResNet50(include_top=False, weights='imagenet')
resnet50.trainable = True
i = tf.keras.layers.Input(shape=shape, dtype=tf.uint8)
o = tf.cast(i, tf.float32)
o = tf.keras.applications.resnet50.preprocess_input(o)
o = resnet50(o)
o = tf.keras.layers.Flatten()(o)
o = tf.keras.layers.Dense(1, activation='sigmoid')(o)

rniwp_model = tf.keras.Model(inputs=[i], outputs=[o])
rniwp_model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
rniwp_model.summary()
rniwp_model.fit(train, validation_data=test, epochs=10);

Model: "model_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_7 (InputLayer)         [(None, 224, 224, 3)]     0         
_________________________________________________________________
tf.cast_2 (TFOpLambda)       (None, 224, 224, 3)       0         
_________________________________________________________________
tf.__operators__.getitem_2 ( (None, 224, 224, 3)       0         
_________________________________________________________________
tf.nn.bias_add_2 (TFOpLambda (None, 224, 224, 3)       0         
_________________________________________________________________
resnet50 (Functional)        (None, None, None, 2048)  23587712  
_________________________________________________________________
flatten_4 (Flatten)          (None, 100352)            0         
_________________________________________________________________
dense_6 (Dense)              (None, 1)                 1003

Посчитаем accuracy на отложенной выборке.

In [16]:
score_and_show(rniwp_model, x_val, y_val)

Accuracy: 0.47058823529411764

Classification Report
              precision    recall  f1-score   support

         0.0       0.46      1.00      0.63        70
         1.0       1.00      0.02      0.05        83

    accuracy                           0.47       153
   macro avg       0.73      0.51      0.34       153
weighted avg       0.75      0.47      0.32       153

Confusion matrix
[[70  0]
 [81  2]]


Данная модель плохо справилась со своей задачей и отнесла практически всю выборку к одному классу.