# Определяем, нужно ли ставить тег "кот"

Пользователи должны помечать посты на сайте специальными тегами, описывающими контент, содержащийся в посте. Наша задача состоит в том, чтобы помочь им в этом. В частности, анализируя картинки в посте, нужно определить, содержится ли на картинке кот. 

Для решения этой задачи мы будем использовать свёрточную нейросеть. Но мы не будем тренировать её с нуля, а воспользуемся уже предобученной ResNet на датасете Imagenet. Мы произведём transfer-learning и дообучим её на нашем небольшом датасете для того, чтобы она была заточена именно под определение котов.

На примере этой задачи мы познакомимся со свёрточной архитектурой, освоим transfer-learning и онлайн-аугментации в Keras.

In [1]:
import tensorflow as tf
import numpy as np
import random

# как обычно, фиксируем сид
np.random.seed(17)
tf.random.set_seed(17)
random.seed(17)

# и ограничим потребление видеопамяти
GPUs = tf.config.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(GPUs[0], True)

В Keras уже имеется несколько распространённых предобученных моделей нейросетей. Их список можно посмотреть здесь: https://keras.io/api/applications/

Давайте воспользуемся обычной ResNet.

In [2]:
resnet = tf.keras.applications.ResNet50()

In [3]:
# изучим её архитектуру

resnet.summary()

Model: "resnet50"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, 224, 224, 3) 0                                            
__________________________________________________________________________________________________
conv1_pad (ZeroPadding2D)       (None, 230, 230, 3)  0           input_1[0][0]                    
__________________________________________________________________________________________________
conv1_conv (Conv2D)             (None, 112, 112, 64) 9472        conv1_pad[0][0]                  
__________________________________________________________________________________________________
conv1_bn (BatchNormalization)   (None, 112, 112, 64) 256         conv1_conv[0][0]                 
___________________________________________________________________________________________

In [4]:
# для корректной работы с картинками загрузим модуль pillow

!pip install pillow



You should consider upgrading via the 'c:\users\g0nzalez\venv38\scripts\python.exe -m pip install --upgrade pip' command.


Давайте посмотрим, как вообще работает ResNet. Для примера скормим ей обычную картинку с котиком. 

Для загрузки картинок в Keras предусмотрен специальный инструмент, в котором сразу же можно указать целевое разрешение.

In [5]:
cat_img = tf.keras.preprocessing.image.load_img('cat.jpg', target_size=(224, 224))

In [6]:
# посмотрим, что получилось

cat_img.show()

In [7]:
# далее необходимо представить картинку в виде массива

cat_img = tf.keras.preprocessing.image.img_to_array(cat_img)

In [8]:
# 3 канала 224х224 пикселя

cat_img.shape

(224, 224, 3)

Т.к. на вход нейросети нужно подавать массив картинок, то сначала сделаем массив из одной картинки, а затем специально подготовим его для ResNet функцией `preprocess_input`, которая отмасштабирует значения пикселей на нужную величину.

In [9]:
cat_img = np.expand_dims(cat_img, axis=0)
cat_img = tf.keras.applications.resnet.preprocess_input(cat_img)

In [10]:
cat_img

array([[[[146.061  , 100.221  ,  60.32   ],
         [144.061  ,  98.221  ,  58.32   ],
         [144.061  ,  98.221  ,  58.32   ],
         ...,
         [147.061  , 104.221  ,  70.32   ],
         [147.061  , 104.221  ,  70.32   ],
         [147.061  , 104.221  ,  70.32   ]],

        [[145.061  ,  99.221  ,  59.32   ],
         [144.061  ,  98.221  ,  58.32   ],
         [144.061  ,  98.221  ,  58.32   ],
         ...,
         [147.061  , 104.221  ,  70.32   ],
         [147.061  , 104.221  ,  70.32   ],
         [147.061  , 104.221  ,  70.32   ]],

        [[145.061  ,  99.221  ,  59.32   ],
         [144.061  ,  98.221  ,  58.32   ],
         [144.061  ,  98.221  ,  58.32   ],
         ...,
         [147.061  , 104.221  ,  70.32   ],
         [147.061  , 104.221  ,  70.32   ],
         [147.061  , 104.221  ,  70.32   ]],

        ...,

        [[149.061  , 125.221  ,  98.32   ],
         [150.061  , 125.221  , 100.32   ],
         [150.061  , 125.221  , 100.32   ],
         ...,


In [11]:
# получаем предсказание

pred = resnet.predict(cat_img)

In [12]:
# получили список из 1000 "вероятностей"
# сейчас не очень понятно, какая цифра за что отвечает

pred

array([[2.30767023e-06, 5.08551739e-06, 3.60302278e-04, 9.82225683e-05,
        5.55646739e-06, 1.89638318e-04, 3.72714976e-06, 3.24352936e-06,
        1.08489157e-05, 2.26526618e-06, 7.47342256e-06, 3.40192145e-07,
        4.18389027e-06, 5.36159896e-05, 1.03922639e-06, 7.34723289e-05,
        2.26790553e-06, 1.12883417e-05, 1.23069651e-04, 2.35791140e-06,
        4.35606926e-05, 9.39421170e-06, 9.43851137e-06, 1.18909338e-05,
        2.90087700e-01, 1.32962180e-06, 1.11726138e-06, 4.82717667e-07,
        7.83330051e-07, 1.77878258e-06, 1.06428593e-06, 4.15006480e-06,
        3.59363213e-07, 1.06543612e-05, 1.86802354e-05, 2.37400582e-06,
        4.75482266e-05, 3.49009696e-07, 3.42489238e-06, 2.67734231e-06,
        2.70726218e-06, 1.71914610e-06, 1.68194424e-06, 4.77355534e-05,
        1.71260717e-06, 3.14767249e-06, 2.08026017e-06, 1.58752828e-05,
        2.39898309e-05, 1.29838759e-06, 1.06505149e-06, 9.10020462e-05,
        1.03514658e-07, 9.21833362e-07, 2.65716108e-06, 1.241043

In [13]:
# чтобы расшифровать это дело, тоже есть специальная функция

tf.keras.applications.resnet.decode_predictions(pred)

[[('n01622779', 'great_grey_owl', 0.2900877),
  ('n02123045', 'tabby', 0.22539608),
  ('n02108915', 'French_bulldog', 0.120665394),
  ('n02124075', 'Egyptian_cat', 0.09189093),
  ('n02123159', 'tiger_cat', 0.032158583)]]

И как мы видим, самым вероятным классом внезапно оказалась "сова". Более того, в топе присутствует несколько отдельных пород кошек (и одна собака), но даже не все они содержат слово cat в названии. В то время как нам нужно просто отвечать на вопрос "кот или не кот". 

Вместо того, чтобы пытаться интерпретировать полученные результаты, которые ещё и не всегда точные, есть смысл попробовать дообучить последние слои на именно наших данных, а вдобавок навесить на него ещё и дополнительный слой из 1 нейрона для бинарной классификации.

Чтобы это сделать, сперва стоит заморозить все слои, кроме последних. Затем у последнего заменим функцию активации на ReLU (сейчас там стоит Softmax, т.к. это был последний слой в мультиклассовой классификации). Ну и наконец навесим на всё это дело слой из 1 нейрона для бинарной классификации.

In [14]:
# заморозим все слои

for layer in resnet.layers:
    layer.trainable = False

# но несколько последних разморозим обратно
# число 20 здесь взято для примера, а вообще, конечно,
# это тоже гиперпараметр, который нужно подбирать
# оптимальным может оказаться любое значение от 1 слоя до переобучения половины сети

for layer in resnet.layers[-20:]:
    layer.trainable = True

# заменим активацию на последнем слое

resnet.layers[-1].activation = tf.keras.activations.relu

In [15]:
# посмотрим, что получилось

resnet.summary()

Model: "resnet50"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, 224, 224, 3) 0                                            
__________________________________________________________________________________________________
conv1_pad (ZeroPadding2D)       (None, 230, 230, 3)  0           input_1[0][0]                    
__________________________________________________________________________________________________
conv1_conv (Conv2D)             (None, 112, 112, 64) 9472        conv1_pad[0][0]                  
__________________________________________________________________________________________________
conv1_bn (BatchNormalization)   (None, 112, 112, 64) 256         conv1_conv[0][0]                 
___________________________________________________________________________________________

Теперь сделаем новую модель на базе старой. Просто включим весь наш resnet в качестве слоя и добавим к нему всё необходимое.

In [16]:
model_cats = tf.keras.models.Sequential([
    resnet,  # вся модель выступает в качестве слоя
    tf.keras.layers.BatchNormalization(),  # почему бы и нет?
    tf.keras.layers.Dropout(0.5),  # по-хорошему, дропаут тоже нужно подбирать
    tf.keras.layers.Dense(1, activation='sigmoid')  # слой для бинарной классификации
])

In [17]:
# что в итоге?

model_cats.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
resnet50 (Functional)        (None, 1000)              25636712  
_________________________________________________________________
batch_normalization (BatchNo (None, 1000)              4000      
_________________________________________________________________
dropout (Dropout)            (None, 1000)              0         
_________________________________________________________________
dense (Dense)                (None, 1)                 1001      
Total params: 25,641,713
Trainable params: 9,933,217
Non-trainable params: 15,708,496
_________________________________________________________________


In [18]:
# скомпилируем получившуюся модель, добавив необходимые метрики

accuracy = tf.keras.metrics.binary_accuracy
precision = tf.keras.metrics.Precision()
recall = tf.keras.metrics.Recall()

# как и в прошлый раз, F1 напишем сами
def f1_metrics(y_true, y_pred):
    prec = precision(y_true, y_pred)
    rec = recall(y_true, y_pred)
    return 2 * ((prec * rec) / (prec + rec + 1e-7))


model_cats.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.00001),
                   loss=tf.keras.losses.binary_crossentropy,
                   metrics=[accuracy, precision, recall, f1_metrics])

Теперь нужно сформировать датасет для тренировки модели. Наши картинки располагаются в папке `pics`. Как их подготавливать для нейросети, мы уже знаем. Поэтому давайте перегоним их все в массивы.

In [19]:
# функция предподготовки картинки для модели

def preprocess_image(file):
    img = tf.keras.preprocessing.image.load_img(file, target_size=(224, 224))  # загружаем в нужном разрешении
    img = tf.keras.preprocessing.image.img_to_array(img)  # конвертируем в массив
    img = tf.keras.applications.resnet.preprocess_input(img)  # препроцессинг для resnet
    return img

Пробежимся по всем файлам в наших папках и добавим их в соответствующие списки. К каждой картинке добавим лейбл: если кот - 1, в иных случаях - 0. Это поможет не запутсаться в данных при перемешивании.

In [21]:
import os

In [22]:
# добавляем пары (картинка, 1) для картинок с котами
cats = [(preprocess_image('pics/cats/'+file), 1) for file in os.listdir('pics/cats')]

# и пары (картинка, 0) для картинок без котов
nocats = [(preprocess_image('pics/nocats/'+file), 0) for file in os.listdir('pics/nocats')]

In [23]:
# сливаем оба списка вместе

all_pics = cats + nocats

In [24]:
# и перемешиваем данные

random.shuffle(all_pics)

In [25]:
# в x отправляем картинки, а в y - прикреплённые к ним лейблы

x = np.array([a[0] for a in all_pics])
y = np.array([a[1] for a in all_pics])

In [26]:
# делим данные на трейн, валидацию и тест традиционным образом

def train_val_test_split(x, val_frac=0.15, test_frac=0.15):
    x_train = x[:round((1 - val_frac - test_frac) * len(x))]
    x_val = x[round((1 - val_frac - test_frac) * len(x)):round((1 - test_frac) * len(x))]
    x_test = x[round((1 - test_frac) * len(x)):]
    return x_train, x_val, x_test


x_train, x_val, x_test = train_val_test_split(x)
y_train, y_val, y_test = train_val_test_split(y)

В Keras уже есть инструмент для выполнения простеньких онлайн-аугментаций: `ImageDataGenerator`. Воспользуемся им, чтобы применять к картинкам случайные трансформации в процессе обучения. 

In [27]:
# настроек у этого класса куда больше, но для примера возьмём только самые основные 

datagen = tf.keras.preprocessing.image.ImageDataGenerator(rotation_range=45,  # случайный поворот в пределах 45 градусов
                                                          width_shift_range=0.2,  # случайный сдвиг по горизонтали
                                                          height_shift_range=0.2,  # и вертикали
                                                          horizontal_flip=True,  # случайное отражение по горизонтали
                                                          vertical_flip=True)  # и вертикали

# также у ImageDataGenerator есть полезный аргумент preprocessing_function,
# в котором можно указать любую свою функцию для обработки изображения

datagen.fit(x_train)

In [29]:
# будем отслеживать обучение в Tensorboard

tb_callback = tf.keras.callbacks.TensorBoard(log_dir='logs/tl_resnet_cats', histogram_freq=1)

# и уменьшать lr на плато

annealing = tf.keras.callbacks.ReduceLROnPlateau(monitor='val_loss', factor=0.1, patience=10, verbose=1)

In [30]:
bs = 32  # размер батча

# вместо самих данных подаём в цикл обучения картинки из нашего генератора
model_cats.fit(datagen.flow(x_train, y_train, batch_size=bs),  # обратите внимание, что размер батча указывается тут
               validation_data=(x_val, y_val),
               steps_per_epoch=len(x_train)/bs,  # чтобы генератор не уходил в бесконечный цикл, указываем количество шагов
               epochs=50,
               callbacks=[tb_callback, annealing])

Epoch 1/50
Instructions for updating:
use `tf.profiler.experimental.stop` instead.
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50


Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<tensorflow.python.keras.callbacks.History at 0x24aa97148b0>

In [31]:
# проверим модель на тестовой выборке

model_cats.evaluate(x_test, y_test)



[0.13511879742145538,
 0.9420289993286133,
 0.8888888955116272,
 0.9599999785423279,
 0.9236477017402649]

Результаты вполне себе неплохие, хоть и чуть отличаются от таковых на валидации. Но это можно объяснить небольшим размером датасета и тестовой+валидационной выборки в частности. Когда данных мало, отличия "в среднем" могут быть более заметны.

Давайте теперь посмотрим, определит ли наша модель, что на изначальной картинке всё-таки кошка, а не сова...

In [32]:
model_cats.predict(cat_img)

array([[0.98047835]], dtype=float32)

Теперь модель говорит, что на нашей картинке с 98%-ной вероятностью кошка. 

Таким образом, при помощи transfer learning предобученной свёрточной нейросети нам удалось дообучить нейросеть для решения более узкой задачи. Конечно, результат ещё можно продолжать улучшать, подбирая гиперпараметры и улучшая аугментации, но с этим вы уже можете справиться и самостоятельно =)