#Сверточные нейронные сети (Convolutional Neural Network, CNN)

В прошлой работе мы разобрали структуру нейронной сети, а точнее прямо распространяющуюся нейронную сеть. В этот раз мы поговорим о другом типе нейронных сетей - сверточные. Возьмем двумерную сверточную сеть.

Сверточные сети построены на операции свертки.

Имеется ядро – небольшая матрица весов. Это ядро «скользит» по двумерным входным данным, выполняя поэлементное умножение для той части данных, которую сейчас покрывает. Результаты перемножений ячеек суммируются в одном выходном пикселе. В случае сверточных нейросетей ядро определяется в ходе обучения сети. 

Перемножение и суммирование повторяются для каждой локации, по которой проходит ядро. Двумерная матрица входных признаков преобразуется в двумерную матрицу выходных. Выходные признаки, таким образом, являются взвешенными суммами входных признаков. Число входных признаков в комбинации для одного выходного признака определяет размер ядра.

![convUrl](https://media.proglib.io/wp-uploads/2018/06/2.gif "Convolution")



Если представить находящуюся выше матрицу 5х5 как картинку: матрицу интенсивности пикселей, где 0 это черный, а 3 это белый, а 1 и 2 темно-серый и светло-серый, то получим некоторую картинку, к которой применяем нашу свертку - квадрат 3х3. На данной картинке это квадрат со значениями 0,1,2,2,2,0,0,1,2. Применяем свертку, то есть перемножаем ячейки свертки и картинки. Например, для первой ячейки выходной матрицы:


$3*0+3*1+2*2+0*2+0*2+1*0+3*0+1*1+2*2=12$

В целом, мы подаем на вход картинку, а получаем на выходе рассчитанные по ней коэффициенты.

# Многоканальность

Если раньше мы работали с черно-белыми изображениями, то в этот раз изображения цветные. Поэтому вместо одного канала мы теперь имеем три - по числу цветов RGB модели. 

![channelsUrl](https://neurohive.io/wp-content/uploads/2018/07/rgb-svertochnaja-neiroset.gif "Сhannels")

Свертка проходит по каждому из каналов, а затем суммирует их.

![channelsSumUrl](https://neurohive.io/wp-content/uploads/2018/07/glubokaja-svertochnaja-neironnaja-set.gif "Сhannels_Sum")

Таким образом,  нейронная сеть будет принимать на вход изображения размером nxn и 3 канала. Например, (150,150,3), как в нашей сети.

# Pooling

Еще один специальный слой, явяющийся подвыборочным. Он используется с целью уменьшения размерности предыдущего слоя. Если на предыдущей операции свертки уже были выявлены некоторые признаки, то для дальнейшей обработки настолько подробное изображение уже не нужно, и оно уплотняется до менее подробного. К тому же фильтрация уже ненужных деталей помогает не переобучаться.

Чаще всего используется уменьшение изображения в два раза путем использования матрицы 2х2 через операцию взятия максимума.

# Теперь поговорим о предобученных сетях

Обучение нейронной сети занимает не только много времени, но и требует большой размеченной выборки. Конечно, можно создавать свои сети с нуля и подбирать сеть для каждого конкретного случая. А можно упростить себе жизнь и взять для нашей задачи уже готовую нейронную сеть, обученную в течение долгого времени и показавшую хорошие результаты на своей задаче. Такая техника называется Transfer Learning или Перенос обучения.

То есть, Transfer Learning - это процесс дообучения на новых данных какой-либо нейросети, уже обученной до этого на других данных, обычно на каком-нибудь хорошем, большом (миллионы картинок) датасете.

Например, у нас есть сеть, хорошо распознающая самолет на картинке или танк. А мы хотим применить ее для распознавания кошек и собак. Так как на первых слоях нейронной сети происходит общая оценка изображения и мы не успеваем дойти до спецефичных признаков, мы можем использовать такую сеть для распознавания котов и собак.

Есть три основных пути:
* Взять предобученную на других данных нейронную сеть и просто предсказать наши картинки:

 +Не надо тратить время на обучение

 -Точность будет низкая для нашей задачи, если она сильно отличается

* Взять предобученную на других данных нейронную сеть, добавить к ней новые слои и обучить только их

 +Сокращается время на обучение, происходит подгон под нашу задачу

 -Точность будет выше, однако добавление новых слоев может перегрузить сеть

* Взять предобученную на других данных нейронную сеть, добавить новые слои. Но вместе с тем обучить не только новые слои, но и часть предобученной сети. Этот метод носит название Fine Tuning или Тонкая настройка.

 +Обучается не вся сеть, а только часть, отвечающая за специфичные признаки изображения

 -Точность должна возрасти, однако вероятно переобучение


В зависимости от количества и природы Ваших данных есть выбор из нескольких стратегий Transfer Learning, а именно:

* *У Вас **мало данных** ($\le$ 10k), и они **похожи** на данные, на которых была обучена сеть до этого*  

Можно использовать просто готовую модель. Но если точность вышла низкая, можно использовать второй путь. Если применить Fine-Tuning (3 способ), то сеть может переобучиться, поскольку данных мало.
* *У Вас **мало данных** ($\le$ 10k), и они **не похожи** на данные, на которых была обучена сеть до этого*  

Самый плохой вариант. Хорошим выходом будет второй вариант, но возможно придется выкинуть часть последних слоев преобученной сети и тогда уже добавить свой.
* *У Вас **много данных** ($\ge$ 10k), и они **похожи** на данные, на которых была обучена сеть до этого*  

Fine Tuning здесь подходит больше всего.
* *У Вас **много данных** ($\ge$ 10k), и они **не похожи** на данные, на которых была обучена сеть до этого*

Обычно здесь оставляют архитектуру сети и используют запомненные веса как начальные. А потом заново обучают всю сеть.

Нашей стратегией в этой работе будет первый вариант.

# Предобученная сеть VGG-16

VGG-16 — модель сверточной нейронной сети, предложенная K. Simonyan и A. Zisserman из Оксфордского университета в статье “Very Deep Convolutional Networks for Large-Scale Image Recognition”. Модель достигает точности 92.7% — топ-5, при тестировании ImageNet в задаче распознавания объектов на изображении. Этот датасет состоит из более чем 14 миллионов изображений, принадлежащих к 1000 классам.

Архитектуру данной сети вы можете увидеть на картинке.

На момент создания VGG люди уже заметили, что чем больше слоев в нейросети, тем выше ее точность. Заменяя большие фильтры на несколько фильтров 3$\times$3 исследователи получили глубокую нейросеть с меньшим количеством параметров. Архитектура VGG-16 (версии VGG с 16 слоями) представлена на картинке ниже:


<img src="https://cdn-images-1.medium.com/max/1040/1*0Tk4JclhGOCR_uLe6RKvUQ.png">

Когда говорят VGG, то чаще всего имеют ввиду VGG-16 или VGG-19. Более глубоких версий VGG нет, так как после 19 слоев точность начинает падать.

#Основные шаги по выполнению лабораторной работы

##Подготовка данных

Для начала работы подготовим данные

Скачайте файл train.zip с набором изображений кошек и собак с сайта соревнования Kaggle [Dogs vs. Cats](https://www.kaggle.com/c/dogs-vs-cats/data) и распакуйте его. Создайте папку cat_dogs (нажиамем правой кнопкой где-нибудь в поле, где находится sample_data, нажимаем new folder) и сделайте upload для 500 снимков кошек (cat0.jpg-cat499.jpg) и 500 собак (dog0.jpg-dog499.jpg). 

Чем на большем объеме данных будет обучаться ваша сеть, тем лучше, но это так же сильно увеличит время обучения сети. В реальных задачах это нормально, если  обучение нейронной сети на большом объеме данных занимает более 12 часов.  При обучении на всех изображениях точность продемонстрированных ниже сетей будет достигать 97%.

В рамках данной работы мы возьмем только 500 изображений, для экономии учебного времени.

Распределим эти фотографии по папкам: train, test и val. 

Каждая папка будет содержать две подпапки: cats и dogs.

In [0]:
import shutil
import os

In [0]:
# Каталог с набором данных
data_dir = './cat_dogs/'
# Каталог с данными для обучения
train_dir = 'train'
# Каталог с данными для проверки
val_dir = 'val'
# Каталог с данными для тестирования
test_dir = 'test'
# Часть набора данных для тестирования
test_data_portion = 0.15
# Часть набора данных для проверки
val_data_portion = 0.15
# Количество элементов данных в одном классе
nb_images = 500

Функция создания каталога с двумя подкаталогами по названию классов: cats и dogs

In [0]:
def create_directory(dir_name):
    if os.path.exists(dir_name):
        shutil.rmtree(dir_name)
    os.makedirs(dir_name)
    os.makedirs(os.path.join(dir_name, "cats"))
    os.makedirs(os.path.join(dir_name, "dogs"))

Создание структуры каталогов для обучающего, проверочного и тестового набора данных

In [0]:
create_directory(train_dir)
create_directory(val_dir)
create_directory(test_dir)


Функция копирования изображений в заданный каталог. Изображения котов и собак копируются в отдельные подкаталоги

In [0]:
def copy_images(start_index, end_index, source_dir, dest_dir):
    for i in range(start_index, end_index):
        shutil.copy2(os.path.join(source_dir, "cat." + str(i) + ".jpg"), 
                    os.path.join(dest_dir, "cats"))
        shutil.copy2(os.path.join(source_dir, "dog." + str(i) + ".jpg"), 
                   os.path.join(dest_dir, "dogs"))


Расчет индексов наборов данных для обучения, проверки и тестирования

In [0]:
start_val_data_idx = int(nb_images * (1 - val_data_portion - test_data_portion))
start_test_data_idx = int(nb_images * (1 - test_data_portion))
print(start_val_data_idx)
print(start_test_data_idx)

Копирование изображений

In [0]:
copy_images(0, start_val_data_idx, data_dir, train_dir)
copy_images(start_val_data_idx, start_test_data_idx, data_dir, val_dir)
copy_images(start_test_data_idx, nb_images, data_dir, test_dir)

## Создание нейронной сети на базе предварительно обученной нейронной сети VGG16

Сеть VGG16 ранее обучалась на похожих изображениях. Поэтому мы попробуем два способа:
* добавим свои слои к сети VGG16, но саму сеть обучать не будем
* разморозим только последний слой сети VGG16 и обучим с новыми слоями

### Импортируем необходимые библиотеки

In [0]:
from tensorflow.python.keras.preprocessing.image import ImageDataGenerator
from tensorflow.python.keras.models import Sequential, Model
from tensorflow.python.keras.layers import Activation, Dropout, Flatten, Dense
from tensorflow.python.keras.applications import VGG16
from tensorflow.python.keras.optimizers import Adam

Определим оставшиеся константы:

In [0]:
# Размеры изображения
img_width, img_height = 150, 150
# Размерность тензора на основе изображения для входных данных в нейронную сеть
input_shape = (img_width, img_height, 3)
# Размер мини-выборки
batch_size = 64
# Количество изображений для обучения
nb_train_samples = 700
# Количество изображений для проверки
nb_validation_samples = 150
# Количество изображений для тестирования
nb_test_samples = 150

Следующей строчкой мы загрузим предварительно обученную сеть VGG16. Сразу установим входную размерность, а именно 150 пикселей ширины на 150 пикселей выосоты на 3 канала цвета.

In [0]:
vgg16_net = VGG16(weights='imagenet', include_top=False, input_shape=(150, 150, 3))

"Замораживаем" веса предварительно обученной нейронной сети VGG16

In [0]:
vgg16_net.trainable = False

Посмотрим на структуру загруженной сети.

In [0]:
vgg16_net.summary()

Теперь давайте добавим к имеющейся сети несколько новых слоев. Возьмем выходные данные VGG16 нейронной сети и подадим их на вход нашего нового слоя Flatten, который преобразует эти данные в одномерный вектор. 

Dense - это уже знакомый нам полносвязный слой. 

Дальше идет слой Dropout, который "исключает" заданный процент нейронов. “Исключение” нейрона означает, что при любых входных данных или параметрах он возвращает 0.

In [0]:
x = vgg16_net.output
x = Flatten(name="flatten")(x)
x = Dense(256, activation="relu")(x)
x = Dropout(0.5)(x)
predictions = Dense(1, activation="sigmoid")(x)

model = Model(inputs=vgg16_net.input, outputs=predictions)

Посмотрим на структуру получившейся составной сети. Мы можем увидеть новые слои в конце.

In [0]:
model.summary()

In [0]:
model.compile(loss='binary_crossentropy',
              optimizer=Adam(lr=1e-5), 
              metrics=['accuracy'])

### Создаем генератор изображений

Еще один способ подать данные в сеть - это с помощью генератора изображений. Процесс предподготовки данных (например,оптимальное разбитие на выборки, нормализация или изменения размера изображения) имеет большое значение для нейронных сетей. Некоторые из этих процессов можно прописывать отдельно, а можно применить генератор изображений. 

В данном случае мы сделаем несколько вещей при помощи генератора:
* Нормализуем данные
* Изменим размерность картинок на подходящий в нейронную сеть
* Пропишем размер мини-выборки

Мы уже сталкивались с данными, в которых представителей одного класса больше, чем других. В таком случае часто применяется искуственная генерация изображений. Например, путем поворота или отражения картинки, увеличения или уменьшения, размытия четкоси. Все это позволяет делать генератор изображений, однако в данной работы мы не будем останавливаться на этом. Используем генератор для описанных выше целей.


Итак, генератор изображений создается на основе класса ImageDataGenerator. Генератор делит значения всех пикселов изображения на 255.

In [0]:
datagen = ImageDataGenerator(rescale=1. / 255)


Генератор данных для обучения, проверки и тестирования на основе изображений из каталога

In [0]:
train_generator = datagen.flow_from_directory(
    train_dir,
    target_size=(img_width, img_height),
    batch_size=batch_size,
    class_mode='binary')

In [0]:
val_generator = datagen.flow_from_directory(
    val_dir,
    target_size=(img_width, img_height),
    batch_size=batch_size,
    class_mode='binary')

In [0]:
test_generator = datagen.flow_from_directory(
    test_dir,
    target_size=(img_width, img_height),
    batch_size=batch_size,
    class_mode='binary')

### Обучаем модель с использованием генераторов


In [0]:
model.fit_generator(
    train_generator,
    steps_per_epoch=nb_train_samples // batch_size,
    epochs=10,
    validation_data=val_generator,
    validation_steps=nb_validation_samples // batch_size)

### Оценим качество сети

In [0]:
scores = model.evaluate_generator(test_generator, nb_test_samples // batch_size)
print("Аккуратность на тестовых данных: %.2f%%" % (scores[1]*100))

### Применение метода Fine Tuning

"Размораживаем" последний сверточный блок сети VGG16

In [0]:
vgg16_net.trainable = True
trainable = False
for layer in vgg16_net.layers:
    if layer.name == 'block5_conv1':
        trainable = True
    layer.trainable = trainable

Посмотрим на количество обучаемых параметров, оно должно было измениться.

In [0]:
model.summary()

In [0]:
model.compile(loss='binary_crossentropy',
              optimizer=Adam(lr=1e-5), 
              metrics=['accuracy'])

Возьмем небольшое количество эпох, чтобы избежать переобучения.

In [0]:
model.fit_generator(
    train_generator,
    steps_per_epoch=nb_train_samples // batch_size,
    epochs=2,
    validation_data=val_generator,
    validation_steps=nb_validation_samples // batch_size)

In [0]:
scores = model.evaluate_generator(test_generator, nb_test_samples // batch_size)
print("Аккуратность на тестовых данных: %.2f%%" % (scores[1]*100))

# Задание

1.  Запустите код, приведенный для примера, выше (обучите сети, проанализируйте результаты)
2. Создайте собвтенную нейронную сеть на базе предобученной сети VGG16 (можно взять другую предобученную сеть по желанию, например, AlexNet, Interception и  т.д). 

То есть в примере выше нужно поменять добавляемые слои после Flattern на ваш вариант. Например, вы можете использовать:
* Один дополнительный полносвязный слой Dense после Dropout
* Dropout с разным процентом исключения нейронов
* Также вы можете поменять количество эпох или размер мини-выборки

3. Сравните полученные результаты и сделайте выводы.

! не забудьте заново загрузить VGG16 или снова заморозить все слои в уже загруженной модели