# Глава 2. Сверточные нейронные сети

## Часть 1. Базовая концепция

### Вступление

Сверточные нейронные сети широко распространены в разнообразных приложениях. В основном в задачах распознавания изображений и видео, но также применимы для обработки текста и временных последовательностей.

Сверточные нейронные сети как и классические нейронные сети состоят из нейронов со своими весами и векторами сдвига. Каждый нейрон получает несколько входов, вычисляет взвешенную сумму по ним, передает ее через функцию активации и формирует вывод. Вся сеть также имеет функцию потерь. По большому счету, все советы и рекомендации, которые разработаны для нейронных сетей, также применимы и к CNN. 

### Чем сверточные нейронные сети отличаются от полносвязных?

CNN оперируют с объемами

RGB изображение представимо в виде трехмерного объема интенсивностей пикселей

![title](img/cnn1.png)

В отличие от полносвязных нейронных сетей, где вход представляет собой вектор, здесь вход представляет собой многоканальное изображение (в данном случае 3 канала).

Есть и другие отличия, о которых мы поговорим чуть позже.

Прежде чем углубляться, давайте сначала поймем, что означает свертка.

### Свертка

Свертка изображения с помощью фильтра (оператора свертки)

![title](img/cnn2.png)

Мы берем фильтр 5 * 5 * 3 и перемещаем его по всему изображению, а затем получаем точечное произведение между фильтром и элементами входного изображения.

![title](img/cnn3.png)

Для каждого полученного скалярного произведения получается скаляр.

Итак, что происходит, когда мы сворачиваем полное изображение с фильтром?

![title](img/cnn4.png)

Не сложно догадаться, как получается «28». (Подсказка: есть 28 * 28 уникальных позиций как фильтр может быть наложен на изображение)

### Обратно к сверточным сетям..

Сверточный слой - это главный строительный блок сверточной нейронной сети

![title](img/cnn5.png)

Сверточный слой содержит набор независимых фильтров (6 в показанном примере). Каждый фильтр независимо сверочивается с изображением, и мы получаем 6 активационных карт размера 28 * 28 * 1.

Предположим, у нас есть ряд последовательных сверточных слоев. Что дальше?

![title](img/cnn6.png)

#### Вопрос 1. Почему после третьего сверточного слоя размерность 24x24x10?

Все эти фильтры инициализируются случайным образом и становятся нашими параметрами (весами), которые впоследствии будут подбираться в процессе обучения сверточной сети.

Далее покажем пример обучения сети

Фильтры на разных уровнях глубины сверточной нейронной сети

![title](img/cnn7.png)

Давайте посмотрим на фильтры в самом первом слое (это наши фильтры 5 * 5 * 3). Благодаря методу обратного распространения ошибки (backprop), фильтры настроились и стали пятнами цветных кусочков и краев. По мере того, как мы углубляемся в другие сверточные слои, фильтры делают точечные произведения с предыдущими сверточными слоями. В каждом следующем слое фильтры начинают отражать все более мелкомасштабные особенности (структуру) изображения

Посмотрите на изображение 4 и представьте сетку 28 * 28 * 1 в виде сетки из 28 * 28 нейронов. Для карты активации (выходные данные, полученные при свертывании изображения с определенным фильтром, называются картой активации), каждый нейрон подключен только к небольшому фрагменту входного изображения, и все нейроны имеют одинаковые веса связей. 

Итак, снова возвращаясь к различиям между CNN и нейронной сетью.

### У CNN есть две важных концепции:
* раcпределение параметров (parameter sharing) 
* локальным соединением (local connectivity)

Совместные параметры - это распределение весов между всеми нейронами в определенной карте активации.

Локальная связь - это концепция в основе каждого нейрона, которые связывается только с подмножеством входного изображения (в отличие от полновсвязной нейронной сети, где все нейроны полностью связаны)

Это помогает уменьшить общее количество параметров во всей сети, и делает вычисления более эффективными.

Я не буду говорить о концепции заполнения нулями (zero padding). Заинтересованные люди могут прочитать об этом отдельно!

### Слои пулинга (субдискретизации)

Слой субдискретизации - еще один фундаментальный блок сверточной нейронной сети

![title](img/cnn8.png)

Его функция заключается в постепенном уменьшении пространственного размера представления, чтобы уменьшить количество параметров и вычислений в сети. Слой пулинга работает на каждой карте объектов независимо.

Наиболее распространенный подход, используемый в пулинге, является макспулингом (max pooling).

![title](img/cnn9.png)

### Классическая архитектура CNN

![title](img/cnn10.jpeg)

Мы уже говорили о сверточных слоях (обычно обозначаемых CONV) и пулинга (обозначаемых POOL).

RELU - это просто функция активации или нелинейность, которая применяется аналогично классическим нейронным сетям.

FC - полносвязный слой нейронов в конце CNN. Нейроны в полностью связанном слое имеют полные соединения со всеми активациями в предыдущем слое, как это видно в обычных нейронных сетях, и работают аналогичным образом.

Существует много вариаций архитектур CNN, но, как я уже говорил, основная концепция остается неизменной CONV -> RELU -> POOL -> CONV -> RELU -> POOL -> ... -> FC

### Если у вас есть вопросы / комментарии - прошу!