# Сверточные нейронные сети
Технологии компьютерного зрения

https://habr.com/ru/post/456186/ 
много информации

## Полносвязная нейронная сеть 
(Fully-connected NN)

Предположим, что у нас есть исходное 3D-изображение 32x32x3. Растянем его в один длинный вектор 3072x1 и перемножим с матрицей весов размером, для примера, 10x3072. В итоге нам нужно получить активацию (вывод с оценками классов) — для этого берём каждую из 10 строк матрицы и выполняем скалярное произведение с исходным вектором.
В результате прохода по изображению мы получаем карту активации, также известную как карта признаков. Этот процесс называется пространственной свёрткой — более подробно о нём можно почитать в статье Свёртка в Deep Learning простыми словами. Из неё вы также можете узнать, почему размер карты активации получается меньше, чем у исходной фотографии.

К изображению можно применять множество фильтров и получать на выходе разные карты активации. Так мы сформируем один свёрточный слой. Чтобы создать целую нейросеть, слои чередуются друг за другом, а между ними добавляются функции активации (например, ReLU) и специальные pooling-слои, уменьшающие размер карт признаков.


<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_1.png" width="700">

### Функция активации

Ранее мы выяснили, что в каждый слой нейросети поступают входные данные. Они умножаются на веса полносвязного или свёрточного слоя, а результат передаётся в функцию активации или нелинейность. Мы также говорили о сигмоиде и ReLU, которые часто используются в качестве таких функций. Но список возможных вариантов не ограничивается только ими. Какой же следует выбирать?

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_2.png" width="700">

#### Функции активации: порог/ступенчатая

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_3.png" width="700">

### Ступенчатая функция активации

Первое, что приходит в голову, это вопрос о том, что считать границей активации для активационной функции. Если значение Y больше некоторого порогового значения, считаем нейрон активированным. В противном случае говорим, что нейрон неактивен. Такая схема должна сработать, но сначала давайте её формализуем.

* Функция А = активирована, если Y > граница, иначе нет.
* Другой способ:  A = 1, если Y > граница, иначе А = 0.


Функция, которую мы только что создали, называется ступенчатой. Такая функция представлена на рисунке ниже.

Функция принимает значение 1 (активирована), когда Y > 0 (граница), и значение 0 (не активирована) в противном случае.

Мы создали активационную функцию для нейрона. Это простой способ, однако в нём есть недостатки. Рассмотрим следующую ситуацию.

Представим, что мы создаем бинарный классификатор — модель, которая должна говорить “да” или “нет” (активирован или нет). Ступенчатая функция сделает это за вас — она в точности выводит 1 или 0.

Теперь представим случай, когда требуется большее количество нейронов для классификации многих классов: класс1, класс2, класс3 и так далее. Что будет, если активированными окажутся больше чем 1 нейрон? Все нейроны из функции активации выведут 1. В таком случае появляются вопросы о том, какой класс должен в итоге получиться для заданного объекта.

Мы хотим, чтобы активировался только один нейрон, а функции активации других нейронов были равна нулю (только в этом случае можно быть уверенным, что сеть правильно определяет класс). Такую сеть труднее обучать и добиваться сходимости. Если активационная функция не бинарная, то возможны значения “активирован на 50%”, “активирован на 20%” и так далее. Если активированы несколько нейронов, можно найти нейрон с наибольшим значением активационной функции (лучше, конечно, чтобы это была softmax функция, а не max. Но пока не будем заниматься этими вопросами).

Но в таком случае, как и ранее, если более одного нейрона говорят “активирован на 100%”, проблема по прежнему остается. Так как существуют промежуточные значения на выходе нейрона, процесс обучения проходит более гладко и быстро, а вероятность появления нескольких полностью активированных нейронов во время тренировки снижается по сравнению со ступенчатой функцией активации (хотя это зависит от того, что вы обучаете и на каких данных).

Мы определились, что хотим получать промежуточные значения активационной функции (аналоговая функция), а не просто говорить “активирован” или нет (бинарная функция).

1. Единичный скачок или жесткая пороговая функция

Простая кусочно-линейная функция. Если входное значение меньше порогового, то значение функции активации равно минимальному допустимому, иначе – максимально допустимому.

http://www.aiportal.ru/articles/neural-networks/activation-function.html картинка перерисовать

2. Линейный порог или гистерезис

Несложная кусочно-линейная функция. Имеет два линейных участка, где функция активации тождественно равна минимально допустимому и максимально допустимому значению и есть участок, на котором функция строго монотонно возрастает.

http://www.aiportal.ru/articles/neural-networks/activation-function.html картинка перерисовать

#### Функции активации

Рассмотрим наиболее популярные функции активации и обсудим их преимущества и недостатки.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_4.png" width="700">

#### Rectified linear unit (ReLU) - усеченное линейное преобразованиe

Отличие этой функции в том, что она имеет небольшой наклон в левой полуплоскости — значит, при отрицательных входных данных градиент не будет нулевым. 

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_5.png" width="700">

При этом функцию по-прежнему легко вычислить. То есть, она решает практически все перечисленные проблемы. Одной из её разновидностей является PReLU, которая выглядит как f(x) = max(𝛼x, x). 

#### Требования к функции активации

- Нелинейность
- Дифференцируемость
- Диапазон (переполнение)
- Скорость расчета
- Насыщение (Saturating gradient = vanishing gradient)
- Плотность активации 

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_6.png" width="700">

**General and Adaptive Robust Loss Function**

https://towardsdatascience.com/the-most-awesome-loss-function-172ffc106c99


#### MaxOut

Maxout выбирает максимальную сумму из двух наборов весов, умноженных на исходные данные с учётом смещения. Тем самым он обобщает ReLU и leaky ReLU, не обнуляя градиент. Но, как можно догадаться по виду функции, maxout требует удвоения параметров и нейронов.

Подводя итог: используйте ReLU, можете попробовать взять leaky ReLU/Maxout/ELU. На тангенс и сигмоиду лучше не рассчитывать.

- https://github.com/Duncanswilson/maxout-pytorch/blob/master/maxout_pytorch.ipynb
- https://cs231n.github.io/neural-networks-1/#actfun
- https://arxiv.org/pdf/1302.4389.pdf
- https://github.com/Usama113/Maxout-PyTorch/blob/master/Maxout.ipynb
- https://medium.com/@rahuljain13101999/maxout-learning-activation-function-279e274bbf8e


#### Популярность функций активации

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_7.png" width="700">

#### Результаты

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_8.png" width="700">

#### Нарушение связей между соседними пикселями

Предположим, что у нас есть исходное 3D-изображение 32x32x3. Растянем его в один длинный вектор 3072x1 и перемножим с матрицей весов размером, для примера, 10x3072. В итоге нам нужно получить активацию (вывод с оценками классов) — для этого берём каждую из 10 строк матрицы и выполняем скалярное произведение с исходным вектором.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_9.png" width="700">

### Рецептивные поля

Восприимчивое поле , или сенсорно пространство , является Разграниченной средой, где некоторые физиологические стимулы могут вызвать сенсорную нейронную реакцию в конкретных организмах.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_10.png" width="700">

Итак, в контексте нейронной сети рецептивное поле определяется как размер области на входе, которая производит функцию. По сути, это мера связи выходного объекта (любого слоя) с входной областью (патчем). Важно отметить, что идея рецептивных полей применима к локальным операциям (например, свертка, объединение). Например, в задачах на основе движения, таких как прогнозирование видео и оценка оптического потока, мы хотим фиксировать большие движения (смещения пикселей в 2D-сетке), поэтому мы хотим иметь адекватное воспринимающее поле. В частности, воспринимающего поля должно быть достаточно, если оно больше, чем наибольшая величина потока в наборе данных. Конечно, есть много способов увеличить воспринимающее поле в CNN.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_11.png" width="700">

При использовании в этом смысле этот термин принимает значение, напоминающее рецептивные поля в реальных биологических нервных системах. CNN имеют особую архитектуру, имитирующую способ функционирования мозга реальных животных; вместо того, чтобы каждый нейрон в каждом слое соединялся со всеми нейронами в следующем слое ( многослойный перцептрон ), нейроны организованы в трехмерную структуру таким образом, чтобы учесть пространственные отношения между разными нейронами относительно исходные данные. Поскольку CNN используются в основном в области компьютерного зрения , данные, которые представляют нейроны, обычно являются изображениями; каждый входной нейрон представляет один пиксель исходного изображения. Первый слой нейронов состоит из всех входных нейронов; нейроны на следующем уровне будут получать соединения от некоторых входных нейронов (пикселей), но не от всех, как это было бы в случае MLP и других традиционных нейронных сетей. Следовательно, вместо того, чтобы каждый нейрон принимал соединения от всех нейронов на предыдущем уровне, CNN используют рецептивную полевую компоновку, в которой каждый нейрон получает соединения только от подмножества нейронов на предыдущем (нижнем) уровне. Рецептивное поле нейрона в одном из нижних слоев охватывает только небольшую область изображения, в то время как рецептивное поле нейрона в последующих (более высоких) слоях включает комбинацию рецептивных полей от нескольких (но не всех) нейронов в слой до (т.е. нейрон на более высоком уровне «смотрит» на большую часть изображения, чем нейрон на более низком уровне). Таким образом, каждый последующий слой способен изучать все более абстрактные особенности исходного изображения. Считается, что использование рецептивных полей таким образом дает CNN преимущество в распознавании визуальных паттернов по сравнению с другими типами нейронных сетей.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_12.png" width="700">

### Hubel & Wiesel,1959

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_13.png" width="700">

### Ice Cube Model

Эта гипотетическая кубическая модель придумана для пояснения устройства клеток первичной визуальной коры, а именно  – как устроены предпочитаемые ориентации и, соответственно, реакции нейронов V1. Так, V1 можно условно поделить на кубы 2 ммˆ3, каждый из которых получает сигналы от обоих глаз. Клетки с одинаковыми ориентационными предпочтениями формируют горизонтальные колонки, при этом соседние вертикальные колонки имеют слегка отличающиеся ориентационные предпочтения.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_14.png" width="700">

Чувствительные к цветам клетки также собраны в столбцы (также их называют каплями, гиперколонками, шариками) 0,5 мм в диаметре в зонах соответствующих превалирующих глаз (картинка с цилиндрами). Каждый такой столбец содержит реагирующие либо на красно-зеленый, либо на сине-желтый контрасты.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_14-1.png" width="400">

https://docplayer.ru/79903347-Kasyanov-evgeniy-dmitrievich-sankt-peterburg-nmic-pn-im-v-m-beh-k-m-n-fedotov-ilya-andreevich-ryazan-ryazgmu.html

### История - что именно включить? Можно перенести из 1 лекции?

В 1957 году Фрэнк Розенблатт изобрёл вычислительную систему «Марк-1», которая стала первой реализацией перцептрона. Этот алгоритм тоже использует интерпретацию линейного классификатора и функцию потерь, но на выходе выдаёт либо 0, либо 1, без промежуточных значений.

<img src ="http://edunet.kea.su/repo/src/L01_Intro/img/mp/hist.png" width="700">

- Frank Rosenblatt, ~1957: Perceptron
- Hubel & Wiesel,1959
- Neocognitron [Fukushima 1980]
- LeNet-5 [LeCun, Bottou, Bengio, Haffner 1998]
- AlexNet [Krizhevsky, Sutskever, Hinton, 2012]

## Свертка

Свертка - это математическая операция, которая объединяет две функции в третью. Например, допустим, что у нас есть две данные функции, **е(т)** а также **г(т)** и мы заинтересованы в применении одного поверх другого и вычислении площади пересечения:**f (t) * g (t) = (f * g) (t)**

В этом случае мы применяем **г(т)**(называется ядром) более **е(т)** и изменение ответа **(Е* г) (т)** согласно пересечению над областью обеих функций. Эта концепция свертки является наиболее используемой техникой обработки сигналов, поэтому она также применяется в компьютерном зрении, что можно рассматривать как обработку сигнала от нескольких датчиков RGB. Интуиция в эффективности свертки заключается в их способности фильтровать заданные входные сигналы в объединенный, более полезный результат.

В конкретном случае изображений сигнал лучше понимается с точки зрения матриц, а не форм волны. Поэтому наши функциие **(т)а** также **г(т)** теперь станетизображение *(матрица)* а также Ядро *(матрица)* соответственно. 
Еще раз, мы можем применить свертку, сдвинув одну из матриц поверх другой:

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06.gif" width="700">

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06-1.png" width="300">

То, что вы видите выше, это просто матричное умножение скользящего окна на изображении с ядром, а затем сложение суммы. Сила сверток в контексте Computer Vision заключается в том, что они являются отличными экстракторами функций для области датчиков RGB. При индивидуальном рассмотрении каждый пиксель (датчик RGB) бессмысленно понимать, что содержит изображение. Именно отношения друг с другом в пространстве придают образу истинный смысл. Это относится к тому, как вы читаете эту статью на своем компьютере, когда пиксели, представляющие символы, и ваш мозг сопоставляют черные пиксели друг с другом в пространстве, чтобы сформировать концепцию символов.

Перемещая различные ядра свертки по изображению, можно выполнять манипуляции с изображениями. Вот как работают многие инструменты, которые можно найти в программах для редактирования изображений, таких как Photoshop или Gimp:

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06-4.gif" width="700">

### Свертка с фильтром

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_9.png" width="700">

В результате получим число, которое можно сравнить со значением нейрона. В нашем случае получится 10 значений. По этому принципу работают полносвязные слои.

Основное отличие свёрточных слоёв в том, что они сохраняют пространственную структуру изображения. Теперь мы будем использовать веса в виде небольших фильтров — пространственных матриц, которые проходят по всему изображению и выполняют скалярное произведение на каждом его участке. При этом размерность фильтра (не путать с размером) всегда соответствует размерности исходного снимка.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_15.png" width="700">

### Свертка с ядром 3x3x1

В Deep Learning свертка - это поэлементное умножение и сложение. Для изображения с 1 каналом свертка показана на рисунке ниже. Здесь фильтр представляет собой матрицу 3 x 3 с элементом [[1, 0, 1], [0, 1, 0], [1, 0, 1]]. Фильтр скользит по входу. В каждой позиции он выполняет поэлементное умножение и сложение. Каждая скользящая позиция заканчивается одним номером. Окончательный результат - матрица 3 x 3.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06-2.gif" width="300">

*Свертка изображения 5x5x1 с ядром 3x3x1 для получения свернутой функции 3x3x1*

В вышеприведенном демонстрации, зеленая секция напоминает наш входной 5x5x1 образ, я . Элемент, участвующий в выполнении операции свертки в первой части сверточного слоя, называется ядром / фильтром K , представленным желтым цветом. Мы выбрали K как матрицу 3x3x1.

In [None]:
Kernel/Filter, K =
1  0  1
0  1  0
1  0  1

*Свёрточный слой является основным слоем при построении свёрточных нейронных сетей.*

Обзор без погружения в особенности работы головного мозга. Давайте сперва попробуем разобраться в том, что же всё-таки вычисляет CONV-слой без погружения и затрагивания темы мозга и нейронов. Параметры свёрточного слоя состоят из набора обучаемых фильтров. Каждый фильтр представляет собой небольшую сетку вдоль ширины и высоты, но простирающуюся по всей глубине входного представления.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_15-1.png" width="200">

Например, стандартный фильтр на первом слое свёрточной нейронной сети может иметь размеры 5х5х3 (5px — ширина и высота, 3 — количество цветовых каналов). Во время прямого прохода мы перемещаем (если быть точными — свёртываем) фильтр вдоль ширины и высоты входного представления и вычисляем скалярное произведение между значениями фильтра и подлежащими значениями входного представления в любой точке. В процессе перемещения фильтра вдоль ширины и высоты входного представления мы формируем 2х мерную карту активации, которая содержит значения применения данного фильтра к каждой из областей входного представления. Интуитивно становится ясно, что сеть обучит фильтры активироваться при виде определённого визуального признака, например, прямой под определённым углом или колесообразных представлений на более высоких уровнях. Теперь, когда мы применили все наши фильтры к исходному изображению, например, их было 12. В результате применения 12 фильтров мы получили 12 активационных карт размерностью 2. Чтобы произвести выходное представление — объединим эти карты (последовательно по 3-му измерению) и получим представление размерностью [WxHx12].

### Уменьшение числа параметров для обучения

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_16.png" width="700">

### Сверка + активация

В результате прохода по изображению мы получаем карту активации, также известную как карта признаков. Этот процесс называется пространственной свёрткой — более подробно о нём можно почитать в статье Свёртка в Deep Learning простыми словами. Из неё вы также можете узнать, почему размер карты активации получается меньше, чем у исходной фотографии.

К изображению можно применять множество фильтров и получать на выходе разные карты активации. Так мы сформируем один свёрточный слой. Чтобы создать целую нейросеть, слои чередуются друг за другом, а между ними добавляются функции активации (например, ReLU) и специальные pooling-слои, уменьшающие размер карт признаков.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_17.png" width="700">

### Параметры сверточного слоя

Обратите внимание, что некоторые слои содержат параметры, а некоторые — нет. В частности, CONV/FC-слои осуществляют трансформацию, которая является не только функцией зависящей от входных данных, но и зависящей от внутренних значений весов и смещений в самих нейронах. С другой стороны, RELU/POOL-слои применяют непараметризованные функции. Параметры в CONV/FC-слоях будут натренированы градиентным спуском таким образом, чтобы входные данные получали соответствующие корректные выходные метки.

Параметры:
- Размер фильтра (F)
- Шаг (stride)

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_18.png" width="200">

### Размер следующего слоя 

**N = 7, F = 3**

stride 1 => (7 - 3)/1 + 1 = 5 

stride 2 => (7 - 3)/2 + 1 = 3 

stride 3 => (7 - 3)/3 + 1 = **2.33**

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_19.png" width="250">

### Изменение размера за счет краев

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_20.png" width="400">

## Расширение (padding)  

Можно заметить, что применение операции свертки уменьшает изображение. Также пиксели, которые находятся на границе изображения участвуют в меньшем количестве сверток, чем внутренние. В связи с этим в сверточных слоях используется дополнение изображения (англ. padding). Выходы с предыдущего слоя дополняются пикселями так, чтобы после свертки сохранился размер изображения. Такие свертки называют одинаковыми (англ. same convolution), а свертки без дополнения изображения называются правильными (англ. valid convolution). Среди способов, которыми можно заполнить новые пиксели, можно выделить следующие:

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_21.png" width="250">

padding = (F-1)/2


*F - размер фильтра*

zero shift: 00[ABC]00;

border extension: AA[ABC]CC;

mirror shift: BA[ABC]CB;

cyclic shift: BC[ABC]AB.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06-3.gif" width="700">

### Пример кода с библиотекой DeepLearning.scala

http://neerc.ifmo.ru/wiki/index.php?title=Сверточные_нейронные_сети#:~:text=Основными%20видами%20слоев%20в%20сверточной,fully-connected%20layer).

In [None]:
// Загрузка датасета
   val cifar10 = Cifar10.load().blockingAwait
   // Определение слоёв
   def myNeuralNetwork(input: INDArray):  INDArrayLayer = {
       val cnnLayer = maxPool(relu(conv2d(input.reshape(input.shape()(0), Cifar10.NumberOfChannels, PixelHeight, PixelWidth), cnnWeight, cnnBias, (KernelHeight, KernelWidth), (Stride, Stride), (Padding, Padding))), (PoolSize, PoolSize))
       val affineRuleOfCnnLayer = relu(affine(cnnLayer.reshape(input.shape()(0), NumFilters * (PixelHeight / PoolSize) * (PixelWidth / PoolSize)), affineWeight, affineBias))
       val affineOfaffineRuleOfCnnLayer = affine(affineRuleOfCnnLayer.reshape(input.shape()(0), HiddenDim), affineLastWeight, affineLastBias)
       val softmaxValue = softmax(affineOfaffineRuleOfCnnLayer)
       softmaxValue
   }
   // Определение функции потерь
   def lossFunction(input: INDArray, expectOutput: INDArray): DoubleLayer = { 
       val probabilities = myNeuralNetwork(input)
       -(hyperparameters.log(probabilities) * expectOutput).mean   
   }

In [None]:
class Trainer(batchSize: Int, numberOfEpoches: Int = 5) {
       import scalaz.std.anyVal._
       import scalaz.syntax.all._
       @volatile
       private var isShuttingDown: Boolean = false
       private val lossBuffer = scala.collection.mutable.Buffer.empty[Double]
       def plotLoss(): Unit = Seq(Scatter(lossBuffer.indices, lossBuffer)).plot(title = "loss by time")
       def interrupt(): Unit = isShuttingDown = true
       def startTrain(): Unit = {
           @monadic[Future]
           def trainTask: Future[Unit] = {
               isShuttingDown = false
               var epoch = 0
           
               while (epoch < numberOfEpoches && !isShuttingDown) {
                   val cifar10 = Cifar10.load().blockingAwait
                   val iterator = cifar10.epoch(batchSize).zipWithIndex
                   while (iterator.hasNext && !isShuttingDown) {
                       val (Cifar10.Batch(labels, batch), i) = iterator.next()
                       val loss = lossFunction(batch, labels).train.each
                       lossBuffer += loss
                       hyperparameters.logger.info(s"epoch=epoch iteration=i batchSize=batchSize loss=loss")
                   }
                   epoch += 1
               }
               hyperparameters.logger.info("Done")
           }
           trainTask.onComplete { tryUnit: scala.util.Try[Unit] => tryUnit.get }
       }
   }

#### Входы и выходы сверточного слоя

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_22.png" width="700">

#### Операция свертки в PyTorch

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_23.png" width="700">

#### Уменьшение количества нейронов


- <font color=red >Не использовать расширение (padding)</font> 
- <font color=red >Увеличить шаг</font> 
- <font color=green >Свертка с фильтром 1x1</font> 
- <font color=green >Уплотнение (Субдискретизация, Pooling)</font> 

#### Свертка с фильтром 1x1

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_24.png" width="500">

#### Уплотнение (Субдискретизация, Pooling)

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_24_1.png" width="700">

#### Max and average pooling

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_25.png" width="700">

#### Фильтры

Рассмотрим подробнее, что же представляют собой свёрточные фильтры. В самых первых слоях они обычно соотносятся с низкоуровневыми признаками изображения, например, с краями и границами. В середине присутствуют более сложные особенности, такие как углы и окружности. И в финальных слоях фильтры уже больше напоминают некие специфичные признаки, которые можно интерпретировать более широко.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_26.png" width="700">

На рисунке ниже показаны примеры фильтров 5x5 и карты активации, которые получаются в результате их применения к исходному изображению (в левом верхнем углу). Первый фильтр (обведён в красную рамку) похож на небольшой участок границы, наклонённой вправо. Если мы применим его к фотографии, то наиболее высокие значения (белого цвета) получатся в тех местах, где есть края примерно с такой же ориентацией. В этом можно убедиться, посмотрев на первую карту активации.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_26-1.png" width="700">

#### Основные слои сверточной нейронной сети

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_27.png" width="700">

Таким образом, один слой нейросети находит наиболее похожие на заданные фильтры участки изображения. Этот процесс очень похож на обычную свёртку двух функций. Она показывает, насколько объекты коррелируют друг с другом.

Сложив всё вместе, мы получим примерно следующую картину: взяв исходную фотографию, мы проводим её через чередующиеся свёрточные слои, функции активации и pooling-слои. В самом конце мы используем обычный полносвязный слой, соединённый со всеми выводами, который показывает нам итоговые оценки для каждого класса. 

#### Обучение

1. Подготовка данных (Data Preprocessing)
2. Инициализация весов (Weight Initialization)
3. Пакетная нормализация (Batch Normalization)*
4. Обучение (Optimization)*
5. Переобучение (Overfitting)*:
   
*Регуляризация, Dropout*


#### Справочник по сверткам

https://arxiv.org/pdf/1603.07285v1.pdf

https://towardsdatascience.com/types-of-convolutions-in-deep-learning-717013397f4d


the best: 
https://towardsdatascience.com/a-comprehensive-introduction-to-different-types-of-convolutions-in-deep-learning-669281e58215


#### Pytorch. Tensor

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_28.png" width="700">

#### __call__ in Pytorch

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_29.png" width="700">

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_30.png" width="700">

Backpropagation:
https://colab.research.google.com/drive/1X6hKtyZFqk9YstrpbOIFEnZc4Ub24Uj_?usp=sharing

Упражнение №3: 
Обучить 2-х  слойную полно-связанную сеть.
https://colab.research.google.com/drive/1Gb7wgd_bFnCSdheFh8MtDtV3CTp50zW4?usp=sharing


#### Подготовка данных (Data Preprocessing)

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_31.png" width="700">

#### Инициализация весов

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_32.png" width="700">

#### Инициализация методом Завьера (Xavier/Glorot)

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_33.png" width="700">

#### Инициализация для ReLU

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_34.png" width="700">

#### Инициализация Kaiming (He/MSRA)

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_35.png" width="700">

#### Пример инициализации в PyTorch

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_36.png" width="700">

https://pytorch.org/tutorials/beginner/blitz/neural_networks_tutorial.html

#### Обучение (Optimization)

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_37.png" width="700">

#### Сверточная нейронная сеть

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_38.png" width="700">

### Обратное распространение

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_39.png" width="700">

#### Рецептивные поля

Простые
ориентация 


- Сложные
-- ориентация + движение

- Сверхсложные
-- ориентация + движение + длина


<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_40.png" width="100">

#### Результаты

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_41.png" width="700">

#### Функция активации

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_42.png" width="700">

#### GeLU

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_43.png" width="700">

#### Функции активации

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_44.png" width="700">

#### Параметры сверточного слоя

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_45.png" width="700">

#### Свертка с фильтром

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_46.png" width="700">