### Функция активации

Ранее мы выяснили, что в каждый слой нейросети поступают входные данные. Они умножаются на веса полносвязного или свёрточного слоя, а результат передаётся в функцию активации или нелинейность. Мы также говорили о сигмоиде и ReLU, которые часто используются в качестве таких функций. Но список возможных вариантов не ограничивается только ими. Какой же следует выбирать?

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_2.png" width="700">

#### Функции активации: порог/ступенчатая

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_3.png" width="700">

### Ступенчатая функция активации

Первое, что приходит в голову, это вопрос о том, что считать границей активации для активационной функции. Если значение Y больше некоторого порогового значения, считаем нейрон активированным. В противном случае говорим, что нейрон неактивен. Такая схема должна сработать, но сначала давайте её формализуем.

* Функция А = активирована, если Y > граница, иначе нет.
* Другой способ:  A = 1, если Y > граница, иначе А = 0.


Функция, которую мы только что создали, называется ступенчатой. Такая функция представлена на рисунке ниже.

Функция принимает значение 1 (активирована), когда Y > 0 (граница), и значение 0 (не активирована) в противном случае.

Мы создали активационную функцию для нейрона. Это простой способ, однако в нём есть недостатки. Рассмотрим следующую ситуацию.

Представим, что мы создаем бинарный классификатор — модель, которая должна говорить “да” или “нет” (активирован или нет). Ступенчатая функция сделает это за вас — она в точности выводит 1 или 0.

Теперь представим случай, когда требуется большее количество нейронов для классификации многих классов: класс1, класс2, класс3 и так далее. Что будет, если активированными окажутся больше чем 1 нейрон? Все нейроны из функции активации выведут 1. В таком случае появляются вопросы о том, какой класс должен в итоге получиться для заданного объекта.

Мы хотим, чтобы активировался только один нейрон, а функции активации других нейронов были равна нулю (только в этом случае можно быть уверенным, что сеть правильно определяет класс). Такую сеть труднее обучать и добиваться сходимости. Если активационная функция не бинарная, то возможны значения “активирован на 50%”, “активирован на 20%” и так далее. Если активированы несколько нейронов, можно найти нейрон с наибольшим значением активационной функции (лучше, конечно, чтобы это была softmax функция, а не max. Но пока не будем заниматься этими вопросами).

Но в таком случае, как и ранее, если более одного нейрона говорят “активирован на 100%”, проблема по прежнему остается. Так как существуют промежуточные значения на выходе нейрона, процесс обучения проходит более гладко и быстро, а вероятность появления нескольких полностью активированных нейронов во время тренировки снижается по сравнению со ступенчатой функцией активации (хотя это зависит от того, что вы обучаете и на каких данных).

Мы определились, что хотим получать промежуточные значения активационной функции (аналоговая функция), а не просто говорить “активирован” или нет (бинарная функция).

1. Единичный скачок или жесткая пороговая функция (функция Хевисайда)

Простая кусочно-линейная функция. Если входное значение меньше порогового, то значение функции активации равно минимальному допустимому, иначе – максимально допустимому.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/step_function.png" width="500">


http://www.aiportal.ru/articles/neural-networks/activation-function.html картинка перерисовать

2. Линейный порог или гистерезис

Несложная кусочно-линейная функция. Имеет два линейных участка, где функция активации тождественно равна минимально допустимому и максимально допустимому значению и есть участок, на котором функция строго монотонно возрастает.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/linear_threshold_function.png" width="500">

http://www.aiportal.ru/articles/neural-networks/activation-function.html картинка перерисовать

#### Функции активации

Рассмотрим наиболее популярные функции активации и обсудим их преимущества и недостатки.

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_4.png" width="700">

#### Rectified linear unit (ReLU) - усеченное линейное преобразованиe

Отличие этой функции в том, что она имеет небольшой наклон в левой полуплоскости — значит, при отрицательных входных данных градиент не будет нулевым. 

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_5.png" width="700">

При этом функцию по-прежнему легко вычислить. То есть, она решает практически все перечисленные проблемы. Одной из её разновидностей является PReLU, которая выглядит как f(x) = max(𝛼x, x). 

#### Требования к функции активации

- Нелинейность
- Дифференцируемость
- Диапазон (переполнение)
- Скорость расчета
- Насыщение (Saturating gradient = vanishing gradient)
- Плотность активации 

**General and Adaptive Robust Loss Function**

https://towardsdatascience.com/the-most-awesome-loss-function-172ffc106c99


#### MaxOut

Maxout выбирает максимальную сумму из двух (или более) наборов весов, умноженных на исходные данные с учётом смещения.
Тем самым он обобщает ReLU и leaky ReLU, не обнуляя градиент. Но, как можно догадаться по виду функции, maxout требует удвоения параметров и нейронов.

$ maxout(x) = max(W_1 x + b_1, ..., W_n x + b_n)$

Вот как maxout обобщает ReLU и функцию модуля:

$ReLU(x) = maxout(0, x), |x| = maxout(-x, x)$

Подводя итог: используйте ReLU, можете попробовать взять leaky ReLU/Maxout/ELU.
На тангенс и сигмоиду лучше не рассчитывать (разве что для выходного слоя при задачах классификации).

- https://github.com/Duncanswilson/maxout-pytorch/blob/master/maxout_pytorch.ipynb
- https://cs231n.github.io/neural-networks-1/#actfun
- https://arxiv.org/pdf/1302.4389.pdf
- https://github.com/Usama113/Maxout-PyTorch/blob/master/Maxout.ipynb
- https://medium.com/@rahuljain13101999/maxout-learning-activation-function-279e274bbf8e


#### Популярность функций активации

<img src ="http://edunet.kea.su/repo/src/L06_CNN/img/L06_7.png" width="700">