# Activation function (Функция активации)

- В искусственных нейронных сетях функция активации нейрона **определяет выходной сигнал**, который определяется входным сигналом или набором входных сигналов. 
- Это функция, которая добавляется в искусственную нейронную сеть, чтобы помочь сети изучить сложные закономерности в данных.
- В искусственных нейронных сетях эта функция также называется **передаточной функцией**.
- В биологических нейронных сетях функция активации обычно является абстракцией, представляющей **скорость возбуждения потенциала действия в клетке**. 
- Функция принимает выходной сигнал из предыдущей ячейки и преобразует его в некоторую форму, которую можно использовать в качестве входных данных для следующей ячейки.
- Наиболее важной особенностью функции активации является ее **способность добавлять нелинейность в нейронную сеть**.
- В отличии от биологической функции, математическая фунция активации также **помогает сохранить значение вывода нейрона ограниченным** до определенного предела в соответсвии с требованиями.

# Математическая модель нейрона

Input into the activation function is $W \cdot x + b$ where 
- $W$ &ndash; **weights** of the cell 
- $x$ &ndash; **inputs**
- $b$ &ndash; **bias** 

Значение этого выражения, если оно не ограничено определенным пределом, может быть очень большим, особенно в случае очень глубоких нейронных сетей с миллионами параметров. Это приведет к вычислительным проблемам. Поэтому необходимо вводить ограничение на значения.

<img src='https://raw.githubusercontent.com/ryndovaira-org/data_science_notes/main/diagrams/neuron_math_model.drawio.svg' />

# Activation functions

"$\doteq$" (two lines with a dot above them) used for "is defined as".

TODO

<img src='https://raw.githubusercontent.com/ryndovaira-org/data_science_notes/main/diagrams/activation_functions.drawio.svg' />

# Recomendations

- **Start with ReLU** in your network. 
    - Activation layer is added after the weight layer (something like CNN, RNN, LSTM or linear dense layer). 
    - If you think the model has **stopped learning**, then you can replace it with a **LeakyReLU to avoid the Dying ReLU problem**. However, the Leaky ReLU will increase the computation time a little bit.
- If you have **Batch-Norm layers** in your network, that is added before the activation function making the order CNN-Batch Norm-Act. 
    - Although the order of Batch-Norm and Activation function is a topic of debate and some say that the order doesn’t matter.
- Activation functions work **best in their default hyperparameters that are used in popular frameworks** such as Tensorflow and Pytorch.
    - However, one can fiddle with the negative slope in LeakyReLU and set it to 0.02 to expedite learning.

# Желательные свойства функций активации

- **Нелинейность**
    - Если функция активации нелинейна, можно доказать, что двухуровневая нейронная сеть будет универсальным аппроксиматором функции. Тождественная функция активации не удовлетворяет этому свойству.
    - Если несколько уровней используют тождественную функцию активации, вся сеть эквивалентна одноуровневой модели.
- **Непрерывная дифференцируемость**
    - Это свойство желательно (RELU не является непрерывно дифференцируемой и имеет некоторые проблемы с оптимизацией, основанной на градиентном спуске, но остаётся допустимой возможностью) для обеспечения методов оптимизации на основе градиентного спуска.
    - Двоичная ступенчатая функция активации не дифференцируема в точке 0 и её производная равна 0 во всех других точках, так что методы градиентного спуска не дают никакого успеха для неё.
- **Область значений**
    - Если множество значений функции активации ограничено, методы обучения на основе градиента более стабильны, поскольку представления эталонов существенно влияют лишь на ограниченный набор весов связей.
    - Если область значений бесконечна, обучение, как правило, более эффективно, поскольку представления эталонов существенно влияют на большинство весов. В последнем случае обычно необходим меньший темп обучения.
- **Монотонность**
    - Если функция активации монотонна, поверхность ошибок, ассоциированная с одноуровневой моделью, гарантированно будет выпуклой.
- **Гладкие функции с монотонной производной**
    - Показано, что в некоторых случаях они обеспечивают более высокую степень общности.
- **Аппроксимирует тождественную функцию около начала координат**
    - Если функции активации имеют это свойство, нейронная сеть будет обучаться эффективно, если её веса инициализированы малыми случайными значениями.
    - Если функция активации не аппроксимирует тождество около начала координат, нужно быть осторожным при инициализации весов.
- **Проблема исчезающего градиента**
    - Нейронные сети обучаются с использованием процесса градиентного спуска. Необходимо, чтобы наша функция активации не сдвигала градиент к нулю.
- **Zero-Centered**
    - Выходные данные функции активации должны быть симметричны нулю, чтобы градиенты не смещались в определенном направлении.

# References

[Activation function](https://en.wikipedia.org/wiki/Activation_function)

[Функция активации](https://ru.wikipedia.org/wiki/%D0%A4%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F_%D0%B0%D0%BA%D1%82%D0%B8%D0%B2%D0%B0%D1%86%D0%B8%D0%B8)

[Activation Functions in Neural Networks](https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6)

[Everything you need to know about “Activation Functions” in Deep learning models](https://towardsdatascience.com/everything-you-need-to-know-about-activation-functions-in-deep-learning-models-84ba9f82c253)

[]()

[]()

[]()

[]()

[]()
