#  Функции активации

Функции активации вводят нелинейность в нейронные сети, что позволяет аппроксимировать сложные функции. Название связано с биологической аналогией, где нейроны активируются при достижении порогового потенциала.


Перцептроны, первые нейронные сети, использовали простую пороговую функцию активации:

$$\large f(x) =
\begin{cases}
0, &\text{$x<b$} \\
1, &\text{$x\geq b$}
\end{cases}
$$

<center><img src ="https://ml.gan4x4.ru/msu/dev-2.2/L05/out/threshold_function_plot.png" width="400"></center>

Однако, из-за её неинформативной производной, она непригодна для оптимизации методом градиентного спуска:

$$\large f'(x) =
\begin{cases}
0, &\text{$x\neq b$} \\
?, &\text{$x= b$}
\end{cases}
$$

## Требования к функциям активации

1. **Нелинейность:** Функции активации добавляют нелинейность, необходимую для аппроксимации сложных функций, чего нельзя достичь простой линейной моделью. Без нелинейностей нейронные сети действуют как линейные модели.

2. **Дифференцируемость:** Функции активации должны быть дифференцируемыми, чтобы применять градиентные методы оптимизации.

##  Различные функции активации

Рассмотрим наиболее популярные функции активации и обсудим их преимущества и недостатки.

<center><img src ="https://ml.gan4x4.ru/msu/dev-2.1/L05/popular_activation_functions.png" width="700"></center>

<center><em>Source: <a href="https://arxiv.org/pdf/1911.05187.pdf">AI in Pursuit of Happiness, Finding Only Sadness: Multi-Modal Facial Emotion Recognition Challenge</a></em></center>

##  Логистическая функция

Логистическая (сигмоидальная) функция — используется в задачах бинарной классификации, в основном после выхода последнего нейрона. Позволяет определить вероятность принадлежности к одному из двух классов (0 или 1).

$$\large \sigma(x)=\frac{1}{1+e^{-x}}$$

<center><img src ="https://ml.gan4x4.ru/msu/dev-2.2/L05/out/activation_function_sigmoid.png" width="1000"></center>

Примечательным свойством логистической функции является то, что ее производная выражается через саму функцию. Это значит, что, зная значение функции в точке, вычислить значение производной в этой точке очень легко:

$$\large \frac{d}{dx}\sigma(x) = \frac{d}{dx}(1+e^{-x})^{-1} = \frac{e^{-x}}{(1+e^{-x})^{2}} = \frac{1}{1+e^{-x}} \cdot \frac{1+e^{-x}-1}{1+e^{-x}} = \sigma(x)\cdot(1-\sigma(x))$$

В отличие от пороговой функции активации, где у нейрона было всего два состояния: "активирован" или "не активирован", с логистической функцией для нейрона возможны значения "активирован на $50\%$", "активирован на $20\%$" и так далее. Если активированы несколько нейронов, можно найти нейрон с наибольшим значением активации.

Свойства логистической функции активации:
1. **Диапазон значений:** От $0$ до $1$, что позволяет моделировать вероятности. Полезна в задачах бинарной и multi-label классификации.
2. **Гладкость:** Дифференцируема, что упрощает обучение.
3. **Насыщение:** Насыщается при больших/малых значениях, приводя к затуханию градиента (проблема затухающего градиента будет обсуждаться в следующих лекциях).

Применяется в основном для задач бинарной классификации. Реже используется в скрытых слоях из-за проблемы затухания градиента.

[[doc] 🛠️ Сигмоидальная функция активации в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.Sigmoid.html):
```python
torch.nn.Sigmoid()
```

In [None]:
import torch
from torch import nn

activation = nn.Sigmoid()
input_values = torch.randn(5) * 5
activation_sig = activation(input_values)
print(f"input_values: {input_values}\nactivation_sig: {activation_sig}")

input_values: tensor([-4.1746,  3.2210, -2.6507, -6.7530,  2.0411])
activation_sig: tensor([0.0151, 0.9616, 0.0659, 0.0012, 0.8850])


##  Гиперболический тангенс

Гиперболический тангенс схож с логистической функцией. Он определяется следующей формулой:

$$\large \tanh(x)=\frac{e^x - e^{-x}}{e^x+e^{-x}}$$

Также гиперболический тангенс может быть выражен через логистическую функцию:

$$\large \tanh(x) = 2\cdot\sigma(2x)-1$$

<center><img src ="https://ml.gan4x4.ru/msu/dev-2.2/L05/out/activation_function_tanh.png" width="1000"></center>

Производная гиперболического тангенса также [выражается через саму функцию ✏️[blog]](https://socratic.org/questions/what-is-the-derivative-of-tanh-x):

$$\large \frac{d}{dx}\tanh(x)=1-\tanh^2(x)$$


Гиперболический тангенс обладает следующими свойствами:
1. **Диапазон значений:** От $-1$ до $1$, симметричен относительно нуля.
2. **Гладкость:** Дифференцируем, облегчает обучение.
3. **Более высокая чувствительность:** Более чувствителен к изменениям входа, чем сигмоида.
4. **Центрирование вокруг нуля:** Ускоряет сходимость обучения.
5. **Насыщение:** Насыщается на краях, что приводит к затуханию градиента.

Используется для внутренних представлений, симметричных вокруг нуля, и часто применяется в скрытых слоях.

[[doc] 🛠️ Гиперболический тангенс в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.Tanh.html):
```python
torch.nn.Tanh()
```

In [None]:
activation = nn.Tanh()
input_values = torch.tensor([11.1529, 4.3029, 0.5081, -3.8456, -1.9058])
activation_tanh = activation(input_values)
print(f"input_values: {input_values}\nactivation_tanh: {activation_tanh}")

input_values: tensor([11.1529,  4.3029,  0.5081, -3.8456, -1.9058])
activation_tanh: tensor([ 1.0000,  0.9996,  0.4685, -0.9991, -0.9567])


##  ReLU

Часто на практике применяется функция активации ReLU. Значение данной функции равно нулю для всех отрицательных входных значений и равно входному значению, если оно неотрицательно.

$$\large \text{ReLU}(x)=\max(0,x)$$

<center><img src ="https://ml.gan4x4.ru/msu/dev-2.2/L05/out/activation_function_relu.png" width="1000"></center>

Производная ReLU:

$$\frac{d}{dx}\text{ReLU}(x) =
\begin{cases}
\displaystyle \frac{d}{dx}0, &\text{$x<0$} \\
\displaystyle \frac{d}{dx}x, &\text{$x\geq0$}
\end{cases}=
\begin{cases}
0, &\text{$x<0$} \\
1, &\text{$x\geq0$}
\end{cases}
$$

Функция ReLU имеет следующие свойства:
1. **Диапазон значений:** От 0 до $\infty$, обнуляет отрицательные значения.
2. **Отсутствие насыщения:** Не насыщается при положительных значениях, способствуя эффективному обучению.
3. **Простота:** Легка в вычислении и реализации.
4. **Проблема "умерших" нейронов:** Нулевой градиент для отрицательных входов останавливает обновление весов.

ReLU широко используется в скрытых слоях глубоких нейронных сетей благодаря своей эффективности.

[[doc] 🛠️ ReLU в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.ReLU.html):
```python
torch.nn.ReLU()
```

In [None]:
activation = nn.ReLU()
input_values = torch.randn(5)
activation_relu = activation(input_values)
print(f"input_values: {input_values}\nactivation_relu: {activation_relu}")

input_values: tensor([ 0.1650, -0.1988,  0.6777,  0.0415,  0.1600])
activation_relu: tensor([0.1650, 0.0000, 0.6777, 0.0415, 0.1600])


## Leaky ReLU

Leaky ReLU — модификация ReLU, которая решает проблему "умирания" нейронов, вводя небольшую линейную зависимость в отрицательной области, которая регулируется параметром $\alpha$.

$$\large \text{LeakyReLU}(x, \alpha)=\max(\alpha x,x), \ \ \ \alpha<1$$

<center><img src ="https://ml.gan4x4.ru/msu/dev-2.2/L05/out/activation_function_leaky_relu.png" width="1000"></center>

Производная Leaky ReLU:

$$\large \frac{d}{dx}\text{LeakyReLU}(x)=\frac{d}{dx}\max(\alpha x,x)=\begin{cases}
\displaystyle \frac{d}{dx}\alpha x, &\text{$x<0$} \\
\displaystyle \frac{d}{dx}x, &\text{$x\geq0$}
\end{cases}=
\begin{cases}
\alpha, &\text{$x<0$} \\
1, &\text{$x\geq0$}
\end{cases}$$

Свойства LeakyReLU:

1. **Диапазон значений:** От $-\infty$ до $+\infty$.
2. **Отсутствие насыщения:** Не насыщается, что предотвращает затухание градиента.
3. **Простота:** Легко вычисляется и дифференцируется.
4. **Преодоление проблемы "умерших" нейронов:** Ненулевой наклон для отрицательных значений устраняет эту проблему.
5. **Дополнительный гиперпараметр:** Требуется настройка наклона для отрицательной части.

Leaky ReLU используется в скрытых слоях для предотвращения проблемы "умерших" нейронов, особенно в глубоких нейронных сетях.

[[doc] 🛠️ Leaky ReLU в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.LeakyReLU.html):
```python
torch.nn.LeakyReLU()
```

In [None]:
activation = nn.LeakyReLU(0.01)
input_values = torch.randn(5)
activation_lrelu = activation(input_values)
print(f"input_values: {input_values}\nactivation_lrelu: {activation_lrelu}")

input_values: tensor([-0.2762, -0.8034,  0.4943, -1.2415,  0.3380])
activation_lrelu: tensor([-0.0028, -0.0080,  0.4943, -0.0124,  0.3380])


##  GELU (Gaussian Error Linear Unit)

GELU — функция активации, которая сочетает в себе свойства ReLU и сигмоиды. Она применяет к входным данным кумулятивную функцию гауссова распределения.

На практике GELU может быть приблизительно вычислена так:

$$\large \text{GELU}(x)\approx 0.5x(1+\tanh[\sqrt{2/\pi}(x+0.044715x^3)])$$

или

$$\large \text{GELU}(x) \approx x\cdot \sigma(1.702x)$$



<center><img src ="https://ml.gan4x4.ru/msu/dev-2.2/L05/out/activation_function_gelu.png" width="1000"></center>

Свойства GELU:

1. **Диапазон значений:** От $0$ до $+\infty$.
2. **Гладкость:** Является гладкой функцией, что облегчает обучение.
3. **Простота:** Не требует дополнительной настройки гиперпараметров.

GELU применяется в современных нейронных сетях, таких как трансформеры, и широко используется в архитектурах, требующих адаптивности и высокой производительности.

[[doc] 🛠️ GELU в PyTorch](https://pytorch.org/docs/stable/generated/torch.nn.GELU.html):
```python
torch.nn.GELU()
```

In [None]:
activation = nn.GELU()
input_values = torch.randn(5) * 5
activation_gelu = activation(input_values)
print(f"input_values: {input_values}\nactivation_gelu: {activation_gelu}")

input_values: tensor([ 2.5845, -2.3937,  2.7921,  5.3007,  7.7047])
activation_gelu: tensor([ 2.5719, -0.0200,  2.7847,  5.3007,  7.7047])


## Визуализация функций активации


<center><img src ="https://ml.gan4x4.ru/msu/dev-2.2/L05/out/animated_activation_functions.png" width="900"></center>

[[blog] ✏️ How Activation Functions Work in Deep Learning](https://www.kdnuggets.com/2022/06/activation-functions-work-deep-learning.html)