### Swish

Эксперименты исследователей из Google показали, что функция активации [**Swish**](https://arxiv.org/pdf/1710.05941v1.pdf) улучшает точность глубоких моделей. Простая замена **ReLU** на **Swish** дала прирост 0.9% точности для **Mobile NASNet-A** (на ImageNet challenge).

 Посмотрим, что из себя представляет активация **Swish**:
 $$f(x) = x*\sigma(\beta x)$$





Мы видим сигмоиду и некий параметр $ \beta $, который может быть определен как константа или как обучаемый параметр. 

* Если $\beta = 0$, **Swish** становится линейной функцией $f(x) = \frac{x}{2} $

* Если $\beta\to \infty$ сигмоидная составляющая приближается к пороговой функции, поэтому **Swish** становится похожим на функцию **ReLU**. 

То есть, нелинейность функции **Swish** может контролироваться моделью, если $\beta$ задан в качестве обучаемого параметра.

Главное отличие **Swish** от **ReLU** — это ее немонотонность.

Ниже на графике представлено распределение значений, которые принимает $ \beta $ (являясь обучаемым параметром) при обучении **Mobile NASNet-A**. Видно, что значения распределены от 0 до 1.5, также виден резкий пик при значении = 1.  


<center><img src ="https://edunet.kea.su/repo/EduNet-content/L09/out/swish_b_parameter.png"  width="500"></center

На практике, чтобы не увеличивать количество обучаемых параметров, используют **Swish** со значением $\beta = 1$ . В PyTorch такая реализация вызывается `nn.SiLU()` (**Si**gmoid **L**inear **U**nit) 

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import torch
from torch import nn

silu = nn.SiLU()
array = np.arange(-5, 5, 0.01)
activated = silu(torch.Tensor(array))

plt.figure(figsize=(8, 4), dpi=100)
plt.plot(array, activated, label="$f(x)=x*\sigma(x)$")
plt.legend()
plt.grid()
plt.title("SiLU")
ax = plt.gca()
ax.spines["top"].set_color("none")
ax.spines["bottom"].set_position("zero")
ax.spines["left"].set_position("zero")
ax.spines["right"].set_color("none")
plt.ylim(bottom=-2)
plt.axis()
plt.show()

In [None]:
from torchvision import models

mobilenet = models.mobilenet_v3_small(weights=None)
print(mobilenet)