# Функции активации

Свойства функции активации:
* Она ограничена
* Она непрерывна
* Она монотонна
* Она везде дифференцируема (но не всегда)

### Пороговая функция активации (функция Хевисайда)
* Бинарная классификация
* Использовалась в нейроне МакКаллока-Питтса
* Не определена в точке 0
* $f'(x) = 0$

$$\varphi (x)={\begin{cases}1,&x> 0;\\0,&x<0.\end{cases}}$$

### Функция знака
* Бинарная классификация
* Использовалась в перцептроне Розенблата

$$\varphi(x) = sign(x)$$

### Линейная функция активации
* Всегда есть ненулевой градиент
$$\varphi(x) = Cx$$

### Логистическая функция активации (сигмоида)
$$\varphi(x) = \sigma(x) = \frac{1}{1+e^{-x}}$$
* $f'(x) = f(x)(1 - f(x))$
* $0 < \sigma(x) < 1$:
    * При $x \rightarrow \infty, \quad \sigma(x) \rightarrow 1$
    * При $x \rightarrow -\infty, \quad \sigma(x) \rightarrow 0$
* Не центрирована относительно 0, что снижает скорость сходимости
* Быстро насыщается при очень больших и очень маленьких значениях аргумента, что плохо, так как в таком случае градиент функции становится близким к нулю, что приводит к затуханию градиента
* Может быть интерпретирована как вероятность или log-вероятность принадлежности объекта к классу 1

### Гиперболический тангенс
$$\varphi(x) = tanh(x) = {\frac {e^{x}-e^{-x}}{e^{x}+e^{-x}}} = {\frac {e^{2x}-1}{e^{2x}+1}}$$

* $f'(x) = 1 - f^2(x)$
* $-1 < tanh(x) < 1$
* Центрирован в 0
* Быстро насыщается

### Softsign
$$\varphi(x) = softsign(x) = \frac{x}{1 + |x|}$$
* $f'(x) = \frac{1}{(1 + |x|)^2}$
* Центрирован в 0
* Быстро насыщается

### ReLU (Rectified linear unit) или линейный выпрямитель
$$\varphi(x) = ReLU(x) = max\{0, x\}$$
* Кусочно-линейная функция активации
* Ускоряет вычисления засчет простоты:
$$f'(x) = \begin{equation*}\begin{cases} 0, & x < 0 \\ 1, & x > 0 \end{cases} \end{equation*}$$
* Не дифференцируема в нуле - в этой точке необходимо использовать правую или левую производную
* При неудачной инициализации весов может всегда "гасить" нейрон в ноль
 
### Модификации ReLU
* SoftPlus: $$\log{(1 + e^x)}$$
* Leaky ReLU (LReLU):
$$
\begin{equation*}
LReLU(x) =  
 \begin{cases}
   ax, & x < 0\\
   x, & x > 0
 \end{cases}
\end{equation*}
$$
* Parametric ReLU (PReLU): аналогично с LReLU, но константа обучается как гиперпараметр
* Exponential Linear Unit (ELU):
$$
\begin{equation*}
PLU(x) =  
 \begin{cases}
   \alpha (e^x - 1), & x < 0\\
   x, & x \ge 0
 \end{cases}
\end{equation*}
$$

### Графики функций активации
<img src="pictures/activations.png" width=500 height=500 />