# Funções de ativação
Quando você constrói sua rede neural, uma das escolhas que você tem que fazer é qual a função de ativação usar nas camadas ocultas, bem como quais serão as unidades de saída de sua rede neural.

Funções de ativação devem atender a dois critérios:
1.  Deve estar ativa para entradas "corretas" e inativa para entradas "erradas". Os valores referentes a cada classificação variam;
2.  Deve ser não linear para que a rede como um todo possa representar funções não-lineares.

Elas devem serem não lineares devido a esse comportamento fazer com que as redes neurais aprendam mais do que relações lineares entre as variáveis dependentes e independentes. O problema que essa não linearidade pode trazer é a de fazer com que a superfície de custo da rede neural deixe de ser convexa, dessa forma tornando mais complicado o processo de otimização. Além disso, algumas não linearidade tornam o problema de gradientes explodindo ou desvanecendo mais evidente.

## Função sigmóide
Idealmente se usa essa ativação apenas nas camadas de saída e em problemas de classificação binária, visto que outras funções possuem comportamentos melhores de apredizagem para as outras camadas.

Sua equação é:
\begin{equation}
    \sigma(x) = \frac{1}{1+e^{-x}}
\end{equation}

E sua derivada é:
\begin{equation}
    \sigma'(x) = \sigma(x)(1 - \sigma(x))
\end{equation}

O gráfico a seguir mostra o comportamento dela ($z$ nesse caso seria o eixo horizontal):

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Logistic-curve.svg/320px-Logistic-curve.svg.png">

Podemos perceber, por exemplo, que ela cruza o eixo vertical em $0.5$.

Podemos realizar algumas observações, como:
1.  Se $z$ é muito grande, então $e^{-z}$ será próximo de zero. Dessa forma: $\sigma(z) \thickapprox \frac{1}{1+0} \thickapprox 1$;
1.  Se $z$ é muito pequeno ou é um número negativo muito grande, então $e^{-z}$ será um número muito grande. Dessa forma: $\sigma(z) \thickapprox \frac{1}{1+numero\_grande} \thickapprox 0$;

## Função TanH
Também conhecida como **função tangente hiperbólica**, é uma função que varia de $-1$ a $+1$. Comparado a função sigmóide, a função TanH possui a característica de melhor centralizar os dados, porque a média das ativações está mais próxima à $0$ (podendo atingir esse valor) do que a $0,5$, como é o caso da função sigmóide. Essa característica facilita o aprendizado para a próxima camada.

Sua equação é:
\begin{equation}
    tanh(x) = \frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}
\end{equation}

Se você perceber, ela é apenas como se tivessemos movido a função sigmóide. Devido a isso, podemos reescrever a função como:

Sua equação é:
\begin{equation}
    tanh(x) = 2\sigma(2x) - 1
\end{equation}

Sua sua derivada é:
\begin{equation}
    tanh'(x) = 1 - tanh^{2}(x)
\end{equation}

O gráfico a seguir mostra o comportamento dela ($x$ nesse caso seria o eixo horizontal):

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/87/Hyperbolic_Tangent.svg/1200px-Hyperbolic_Tangent.svg.png">

Podemos perceber, por exemplo, que ela cruza o eixo vertical em $0$.

No geral, a função tanH é melhor que a função sigmóide, com exceção para a camada de saída, porque se $y = 0$ ou $y = 1$, nesse caso as saídas ($\hat{y}$) irão variar entre $0$ e $1$, e não entre $-1$ e $1$. Porém, uma desvantagem que ambas as funções compartilham é quando $x$ é muito grande ou muito pequeno, então o gradiente, ou a derivada ou a inclinação dessa função torna-se muito pequena, sendo próxima de $0$, podendo retardar a descida do gradiente.

## Função ReLU
Também conhecida como **função linear retificada**. Sua equação é:
\begin{equation}
    ReLU(x) = max\{0, x\}
\end{equation}

Sua derivada é:
\begin{equation}
    ReLU'(x) = \left\{
      \begin{array}{ll}
        1, x \geq 0 \\
        0, c.c.
      \end{array}
    \right.
\end{equation}

O gráfico a seguir mostra o comportamento dela ($x$ nesse caso seria o eixo horizontal):

<img src="https://matheusfacure.github.io/img/tutorial/activations/RELU.png">

Algo importante a ser ressaltado é que, visto que essa função se parece com a função identidade, ela torna-se mais fácil de ser otimizada que outras funções. Outra observação que podemos fazer é que sua derivada não está definida em $0$, mas podemos implementá-la como sendo $0$ ou $1$.
