# **HANDS-ON 4: Funções de Ativação**

As funções de ativação são extremamente importantes para as redes neurais. Essas funções são as responsáveis por dar uma ampla gama de possibilidades para as redes neurais. Existe uma classe quase infinita de funções de ativações, mas iremos nos ater a somente as mais famosas nesse período. Veja algumas dessas funções:

![](../Imagens/Unidade%201/activation_functions.png)

Link da Imagem: [Clique Aqui](https://www.researchgate.net/figure/Some-of-the-most-common-activation-functions-and-their-first-order-gradient-From-left-to_fig4_346898697)

Se utilizarnos um modelo simples - como uma equação linear - ela é simples de resolver, mas limita a sua capacidade de resolver problemas complexos. O que garante uma abordagem mais geral à resolução de problemas é não linearidade das funções de ativação. Uma rede neural sem função de ativação é essencialmente apenas um modelo de regressão linear. A função de ativação faz a transformação não-linear nos dados de entrada, tornando-o capaz de aprender e executar tarefas mais complexas. 

![](../Imagens/Unidade%201/modelo_funcao_ativacao.png)

* Onde $W$ são os inputs multiplicados pelos seus respectivos pesos
* O Símbolo $Σ$ representa o somatório dos valores de $W$

Podemos escrever esse diagrama matematicamente como sendo:

$$ output = \text{FuncaoAtivação} \left( \sum_{n=0}^N input \cdot weight + bias \right)$$

### **Função de Etapa Binária (Binary Step Function)**

Essa função pode ser considerada como uma das mais simples. Ela é baseada na ideia de limiar, isto é, o neurônio é ativado se o valor de entrada for maior que o limiar. Ela pode ser usada ao criar um classificador binário. Quando simplesmente precisamos dizer sim ou não para uma única classe, a função de etapa seria a melhor escolha, pois ativaria o neurônio ou deixaria zero. Veremos posteriormente sobre a retropropagação(backpropagation, em inglês), mas matenha em mente que a retropropagação depende do gradiente da função de etapa( relacionado com a derivada da função de ativação).

$$ f(x) = \left\{\begin{matrix} 0 & \text{ se x < 0} \\  1 & \text{ se x>= 0} \end{matrix} \right.$$

Como a derivada da função ativação é zero, utilizar retropropagação para ajustar os pesos não é viável.

In [23]:
def binary_step_function(x):
    return 1 if x >= 0 else 0

### **Função Linear (Linear Function)**

A função linear é muito boa para resoler problemas de ordem linear. Além disso, essa ativação é muito famosa pois pode ser utilizada para determinar a regressão em alguns dados. A derivada de uma função linear é constante, isto é, não depende do valor de entrada x. Isso significa que toda vez que fazemos backpropagation, o gradiente seria o mesmo. 

$$ f(x) = a \cdot x $$

In [24]:
def linear_step_function(a, x):
    return a*x

### **Sigmóide**

Esta é uma função suave e é continuamente diferenciável. Por ser uma função diferenciável, ela pode ser utilizada para ajustar os pesos de uma rede neural através de backpropagation.Além disso, devemos notar que a função varia entre os valores 0, valores mais voltados à esquerda, e 1, valores mais voltados a direita. A função sigmoide é dada por:

$$ f(x) = \frac{1}{1 + e^{-x}} $$

In [1]:
# Simoide
import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

### **Tangente Hiperbólica**

A função tanh é muito semelhante à função sigmóide. Na verdade, é apenas uma versão escalonada da função sigmóide.

$$ f(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} $$

In [26]:
# tanh
def tanh(x):
    return np.tanh(x)

### **ReLU**

ReLU é a função de ativação mais amplamente utilizada ao projetar redes neurais atualmente. A principal vantagem de usar a função ReLU sobre outras funções de ativação é que ela não ativa todos os neurônios ao mesmo tempo. O que isto significa ? Se você olhar para a função ReLU e a entrada for negativa, ela será convertida em zero e o neurônio não será ativado. Isso significa que, ao mesmo tempo, apenas alguns neurônios são ativados, tornando a rede esparsa e eficiente e fácil para a computação.

$$ f(x) = \max(0, x) $$

In [27]:
# ReLU
def relu(x):
    return np.maximum(0, x)

### **Softmax**

A função softmax transforma as saídas para cada classe para valores entre 0 e 1 e também divide pela soma das saídas. A função softmax também é um tipo de função sigmóide, mas é útil quando tentamos lidar com problemas de classificação.

$$ f(x) = \frac{e^{x_1} + e^{x_2} + ... + e^{x_n}}{e^{x_1} + e^{x_2} + ... + e^{x_n}} $$

In [28]:
# Softmax
def softmax(x):
    exp_x = np.exp(x)
    return exp_x / np.sum(exp_x)

# **Referência Bibliográfica**

1 - **Capítulo 8 – Função de Ativação.** Disponível em: <https://www.deeplearningbook.com.br/funcao-de-ativacao/#:~:text=A%20fun%C3%A7%C3%A3o%20de%20ativa%C3%A7%C3%A3o%20%C3%A9%20a%20transforma%C3%A7%C3%A3o%20n%C3%A3o%20linear%20que,simplesmente%20fazem%20uma%20transforma%C3%A7%C3%A3o%20linear.>. Acesso em 17 de maio de 2022.