# Activation Functions

Algumas das funções de ativação para redes neurais. Elas recebem o resultado da função soma da camada anterior e retornam um valor transformado de acordo com a função para a próxima camada.

In [1]:
import numpy as np

## Step Function
**Recomendação:** Classificação binária.

**Retorno :** Retorna 0 ou 1 somente.
 
**Descrição:** Não ultilizada em Deep Learning pois só trabalha com problemas linearmente separáveis.
Retorna o valor 1 quando a soma é igual ou maior que 1, e retorna 0 quando a soma é menor que 1.

In [None]:
def StepFunction(soma):
  if soma >= 1:
    return 1
  return 0


StepFunction(7), StepFunction(-10)

(1, 0)

#### Sigmoid
 **Recomendação:** Classificação binária.

**Retorno :** Retorna valores entre 0 e 1.
 
**Descrição:** Muito ultilizada para classificação binária, inclusive é possivel ver a probabilidade para a classe. 

In [15]:
def SigmoidFunction(soma):
  return 1 / ( 1 + np.exp(-soma))


SigmoidFunction(0.267)

0.5663562616210012

#### Hyperbolic Tangent
 **Recomendação:** Classificação binária.

**Retorno :** Retorna valores entre -1 e 1.
 
**Descrição:** Comunmente usada para classificação binária, boa para quando temos muitos valores negativos nos dados. Seu diferencial é que valores negativos serão mapeados negativos mesmo, mas dentro da escala de até -1.



In [None]:
def tahnFunction(soma):
  return (np.exp(soma) - np.exp(-soma)) / (np.exp(soma) + np.exp(-soma))


tahnFunction(12), tahnFunction(-12)

(0.9999999999244972, -0.9999999999244972)

#### Relu (Rectified Linear Units)
Recomendação: Redes neurais convolucionais (Visão computacional) e redes neurais profundas (muitas camadas escondidas).

**Retorno :** Retorna um valor igual ou maior que zero.
 
**Descrição:** Uma das funções mais usadas, principalmente em redes neurais profundas. Normalmente traz ótimos resultados mas se for ultilizada em dados com valores negativos, não irá ter bons resultados já que ela "zera" a entradas negativas as tornando inuteis.

In [None]:
def reluFunction(soma):
  if soma >= 0:
    return soma
  return 0


reluFunction(7), reluFunction(-10)

(7, 0)

#### Linear
 **Recomendação:** Regressão.

**Retorno :** Retorna o mesmo valor, sem alteração.
 
**Descrição:** Muita ultilizada para regressão pois em casos como prever preços por exemplo, retorna um valor equivalente e não em escala.

In [None]:
def LinearFunction(soma):
  return soma


LinearFunction(7)

7

####Softmax
 **Recomendação:** Classificação com mais de duas classes e redes neurais convolucionais.

 **Retorno :** Retorna um valor de probabilidade para cada classe. A soma das probabilidades retornadas é igual a 1.
 
**Descrição:** Talvez a função mais usada em Deep Learning. Ela retorna a probabilidade para cada classe por isso recebe mais de um valor de soma, isso na camada de saída. Deve receber um vetor com os valores por exemplo.

**Nota:** Ultilizada primariamente na camada de sáida.


In [None]:
def SoftmaxFunction(vetor):
  ex = np.exp(valores)
  return ex / ex.sum()


valores = [2.1, 3.4 , 7.2, 2.6]
SoftmaxFunction(valores)

array([0.00587061, 0.02154103, 0.96290935, 0.00967901])

# Loss functions
Antes de apresentar as loss functions, vou criar vetores e matrizes aleatorios, para simular uma rede neural e seus parametros (W e B).

Assim como vou criar X e Y, que irão simular um dataset.


In [43]:
def inicializar_parametros(layer_dims):
    """
    Arguments:
    layer_dims -- Array Python (lista) contendo as dimensões das cada camada da rede neural.
    Ex: Se layer_dims = [5, 4, 4, 2], temos temos uam rede neural como 4 camadas. Camada 1 com 5 neurônios, camada 2 com 4 neurônios, e assim sucessivamente.
    
    Retorna:
    parameters -- Dicionário python, contendo os parametros "W1", "b1", ..., "WL", "bL":
    onde WL e bL representam a matrix W(pesos) e o vetor b(bias) da última camada da rede neural.
                    Wl -- Matrix/vetor de pesos com dimensão (layer_dims[l], layer_dims[l-1])
                    bl -- Vetor de bias com dimensão (layer_dims[l], 1)

    X = Matriz aleatória numpy simulando um dataset. Terá dimensões 5x5  
    y = Array numpy simulando as classes de um dataset. Terá dimensões de 5x1, sendo 0 ou 1.             
    """
    
    np.random.seed(3) # Para ter os mesmos resultados sempre.
    parametros = {}
    L = len(layer_dims) # Número de camadas da rede neural

    for l in range(1, L):
        
        parametros['W' + str(l)] = np.random.randn(layer_dims[l], layer_dims[l-1]) * 0.01    
        parametros["b" + str(l)] = np.zeros((layer_dims[l], 1))
        
        
        
        

    
    X = np.random.randint(0,5, size = (5,5))
    y = np.random.randint(2, size = (5,1))

    # Simulando o output da forward propagation. (Deveria ser os parametros da ultima camada(WL e bL), mas para simplificar vou usar os paranmetros da primeira camada mesmo)
    AL = np.dot(X, parametros['W1']) + parametros['b1']
    AL = SigmoidFunction(AL)

        
    return parametros, AL, y

In [60]:
layer_dims = [5, 5, 4, 2]
parametros, AL, y = inicializar_parametros(layer_dims)

In [61]:
parametros

{'W1': array([[ 0.01788628,  0.0043651 ,  0.00096497, -0.01863493, -0.00277388],
        [-0.00354759, -0.00082741, -0.00627001, -0.00043818, -0.00477218],
        [-0.01313865,  0.00884622,  0.00881318,  0.01709573,  0.00050034],
        [-0.00404677, -0.0054536 , -0.01546477,  0.00982367, -0.01101068],
        [-0.01185047, -0.0020565 ,  0.01486148,  0.00236716, -0.01023785]]),
 'W2': array([[-0.00712993,  0.00625245, -0.00160513, -0.00768836, -0.00230031],
        [ 0.00745056,  0.01976111, -0.01244123, -0.00626417, -0.00803766],
        [-0.02419083, -0.00923792, -0.01023876,  0.01123978, -0.00131914],
        [-0.01623285,  0.00646675, -0.00356271, -0.01743141, -0.0059665 ]]),
 'W3': array([[-0.00588594, -0.00873882,  0.00029714, -0.02248258],
        [-0.00267762,  0.01013183,  0.00852798,  0.01108187]]),
 'b1': array([[0.],
        [0.],
        [0.],
        [0.],
        [0.]]),
 'b2': array([[0.],
        [0.],
        [0.],
        [0.]]),
 'b3': array([[0.],
        [0.]])}

In [62]:
AL

array([[0.5109275 , 0.50459256, 0.49459978, 0.48776873, 0.49102036],
       [0.49602577, 0.49812248, 0.49984918, 0.50304767, 0.49468807],
       [0.4980603 , 0.50451779, 0.49954083, 0.50519394, 0.48148024],
       [0.47099671, 0.50133612, 0.50820915, 0.52925312, 0.47926371],
       [0.5053714 , 0.51037771, 0.50287232, 0.49385854, 0.49402252]])

In [63]:
y

array([[0],
       [1],
       [0],
       [1],
       [1]])

### Cross-entropy 


$$J  =  -\frac{1}{m} \sum\limits_{i = 1}^{m} (y^{(i)}\log\left(a^{[L] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right))$$

* **J ->** Comumente usado para denotar o valor de custo.
* **m ->** Numero de exemplos ou tamanho do dataset.
* **y -> A** "groud truth", a verdadeira classe do respectivo exemplo(x).
* **aL ->** "a" é o resultado da camada anterior da rede neural, "l" vem de layer e representa a respectiva camada da rede neural, no caso "L" representa a última camada da rede. Então "aL" é o valor de saída da rede neural, também conhecido como yhat.
* **log ->** logaritmo natural (a base é o número de Euler).
* **i ->** representa cada exemplo, diferente do "m" que representa todos.


A cross-entropy cost function, é uma função de custo* usada na camada de saída para retornar um valor de  probabilidade para cada classe.
Há algumas variações desta função, e também variações de nomes (Ex:Log loss).
Quando usada com a função de ativação softmax, é cahamda de "categorical cross entropy" que é a mais apropriada para classificações com multiplas classes.
Temos pequenas variações na hora de computar o gradiente também, dependendo de qual cross-entropy está sendo usada e qual função de ativação.
Para classificação binária, cross entropy e sigmoid é uma combinação eficaz e recomendada. Com esta combinação, cross entropy passa a se chamar Binary cross entropy. 

Fonte: https://gombru.github.io/2018/05/23/cross_entropy_loss/


**Nota1:** A cross-entropy é chamada de cost function, mas cost e loss function são a mesma coisa, só "diferem" em uma coisa. Normalmente se usa o termo cost quanto se trata da **MÉDIA** do valor da loss function, sobre todo os exemplos(dados de treino). Enquanto loss function/error function é usado quando se trata de somente um exemplo. 

**Nota 2:** É muito comum usar a L2 loss function junto com a cross-entropy, para regularização (diminuição da variância do modelo). Para isso, somamos o valor de custo da cross-entropy com o valor de custo da L2.  

Com L2:
$$J_{withL2} = \small \underbrace{-\frac{1}{m} \sum\limits_{i = 1}^{m} \large{(}\small y^{(i)}\log\left(a^{[L](i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right) \large{)} }_\text{cross-entropy cost} + \underbrace{\frac{1}{m} \frac{\lambda}{2} \sum\limits_l\sum\limits_k\sum\limits_j W_{k,j}^{[l]2} }_\text{L2 regularization cost}$$

* **λ ->** Hiperparâmetro lambda, é um valor escalar.

* **W ->** São os pesos da camada em questão, elevados ao quadrado.
Na formula, temos a soma de W[l] ao quadrado para cada "w" da rede neural, como na rede tem 3 camadas ocultas, temos w[l]l, w[l]k e w[l]j.
* **l, j e k ->** Representam as camadas da rede neural. Se "k" é a camada um, então W[l]k representa W1, que uma matriz ou vetor com os pesos da camada 1.

In [64]:

def cross_entropy_cost(AL, Y):
    """
    Implementa a função de custo "Cross-Entropy".

    Argumentos:
    AL -- Output do processo de forward propagation, é um vetor de probabilidades correspondentes as previsões para cada classe.
    Y -- Vetor com a verdadeira classe. (Por exemplo: Contendo 0 não é gato, ou 1 para gato).

    Retorna:
    J -- cross-entropy cost
    """
    
    m = Y.shape[1] # o numero de exemplos contidos no dataset.

   
    # Computa a cost function sem a regularização(L2).
    cost = np.dot((-1 / m), np.sum(np.multiply(Y, np.log(AL)) + np.multiply(1 - Y, np.log(1 - AL))))

    
    
    cost = np.squeeze(cost)   # Para garantir a dimensão correta. (Transforma [[10]] em 10).

    
    return cost

print(f'O valor de custo usando a função cross-entropy é: {cross_entropy_cost(AL, y)}')

O valor de custo usando a função cross-entropy é: 17.316031767206688


In [68]:
def cross_entropy_cost_with_l2(AL, Y, parametros, lambd):
    """
    Implementa a função de custo "Cross-Entropy" com regularização L2.
    
    Argumentos:
     AL -- Output do processo de forward propagation, é um vetor de probabilidades correspondentes as previsões para cada classe.
     Y -- Vetor com a verdadeira classe. (Por exemplo: Contendo 0 não é gato, ou 1 para gato).
     lambd -- Hiperparâmetro de regularização, um escalar.
     parametros -- representa um dicionário com os parametros da rede neural, neste caso, precisamos dos valores de W1, W2 e W3, 
     que são vetores com os valores dos pesos das respectivas camadas da rede neural. (Neste exemplo a rede neural tem 3 camadas)

    Retorna:
    J_regularizado -- cross-entropy cost com regularização L2.
    cost_with_CE -- cross-entropy sem regularização.
    L2_regularization_cost -- valor da função de custo L2

    """
    m = Y.shape[1]    # o numero de exemplos contidos no dataset.
    W1 = parametros["W1"]  # Matriz W1, com os pesos da primeira camada oculta da rede.
    W2 = parametros["W2"]  # Matriz W2, com os pesos da segunda camada oculta da rede.
    W3 = parametros["W3"]  # Matriz W3, com os pesos da terceira camada oculta da rede.


    # Retorna o resultado da cross entropy cost, função criada acima.
    cost_with_CE = cross_entropy_cost(AL, Y) 
    
    # Cálculo da função de custo L2.
    L2_regularization_cost = np.dot(1 / m, lambd / 2) * (np.sum(np.square(W1))+np.sum(np.square(W2))+np.sum(np.square(W3)))
    
    
    # Como vimos na equação, cross entropy com regularização L2 é simplesmente a soma entre os respectivos resultados.
    J_regularizado = cost_with_CE + L2_regularization_cost
    
    return J_regularizado, cost_with_CE, L2_regularization_cost

J_r, ce, l2 = cross_entropy_cost_with_l2(AL, y, parametros, lambd=0.7)
print(f'J sem regularização: {ce}')
print(f'Valor da loss L2: {l2}')
print(f'Valor de J regularizado (Soma da cross-entropy com L2): {J_r}')

J sem regularização: 17.316031767206688
Valor da loss L2: 0.0020001862588035803
Valor de J regularizado (Soma da cross-entropy com L2): 17.318031953465493
