__Objetivos__:

- Implementar as principais funções de ativação
- Entender intuitivamente como $w$ e $b$ influenciam nas funções de ativação

# Sumário

- [Linear](#Linear)
- [Sigmoid](#Sigmoid)
- [Tanh](#Tanh)
- [Rectified Linear Unit (ReLU)](#Rectified-Linear-Unit-(ReLU))
- [Leaky ReLU](#Leaky-ReLU)
- [Exponential Linear Unit (eLU)](#Exponential-Linear-Unit-(eLU))
- [Tabela das Funções de Ativação](#Tabela-das-Funções-de-Ativação)
- [Referências](#Referências)

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import ipywidgets as wg
from ipywidgets import interactive, fixed

%matplotlib inline

In [2]:
def plot_interactive(w, b, func, ylim=fixed((0, 1)), show_der=False):
    plt.figure(0)
    
    x = np.linspace(-10, 10, num=1000)
    z = w*x + b
    y = func(z)
    
    plt.plot(x, y, color='blue')
    if show_der:
        der = func(z, derivative=True)
        y_der_z = der
        y_der_x = w*der
        plt.plot(x, y_der_z, color='red')
        plt.plot(x, y_der_x, color='green')
    plt.xlim(-10, 10)
    plt.ylim(ylim[0], ylim[1])
    plt.show()

# Linear

$$y=x$$

$$y^\prime = 1$$

In [46]:
def linear(x, derivative=False):
    if derivative:
        return np.ones_like(x) # Derivada da função linear é 1
    return x
#apenas em regrssão na camada de saida, baixo poder de aprendizagem, não faz sentido apenas a função linear

In [47]:
interactive_plot = interactive(plot_interactive, w=(-2.0, 2.0), b=(-3, 3, 0.5), func=fixed(linear), ylim=fixed((-10, 10)))
interactive_plot

interactive(children=(FloatSlider(value=0.0, description='w', max=2.0, min=-2.0), FloatSlider(value=0.0, descr…

# Sigmoid 

$$y = \frac{1}{1+e^{-x}}$$

$$y^\prime = y(1-y)$$

In [24]:
def sigmoid(x, derivative=False):
    if derivative: 
        sig = sigmoid(x)
        return sig * (1 - sig)
    return 1/(1+np.exp(-x))

#limita a função em 0 e 1, regressão logistica classificação, não é uma probalidade de pertencer a determinada classe e a saída não é centrada em 0, não utilizar em problemas complexos e 
# satura os gradientes, não utilizar em camadas ocultas convergencia lenta

In [25]:
interactive_plot = interactive(plot_interactive, w=(-2.0, 2.0), b=(-3, 3, 0.5), func=fixed(sigmoid))
interactive_plot

interactive(children=(FloatSlider(value=0.0, description='w', max=2.0, min=-2.0), FloatSlider(value=0.0, descr…

# Tanh

$$y = \frac{e^x - e^{-x}}{e^x+e^{-x}}$$

$$y^\prime = 1 - y^2$$

In [26]:
def tanh(x, derivative = False):
    if derivative: 
        ta = tanh(x)
        return 1 - ta**2
    return (np.exp(x)-np.exp(-x))/(np.exp(x) + np.exp(-x))

#Limitada da -1 e 1, saida centrada em 0, preferivel em relação a sigmoid, satura gradientes porém menos que a sigmoid

In [27]:
interactive_plot = interactive(plot_interactive, w=(-2.0, 2.0), b=(-3, 3, 0.5), func=fixed(tanh), ylim=fixed((-2, 2)))
interactive_plot

interactive(children=(FloatSlider(value=0.0, description='w', max=2.0, min=-2.0), FloatSlider(value=0.0, descr…

# Rectified Linear Unit (ReLU)

$$y = max(0, x)$$

$$\frac{\partial y}{\partial x} = \begin{cases}0 &,\  x \leq 0\\1 &,\ x > 0\end{cases}$$

__Obs.__: Lembrando que a derivada da ReLU quando x = 0 não existe matematicamente, mas é convencionalmente definida como 0.

In [34]:
def relu(x, derivative = False):
    if derivative: 
        return np.where(x > 0, 1, 0)
    return np.maximum(0, x)

#saida truncada em 0 limite superior inf, função mais usada, simples e eficiente, evita saturação dos gradientes, GD 
#(Gradiente descendente) converge mais rapido em comparação com sigmoid e tanh, apenas em camadas escondidas, pode
#pode matar os neurônios 

In [35]:
interactive_plot = interactive(plot_interactive, w=(-2.0, 2.0), b=(-3, 3, 0.5), func=fixed(relu), ylim=fixed((-1, 10)))
interactive_plot

interactive(children=(FloatSlider(value=0.0, description='w', max=2.0, min=-2.0), FloatSlider(value=0.0, descr…

# Leaky ReLU 

$$y = \begin{cases}\alpha x &,\ x \leq 0\\x &,\ x > 0\end{cases}$$

$$\frac{\partial y}{\partial x} = \begin{cases}\alpha &,\  x \leq 0\\1 &,\  x > 0\end{cases}$$

In [38]:
def leaky_relu(x, alpha=0.1, derivative = False):
    if derivative:
        return np.where(x > 0, 1, alpha)
    return np.where(x > 0, x, x * alpha)

#saida de -inf a +inf diminui a chance de matar os neuronios, apenas em camadas ocultas

In [39]:
interactive_plot = interactive(plot_interactive, w=(-2.0, 2.0), b=(-3, 3, 0.5), func=fixed(leaky_relu), ylim=fixed((-1, 10)))
interactive_plot

interactive(children=(FloatSlider(value=0.0, description='w', max=2.0, min=-2.0), FloatSlider(value=0.0, descr…

# Exponential Linear Unit (eLU) 

$$y = \begin{cases}\alpha(e^x -1) &,\ x \leq 0\\x &,\ x > 0\end{cases}$$

$$\frac{\partial y}{\partial x} = \begin{cases}y + \alpha &,\  x \leq 0\\1 &,\  x > 0\end{cases}$$

In [44]:
def elu(x, alpha = 1, derivative = False):
    if derivative:
        e = elu(x)
        return np.where(x > 0, 1, e+alpha)
    return np.where(x > 0, x, alpha*(np.exp(x)-1))

#saida de -alpha a inf, pequena modfificação de ReLu, diminui a chance de neuronios mortos, apenas em camadas ocultas

In [45]:
interactive_plot = interactive(plot_interactive, w=(-2.0, 2.0), b=(-3, 3, 0.5), func=fixed(elu), ylim=fixed((-2, 10)))
interactive_plot

interactive(children=(FloatSlider(value=0.0, description='w', max=2.0, min=-2.0), FloatSlider(value=0.0, descr…

# Tabela das Funções de Ativação

<img src="images/funcoes_de_ativacao.png" width='700'>

Qual função utilizar

Sigmoid não em camdas ocultas, em alguns casos em camada de saida
Tanh alguns casos em que é recomendada  
Relu pode ser uma otima função de ativação


Softmax não é função de ativação, pega a saida de neuronios e converte para 1 utilizada para classificação multiclasse
vai de 0 a 1 e soma para 1, casos multiclasse saida em one hot encode, interpreta  a saida como confiança de pertecer a detrminada classe, não probabilidade 

# Referências

- [Tabela das funções de ativação](https://en.wikipedia.org/wiki/Activation_function)
- [Towards Data Science](https://medium.com/towards-data-science/activation-functions-neural-networks-1cbd9f8d91d6)
- [Stack Exchange](https://stats.stackexchange.com/questions/115258/comprehensive-list-of-activation-functions-in-neural-networks-with-pros-cons)