# üßå Monstrinho 3.5

O sol amanhece no reino de Lumi e um novo monstro aparece para incomodar. Vamos l√° ent√£o. Para derrotar esse monstro, vamos utilizar 3 novas fun√ß√µes de ativa√ß√£o na rede neural. Realizaremos isso atrav√©s dos novos conceitos aprendidos na aula de MLP (Multi-Layer Perceptron) onde montamos um modelo do zero com Python puro.

A seguir, est√£o as 4 classes (`Valor`, `Neur√¥nio`, `Camada` e `MLP`) j√° criadas na aula de MLP. As mudan√ßas que existem foram feitas por mim para melhorar a legibilidade e a organiza√ß√£o do c√≥digo.

## üî¢ Valor

Esta √© a classe Valor, que representa um valor num√©rico com suporte a diferencia√ß√£o autom√°tica. Ela possui m√©todos para opera√ß√µes matem√°ticas, como adi√ß√£o, subtra√ß√£o, multiplica√ß√£o e exponencia√ß√£o, al√©m de m√©todos para calcular a fun√ß√£o sigmoide e backpropagation. √â not√≥rio lembrar que seja poss√≠vel realizar os c√°lculos mesmo com ordem invertida, onde o objeto Valor pode ser o primeiro ou segundo operando.

In [1]:
import math

class Valor:
    """
    Classe que representa um valor num√©rico com suporte a diferencia√ß√£o autom√°tica.
    
    Cada inst√¢ncia armazena:
      - data: o valor num√©rico.
      - progenitor: tupla com os valores dos quais este foi derivado.
      - operador_mae: string representando a opera√ß√£o que gerou o valor.
      - grad: gradiente (inicialmente zero) usado no backpropagation.
    """
    def __init__(self, data, progenitor=(), operador_mae="", rotulo=""):
        """
        Inicializa uma inst√¢ncia de Valor.
        
        Args:
            data (float): o valor num√©rico.
            progenitor (tuple): valores anteriores que contribu√≠ram para este.
            operador_mae (str): opera√ß√£o que gerou o valor.
            rotulo (str): r√≥tulo opcional para identifica√ß√£o.
        """
        self.data = data
        self.progenitor = progenitor
        self.operador_mae = operador_mae
        self.rotulo = rotulo
        self.grad = 0

    def __repr__(self):
        """Retorna uma representa√ß√£o string simplificada do objeto."""
        return f"Valor(data={self.data})"

    def __add__(self, outro_valor):
        """
        Sobrecarga do operador de adi√ß√£o.
        
        Realiza a opera√ß√£o: self + outro_valor.
        
        Args:
            outro_valor (Valor ou n√∫mero): valor a ser somado.
        
        Returns:
            Valor: novo objeto representando a soma.
        """
        if not isinstance(outro_valor, Valor):
            outro_valor = Valor(outro_valor)
            
        progenitor = (self, outro_valor)
        data = self.data + outro_valor.data
        operador_mae = "+"
        resultado = Valor(data, progenitor, operador_mae)
        
        def propagar_adicao():
            self.grad += resultado.grad
            outro_valor.grad += resultado.grad
            
        resultado.propagar = propagar_adicao
        
        return resultado

    def __mul__(self, outro_valor):
        """
        Sobrecarga do operador de multiplica√ß√£o.
        
        Realiza a opera√ß√£o: self * outro_valor.
        
        Args:
            outro_valor (Valor ou n√∫mero): valor a ser multiplicado.
        
        Returns:
            Valor: novo objeto representando o produto.
        """
        if not isinstance(outro_valor, Valor):
            outro_valor = Valor(outro_valor)
            
        progenitor = (self, outro_valor)
        data = self.data * outro_valor.data
        operador_mae = "*"
        resultado = Valor(data, progenitor, operador_mae)
        
        def propagar_multiplicacao():
            self.grad += resultado.grad * outro_valor.data
            outro_valor.grad += resultado.grad * self.data
            
        resultado.propagar = propagar_multiplicacao
        
        return resultado

    def exp(self):
        """
        Calcula a exponencial do valor.
        
        Realiza a opera√ß√£o: exp(self).
        
        Returns:
            Valor: novo objeto representando a exponencial.
        """
        progenitor = (self, )
        data = math.exp(self.data)
        operador_mae = "exp"
        resultado = Valor(data, progenitor, operador_mae)
        
        def propagar_exp():
            self.grad += resultado.grad * data 
        
        resultado.propagar = propagar_exp
        
        return resultado

    def __pow__(self, expoente):
        """
        Sobrecarga do operador de exponencia√ß√£o.
        
        Realiza a opera√ß√£o: self ** expoente.
        
        Args:
            expoente (int ou float): expoente da opera√ß√£o.
        
        Returns:
            Valor: novo objeto representando a exponencia√ß√£o.
        """
        assert isinstance(expoente, (int, float)), "Expoente deve ser um n√∫mero."
        progenitor = (self, )
        data = self.data ** expoente
        operador_mae = f"**{expoente}"
        resultado = Valor(data, progenitor, operador_mae)
        
        def propagar_pow():
            self.grad += resultado.grad * (expoente * self.data ** (expoente - 1))
        
        resultado.propagar = propagar_pow
        
        return resultado

    def __truediv__(self, outro_valor):
        """
        Sobrecarga do operador de divis√£o.
        
        Realiza a opera√ß√£o: self / outro_valor.
        
        Args:
            outro_valor (Valor ou n√∫mero): divisor.
        
        Returns:
            Valor: novo objeto representando a divis√£o.
        """
        return self * outro_valor ** (-1)

    def __neg__(self):
        """
        Sobrecarga do operador de nega√ß√£o.
        
        Realiza a opera√ß√£o: -self.
        
        Returns:
            Valor: novo objeto representando o valor negativo.
        """
        return self * -1

    def __sub__(self, outro_valor):
        """
        Sobrecarga do operador de subtra√ß√£o.
        
        Realiza a opera√ß√£o: self - outro_valor.
        
        Args:
            outro_valor (Valor ou n√∫mero): valor a ser subtra√≠do.
        
        Returns:
            Valor: novo objeto representando a subtra√ß√£o.
        """
        return self + (-outro_valor)

    def __radd__(self, outro_valor):
        """
        Sobrecarga do operador de adi√ß√£o reversa.
        
        Permite opera√ß√µes onde Valor est√° √† direita: outro_valor + self.
        
        Args:
            outro_valor (Valor ou n√∫mero): valor a ser somado.
        
        Returns:
            Valor: resultado da adi√ß√£o.
        """
        return self + outro_valor

    def __rmul__(self, outro_valor):
        """
        Sobrecarga do operador de multiplica√ß√£o reversa.
        
        Permite opera√ß√µes onde Valor est√° √† direita: outro_valor * self.
        
        Args:
            outro_valor (Valor ou n√∫mero): valor a ser multiplicado.
        
        Returns:
            Valor: resultado da multiplica√ß√£o.
        """
        return self * outro_valor

    def sig(self):
        """
        Calcula a fun√ß√£o sigmoide.
        
        Realiza a opera√ß√£o: exp(self) / (exp(self) + 1).
        
        Returns:
            Valor: novo objeto representando o resultado da sigmoide.
        """
        return self.exp() / (self.exp() + 1)

    def propagar(self):
        """
        Fun√ß√£o de propaga√ß√£o (backpropagation) do gradiente.
        
        Este m√©todo deve ser sobrescrito pelas opera√ß√µes espec√≠ficas.
        """
        pass

    def propagar_tudo(self):
        """
        Executa o backpropagation atrav√©s de todos os n√≥s (valores) conectados.
        
        Atribui gradiente 1 ao v√©rtice folha e propaga recursivamente utilizando uma ordem topol√≥gica dos n√≥s.
        """
        self.grad = 1
        ordem_topologica = []
        visitados = set()

        def constroi_ordem_topologica(v):
            if v not in visitados:
                visitados.add(v)
                for progenitor in v.progenitor:
                    constroi_ordem_topologica(progenitor)
                ordem_topologica.append(v)

        constroi_ordem_topologica(self)

        for vertice in reversed(ordem_topologica):
            vertice.propagar()


## ü§ì Neur√¥nio

A classe Neur√¥nio representa um neur√¥nio em uma rede neural. Ela possui pesos e um vi√©s, que s√£o inicializados aleatoriamente. O neur√¥nio calcula a sa√≠da usando a fun√ß√£o sigmoide e realiza o backpropagation para atualizar os pesos e o vi√©s com base no erro da previs√£o.

In [2]:
import random


class Neuronio:
    """
    Representa um neur√¥nio simples com pesos e vi√©s para uso em uma rede neural.

    Este neur√¥nio utiliza a classe Valor para armazenar seus par√¢metros e realizar a
    diferencia√ß√£o autom√°tica durante o treinamento.
    """

    def __init__(self, num_dados_entrada, ativacao="sigmoid"):
        """
        Inicializa um neur√¥nio com pesos e vi√©s aleat√≥rios.
        
        Args:
            num_dados_entrada (int): n√∫mero de entradas do neur√¥nio.
            ativacao (str): fun√ß√£o de ativa√ß√£o a ser utilizada. Op√ß√µes: "sigmoid", "relu", "tanh" e "leaky_relu".
        """
        self.vies = Valor(random.uniform(-1, 1))

        self.pesos = []
        for i in range(num_dados_entrada):
            self.pesos.append(Valor(random.uniform(-1, 1)))

        if ativacao == "sigmoid":
            self.ativacao = lambda x: x.sig()
        elif ativacao == "relu":
            self.ativacao = lambda x: x.relu()
        elif ativacao == "tanh":
            self.ativacao = lambda x: x.tanh()
        elif ativacao == "leaky_relu":
            self.ativacao = lambda x: x.leaky_relu()
        else:
            raise ValueError(f"Fun√ß√£o de ativa√ß√£o '{ativacao}' n√£o suportada.")

    def __call__(self, x):
        """
        Realiza a passagem forward do neur√¥nio.

        Calcula a soma ponderada das entradas e aplica a fun√ß√£o sigmoide para
        determinar a sa√≠da do neur√¥nio.

        Args:
            x (list[Valor]): lista de objetos Valor representando as entradas.

        Returns:
            Valor: objeto Valor representando a sa√≠da do neur√¥nio.
        """
        assert len(x) == len(
            self.pesos
        ), "O n√∫mero de entradas deve ser igual ao n√∫mero de pesos."

        soma = 0
        for info_entrada, peso_interno in zip(x, self.pesos):
            soma += info_entrada * peso_interno

        soma += self.vies

        return self.ativacao(soma)

    def parametros(self):
        """
        Retorna uma lista com os par√¢metros do neur√¥nio (pesos e vi√©s).

        Returns:
            list[Valor]: lista contendo os pesos e o vi√©s.
        """
        return self.pesos + [self.vies]

Uma pequena altera√ß√£o ocorreu na classe `Neuronio` para permitir a utiliza√ß√£o de fun√ß√µes de ativa√ß√£o diferentes. Para isso, foi adicionado um par√¢metro `ativacao` no construtor da classe. Esse par√¢metro pode ser uma fun√ß√£o de ativa√ß√£o como `sigmoide`, `relu`, `tanh` ou `leaky_relu`. O m√©todo `ativar` agora utiliza essa fun√ß√£o de ativa√ß√£o para calcular a sa√≠da do neur√¥nio.

## üéÇ Camada

A classe Camada representa uma camada de neur√¥nios em uma rede neural. Ela possui um n√∫mero espec√≠fico de neur√¥nios e √© respons√°vel por calcular a sa√≠da da camada com base nas entradas recebidas. Realiza o forward pass e agrega os parametros de cada neur√¥nio.

In [3]:
class Camada:
    """
    Representa uma camada em uma rede neural composta por m√∫ltiplos neur√¥nios.

    Cada camada gerencia um conjunto de neur√¥nios, realizando a passagem forward
    e agregando os par√¢metros (pesos e vi√©s) de cada neur√¥nio.
    """

    def __init__(self, num_neuronios, num_dados_entrada, ativacao="sigmoid"):
        """
        Inicializa a camada com um n√∫mero espec√≠fico de neur√¥nios, cada um com
        um determinado n√∫mero de entradas.

        Args:
            num_neuronios (int): n√∫mero de neur√¥nios na camada.
            num_dados_entrada (int): n√∫mero de entradas para cada neur√¥nio.
        """
        self.neuronios = []
        for _ in range(num_neuronios):
            neuronio = Neuronio(num_dados_entrada, ativacao=ativacao)
            self.neuronios.append(neuronio)

    def __call__(self, x):
        """
        Realiza a passagem forward na camada.

        Aplica cada neur√¥nio da camada √† mesma entrada e retorna os dados de sa√≠da.

        Args:
            x (list[Valor]): lista de objetos Valor representando as entradas da camada.

        Returns:
            Valor ou list[Valor]: sa√≠da de um √∫nico neur√¥nio se houver apenas um,
            ou lista com as sa√≠das de todos os neur√¥nios.
        """
        dados_de_saida = []
        for neuronio in self.neuronios:
            informacao = neuronio(x)
            dados_de_saida.append(informacao)

        if len(dados_de_saida) == 1:
            return dados_de_saida[0]
        else:
            return dados_de_saida

    def parametros(self):
        """
        Agrega e retorna todos os par√¢metros (pesos e vi√©s) de cada neur√¥nio da camada.

        Returns:
            list[Valor]: lista contendo todos os par√¢metros dos neur√¥nios da camada.
        """
        params = []
        for neuronio in self.neuronios:
            params_neuronio = neuronio.parametros()
            params.extend(params_neuronio)

        return params

A classe `Camada` tamb√©m foi alterada para permitir a utiliza√ß√£o de fun√ß√µes de ativa√ß√£o diferentes. O construtor agora aceita um par√¢metro `ativacao` que pode ser uma fun√ß√£o de ativa√ß√£o como `sigmoide`, `relu`, `tanh` ou `leaky_relu`. O m√©todo `ativar` utiliza essa fun√ß√£o de ativa√ß√£o para calcular a sa√≠da da camada.

## üß† MLP

Por fim, nossa √∫ltima classe da nossa rede neural √© a `MLP` (Multi-Layer Perceptron). Ela representa uma rede neural com m√∫ltiplas camadas. A `MLP` organiza as camadas da rede, permitindo a passagem forward dos dados e a agrega√ß√£o dos par√¢metros de todas as camadas.

In [4]:
class MLP:
    """
    Representa uma rede neural do tipo MLP (Multi-Layer Perceptron).

    Essa classe organiza as camadas da rede, permitindo a passagem forward dos dados e
    a agrega√ß√£o dos par√¢metros (pesos e vi√©s) de todas as camadas.
    """

    def __init__(self, num_dados_entrada, num_neuronios_por_camada, ativacao="sigmoid"):
        """
        Inicializa a MLP com um n√∫mero definido de entradas e uma lista que especifica
        o n√∫mero de neur√¥nios em cada camada.

        Args:
            num_dados_entrada (int): n√∫mero de entradas da rede.
            num_neuronios_por_camada (list[int]): lista com o n√∫mero de neur√¥nios para cada camada.
        """
        percurso = [num_dados_entrada] + num_neuronios_por_camada

        camadas = []
        for i in range(len(num_neuronios_por_camada)):
            camada = Camada(num_neuronios_por_camada[i], percurso[i], ativacao=ativacao)
            camadas.append(camada)

        self.camadas = camadas

    def __call__(self, x):
        """
        Realiza a passagem forward pela rede.

        Cada camada processa a entrada e o resultado √© passado para a pr√≥xima camada.

        Args:
            x (list[Valor] ou Valor): dados de entrada para a rede.

        Returns:
            Valor ou list[Valor]: sa√≠da final da rede ap√≥s a passagem por todas as camadas.
        """
        for camada in self.camadas:
            x = camada(x)
        return x

    def parametros(self):
        """
        Agrega e retorna todos os par√¢metros (pesos e vi√©s) de todas as camadas da rede.

        Returns:
            list[Valor]: lista contendo os par√¢metros de cada camada.
        """
        params = []
        for camada in self.camadas:
            parametros_camada = camada.parametros()
            params.extend(parametros_camada)

        return params

Por fim, a classe `MLP` tamb√©m foi alterada para permitir a utiliza√ß√£o de fun√ß√µes de ativa√ß√£o diferentes. O construtor agora aceita um par√¢metro `ativacao` que pode ser uma fun√ß√£o de ativa√ß√£o como `sigmoide`, `relu`, `tanh` ou `leaky_relu`. O m√©todo `ativar` utiliza essa fun√ß√£o de ativa√ß√£o para calcular a sa√≠da da rede neural.

## ü™ù Fun√ß√µes de Ativa√ß√£o

Show! Agora que definimos todas as classes que usaremos para essa atividade, vamos abordar as 3 novas fun√ß√µes de ativa√ß√£o que vamos usar para treinar nossa rede neural. [1]

### 0Ô∏è‚É£ Sigmoide

Antes de mostrarmos as novas fun√ß√µes de ativa√ß√£o, vamos relembrar a fun√ß√£o sigmoide. A fun√ß√£o sigmoide √© uma fun√ß√£o matem√°tica que transforma um valor real em um valor entre 0 e 1. Ela √© definida pela f√≥rmula:

$$
f(x) = \frac{1}{1 + e^{-x}}
$$

Sua principal caracter√≠stica √© que ela "achata" os valores extremos, ou seja, valores muito grandes ou muito pequenos s√£o aproximados para 1 ou 0, respectivamente. Isso pode ser √∫til em redes neurais, pois ajuda a evitar problemas de satura√ß√£o e facilita o treinamento.

<center>
<img src="images/Sigmoid.jpg" alt="ReLU Function" width="300"/>
<p>Legenda 1: Esta √© a fun√ß√£o Sigmoide. Ela transforma valores reais em valores entre 0 e 1.</p>
</center>

A fun√ß√£o sigmoide √© amplamente utilizada em redes neurais, especialmente em problemas de classifica√ß√£o bin√°ria. Ela √© uma fun√ß√£o suave e diferenci√°vel, o que a torna adequada para otimiza√ß√£o usando algoritmos de aprendizado de m√°quina.

A fun√ß√£o sigmoide j√° foi implementada na classe `Valor` e √© utilizada como fun√ß√£o de ativa√ß√£o padr√£o nos neur√¥nios. Vamos citar a fun√ß√£o sigmoide novamente aqui para relembrar como ela √© implementada: 

In [5]:
def sig(self):
    """
    Calcula a fun√ß√£o sigmoide.

    Realiza a opera√ß√£o: exp(self) / (exp(self) + 1).

    Returns:
        Valor: novo objeto representando o resultado da sigmoide.
    """
    return self.exp() / (self.exp() + 1)

> Voc√™ pode notar que existe uma pequena diferen√ßa entre a f√≥rmula utilizada na fun√ß√£o (definida pelo professor) e pela apresentada acima. Mas, √© a mesma coisa, s√£o equivalentes. Aqui est√° a explica√ß√£o matem√°tica para isso:
> $$
> f(x) = \frac{1}{1 + e^{-x}} \times \frac{e^{x}}{e^{x}} = \frac{e^{x}}{e^{x} + 1}
> $$

### 1Ô∏è‚É£ ReLU (Rectified Linear Unit)

A ReLU √© uma das fun√ß√µes de ativa√ß√£o mais populares para redes neurais artificiais, e encontra aplica√ß√£o em vis√£o computacional e reconhecimento de fala usando redes neurais profundas e neuroci√™ncia computacional. [2]

$$
\text{ReLU}(x) = \max(0, x)
$$

Uma das principais caracter√≠sticas da fun√ß√£o de ativa√ß√£o ReLU s√£o:

- Simples e eficiente
- Resolve parcialmente o problema do **desvanecimento do gradiente**.
- Pode "morrer" para entradas negativas (gradiente zero).

Quando dizemos que a ReLU √© simples e eficiente, nos referimos ao fato de que ela √© computacionalmente barata, pois envolve apenas uma compara√ß√£o e n√£o requer opera√ß√µes exponenciais ou trigonom√©tricas. Isso a torna adequada para redes neurais profundas, onde a efici√™ncia computacional √© crucial. J√° o problema do desvanecimento do gradiente ocorre quando os gradientes se tornam muito pequenos durante o treinamento, dificultando a atualiza√ß√£o dos pesos. A ReLU ajuda a mitigar esse problema, permitindo que os gradientes fluam mais facilmente atrav√©s das camadas da rede. No entanto, a ReLU pode "morrer" para entradas negativas, resultando em neur√¥nios que n√£o se ativam e n√£o contribuem para o aprendizado. Isso pode ocorrer quando os pesos s√£o atualizados de forma que a sa√≠da do neur√¥nio permane√ßa negativa.

<center>
<img src="images/ReLU.jpg" alt="ReLU Function" width="300"/>
<p>Legenda 2: Esta √© a fun√ß√£o ReLU. Ela √© linear para valores positivos e zero para valores negativos.</p>
</center>

Comparando com a fun√ß√£o de ativa√ß√£o sigmoide que mapeia para o intervalo (0, 1), o que pode gerar gradientes pequenos em extremos. Mas, a ReLU j√° √© mais eficiente e n√£o satura no lado positivo, o que significa que os gradientes permanecem grandes e n√£o se tornam pequenos, permitindo que a rede aprenda mais rapidamente.

Vamos aproveitar, e j√° criar a fun√ß√£o em Python para a ReLU. A fun√ß√£o `relu` recebe um valor e retorna o valor m√°ximo entre 0 e o valor de entrada. Se o valor for menor que 0, a fun√ß√£o retorna 0. Caso contr√°rio, retorna o pr√≥prio valor.

In [6]:
def relu(self: Valor) -> Valor:
    """
    Aplica a fun√ß√£o ReLU (Rectified Linear Unit) ao valor. A fun√ß√£o ReLU retorna o valor se ele for positivo, caso contr√°rio retorna 0. Realiza a opera√ß√£o: max(0, self).
    
    Args:
        Valor (self): valor a ser processado.
        
    Returns:
        Valor: novo objeto representando o resultado da fun√ß√£o ReLU.
    """
    x = self
    data = x.data if x.data > 0 else 0.0
    resultado = Valor(data, (x,), "ReLU")

    def propagar_relu():
        x.grad += resultado.grad * (1.0 if x.data > 0 else 0.0)
    
    resultado.propagar = propagar_relu
    return resultado

### 2Ô∏è‚É£ Tanh (Tangente Hiperb√≥lica)

A fun√ß√£o tanh produz valores no intervalo de -1 a +1. Isso significa que ele pode lidar com valores negativos de forma mais eficaz do que a fun√ß√£o sigm√≥ide, que tem um intervalo de 0 a 1. [3]

$$
\tanh(x) = \frac{(e^x - e^{-x})}{(e^x + e^{-x})}
$$

As principais caracter√≠sticas que podemos destacar da fun√ß√£o tanh s√£o:

- Sa√≠da entre (-1, 1), centrada em zero.
- Derivada maior que a da sigmoide, o que acelera o aprendizado.

A sa√≠da entre (-1, 1) significa que a fun√ß√£o tanh pode lidar com valores negativos de forma mais eficaz do que a fun√ß√£o sigmoide, que tem um intervalo de 0 a 1. Isso pode ser √∫til em redes neurais profundas, onde a normaliza√ß√£o dos dados pode ser importante. A derivada da fun√ß√£o tanh √© maior do que a da sigmoide, o que significa que os gradientes s√£o mais fortes e podem acelerar o aprendizado. Isso pode levar a uma converg√™ncia mais r√°pida durante o treinamento.

<center>
<img src="images/Tanh.jpg" alt="Tanh Function" width="300"/>
<p>Legenda 3: Esta j√° √© a fun√ß√£o tanh. Ela √© linear para valores pr√≥ximos de zero e n√£o linear para valores extremos.</p>
</center>

Comparando com a fun√ß√£o sigmoide, a tanh √© mais adequada para entradas centradas em zero. Isso significa que a fun√ß√£o tanh pode lidar melhor com dados que t√™m uma m√©dia pr√≥xima de zero, o que pode ser √∫til em muitas aplica√ß√µes de aprendizado de m√°quina. Entretanto, a tanh ainda sofre com o problema do desvanecimento de gradiente em extremos, onde os gradientes se tornam muito pequenos e dificultam o aprendizado.

Bom, agora vamos criar a fun√ß√£o em Python para a tanh. A fun√ß√£o `tanh` recebe um valor e retorna o valor da tangente hiperb√≥lica do valor de entrada. Se o valor for menor que 0, a fun√ß√£o retorna -1. Caso contr√°rio, retorna o pr√≥prio valor.

In [7]:
def tanh(self: Valor) -> Valor:
    """
    Aplica a fun√ß√£o tangente hiperb√≥lica (tanh) ao valor. A fun√ß√£o tanh retorna o valor normalizado entre -1 e 1. Realiza a opera√ß√£o: tanh(self).

    Args:
        Valor (self): valor a ser processado.

    Returns:
        Valor: novo objeto representando o resultado da fun√ß√£o tanh.
    """
    x = self
    e_pos = (x * 2).exp()
    t = (e_pos - 1) / (e_pos + 1)
    resultado = Valor(t.data, (x,), "tanh")

    def propagar_tanh():
        x.grad += resultado.grad * (1 - t.data**2)

    resultado.propagar = propagar_tanh
    return resultado

### 3Ô∏è‚É£ Leaky ReLU

Leaky ReLU √© uma vers√£o melhorada da fun√ß√£o ReLU para resolver o problema de "morte" da ReLU, pois tem uma pequena inclina√ß√£o positiva na √°rea negativa.

$$
\text{Leaky ReLU}(x) = 
\begin{cases}
x & \text{se } x > 0 \\
\alpha x & \text{caso contr√°rio}
\end{cases}
\quad \text{(tipicamente } \alpha = 0.01\text{)}
$$

As principais caracter√≠sticas que podemos destacar da fun√ß√£o Leaky ReLU s√£o:

- Variante do ReLU que permite gradiente pequeno quando $ x < 0 $.
- Reduz o risco de "neur√¥nios mortos".

A possibilidade de permitir um pequeno gradiente negativo quando $ x < 0 $ acontece devido √† inclina√ß√£o pequena, o que significa que mesmo quando a entrada √© negativa, a fun√ß√£o ainda tem um pequeno gradiente positivo. Isso ajuda a evitar o problema de "neur√¥nios mortos", onde os neur√¥nios n√£o se ativam e n√£o contribuem para o aprendizado. A Leaky ReLU √© uma fun√ß√£o de ativa√ß√£o mais robusta do que a ReLU padr√£o, pois pode lidar melhor com entradas negativas e ainda mant√©m as vantagens da ReLU em termos de efici√™ncia computacional.

<center>
<img src="images/Leaky ReLU.jpg" alt="Tanh Function" width="300"/>
<p>Legenda 4: Por fim, temos a Leaky ReLU. Ela √© linear para valores positivos e tem uma pequena inclina√ß√£o negativa para valores negativos.</p>
</center>

Realizando uma compara√ß√£o com a fun√ß√£o sigmoide, a Leaky ReLU √© mais eficiente em termos computacionais, pois n√£o envolve opera√ß√µes exponenciais ou trigonom√©tricas. Isso a torna adequada para redes neurais profundas, onde a efici√™ncia computacional √© crucial. Al√©m disso, a Leaky ReLU n√£o sofre com o problema do desvanecimento do gradiente da mesma forma que a sigmoide e a tanh, permitindo que os gradientes fluam mais facilmente atrav√©s das camadas da rede.

Para terminar, vamos criar a fun√ß√£o em Python para a Leaky ReLU. A fun√ß√£o `leaky_relu` recebe um valor e retorna o valor m√°ximo entre 0 e o valor de entrada. Se o valor for menor que 0, a fun√ß√£o retorna 0.01 vezes o valor de entrada. Caso contr√°rio, retorna o pr√≥prio valor.

In [8]:
def leaky_relu(self, alpha=0.01):
    """
    Aplica a fun√ß√£o Leaky ReLU ao valor. A fun√ß√£o Leaky ReLU retorna o valor se ele for positivo, caso contr√°rio retorna alpha * valor. Realiza a opera√ß√£o: max(0, self) + alpha * min(0, self).

    Args:
        Valor (self): valor a ser processado.
        alpha (float): coeficiente de inclina√ß√£o para valores negativos.

    Returns:
        Valor: novo objeto representando o resultado da fun√ß√£o Leaky ReLU.
    """
    x = self
    data = x.data if x.data > 0 else alpha * x.data
    resultado = Valor(data, (x,), "LeakyReLU")

    def propagar_leaky():
        x.grad += resultado.grad * (1.0 if x.data > 0 else alpha)

    resultado.propagar = propagar_leaky
    return resultado

### üß™ Testando as fun√ß√µes de ativa√ß√£o

Primeiro, para testarmos essas fun√ß√µes de ativa√ß√£o, precisamos instanciar a classe `Valor` e criar um valor.

In [9]:
Valor.relu = relu
Valor.tanh = tanh
Valor.leaky_relu = leaky_relu

Agora que definimos na classe `Valor` as fun√ß√µes de ativa√ß√£o que definimos anteriormente, vamos utiliz√°-las com o mesmo exemplo que o professor usou na aula de MLP.

In [10]:
def treinar_mlp(
    x,
    y_true,
    arquitetura,
    ativacao="sigmoid",
    num_epocas=200,
    taxa_de_aprendizado=0.01,
    verbose_interval=50,
):
    n_in = len(x[0])
    rede = MLP(n_in, arquitetura, ativacao=ativacao)

    loss_hist = []

    for ep in range(num_epocas):
        y_pred = [rede([Valor(v) for v in amostra]) for amostra in x]

        erros = [(yp - yt) ** 2 for yt, yp in zip(y_true, y_pred)]
        loss = sum(erros) / len(erros)

        for p in rede.parametros():
            p.grad = 0

        loss.propagar_tudo()

        for p in rede.parametros():
            p.data -= taxa_de_aprendizado * p.grad

        loss_hist.append(loss.data)
        if verbose_interval and ep % verbose_interval == 0:
            print(f"[{ativacao}] √©poca {ep:4d}  loss={loss.data:.6f}")

    preds = [rede([Valor(v) for v in amostra]).data for amostra in x]
    return rede, preds, loss_hist

In [11]:
x = [
    [2.0,  3.0, -1.0],
    [3.0, -1.0,  0.5],
    [0.5,  1.0,  1.0],
    [1.0,  1.0, -1.0],
]
y_true = [1, 0, 0.2, 0.5]

arquitetura = [3, 2, 1]

configs = {
    "sigmoid":     dict(num_epocas=1000, taxa_de_aprendizado=0.5),
    "tanh":        dict(num_epocas=2000, taxa_de_aprendizado=0.05),
    "relu":        dict(num_epocas=2000, taxa_de_aprendizado=0.05),
    "leaky_relu":  dict(num_epocas=2000, taxa_de_aprendizado=0.01),
}

resultados = {}
for ativ, cfg in configs.items():
    print(f"\n=== {ativ.upper()} ===")
    _, preds, hist = treinar_mlp(
        x, y_true,
        arquitetura=arquitetura,
        ativacao=ativ,
        **cfg,
        verbose_interval=cfg["num_epocas"]//5
    )
    resultados[ativ] = preds

print("\nPredi√ß√µes finais:")
for ativ, preds in resultados.items():
    print(f"{ativ:>10}: {['%.4f' % p for p in preds]}")



=== SIGMOID ===
[sigmoid] √©poca    0  loss=0.176704
[sigmoid] √©poca  200  loss=0.132572
[sigmoid] √©poca  400  loss=0.062238
[sigmoid] √©poca  600  loss=0.017479
[sigmoid] √©poca  800  loss=0.007029

=== TANH ===
[tanh] √©poca    0  loss=0.265223
[tanh] √©poca  400  loss=0.010209
[tanh] √©poca  800  loss=0.002614
[tanh] √©poca 1200  loss=0.001254
[tanh] √©poca 1600  loss=0.000788

=== RELU ===
[relu] √©poca    0  loss=0.322500
[relu] √©poca  400  loss=0.322500
[relu] √©poca  800  loss=0.322500
[relu] √©poca 1200  loss=0.322500
[relu] √©poca 1600  loss=0.322500

=== LEAKY_RELU ===
[leaky_relu] √©poca    0  loss=3.551047
[leaky_relu] √©poca  400  loss=0.006452
[leaky_relu] √©poca  800  loss=0.000356
[leaky_relu] √©poca 1200  loss=0.000095
[leaky_relu] √©poca 1600  loss=0.000027

Predi√ß√µes finais:
   sigmoid: ['0.9021', '0.0780', '0.2003', '0.5089']
      tanh: ['0.9526', '-0.0004', '0.2014', '0.5027']
      relu: ['0.0000', '0.0000', '0.0000', '0.0000']
leaky_relu: ['0.9984', '-0.00

| Ativa√ß√£o                  | Faixa de sa√≠da         | Gradiente t√≠pico                                 | Resultado observado                                                            | Motivo principal                                                                                                                                                                                                                    |
| ------------------------- | ---------------------- | ------------------------------------------------ | ------------------------------------------------------------------------------ | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Sigmoide**              | 0‚ÄØ‚Äì‚ÄØ1                  | gradiente moderado em torno de 0                 | *Loss* caiu de‚ÄØ0.14‚ÄØ‚Üí‚ÄØ0.005; predi√ß√µes ‚âà‚ÄØ\[0.907,‚ÄØ0.046,‚ÄØ0.205,‚ÄØ0.516]         | Faixa da sigmoide coincide exatamente com os r√≥tulos‚Äëalvo ‚áí rede s√≥ precisou aprender escala fina; taxa de aprendizado alta (0‚ÄØ.5) ajudou a convergir r√°pido.                                                                                        |
| **tanh**                  | ‚Äì1‚ÄØ‚Äì‚ÄØ1 (centrada em‚ÄØ0) | maior que sigmoide perto da origem; satura em ¬±1 | *Loss* de‚ÄØ0.21‚ÄØ‚Üí‚ÄØ0.001; predi√ß√µes ‚âà‚ÄØ\[0.950,‚ÄØ‚Äì0.004,‚ÄØ0.203,‚ÄØ0.505]             | Como a tanh devolve valores negativos, a rede acabou empurrando a soma final ligeiramente positiva para tr√™s amostras e ‚âà‚ÄØ0 para a segunda; precisou de mais √©pocas (e taxa de aprendizado 0.05) mas convergiu bem.                                  |
| **ReLU**                  | 0‚ÄØ‚Äì‚ÄØ‚àû (corta <‚ÄØ0)      | 1 quando soma‚ÄØ>‚ÄØ0; **0** quando soma‚ÄØ‚â§‚ÄØ0         | *Loss* permaneceu em 0.3225; sa√≠da 0 para todas as amostras                    | Todas as somas ponderadas do neur√¥nio de sa√≠da come√ßaram negativas ‚Üí gradiente 0 ‚Üí pesos/vieses dessa camada nunca mudaram (‚Äúneur√¥nio morto‚Äù).                                                                                      |
| **Leaky‚ÄØReLU** (Œ±‚ÄØ=‚ÄØ0.01) | Œ±x‚ÄØ‚Äì‚ÄØ‚àû                 | Œ± (0.01) quando soma‚ÄØ‚â§‚ÄØ0; 1 quando >‚ÄØ0           | *Loss* despencou de 0.325 ‚Üí 0.010; predi√ß√µes ‚âà‚ÄØ\[0.999,‚ÄØ‚Äì0.004,‚ÄØ‚Äì0.000,‚ÄØ0.501] | O gradiente pequeno (0.01) salvou o fluxo de erro, mas a sa√≠da negativa persiste para as amostras onde a soma final ficou ‚â§‚ÄØ0; sem uma fun√ß√£o de sa√≠da que comprima/shift, a rede n√£o ‚Äúsabe‚Äù que valores negativos s√£o inadequados. |

## üìñ Refer√™ncias

[1] https://www.v7labs.com/blog/neural-networks-activation-functions

[2] https://en.wikipedia.org/wiki/Rectifier_(neural_networks)

[3] https://www.datacamp.com/tutorial/introduction-to-activation-functions-in-neural-networks