<a href="https://colab.research.google.com/github/elder-storck/Disciplina-Redes-Neurais/blob/main/T1-diferencia%C3%A7%C3%A3o-autom%C3%A1tica-com-grafos-computacionais/T1_diferencia%C3%A7%C3%A3o_autom%C3%A1tica_com_grafos_computacionais_Elder.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Nova se√ß√£o
# Trabalho 1: Diferencia√ß√£o Autom√°tica com Grafos Computacionais

## Informa√ß√µes Gerais

- Data de Entrega: 28/11/2025
- Pontua√ß√£o: 10 pontos
- O trabalho deve ser feito individualmente.
- A entrega do trabalho deve ser realizada via sistema testr.



## Especifica√ß√£o

‚ö†Ô∏è *Esta explica√ß√£o assume que voc√™ leu e entendeu os slides sobre grafos computacionais.*

O trabalho consiste em implementar um sistema de diferencia√ß√£o autom√°tica usando grafos computacionais e utilizar este sistema para resolver um conjunto de problemas.

Para isto, devem ser definidos um tipo Tensor para representar dados (similares aos arrays do numpy) e opera√ß√µes (e.g., soma, subtra√ß√£o, etc.) que geram tensores como sa√≠da.

Sempre que uma opera√ß√£o √© realizada, √© armazenado no tensor de sa√≠da refer√™ncias para os seus pais, isto √©, os valores usados como entrada para a opera√ß√£o.


### Imports

In [None]:
from typing import Optional, Union, Any
from collections.abc import Iterable
from abc import ABC, abstractmethod
import numbers

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_style('whitegrid')

### Classe NameManager

A classe NameManager prov√™ uma forma conveniente de dar nomes intuitivos para tensores que resultam de opera√ß√µes. A id√©ia √© tornar mais f√°cil para o usu√°rio das demais classes qual opera√ß√£o gerou qual tensor. Ela prov√™ os seguintes m√©todos p√∫blicos:

- reset(): reinicia o sistema de gest√£o de nomes.
- new(<basename>: str): retorna um nome √∫nico a partir do nome de base passado como argumento.
  
Como indicado no exemplo abaixo da classe, a id√©ia geral √© que uma sequ√™ncia de opera√ß√µes √© feita, os nomes dos tensores sejam os nomes das opera√ß√µes seguidos de um n√∫mero. Se forem feitas 3 opera√ß√µes de soma e uma de multiplica√ß√£o, seus tensores de sa√≠da ter√£o os nomes "add:0", "add:1", "add:2" e "prod:0".

In [None]:

class NameManager:
    _counts = {}

    @staticmethod
    def reset():
        NameManager._counts = {}

    @staticmethod
    def _count(name):
        if name not in NameManager._counts:
            NameManager._counts[name] = 0
        count = NameManager._counts[name]
        return count

    @staticmethod
    def _inc_count(name):
        assert name in NameManager._counts, f'Name {name} is not registered.'
        NameManager._counts[name] += 1

    @staticmethod
    def new(name: str):
        count = NameManager._count(name)
        tensor_name = f"{name}:{count}"
        NameManager._inc_count(name)
        return tensor_name

# exemplo de uso
print(NameManager.new('add'))
print(NameManager.new('in'))
print(NameManager.new('add'))
print(NameManager.new('add'))
print(NameManager.new('in'))
print(NameManager.new('prod'))

NameManager.reset()

add:0
in:0
add:1
add:2
in:1
prod:0


### Classe Tensor

Deve ser criada uma classe `Tensor` representando um array multidimensional.

In [None]:

class Tensor:
    """Classe representando um array multidimensional.

    Atributos:

    - _arr  (privado): dados internos do tensor como
        um array do numpy com 2 dimens√µes (ver Regras)

    - _parents (privado): lista de tensores que foram
        usados como argumento para a opera√ß√£o que gerou o
        tensor. Ser√° vazia se o tensor foi inicializado com
        valores diretamente. Por exemplo, se o tensor foi
        resultado da opera√ß√£o a + b entre os tensores a e b,
        _parents = [a, b].

    - requires_grad (p√∫blico): indica se devem ser
        calculados gradientes para o tensor ou n√£o.

    - grad (p√∫blico): Tensor representando o gradiente.

    """

    def __init__(self,
                 # Dados do tensor. Al√©m dos tipos listados,
                 # arr tamb√©m pode ser do tipo Tensor.
                 arr: Union[np.ndarray, list, numbers.Number, Any],
                 # Entradas da operacao que gerou o tensor.
                 # Deve ser uma lista de itens do tipo Tensor.
                 parents: list[Any] = [],
                 # se o tensor requer o calculo de gradientes ou nao
                 requires_grad: bool = True,
                 # nome do tensor
                 name: str = '',
                 # refer√™ncia para um objeto do tipo Operation (ou
                 # subclasse) indicando qual opera√ß√£o gerou este
                 # tensor. Este objeto tamb√©m possui um m√©todo
                 # para calcular a derivada da opera√ß√£o.
                 operation=None):
        """Construtor

        O construtor deve permitir a criacao de tensores das seguintes formas:

            # a partir de escalares
            x = Tensor(3)

            # a partir de listas
            x = Tensor([1,2,3])

            # a partir de arrays
            x = Tensor(np.array([1,2,3]))

            # a partir de outros tensores (construtor de copia)
            x = Tensor(Tensor(np.array([1,2,3])))

        Para isto, as seguintes regras devem ser obedecidas:

        - Se o argumento arr n√£o for um array do numpy,
            ele deve ser convertido em um. Defina o dtype do
            array como float de forma a permitir que N√ÉO seja
            necess√°rio passar constantes float como Tensor(3.0),
            mas possamos criar um tensor apenas com Tensor(3).

        - O atributo _arr deve ser uma matriz, isto √©,
            ter 2 dimens√µes (ver Regras).

        - Se o argumento arr for um Tensor, ele deve ser
            copiado (cuidado com c√≥pias por refer√™ncia).

        - Se arr for um array do numpy com 1 dimens√£o,
            ele deve ser convertido em uma matriz coluna.

        - Se arr for um array do numpy com dimens√£o maior
            que 2, deve ser lan√ßada uma exce√ß√£o.

        - Tensores que n√£o foram produzidos como resultado
            de uma opera√ß√£o n√£o t√™m pais nem opera√ß√£o.
            Os nomes destes tensores devem seguir o formato in:3.
        """

       # Se arr for Tensor ‚Üí c√≥pia (construtor de c√≥pia)
        if isinstance(arr, Tensor):
            self._arr = arr._arr.copy()

        else:
            # Converte para numpy array float
            if not isinstance(arr, np.ndarray):
                arr = np.array(arr, dtype=float)
            else:
                arr = arr.astype(float)

            # Escalar ‚Üí matriz 1x1
            if arr.ndim == 0:
                arr = arr.reshape(1, 1)

            # Vetor ‚Üí matriz coluna
            elif arr.ndim == 1:
                arr = arr.reshape(arr.shape[0], 1)

            # Mais de 2 dimens√µes ‚Üí erro
            elif arr.ndim > 2:
                raise ValueError("Tensor deve ser sempre uma matriz (2D)")

            self._arr = arr


        # if operation is None:
        #   self._name = NameManager.new('in')
        # else:
        #   self._name = NameManager.new(operation.name)

        #metadados do tensor
        self._parents = parents
        self.requires_grad = requires_grad
        self.operation = operation
        self.grad = None

        # # -------- NOME --------
        if name != '':
            # print("name:"+name)
            self._name = name
        else:
            if not parents and operation is None:
                # print("name_in:")
                self._name = NameManager.new('in')
            else:
                self._name = NameManager.new(operation.name)


    def zero_grad(self):
        """Reinicia o gradiente com zero"""
        self.grad = Tensor(np.zeros_like(self._arr))

    def numpy(self):
        """Retorna o array interno"""
        return self._arr

    def __repr__(self):
        """Permite visualizar os dados do tensor como string"""
        return f"Tensor({self._arr}, name={self._name}, shape={self._arr.shape})"

    def backward(self, my_grad=None):
        """M√©todo usado tanto iniciar o processo de
        diferencia√ß√£o autom√°tica, quanto por um filho
        para enviar o gradiente do pai. No primeiro
        caso, o argumento my_grad n√£o ser√° passado.
        """
        #caso inicial
        if my_grad is None:
          my_grad = Tensor(np.ones_like(self._arr))
          # my_grad = np.ones_like(self._arr)

        # primeira chegada de grad
        if self.grad is None:
            if self.operation is None:
                # √â tensor de entrada ‚Üí in_grad
                self.grad = Tensor(my_grad.numpy(),name=NameManager.new("in_grad"),requires_grad=False)
            else:
                # √â tensor intermedi√°rio ‚Üí grad normal
                self.grad = Tensor(my_grad.numpy(),requires_grad=False)
        else:
            # acumula gradiente
            self.grad = Tensor(my_grad.numpy() + self.grad.numpy(),requires_grad=False)


        # Verificando se √© tensor de entrada
        if self.operation is None:
          return

        # Calcula gradientes locais via opera√ß√£o
        grads = self.operation.grad(self.grad, *self._parents)

        # Propaga para os pais
        for parent, g in zip(self._parents, grads):
            if parent.requires_grad:
                parent.backward(g)


### Interface de  Opera√ß√µes

A classe abaixo define a interface que as opera√ß√µes devem implementar. Ela n√£o precisa ser modificada, mas pode, caso queira.

In [None]:

class Op(ABC):
    name: str = ''
    @abstractmethod
    def __call__(self, *args, **kwargs) -> Tensor:
        """Realiza a opera√ß√£o usando as entradas e
            retorna o tensor resultado. O m√©todo deve
            garantir que o atributo parents do tensor
            de sa√≠da seja uma lista de tensores."""

    @abstractmethod
    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        """Retorna os gradientes dos pais em como tensores.

        Arguments:

        - back_grad: Derivada parcial em rela√ß√£o √† sa√≠da
            da opera√ß√£o backpropagada pelo filho.

        - args: variaveis de entrada da operacao (pais)
            como tensores.

        - O nome dos tensores de gradiente devem ter o
            nome da operacao seguido de '_grad'.
        """

    def _ts(self, *args) -> list[Tensor]:
        vals = []
        for a in args:
            if isinstance(a, Tensor):
                vals.append(a)
            else:
                vals.append(Tensor(a, requires_grad=False))
        return vals



### Implementa√ß√£o das Opera√ß√µes

Opera√ß√µes devem herdar de `Op` e implementar os m√©todos `__call__` e `grad`.

Pelo menos as seguintes opera√ß√µes devem ser implementadas:



In [None]:
class Add(Op):
    """Add(a, b): a + b"""
    name = "add"
    def __call__(self, *args, **kwargs) -> Tensor:
        """Realiza a opera√ß√£o usando os argumentos dados em args"""
        args = self._ts(*args)
        result = args[0].numpy() + args[1].numpy()
        return Tensor(result, parents=args, name=NameManager.new('add'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        return [Tensor(back_grad.numpy(), name=NameManager.new('add_grad')),
                Tensor(back_grad.numpy(), name=NameManager.new('add_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
add = Add()

In [None]:

class Sub(Op):
    """Sub(a, b): a - b"""
    # name = "sub"
    def __call__(self, *args, **kwargs) -> Tensor:
        """Realiza a opera√ß√£o usando os argumentos dados em args"""
        args = self._ts(*args)
        result = args[0].numpy() - args[1].numpy()
        return Tensor(result, parents=args, name=NameManager.new('sub'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        """Retorna a lista de derivadas parciais em rela√ß√£o aos pais (passados em args)"""
        arg = self._ts(*args)
        return [Tensor(back_grad.numpy(), name=NameManager.new('sub_grad')),
                Tensor(-back_grad.numpy(), name=NameManager.new('sub_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
sub = Sub()

In [None]:

class Prod(Op):
    """Prod(a, b): produto ponto a ponto de a e b ou produto escalar-tensor"""
    def __call__(self, *args, **kwargs) -> Tensor:
        args = self._ts(*args)
        result = args[0].numpy() * args[1].numpy()
        return Tensor(result, parents=args, name=NameManager.new('prod'), operation=self)


    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        """Retorna a lista de derivadas parciais em rela√ß√£o aos pais (passados em args)"""
        arg = self._ts(*args)
        return [Tensor(arg[1].numpy()*back_grad.numpy(), name=NameManager.new('prod_grad')),
                Tensor(arg[0].numpy()*back_grad.numpy(), name=NameManager.new('prod_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
prod = Prod()

In [None]:

class Sin(Op):
    """seno element-wise"""
    def __call__(self, *args, **kwargs) -> Tensor:
        args = self._ts(*args)
        result = np.sin(args[0].numpy())
        return Tensor(result, parents=args, name=NameManager.new('sin'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        arg = self._ts(*args)
        return [Tensor(np.cos(arg[0].numpy())*back_grad.numpy(), name=NameManager.new('sin_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
sin = Sin()

In [None]:

class Cos(Op):
    """cosseno element-wise"""
    def __call__(self, *args, **kwargs) -> Tensor:
        args = self._ts(*args)
        result = np.cos(args[0].numpy())
        return Tensor(result, parents=args, name=NameManager.new('cos'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        args = self._ts(*args)
        return [Tensor((-np.sin(args[0].numpy()))*back_grad.numpy(), name=NameManager.new('cos_grad'))]


# Instancia a classe. O objeto passa a poder ser usado como uma funcao
cos = Cos()

In [None]:

class Sum(Op):
    """Retorna a soma dos elementos do tensor"""
    def __call__(self, *args, **kwargs) -> Tensor:
        args = self._ts(*args)
        result = np.sum(args[0].numpy())
        return Tensor(result, parents=args, name=NameManager.new('sum'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        arg = self._ts(*args)
        return [Tensor(np.ones_like(arg[0].numpy())*back_grad.numpy(), name=NameManager.new('sum_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
# ‚ö†Ô∏è vamos chamar de my_sum porque python ja possui uma funcao sum
my_sum = Sum()

In [None]:

class Mean(Op):
    """Retorna a m√©dia dos elementos do tensor"""
    def __call__(self, *args, **kwargs) -> Tensor:
        args = self._ts(*args)
        result = np.average(args[0].numpy())
        return Tensor(result, parents=args, name=NameManager.new('mean'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        arg = self._ts(*args)

        x = arg[0].numpy()
        n = x.size  # n√∫mero de elementos do tensor original
        grad_value = np.ones_like(x) * (back_grad.numpy() / n)

        return [Tensor((np.ones_like(arg[0].numpy())*back_grad.numpy())/arg[0].numpy().size, name=NameManager.new('avr_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
mean = Mean()

In [None]:

class Square(Op):
    """Eleva cada elemento ao quadrado"""
    def __call__(self, *args, **kwargs) -> Tensor:
        args = self._ts(*args)
        result = np.square(args[0].numpy())
        return Tensor(result, parents=args, name=NameManager.new('sqr'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        arg = self._ts(*args)
        return [Tensor(2*arg[0].numpy()*back_grad.numpy(), name=NameManager.new('sqr_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
square = Square()

In [None]:
# from numpy._core.defchararray import translate

class MatMul(Op):
    """MatMul(A, B): multiplica√ß√£o de matrizes

    C = A @ B
    de/dA = de/dc @ B^T
    de/dB = A^T @ de/dc

    """

    def __call__(self, *args, **kwargs) -> Tensor:
        args1, args2 = self._ts(*args)
        result = args1.numpy() @ args2.numpy()
        return Tensor(result, parents=[args1,args2], name=NameManager.new('matMul'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        a, b = self._ts(*args)

        da = back_grad.numpy() @ b.numpy().T
        db = a.numpy().T @ back_grad.numpy()

        return [Tensor(da, name=NameManager.new('matMul_grad')),
                Tensor(db, name=NameManager.new('matMul_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
matmul = MatMul()

In [None]:

class Exp(Op):
    """Exponencia√ß√£o element-wise"""
    def __call__(self, *args, **kwargs) -> Tensor:
        args = self._ts(*args)

        result = np.exp(args[0].numpy())
        return Tensor(result, parents=args, name=NameManager.new('exp'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        args = self._ts(*args)
        return [Tensor(np.exp(args[0].numpy())*back_grad.numpy(), name=NameManager.new('sqr_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
exp = Exp()

In [None]:

class ReLU(Op):
    """ReLU element-wise"""
    def __call__(self, *args, **kwargs) -> Tensor:
        args = self._ts(*args)
        result = np.maximum(0, args[0].numpy())

        return Tensor(result, parents=args, name=NameManager.new('relu'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        args = self._ts(*args)

        # Derivada da ReLU: 1 onde x>0, sen√£o 0
        relu_derivative = (args[0].numpy() > 0).astype(float)

        return [Tensor(relu_derivative*back_grad.numpy(), name=NameManager.new('relu_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
relu = ReLU()

In [None]:

class Sigmoid(Op):
    """Sigmoid element-wise"""
    def __call__(self, *args, **kwargs) -> Tensor:
        args = self._ts(*args)
        result = 1.0 / ( 1.0 + np.exp(-args[0].numpy()))

        return Tensor(result, parents=args, name=NameManager.new('sigmoid'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        args = self._ts(*args)

        # ùë†ùëñùëîùëö(ùë•) ‚àó (1 ‚àí ùë†ùëñùëîùëö(ùë•))
        sig_derivative = (1.0 / ( 1.0 + np.exp(-args[0].numpy()))) * (1.0 - (1.0 / ( 1.0 + np.exp(-args[0].numpy()))))

        return [Tensor(sig_derivative*back_grad.numpy(), name=NameManager.new('sig_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
sigmoid = Sigmoid()

In [None]:

class Tanh(Op):
    """Tanh element-wise"""
    def __call__(self, *args, **kwargs) -> Tensor:
        args = self._ts(*args)

        # tanh z = e^z ‚àí e^-z / e^z + e^-z
        result = (np.exp(args[0].numpy()) - np.exp(-args[0].numpy())) / (np.exp(args[0].numpy()) + np.exp(-args[0].numpy()))

        return Tensor(result, parents=args, name=NameManager.new('tanh'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        args = self._ts(*args)

        # 1 - tanh(z)¬≤
        tanh_derivative = 1.0 - (np.exp(args[0].numpy()) - np.exp(-args[0].numpy())) / (np.exp(args[0].numpy()) + np.exp(-args[0].numpy()))\
                                *(np.exp(args[0].numpy()) - np.exp(-args[0].numpy())) / (np.exp(args[0].numpy()) + np.exp(-args[0].numpy()))


        return [Tensor(tanh_derivative*back_grad.numpy(), name=NameManager.new('tanh_grad'))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
tanh = Tanh()

In [None]:
class Softmax(Op):
    """Softmax de um array de valores. Lembre-se que cada elemento do array influencia o resultado da fun√ß√£o para todos os demais elementos."""
    def __call__(self, *args, **kwargs) -> Tensor:
        args = self._ts(*args)

        # Evita overflow
        shifted = args[0].numpy() - np.max(args[0].numpy())
        exp_vals = np.exp(shifted)
        result = exp_vals / np.sum(exp_vals)

        return Tensor(result, parents=args, name=NameManager.new('softmax'), operation=self)

    def grad(self, back_grad: Tensor, *args, **kwargs) -> list[Tensor]:
        x = self._ts(*args)[0]

        # Recalcula softmax
        shifted = x.numpy() - np.max(x.numpy())
        exp_vals = np.exp(shifted)
        s = exp_vals / np.sum(exp_vals)  # vetor softmax

        # Produto interno s_j * back_grad_j
        dot = np.sum(s * back_grad.numpy())

        # F√≥rmula: grad_i = s_i * (back_grad_i - dot)
        grad_x = s * (back_grad.numpy() - dot)

        return [Tensor(grad_x,name=NameManager.new("softmax_grad"))]

# Instancia a classe. O objeto passa a poder ser usado como uma funcao
softmax = Softmax()


### ‚ÄºÔ∏è Regras e Pontos de Aten√ß√£o‚ÄºÔ∏è

- Vamos fazer a hip√≥tese simplificadora que Tensores devem ser sempre matrizes. Por exemplo, o escalar 2 deve ser armazado em `_arr` como a matriz `[[2]]`. De forma similar, a lista `[1, 2, 3]` deve ser armazenada em `_arr` como em uma matriz coluna.

- Devem ser realizados `asserts` nas opera√ß√µes para garantir que os shapes dos operandos fazem sentido. Esta verifica√ß√£o tamb√©m deve ser feita depois das opera√ß√µes que manipulam gradientes de tensores.

- Devem ser respeitados os nomes dos atributos, m√©todos e classes para viabilizar os testes autom√°ticos.

- Gradientes devem ser calculados usando uma passada pelo grafo computacional.

- Os gradientes devem ser somados e n√£o substitu√≠dos nas chamadas de  backward. Isto vai permitir que os gradientes sejam acumulados entre amostras do dataset e que os resultados sejam corretos mesmo em caso de ramifica√ß√µes e jun√ß√µes no grafo computacional.

- Lembre-se de zerar os gradientes ap√≥s cada passo de gradient descent (atualiza√ß√£o dos par√¢metros).


## Testes B√°sicos

Estes testes avaliam se a derivada da fun√ß√£o est√° sendo calculada corretamente, mas em muitos casos **n√£o** avaliam se os gradientes backpropagados est√£o sendo incorporados corretamente. Esta avalia√ß√£o ser√° feita nos problemas da pr√≥xima se√ß√£o.

Operador de Soma

In [None]:
# add

a = Tensor([1.0, 2.0, 3.0])
b = Tensor([4.0, 5.0, 6.0])
c = add(a, b)
d = add(c, 3.0)
d.backward()

# esperado: matrizes coluna contendo 1
print(a.grad)
print(b.grad)


Tensor([[1.]
 [1.]
 [1.]], name=in_grad:0, shape=(3, 1))
Tensor([[1.]
 [1.]
 [1.]], name=in_grad:1, shape=(3, 1))


Operador de Subtra√ß√£o

In [None]:
# sub

a = Tensor([1.0, 2.0, 3.0])
b = Tensor([4.0, 5.0, 6.0])
c = sub(a, b)
d = sub(c, 3.0)
d.backward()

# esperado: matrizes coluna contendo 1 e -1
print(a.grad)
print(b.grad)


Tensor([[1.]
 [1.]
 [1.]], name=in_grad:2, shape=(3, 1))
Tensor([[-1.]
 [-1.]
 [-1.]], name=in_grad:3, shape=(3, 1))


Operador de Produto

In [None]:
# prod

a = Tensor([1.0, 2.0, 3.0])
b = Tensor([4.0, 5.0, 6.0])
c = prod(a, b)
d = prod(c, 3.0)
d.backward()

# esperado: [12, 15, 18]^T
print(a.grad)
# esperado: [3, 6, 9]^T
print(b.grad)


Tensor([[12.]
 [15.]
 [18.]], name=in_grad:4, shape=(3, 1))
Tensor([[3.]
 [6.]
 [9.]], name=in_grad:5, shape=(3, 1))


Operadores trigonom√©tricos

In [None]:
# sin e cos

a = Tensor([np.pi, 0, np.pi/2])
b = sin(a)
c = cos(a)
d = my_sum(add(b, c))
d.backward()

# esperado: [-1, 1, -1]^T
print(a.grad)

Tensor([[-1.]
 [ 1.]
 [-1.]], name=in:24, shape=(3, 1))


In [None]:
# Sum

a = Tensor([3.0, 1.0, 0.0, 2.0])
b = add(prod(a, 3.0), a)
c = my_sum(b)
c.backward()

# esperado: [4, 4, 4, 4]^T
# print(b.numpy())
# print(c.numpy())
print(a.grad)


Tensor([[4.]
 [4.]
 [4.]
 [4.]], name=in:31, shape=(4, 1))


In [None]:
# Mean

a = Tensor([3.0, 1.0, 0.0, 2.0])
b = mean(a)
b.backward()

# esperado: [0.25, 0.25, 0.25, 0.25]^T
print(a.grad)


Tensor([[0.25]
 [0.25]
 [0.25]
 [0.25]], name=in_grad:8, shape=(4, 1))


In [None]:
# Square

a = Tensor([3.0, 1.0, 0.0, 2.0])
b = square(a)

# esperado: [9, 1, 0, 4]^T
print(b)

b.backward()

# esperado: [6, 2, 0, 4]
print(a.grad)

Tensor([[9.]
 [1.]
 [0.]
 [4.]], name=sqr:0, shape=(4, 1))
Tensor([[6.]
 [2.]
 [0.]
 [4.]], name=in_grad:9, shape=(4, 1))


In [None]:
# matmul

W = Tensor([
    [1.0, 2.0, 3.0],
    [4.0, 5.0, 6.0],
    [7.0, 8.0, 9.0]
])

v = Tensor([1.0, 2.0, 3.0])

z = matmul(W, v)

# esperado: [14, 32, 50]^T
print(z)

z.backward()

# esperado:
# [1, 2, 3]
# [1, 2, 3]
# [1, 2, 3]
print(W.grad)

# esperado: [12, 15, 18]^T
print(v.grad)


Tensor([[14.]
 [32.]
 [50.]], name=matMul:0, shape=(3, 1))
Tensor([[1. 2. 3.]
 [1. 2. 3.]
 [1. 2. 3.]], name=in_grad:10, shape=(3, 3))
Tensor([[12.]
 [15.]
 [18.]], name=in_grad:11, shape=(3, 1))


In [None]:
# Exp

v = Tensor([1.0, 2.0, 3.0])
w = exp(v)

# esperado: [2.718..., 7.389..., 20.085...]^T
print(w)

w.backward()

# esperado: [2.718..., 7.389..., 20.085...]^T
print(v.grad)

Tensor([[ 2.71828183]
 [ 7.3890561 ]
 [20.08553692]], name=exp:0, shape=(3, 1))
Tensor([[ 2.71828183]
 [ 7.3890561 ]
 [20.08553692]], name=in_grad:12, shape=(3, 1))


In [None]:
# Relu

v = Tensor([-1.0, 0.0, 1.0, 3.0])
w = relu(v)

# esperado: [0, 0, 1, 3]^T
print(w)

w.backward()

# esperado: [0, 0, 1, 1]^T
print(v.grad)

Tensor([[0.]
 [0.]
 [1.]
 [3.]], name=relu:0, shape=(4, 1))
Tensor([[0.]
 [0.]
 [1.]
 [1.]], name=in_grad:13, shape=(4, 1))


In [None]:
# Sigmoid

v = Tensor([-1.0, 0.0, 1.0, 3.0])
w = sigmoid(v)

# esperado: [0.268.., 0.5, 0.731.., 0.952..]^T
print(w)

w.backward()

# esperado: [0.196..., 0.25, 0.196..., 0.045...]^T
print(v.grad)

Tensor([[0.26894142]
 [0.5       ]
 [0.73105858]
 [0.95257413]], name=sigmoid:0, shape=(4, 1))
Tensor([[0.19661193]
 [0.25      ]
 [0.19661193]
 [0.04517666]], name=in_grad:14, shape=(4, 1))


In [None]:
# Tanh

v = Tensor([-1.0, 0.0, 1.0, 3.0])
w = tanh(v)

# esperado: [[-0.76159416, 0., 0.76159416, 0.99505475]^T
print(w)

w.backward()

# esperado: [0.41997434, 1., 0.41997434, 0.00986604]^T
print(v.grad)

Tensor([[-0.76159416]
 [ 0.        ]
 [ 0.76159416]
 [ 0.99505475]], name=tanh:0, shape=(4, 1))
Tensor([[0.41997434]
 [1.        ]
 [0.41997434]
 [0.00986604]], name=in_grad:15, shape=(4, 1))


In [None]:
# Softmax

x = Tensor([-3.1, 0.5, 1.0, 2.0])
y = softmax(x)

# esperado: [0.00381737, 0.13970902, 0.23034123, 0.62613238]^T
print(y)

# como exemplo, calcula o MSE para um target vector
diff = sub(y, [1, 0, 0, 0])
sq = square(diff)
a = mean(sq)

# esperado: 0.36424932
print("MSE:", a)

a.backward()

# esperado: [-0.00278095, -0.02243068, -0.02654377, 0.05175539]^T
print(x.grad)



Tensor([[0.00381737]
 [0.13970902]
 [0.23034123]
 [0.62613238]], name=softmax:0, shape=(4, 1))
MSE: Tensor([[0.36424932]], name=mean:1, shape=(1, 1))
Tensor([[-0.00278095]
 [-0.02243068]
 [-0.02654377]
 [ 0.05175539]], name=in_grad:16, shape=(4, 1))



## Refer√™ncias

### Principais

- [Build your own pytorch](https://www.peterholderrieth.com/blog/2023/Build-Your-Own-Pytorch-1-Computation-Graphs/)
- [Build your own Pytorch - 2: Backpropagation](https://www.peterholderrieth.com/blog/2023/Build-Your-Own-Pytorch-2-Autograd/)
- [Build your own PyTorch - 3: Training a Neural Network with self-made AD software](https://www.peterholderrieth.com/blog/2023/Build-Your-Own-Pytorch-3-Build-Classifier/)
- [Pytorch: A Gentle Introduction to torch.autograd](https://docs.pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html)
- [Automatic Differentiation with torch.autograd](https://docs.pytorch.org/tutorials/beginner/basics/autogradqs_tutorial.html)

### Secund√°rias

- [Tom Roth: Building a computational graph: part 1](https://tomroth.dev/compgraph1/)
- [Tom Roth: Building a computational graph: part 2](https://tomroth.dev/compgraph2/)
- [Tom Roth: Building a computational graph: part 3](https://tomroth.dev/compgraph3/)
- [Roger Grosse (Toronto) class on Automatic Differentiation](https://www.cs.toronto.edu/~rgrosse/courses/csc321_2018/slides/lec10.pdf)
- [Computational graphs and gradient flows](https://simple-english-machine-learning.readthedocs.io/en/latest/neural-networks/computational-graphs.html)
- [Colah Visual Blog: Backprop](https://colah.github.io/posts/2015-08-Backprop/)
- [Towards Data Science: Automatic Differentiation (AutoDiff): A Brief Intro with Examples](https://towardsdatascience.com/automatic-differentiation-autodiff-a-brief-intro-with-examples-3f3d257ffe3b/)
- [A Hands-on Introduction to Automatic Differentiation - Part 1](https://mostafa-samir.github.io/auto-diff-pt1/)
- [Build Your own Deep Learning Framework - A Hands-on Introduction to Automatic Differentiation - Part 2](https://mostafa-samir.github.io/auto-diff-pt1/)
