In [11]:
import numpy as np

# Backpropagation (Retropropagação)

## O que é Backpropagation?

**Backpropagation** (ou retropropagação) é um algoritmo utilizado para treinar redes neurais multicamadas. Ele ajusta os pesos dos neurônios na rede para minimizar o erro entre a saída prevista e o valor esperado. Esse processo é feito aplicando o método de **gradiente descendente** para reduzir a função de custo da rede.

## Funcionamento do Backpropagation

O processo de backpropagation envolve duas etapas principais:

1. **Passagem Direta (Forward Pass)**: 
   - Os dados de entrada são passados através da rede, camada por camada, até a camada de saída, onde uma previsão é gerada.
   
2. **Passagem para Trás (Backward Pass)**:
   - A rede calcula o erro (diferença entre a previsão e o valor real) e propaga esse erro de volta pela rede para ajustar os pesos, usando o gradiente descendente.

## Fórmula do Ajuste dos Pesos

Durante o backpropagation, cada peso \\( w \\) é ajustado para minimizar o erro da rede, de acordo com a fórmula:

$$
w = w - \\alpha \\frac{\\partial E}{\\partial w}
$$

onde:
- \\( \\alpha \\) é a **taxa de aprendizado**, que controla a velocidade do ajuste dos pesos,
- \\( E \\) é o **erro da rede** (função de custo),
- \\( \\frac{\\partial E}{\\partial w} \\) é o **gradiente** do erro em relação ao peso \\( w \\).

## Vantagens e Desafios do Backpropagation

- **Vantagens**: 
  - Permite que redes complexas com muitas camadas (deep learning) aprendam padrões complexos nos dados.
  - É um método eficiente e amplamente utilizado para ajustar os pesos das redes neurais.

- **Desafios**: 
  - Treinar redes profundas pode exigir muitos dados e tempo.
  - A taxa de aprendizado precisa ser ajustada com cuidado, e há risco de overfitting se o modelo for muito complexo.

## Exemplo Intuitivo

Imagine uma rede neural com três camadas (entrada, uma camada oculta e saída). Durante o treino, o backpropagation ajusta os pesos entre cada camada para que a saída final se aproxime cada vez mais do valor esperado após várias iterações.

---

O backpropagation é a base da maioria dos algoritmos de aprendizado profundo e é essencial para o sucesso de redes neurais modernas em tarefas como reconhecimento de imagem, processamento de linguagem natural, entre outros.


$y = \sin(\exp(x^3))$

$\frac{dy}{dx} = \cos(\exp(x^3)) \exp(x^3) 3 x^2$

In [None]:
class Variable:
    def __init__(self, name, initial_value):
        self.name = name
        self.value = initial_value
        self.grad = 0.0

    def evaluate(self):
        return self.value

    def zero_grad(self):
        self.grad = 0.0

    def backward(self, upstream_grad):
        self.grad += upstream_grad

    def __str__(self):
        return f'{self.name}:{self.value}'

class Cube:
    def __init__(self, x):
        self.x = x

    def evaluate(self):
        return self.x.evaluate()**3

    def backward(self, upstream_grad):
        local_grad = 3 * self.x.evaluate()**2
        downstream_grad = upstream_grad * local_grad
        self.x.backward(downstream_grad)

    def __str__(self):
        return f'({self.x})^3'

class Exp:
    def __init__(self, x):
        self.x = x

    def evaluate(self):
        return np.exp(self.x.evaluate())

    def backward(self, upstream_grad):
        local_grad = np.exp(self.x.evaluate())
        downstream_grad = upstream_grad * local_grad
        self.x.backward(downstream_grad)

    def __str__(self):
        return f'exp({self.x})'

class Sin:
    def __init__(self, x):
        self.x = x

    def evaluate(self):
        return np.sin(self.x.evaluate())

    def backward(self, upstream_grad):
        local_grad = np.cos(self.x.evaluate())
        downstream_grad = upstream_grad * local_grad
        self.x.backward(downstream_grad)

    def __str__(self):
        return f'sin({self.x})'

In [None]:
x = Variable('x', 2)
c = Cube(x)
e = Exp(c)
y = Sin(e)

print(y.evaluate())

x.zero_grad()
y.backward(1.0)

print(x.grad)

0.40176297151886475
-32757.521776103014


In [31]:
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.utils import to_categorical

# Load the MNIST dataset
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Preprocess the data
x_train = x_train.reshape((x_train.shape[0], 28 * 28)).astype('float32') / 255
x_test = x_test.reshape((x_test.shape[0], 28 * 28)).astype('float32') / 255

# One-hot encode the labels
y_train = to_categorical(y_train, 10)
y_test = to_categorical(y_test, 10)

# Create the MLP model
model = Sequential()
model.add(Flatten(input_shape=(28 * 28,)))
model.add(Dense(512, activation='relu'))
model.add(Dense(256, activation='relu'))
model.add(Dense(128, activation='relu'))
model.add(Dense(10, activation='softmax'))

# Compile the model
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Train the model
model.fit(x_train, y_train, epochs=10, batch_size=128, validation_split=0.2)

# Evaluate the model
loss, accuracy = model.evaluate(x_test, y_test)
print(f'Test accuracy: {accuracy}')

ModuleNotFoundError: No module named 'tensorflow'