- Para entender como a retropropagação (backpropagation) aplica a diferenciação em modo reverso utilizando a regra da cadeia no contexto de redes neurais profundas, vamos implementar um código passo a passo que ilustra o processo de retropropagação em uma rede neural simples.

- Cenário:
Vamos considerar uma rede neural com:

Uma camada de entrada com 2 neurônios.
Uma camada oculta com 2 neurônios e função de ativação sigmoide.
Uma camada de saída com 1 neurônio e função de ativação sigmoide.

- Objetivo:
Demonstrar como a retropropagação é usada para calcular os gradientes e ajustar os pesos da rede, aplicando a regra da cadeia “de fora para dentro”.

In [1]:
import numpy as np

# Funções auxiliares
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return x * (1 - x)

In [2]:
# Passo 1: Inicialização dos Pesos
np.random.seed(42)
# Pesos para a camada oculta
W1 = np.random.rand(2, 2)
# Pesos para a camada de saída
W2 = np.random.rand(2, 1)

In [3]:
# Passo 2: Definindo o dataset de entrada (X) e saída esperada (y)
X = np.array([[0, 0],
              [0, 1],
              [1, 0],
              [1, 1]])

y = np.array([[0], [1], [1], [0]])

In [4]:
# Passo 3: Forward Pass (Passagem para frente)

hidden_input = np.dot(X, W1)               # Entrada para a camada oculta

hidden_output = sigmoid(hidden_input)      # Saída da camada oculta (após ativação)

output_input = np.dot(hidden_output, W2)   # Entrada para a camada de saída

predicted_output_before = sigmoid(output_input)   # Saída da camada de saída (após ativação)

In [5]:
# Exibindo a saída prevista antes da retropropagação
print("\nSaída prevista antes da retropropagação:\n", predicted_output_before)


Saída prevista antes da retropropagação:
 [[0.53892274]
 [0.55132394]
 [0.5510619 ]
 [0.56117033]]


In [6]:
# Passo 4: Calculando o erro
error = y - predicted_output_before

In [7]:
# Passo 5: Retropropagação (Backpropagation)
d_output = error * sigmoid_derivative(predicted_output_before) # Derivada do erro em relação à saída da camada de saída
error_hidden_layer = d_output.dot(W2.T)
d_hidden_layer = error_hidden_layer * sigmoid_derivative(hidden_output)

In [8]:
# Atualização dos pesos
W2 += hidden_output.T.dot(d_output)  # Atualizando pesos da camada de saída
W1 += X.T.dot(d_hidden_layer)        # Atualizando pesos da camada oculta

In [9]:
# Passo 6: Forward Pass novamente para obter a saída prevista após a retropropagação
hidden_input_after = np.dot(X, W1)               # Entrada para a camada oculta
hidden_output_after = sigmoid(hidden_input_after)  # Saída da camada oculta (após ativação)
output_input_after = np.dot(hidden_output_after, W2)  # Entrada para a camada de saída
predicted_output_after = sigmoid(output_input_after)  # Saída prevista após a retropropagação

# Exibindo os pesos atualizados
print("\nPesos atualizados W1:\n", W1)
print("Pesos atualizados W2:\n", W2)

# Exibindo a saída prevista após a retropropagação
print("\nSaída prevista após a retropropagação:\n", predicted_output_after)

# Exibindo os valores esperados
print("\nValores esperados (y):\n", y)


Pesos atualizados W1:
 [[0.3746971  0.95108266]
 [0.73176459 0.59950624]]
Pesos atualizados W2:
 [[0.12596692]
 [0.12678416]]

Saída prevista após a retropropagação:
 [[0.5315519 ]
 [0.54162756]
 [0.54142998]
 [0.54965008]]

Valores esperados (y):
 [[0]
 [1]
 [1]
 [0]]


- Vamos analisar os resultados da retropropagação após uma iteração de treinamento.

"predicted_output = sigmoid(output_input)" forneciam os valores de saída esperados.

1. Pesos Atualizados (W1 e W2):

- W1: São os pesos entre a camada de entrada e a camada oculta. 
     - Antes da retropropagação, esses pesos tinham valores iniciais aleatórios.
     - Após uma iteração de retropropagação, esses pesos foram ligeiramente ajustados para minimizar o erro entre a saída prevista e a saída esperada.
     - Os novos valores de W1 indicam como a rede está ajustando a importância de cada entrada na produção da saída da camada oculta.
- W2: São os pesos entre a camada oculta e a camada de saída.

Assim como W1, os pesos W2 foram atualizados para minimizar o erro de previsão. Os valores de W2 após a atualização mostram o quanto cada neurônio na camada oculta contribui para a saída final.


2. Saída Prevista (predicted_output):

- Essa é a saída da rede neural após a primeira iteração de treinamento, antes de comparar com os valores esperados (y).

- Valores:
[[0.5315519 ]
 [0.54162756]
 [0.54142998]
 [0.54965008]]

    - Esses valores são os resultados da função sigmoide aplicada ao somatório ponderado das saídas da camada oculta. Eles representam a probabilidade prevista pela rede para cada uma das entradas (X), variando de 0 a 1. Como estamos usando uma função de ativação sigmoide, a saída sempre estará nesse intervalo.


3. Interpretação Geral:

- Convergência Inicial: Após uma única iteração, as saídas previstas estão começando a se ajustar para aproximar os valores corretos de y. No entanto, como houve apenas uma iteração, as previsões ainda não são muito próximas dos valores esperados.
- Ajuste Incremental: O aprendizado profundo, especialmente em redes com várias camadas, é incremental. A cada iteração (ou época), a retropropagação ajusta os pesos um pouco mais, movendo as previsões na direção correta.
- Próximas Iterações: Com mais iterações, os pesos continuarão sendo ajustados, o que deve levar as saídas previstas a se aproximarem dos valores esperados.
- Este é um exemplo do processo de aprendizado na rede neural. A retropropagação ajusta os pesos para melhorar a precisão da rede ao prever a saída correta. Este processo é repetido muitas vezes até que o erro entre a saída prevista e a saída esperada seja minimizado o máximo possível.