# F√≥rmulas Importantes no Backpropagation - Parte 2

## Introdu√ß√£o

Neste notebook, exploraremos as f√≥rmulas matem√°ticas para o c√°lculo do erro nas camadas ocultas e a atualiza√ß√£o dos pesos durante o algoritmo de Backpropagation.

In [2]:
# Importa√ß√£o das bibliotecas necess√°rias
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import HTML, display, Math
import matplotlib.colors as mcolors
from matplotlib import cm

## Erro nas Camadas Ocultas

Enquanto o erro na camada de sa√≠da √© calculado diretamente comparando a sa√≠da da rede com o valor desejado, o erro nas camadas ocultas √© calculado propagando o erro da camada seguinte para tr√°s.

### Deriva√ß√£o da F√≥rmula

Para um neur√¥nio $j$ na camada $l$, o erro $\delta_j^l$ √© definido como a derivada parcial do erro total em rela√ß√£o √† soma ponderada $z_j^l$:

$\delta_j^l = \frac{\partial E}{\partial z_j^l}$

Usando a regra da cadeia, podemos expressar este erro em termos do erro na camada seguinte $l+1$:

$\delta_j^l = \left( \sum_{k} w_{kj}^{l+1} \delta_k^{l+1} \right) \cdot f'(z_j^l)$

Onde:
- $w_{kj}^{l+1}$ √© o peso da conex√£o entre o neur√¥nio $j$ na camada $l$ e o neur√¥nio $k$ na camada $l+1$
- $\delta_k^{l+1}$ √© o erro do neur√¥nio $k$ na camada $l+1$
- $f'(z_j^l)$ √© a derivada da fun√ß√£o de ativa√ß√£o avaliada em $z_j^l$

In [2]:
import numpy as np

# Fun√ß√µes auxiliares
def sigmoid(z):
    """Fun√ß√£o de ativa√ß√£o sigmoid"""
    return 1.0 / (1.0 + np.exp(-z))

def sigmoid_derivative(z):
    """Derivada da fun√ß√£o sigmoid"""
    return sigmoid(z) * (1 - sigmoid(z))

# C√°lculo do erro na camada oculta
def hidden_layer_error(delta_next, weights_next, z_current, activation_function='sigmoid'):
    """Calcula o erro para uma camada oculta"""
    
    print("\n================= INICIANDO C√ÅLCULO DO ERRO NA CAMADA OCULTA =================")
    
    print("\n1Ô∏è‚É£ Dados de entrada:")
    print(f"üî∏ Erro na camada seguinte (delta_next):\n{delta_next}")
    print(f"üî∏ Pesos da camada atual para a pr√≥xima (weights_next):\n{weights_next}")
    print(f"üî∏ Soma ponderada das entradas da camada atual (z_current):\n{z_current}")
    print(f"üî∏ Fun√ß√£o de ativa√ß√£o utilizada: {activation_function}")
    
    # 1. Calcula contribui√ß√£o do erro da pr√≥xima camada
    error_contribution = np.dot(weights_next.T, delta_next)
    print("\n2Ô∏è‚É£ Contribui√ß√£o do erro da camada seguinte (peso.T x delta_next):")
    print(error_contribution)
    
    # 2. Calcula a derivada da fun√ß√£o de ativa√ß√£o
    if activation_function == 'sigmoid':
        activation_derivative = sigmoid_derivative(z_current)
    elif activation_function == 'tanh':
        activation_derivative = 1 - np.tanh(z_current) ** 2
    elif activation_function == 'relu':
        activation_derivative = np.where(z_current > 0, 1, 0)
    else:
        raise ValueError(f"Fun√ß√£o de ativa√ß√£o '{activation_function}' n√£o suportada")
    
    print("\n3Ô∏è‚É£ Derivada da fun√ß√£o de ativa√ß√£o aplicada √† camada atual:")
    print(activation_derivative)
    
    # 3. Calcula o erro da camada atual
    delta = error_contribution * activation_derivative
    
    print("\n4Ô∏è‚É£ Resultado final - Erro na camada atual (delta):")
    print(delta)
    
    print("\n================= FIM DO C√ÅLCULO =================\n")
    return delta

# ================= EXEMPLO DE USO =================
# Rede com 3 neur√¥nios na camada l+1 e 2 neur√¥nios na camada l
delta_next = np.array([[0.1], [0.2], [0.3]])  # Erro na camada seguinte (l+1)
weights_next = np.array([[0.1, 0.2],   # Pesos de cada neur√¥nio da camada l+1 para camada l
                          [0.3, 0.4],
                          [0.5, 0.6]])
z_current = np.array([[0.5], [0.7]])  # Soma ponderada na camada atual (l)

# C√°lculo do erro na camada atual (l)
delta_current = hidden_layer_error(delta_next, weights_next, z_current, activation_function='sigmoid')

print("Delta (erro) na camada atual calculado com sucesso:")
print(delta_current)




1Ô∏è‚É£ Dados de entrada:
üî∏ Erro na camada seguinte (delta_next):
[[0.1]
 [0.2]
 [0.3]]
üî∏ Pesos da camada atual para a pr√≥xima (weights_next):
[[0.1 0.2]
 [0.3 0.4]
 [0.5 0.6]]
üî∏ Soma ponderada das entradas da camada atual (z_current):
[[0.5]
 [0.7]]
üî∏ Fun√ß√£o de ativa√ß√£o utilizada: sigmoid

2Ô∏è‚É£ Contribui√ß√£o do erro da camada seguinte (peso.T x delta_next):
[[0.22]
 [0.28]]

3Ô∏è‚É£ Derivada da fun√ß√£o de ativa√ß√£o aplicada √† camada atual:
[[0.23500371]
 [0.22171287]]

4Ô∏è‚É£ Resultado final - Erro na camada atual (delta):
[[0.05170082]
 [0.0620796 ]]


Delta (erro) na camada atual calculado com sucesso:
[[0.05170082]
 [0.0620796 ]]


## Atualiza√ß√£o dos Pesos

Ap√≥s calcular os erros para cada neur√¥nio na rede, o pr√≥ximo passo √© atualizar os pesos para minimizar o erro. Isso √© feito usando o algoritmo do gradiente descendente ou suas variantes.

### Deriva√ß√£o da F√≥rmula

Para atualizar um peso $w_{ji}^l$ que conecta o neur√¥nio $i$ na camada $l-1$ ao neur√¥nio $j$ na camada $l$, a f√≥rmula √©:

$w_{ji}^l = w_{ji}^l - \eta \frac{\partial E}{\partial w_{ji}^l} = w_{ji}^l - \eta \delta_j^l a_i^{l-1}$

Onde:
- $\eta$ √© a taxa de aprendizado
- $\delta_j^l$ √© o erro do neur√¥nio $j$ na camada $l$
- $a_i^{l-1}$ √© a ativa√ß√£o do neur√¥nio $i$ na camada $l-1$

De forma similar, a atualiza√ß√£o dos vieses (bias) √© dada por:

$b_j^l = b_j^l - \eta \delta_j^l$

In [3]:
import numpy as np

# =========================
# Implementa√ß√£o da atualiza√ß√£o de pesos e vieses
# =========================

def update_weights_and_biases(weights, biases, deltas, activations, learning_rate):
    """Atualiza os pesos e vieses usando o gradiente descendente"""
    for l in range(len(weights)):
        weights[l] = weights[l] - learning_rate * np.dot(deltas[l], activations[l].transpose())
        biases[l] = biases[l] - learning_rate * deltas[l]
    return weights, biases


# =========================
# Exemplo de uso
# =========================

# Definir uma rede neural simples com 2 camadas
weights = [np.array([[0.1, 0.2], [0.3, 0.4]]), np.array([[0.5, 0.6]])]
biases = [np.array([[0.1], [0.2]]), np.array([[0.3]])]

# Definir ativa√ß√µes e erros (deltas)
activations = [np.array([[0.5], [0.6]]), np.array([[0.7], [0.8]]), np.array([[0.9]])]
deltas = [np.array([[0.1], [0.2]]), np.array([[0.3]])]

# Definir taxa de aprendizado
learning_rate = 0.1

# Salvar os pesos e vieses originais para compara√ß√£o
original_weights = [w.copy() for w in weights]
original_biases = [b.copy() for b in biases]

# Atualizar pesos e vieses
new_weights, new_biases = update_weights_and_biases(weights, biases, deltas, activations, learning_rate)


# =========================
# Impress√£o detalhada dos resultados
# =========================

print("\n================= RESULTADOS DA ATUALIZA√á√ÉO =================\n")

# Pesos
for i in range(len(original_weights)):
    print(f"üì¶ Camada {i+1} - PESOS")
    print("üî∏ Pesos originais:")
    print(original_weights[i])
    print("üî∏ Pesos atualizados:")
    print(new_weights[i])
    print("üõ†Ô∏è Interpreta√ß√£o: Cada valor foi ajustado na dire√ß√£o de reduzir o erro da rede. "
          "A atualiza√ß√£o ocorre proporcional ao gradiente (delta) e √† ativa√ß√£o da camada anterior.\n")

# Vieses
for i in range(len(original_biases)):
    print(f"‚öôÔ∏è Camada {i+1} - VIESES")
    print("üî∏ Vieses originais:")
    print(original_biases[i])
    print("üî∏ Vieses atualizados:")
    print(new_biases[i])
    print("üõ†Ô∏è Interpreta√ß√£o: Os vieses foram ajustados diretamente na propor√ß√£o do delta da camada, "
          "independentemente da ativa√ß√£o, pois o vi√©s n√£o depende da entrada.\n")

print("================= FIM =================\n")




üì¶ Camada 1 - PESOS
üî∏ Pesos originais:
[[0.1 0.2]
 [0.3 0.4]]
üî∏ Pesos atualizados:
[[0.095 0.194]
 [0.29  0.388]]
üõ†Ô∏è Interpreta√ß√£o: Cada valor foi ajustado na dire√ß√£o de reduzir o erro da rede. A atualiza√ß√£o ocorre proporcional ao gradiente (delta) e √† ativa√ß√£o da camada anterior.

üì¶ Camada 2 - PESOS
üî∏ Pesos originais:
[[0.5 0.6]]
üî∏ Pesos atualizados:
[[0.479 0.576]]
üõ†Ô∏è Interpreta√ß√£o: Cada valor foi ajustado na dire√ß√£o de reduzir o erro da rede. A atualiza√ß√£o ocorre proporcional ao gradiente (delta) e √† ativa√ß√£o da camada anterior.

‚öôÔ∏è Camada 1 - VIESES
üî∏ Vieses originais:
[[0.1]
 [0.2]]
üî∏ Vieses atualizados:
[[0.09]
 [0.18]]
üõ†Ô∏è Interpreta√ß√£o: Os vieses foram ajustados diretamente na propor√ß√£o do delta da camada, independentemente da ativa√ß√£o, pois o vi√©s n√£o depende da entrada.

‚öôÔ∏è Camada 2 - VIESES
üî∏ Vieses originais:
[[0.3]]
üî∏ Vieses atualizados:
[[0.27]]
üõ†Ô∏è Interpreta√ß√£o: Os vieses foram ajustado

## Variantes do Gradiente Descendente

Existem v√°rias variantes do algoritmo do gradiente descendente que podem melhorar a converg√™ncia e o desempenho:

### Gradiente Descendente com Momentum

Adiciona um termo de momentum que ajuda a acelerar a converg√™ncia e evitar m√≠nimos locais:

$v = \gamma v - \eta \nabla E$
$w = w + v$

Onde $v$ √© o vetor de velocidade e $\gamma$ √© o coeficiente de momentum.

In [None]:
# Implementa√ß√£o do gradiente descendente com momentum
def update_with_momentum(weights, biases, deltas, activations, learning_rate, velocities, momentum=0.9):
    """Atualiza os pesos e vieses usando o gradiente descendente com momentum
    
    Args:
        weights: Lista de matrizes de pesos para cada camada
        biases: Lista de vetores de vi√©s para cada camada
        deltas: Lista de erros para cada camada
        activations: Lista de ativa√ß√µes para cada camada
        learning_rate: Taxa de aprendizado
        velocities: Lista de velocidades para cada camada (pesos e vieses)
        momentum: Coeficiente de momentum
        
    Returns:
        weights: Pesos atualizados
        biases: Vieses atualizados
        velocities: Velocidades atualizadas
    """
    # Descompactar velocidades
    velocity_w, velocity_b = velocities
    
    # Atualizar pesos e vieses para cada camada
    for l in range(len(weights)):
        # Calcular gradientes
        grad_w = np.dot(deltas[l], activations[l].transpose())
        grad_b = deltas[l]
        
        # Atualizar velocidades
        velocity_w[l] = momentum * velocity_w[l] - learning_rate * grad_w
        velocity_b[l] = momentum * velocity_b[l] - learning_rate * grad_b
        
        # Atualizar pesos e vieses
        weights[l] = weights[l] + velocity_w[l]
        biases[l] = biases[l] + velocity_b[l]
    
    return weights, biases, (velocity_w, velocity_b)

# Exemplo de uso
# Inicializar velocidades com zeros
velocity_w = [np.zeros_like(w) for w in weights]
velocity_b = [np.zeros_like(b) for b in biases]
velocities = (velocity_w, velocity_b)

# Atualizar pesos e vieses com momentum
new_weights, new_biases, new_velocities = update_with_momentum(weights, biases, deltas, activations, learning_rate, velocities)


print("\n================= RESULTADOS DA ATUALIZA√á√ÉO COM MOMENTUM =================\n")

# Pesos
for i in range(len(new_weights)):
    print(f"Camada {i+1} - PESOS")
    print("üî∏ Pesos atualizados com momentum:")
    print(new_weights[i])
    print("Interpreta√ß√£o:")
    print(
        f"Nesta camada, os pesos foram atualizados considerando n√£o apenas o gradiente atual "
        f"(que aponta na dire√ß√£o do erro atual), mas tamb√©m a velocidade acumulada de atualiza√ß√µes "
        f"anteriores. O momentum (coeficiente = {0.9}) faz com que a rede tenha 'in√©rcia' nas atualiza√ß√µes, "
        f"ajudando a acelerar nas dire√ß√µes corretas e a reduzir oscila√ß√µes, especialmente em vales estreitos "
        f"do espa√ßo de erro.\n"
    )

# Vieses
for i in range(len(new_biases)):
    print(f"Camada {i+1} - VIESES")
    print("üî∏ Vieses atualizados com momentum:")
    print(new_biases[i])
    print("Interpreta√ß√£o:")
    print(
        f"Os vieses foram atualizados com a mesma l√≥gica dos pesos: al√©m do gradiente atual, "
        f"a velocidade anterior influencia a dire√ß√£o e o tamanho do passo. Isso permite um "
        f"avan√ßo mais suave e r√°pido na superf√≠cie de erro, evitando quedas abruptas e ajudando "
        f"na estabilidade da aprendizagem.\n"
    )

# Velocidades
for i in range(len(new_velocities[0])):
    print(f"Camada {i+1} - VELOCIDADES DOS PESOS")
    print(new_velocities[0][i])
    print("Estas velocidades representam a combina√ß√£o entre a velocidade anterior "
          "e o gradiente atual, ponderadas pelo momentum. Quanto maior o momentum, "
          "mais a velocidade anterior influencia.\n")

for i in range(len(new_velocities[1])):
    print(f"Camada {i+1} - VELOCIDADES DOS VIESES")
    print(new_velocities[1][i])
    print("Velocidades aplicadas aos vieses, funcionando como um 'ac√∫mulo' de dire√ß√£o "
          "para suavizar e acelerar a converg√™ncia.\n")

print("================= FIM =================\n")




üì¶ Camada 1 - PESOS
üî∏ Pesos atualizados com momentum:
[[0.085 0.182]
 [0.27  0.364]]
üõ†Ô∏è Interpreta√ß√£o:
Nesta camada, os pesos foram atualizados considerando n√£o apenas o gradiente atual (que aponta na dire√ß√£o do erro atual), mas tamb√©m a velocidade acumulada de atualiza√ß√µes anteriores. O momentum (coeficiente = 0.9) faz com que a rede tenha 'in√©rcia' nas atualiza√ß√µes, ajudando a acelerar nas dire√ß√µes corretas e a reduzir oscila√ß√µes, especialmente em vales estreitos do espa√ßo de erro.

üì¶ Camada 2 - PESOS
üî∏ Pesos atualizados com momentum:
[[0.437 0.528]]
üõ†Ô∏è Interpreta√ß√£o:
Nesta camada, os pesos foram atualizados considerando n√£o apenas o gradiente atual (que aponta na dire√ß√£o do erro atual), mas tamb√©m a velocidade acumulada de atualiza√ß√µes anteriores. O momentum (coeficiente = 0.9) faz com que a rede tenha 'in√©rcia' nas atualiza√ß√µes, ajudando a acelerar nas dire√ß√µes corretas e a reduzir oscila√ß√µes, especialmente em vales estreitos do

## Resumo

1. O erro em uma camada oculta √© calculado como a soma ponderada dos erros na camada seguinte, multiplicada pela derivada da fun√ß√£o de ativa√ß√£o: $\delta_j^l = \left( \sum_{k} w_{kj}^{l+1} \delta_k^{l+1} \right) \cdot f'(z_j^l)$.

2. A atualiza√ß√£o dos pesos √© feita usando o gradiente descendente: $w_{ji}^l = w_{ji}^l - \eta \delta_j^l a_i^{l-1}$.

3. Variantes como o gradiente descendente com momentum podem melhorar a converg√™ncia e o desempenho do algoritmo.

4. A escolha da taxa de aprendizado √© crucial para o sucesso do treinamento da rede neural.