# <font color='blue'>Matemática Para Data Science</font>

## <font color='blue'>Estudo de Caso 8</font>
### <font color='blue'>Implementando o Algoritmo Backpropagation</font>

In [1]:
import numpy as np
np.random.seed(0)

### Algoritmo Backpropagation

O algoritmo Backpropagation, ou retropropagação, é um método amplamente utilizado no treinamento de redes neurais. É um algoritmo de otimização baseado em gradientes que minimiza a função de custo, ajustando iterativamente os pesos da rede. O Backpropagation é utilizado em conjunto com um algoritmo de otimização, como o Gradiente Descendente, para realizar essa tarefa.

Aqui está como o algoritmo Backpropagation funciona, dividido em etapas:

**1- Feedforward:**

- Começa com a entrada através da rede, camada por camada, até chegar à saída.
- Utiliza os pesos atuais da rede para calcular a saída para cada neurônio.

**2- Cálculo do Erro:**

- Compara a saída calculada da rede com a saída desejada (rótulo verdadeiro).
- Utiliza uma função de custo (como a entropia cruzada ou erro quadrático médio) para calcular o erro total da rede.

**3- Retropropagação do Erro:**

- Calcula o gradiente da função de custo em relação a cada peso, movendo-se da camada de saída para a camada de entrada.
- Utiliza a regra da cadeia para calcular esses gradientes, o que envolve calcular derivadas parciais de várias quantidades, como a função de ativação e a função de custo.

A propagação do gradiente através das camadas é o que dá o nome de "retropropagação".

**4- Atualização dos Pesos:**

- Utiliza os gradientes calculados junto com um algoritmo de otimização (como o Gradiente Descendente) para ajustar os pesos na direção que reduz o erro.
- O tamanho da mudança em cada peso é determinado pela taxa de aprendizado, que é um hiperparâmetro escolhido manualmente.

**5- Iteração:**

- Repete as etapas de 1 a 4 para várias épocas ou até que o erro da rede atinja um valor aceitável.

O algoritmo Backpropagation foi uma inovação crítica que permitiu o treinamento eficiente de redes neurais profundas e é uma parte central da maioria dos frameworks modernos de aprendizado profundo. Ao ajustar os pesos da rede de maneira que minimizem a função de custo, ele permite que a rede aprenda representações complexas dos dados de entrada e faça previsões precisas.

## Pseudo-Código

![DSA](imagens/pseudo.png)

O algoritmo Backpropagation é um método iterativo para treinar redes neurais. Abaixo está o pseudo-código para o algoritmo:

Inicialize os pesos da rede:

Inicialize os pesos da rede com pequenos valores aleatórios.
Para cada época até a convergência, faça:

## a. Para cada exemplo de treinamento na base de dados, faça:

**i. Feedforward:**

- Entrada: X (exemplo de entrada).
- Para cada camada da rede, calcule a saída de cada neurônio com os pesos e a função de ativação.
- Guarde as ativações e as saídas de cada camada.

**ii. Calcule o erro da camada de saída:**

- Calcule o erro da saída da rede comparando com o rótulo verdadeiro Y.
- Utilize uma função de custo, como erro quadrático médio.

**iii. Retropropagação do Erro:**

- Para cada camada, começando pela camada de saída e movendo-se para trás:
- Calcule o gradiente do erro em relação às ativações da camada.
- Calcule o gradiente do erro em relação aos pesos da camada, usando a regra da cadeia.
- Guarde os gradientes de cada camada.

**iv. Atualização dos Pesos:**

- Para cada camada:
- Atualize os pesos da camada usando o gradiente calculado e a taxa de aprendizado.
- Os pesos podem ser atualizados usando métodos como Gradiente Descendente.

## b. Verifique a Convergência:

Avalie a rede no conjunto de validação, se disponível.
Se o erro no conjunto de validação estiver abaixo de um limiar, ou se o erro parar de diminuir, pare o treinamento.
Retorne os pesos treinados da rede.

O pseudo-código acima descreve o treinamento de uma rede neural usando Backpropagation. É um resumo de alto nível, e a implementação real pode exigir detalhes adicionais, como escolha da função de ativação, inicialização de peso, técnica de otimização, etc. A eficácia do treinamento pode ser sensível à escolha desses detalhes e hiperparâmetros.

## Implementação em Python

In [2]:
# Função de ativação
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [3]:
# Derivada da função sigmóide
def sigmoid_derivative(x):
    return x * (1 - x)

In [4]:
# Número de neurônios em cada camada da rede
input_neurons, hidden_neurons, output_neurons = 2, 2, 1

In [5]:
# Inicialização de pesos e bias da camada de entrada para a camada oculta
weights_input_hidden = np.random.uniform(size = (input_neurons, hidden_neurons))
bias_input_hidden = np.random.uniform(size = (1, hidden_neurons))

In [6]:
# Inicialização de pesos e bias da camada oculta para a camada de saída
weights_hidden_output = np.random.uniform(size = (hidden_neurons, output_neurons))
bias_hidden_output = np.random.uniform(size = (1, output_neurons))

In [7]:
# Input
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])

In [8]:
# Output esperado
y = np.array([[0], [1], [1], [0]])

In [9]:
# Hiperparâmetros
lr = 0.7
n_epochs = 10000

In [10]:
# Loop de treino
for epoch in range(n_epochs):
    
    # Feedforward
    # Calcula a ativação da camada oculta (hidden layer) usando os pesos de entrada
    hidden_layer_activation = np.dot(X, weights_input_hidden)
    
    # Adiciona o bias à ativação da camada oculta
    hidden_layer_activation += bias_input_hidden
    
    # Aplica a função sigmoid para calcular a saída da camada oculta
    hidden_layer_output = sigmoid(hidden_layer_activation)

    # Calcula a ativação da camada de saída usando os pesos entre a camada oculta e a camada de saída
    output_layer_activation = np.dot(hidden_layer_output, weights_hidden_output)
    
    # Adiciona o bias à ativação da camada de saída
    output_layer_activation += bias_hidden_output
    
    # Aplica a função sigmoid para calcular a saída prevista
    predicted_output = sigmoid(output_layer_activation)

    # Backpropagation
    # Calcula o erro entre a saída prevista e a saída verdadeira
    error = y - predicted_output
    
    # Calcula a derivada do erro em relação à saída prevista, usando a derivada da função sigmoid
    d_predicted_output = error * sigmoid_derivative(predicted_output)

    # Calcula o erro da camada oculta, propagando o erro da camada de saída
    error_hidden_layer = d_predicted_output.dot(weights_hidden_output.T)
    
    # Calcula a derivada do erro em relação à saída da camada oculta
    d_hidden_layer = error_hidden_layer * sigmoid_derivative(hidden_layer_output)

    # Atualizando os pesos e os bias
    # Atualiza os pesos da camada oculta para a camada de saída usando a taxa de aprendizado
    weights_hidden_output += hidden_layer_output.T.dot(d_predicted_output) * lr
    
    # Atualiza o bias da camada de saída usando a taxa de aprendizado
    bias_hidden_output += np.sum(d_predicted_output, axis = 0, keepdims = True) * lr
    
    # Atualiza os pesos da camada de entrada para a camada oculta usando a taxa de aprendizado
    weights_input_hidden += X.T.dot(d_hidden_layer) * lr
    
    # Atualiza o bias da camada oculta usando a taxa de aprendizado
    bias_input_hidden += np.sum(d_hidden_layer, axis = 0, keepdims = True) * lr

In [11]:
print(predicted_output)

[[0.0158039 ]
 [0.98643808]
 [0.98643507]
 [0.01399347]]


In [12]:
print(y)

[[0]
 [1]
 [1]
 [0]]


In [13]:
print(weights_input_hidden)

[[4.70812482 6.59053076]
 [4.70895404 6.59391294]]


In [14]:
print(weights_hidden_output)

[[-10.66308156]
 [  9.95714187]]


In [15]:
print(bias_input_hidden)

[[-7.22511647 -2.94765901]]


In [16]:
print(bias_hidden_output)

[[-4.62020316]]
