# Cálculo de Pesos e Erros
#### Entenda como o algoritmo que usa redes neurais faz os cálculos para descobrir novos pesos se baseado nos erros obtidos.

### Introdução

Anteriormente, foi mostrado como são os tipos de redes neurais (básicas) existentes. Além disso, foi explicado que o algoritmo que usa redes neurais para fazer sua predição se baseia na descoberta de pesos ideais para cada problema que for submetido a rede neural.

Agora, vamos entender como funciona os cálculos dos pesos para cada neurônio utilizado.

### Cálculo dos pesos

Inicialmente, os pesos são escolhidos de forma **randômica**. Em alguns modelos mais sofisticados de redes neurais, os pesos recebem alguns critérios de inicialização com base nos dados disponíveis, garantido um menor tempo de execução.

Cada vez que um neurônio retorna um valor, com base nas entradas, nos pesos e na função de ativação, esse valor é comparado com os atributos metas correspondentes. Se os valores forem majoritariamente corretos, a execução do algoritmo foi plena. Mas caso ocorra muitos valores incorretos, é necessário rodar novamente o algoritmo com novos pesos. Esse novos pesos não serão escolhidos de forma randômica, é levando em consideração os **cálculos de erro** e a **taxa de aprendizagem**, essa que pode ser definida pelo usuário e quanto menor ela for, mais cuidadosa será a escolha de novos pesos para obter uma melhor precisão, mesmo tendo um tempo de execução maior. Os cálculos de novos pesos são:

- $peso(n + 1) = peso(n) + TaxaAprendizagem * Entrada * Erro$  
- $erro = RespostaCorreta - RespostaCalculada$  

> "*O conhecimento de uma rede neural consiste em achar os pesos adequados que permitam o acerto dos resultados*".

### Função de ativação

A ativação de um neurônio é definida somente se o valor for maior que um limiar definido pela **função de ativação** (**step function**), e é ela que permite a resolução de problemas que não são linearmente separáveis. Abaixo é possível identificar os tipos mais comuns de função de ativação e como elas funcionam.

- **Função degrau**: retorna valores discretos (retorna 0 ou 1), não retorna valores negativos;

![funcao-degrau](Imagens/funcao-degrau.png)

- **Função sigmoide**: retorna valores contínuos entre 0 e 1, não retorna valores negativos;

![funcao-sigmoid](Imagens/funcao-sigmoid.png)

- **Função tangente hiperbólica**: retorna valores contínuos entre -1 e 1, esse sim pode retornar valores negativo;

![funcao-tangente-hiperbolica](Imagens/funcao-tangente-hiperbolica.png)

A escolha de uma função de ativação adequada depende do problema a ser resolvido, pois qualquer algoritmo de aprendizagem de máquina ou aprendizagem profunda deve ser moldado a se encaixar perfeitamente na base de dados utilizada. Além disso, existem diversas funções que não foram citadas aqui, mas podem ser usadas nas funções de ativação.

Na prática, usa-se a função **relu** nas camadas ocultas e a **sigmoidal** na camada de saída. Quando há mais de um neurônio na saída, usa-se o **softmax**. Essas sugestões são as que mais fornecem poder preditivo ao algoritmo, mas sempre vai depender do caso a ser resolvido

Dois termos são muito comuns na área do Deep Learning que são:  
- **Neurônio Sigmoid** = Indica que a função de ativação (step function) usa a uma curva sigmoidal;
- **Perceptrons usam step function** = indica que o algoritmo é o perceptron e ele usa uma função de ativação, diferente do Adaline por exemplo;

### Esquema de uma rede neural

1. Baseado nos dados (aprendizagem supervisionada), realiza os cálculos com os pesos e calculo o erro;
2. Calcula as mudanças nos pesos e os atualiza (Backpropagation);
3. O algoritmo termina quando o erro é pequeno;

![esquema-pesos-erros](Imagens/esquema-pesos-erros.png)

### Ajuste de pesos

A escolha de novos pesos para a rede neural, após a primeira execução, não ocorre de forma aleatória. Para isso, são utilizadas algumas técnicas como as citadas abaixo:

- Gradiente (**Gradient Descent**);
- Derivada;
- Cálculo do Delta;
- Backpropagation;
- Learning Rate (Taxa de Aprendizagem);
- Momentum (Momento);

mais adiante alguns desses métodos serão discutidos com mais profundidade.

### Outros métodos de calcular o erro

Existem outros algoritmos que calculam o erro para a saída de dados com os pesos em cada treinamento, os dois mais famosos são o **Mean Square Error** (**MSE**) e **Root Mean Square Error (**RMSE**). Os cálculos são os seguintes:


- **MSE** = $\frac{1}{N}\sum_{i=1}^{n}(f_{i}-y_{i})^{2}$  
> $f_{i}$ = classe original e $y_{i}$ = classe obtida.  
- **RMSE** = $\sqrt{\frac{1}{N}\sum_{i=1}^{n}(f_{i}-y_{i})^{2}}{}$

O cálculo desses dois algoritmos consiste basicamente em calcular a média das diferenças entre o esperado e o que foi previsto. Além disso, erros maiores contam mais que erros menores, penalizando os maiores erros.

### Bias

Um melhoramento utilizado pelas redes neurais é chamado de **bias**. Esse método consiste em adicionar um atributo a mais nas camadas ocultas e na camada de saída, visando balancear os pesos para que eles cheguem mais perto de mínimos globais, pois é possível que todas as entradas dos neurônios das camadas sejam zero, podendo ocasionar problemas lógicos. Desse modo, o bias é uma medida de segurança para evitar esse erro.

### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alyssonmachado388@gmail.com);