# AULA 3 TEORIA - Otimização para Redes Neurais

Aula 3 - Aula Presencial

---

## Perceptrons e Multi-layer Perceptrons

- Funções de custo
- Convexidade
- Gradiente
- Descida do Gradiente Estocástica
- Mini-batches e taxa de aprendizado
- Momentum e Adam
- Decaimento da taxa de aprendizado

---

## Básico de Treinamento de Redes Neurais

* Idealmente deve ser convexa (facilita na existência de um mínimo global)

- Funções destaques:
    - **Mean-squared-error:** 
        - Para avalores contínuos
        - Mede a divergência quadrática de cada valor obtido com a saída real
    - **Cross-Entropy:**
        - Recomendada para probabilidades
        - Teoria da informação 
        - Intuição -> o número de bits adicionais necessários para representar o evento de referência ao invés do predito

* Gradient descent -> buscar mínimo global (ou o mínimo local melhor na região em que se encontra)
    *  <img src="Imagens/gradient_descent.jpg" width="400"> 

---

## Foward e Backward Propagation

### Foward-propagation
* O que é?
    * Cálculo e armazenamento das variáveis intermediárias (incluindo saídas)
    * Entrada -> saída

- Como funciona?
    - Considerando uma entrada x, bias b = 0, cada camada com pesos de conexão w

- Camada oculta com k neuronios
    - Variável intermediária z = W1 * x 
        - obs: W é uma matriz
    - Vetor de ativação da camada oculta: h = f(z)
    - O output da camada de saída é: o = W2 * h
    - Custo -> L = l(o, y) = (y - o)^2

* Grafo:
    * <img src="Imagens/fowardpropagation.jpg" width="400"> 

### Back-propagation
- O que é?
    - Propagação que utiliza a derivada ao longo das camadas para adaptar os pesos
    - As funções de custo e de ativação devem produzir derivada útil 

* Detalhamento
    * Calcular o gradiente dos parâmetros da rede neural
    * Atravessa a rede em ordem reversa, da saída para a entrada
    * Saída -> entrada
    * Utiliza a regra da cadeia
    * Armazena as derivadas parciais das variáveis intermediárias com relação aos parâmetros

- Como funciona?
    - Considerando uma entrada x, bias b = 0, cada camada com pesos de conexão w:

- Camada oculta com k neuronios
    - Sejam os parâmetros da rede W1 e W2; o backpropagation calcula os gradiente do custo em relação a eles
        - del L /del W1
    - Regra da cadeia de del L / del W1 = 
        - del L / del o
        - del o / del f(z)
        - del f(z) / del z
        - del z / W1
            - Multiplica tudo: del L / del W1 = del L / del o * del o / del f(z) * del f(z) / del z * del z / W1

* Grafo:
    * <img src="Imagens/backpropagation.jpg" width="400"> 

- **Vanishing gradient**
    -  Se ativações geram valores muito baixos não é possível adaptar
    -  Esse é um dos motivadores do uso de ReLU ao invés de Sigmóides como função de ativação
---

## Checklists para o treinamento

### Inicialização

- Escolhas comuns:
    - Pesos w: valor aleatório pela distribuiçaõ normal entre 0 e 1 (média 0 e desvio padrão 1)
    - Bias: 0 (as vezes com 1/total de classes)

### Checklist 1

* O valor da função de custo nos pesos aleatórios faz sentido?

### Checklist 2

* Decaimento de taxa de aprendizado
    * De forma fixa ou de acordo com métricas computadas no treinamento ou validação?

### Checklist 3

* Utilizar qual otimziador?
    * SGD (+ Momentum)
    * Adam
        * Esses são mais comuns e robustos

### Checklist 4

* Acompanhe o custo ao longo de épocas, se possível com conjunto de validação (idealmente não deve ser o teste!)

-  Inicie com experimentos com poucos exemplos
    - Explore os hiperparâmetros tentando obter "overfitting" para um subconjunto de exemplos, obtendo custo próximo a zero, e depois refine a busca num conjunto maior


---

## Otimizadores, tamanho do batch e taxa de aprendizado

### Otimizadores

* Técnicas para otimizar a rede neural
    * Nesse caso mais relacionadas com o batch
    * Exemplo: https://gbhat.com/machine_learning/optimize_with_momentum.html 

* **Batch Gradient Descent**
    * Todo o batch é utilizado para o treinamento em um único passo (a média do gradient é utilizado)

- **Stochastic Gradient Descent (SGD)**
    - Para cada época, uma amostra do batch é escolhida aleatoriamente (estocático) para calcular o grandient descent
    - Atualização por instãncia
    - $O$ j = $O$ j - $a$ ($y^{i}$ - $y_{i}$)($x_{ij}$)
        - $a$ é o learning rate
    - <img src="Imagens/SBG_merged.png" width="800">
    - o SGD é mais "ruidoso" por natureza e tem dificuldade em achar minimos globais, mas apresenta uma solução pouco custosa computacionalmente


* **Mini Batch Gradient Descent (MBGD)**
    * Meio termo: uma parte aleatório das amostras do dataset é usado para calcular o gradient descent
    * $O_{j}$ = $O_{j}$ - $a$ g($X_{j}$, $O_{j}$)

- Mudamos um pouco de escopo daqui para baixo, vamos falar de outros otimizadores:

* **Momentum**
    * Custo = terreno montanhoso
        * Inicio: particula com v = 0
        * Otimização: rolar a particula considerando a aceleração
        * Consequencia: velocidade ajustada considerando as atualizações anteriores
        * <img src="Imagens/momentum.jpg" width="300">

- **Adam**
    - Utiliza momentos do gradiente: o segundo momento é usado para normalizar o primeiro, evitando outliers/pontos de inflexão
    - Funciona melhor com taxa de aprendizado menor, quando comparado ao SGD
    -  <img src="Imagens/adam.jpg" width="250">

### Tamanho do Batch

* Padrão de batch é 32 
    * **Batches maiores:** estimativas mais suaves, difícil manter na memória, exige ajustar bem a **taxa de aprendizado**
    * **Batches menores**: estimativas mais ruidosas, mas que mostraram vantagens em encontrar melhores mínimos

### Taxa de aprendizado

* Padrão é 0.01
    * Pouco adequado para alguns otimizadores
    * Pode ser pouco adequado para batchs muito grandes ou muito pequenos

-  É recomendado iniciar com um valor maior e reduzir a taxa progressivamente (learning rate scheduling)
---