# Revisão Redes Neurais

**Definições**
- **Neurônios**: Conjunto de pesos (ou parâmetros).
- **Camadas**: Conjunto de neurônios independentes.
- **Taxa de Aprendizado**: Controla o quão rápido o modelo se adapta ao problema.
- **Batch**: Número de exemplos de treino utilizados em uma época.
- **Épocas**: Controla o número de passadas completas por todo conjunto de treinamento.

**Observações**
- O termo _denso_ significa que todos neurônios estão conectados a todos neurônios da camada seguinte.
- Quanto mais camadas, maior a capacidade do modelo aprender fronteiras de decisão complexas.
- Quanto mais neurônios, mais detalhada fica a fronteira de decisão, maior a chance de _overfitting_ e _maior_ o tempo de treinamento.


# Qual a taxa de aprendizado ideal?

Uma boa estratégia é inciar com uma taxa de aprendizado alta e se o critério de treinamento (e.g. _training loss_ ) divergir, reduza para valores menores até que a divergência não seja observada.

 <table>
  <thead>
    <tr>
      <th>Valor Exemplo</th>
      <th>Atualizações de Pesos</th>
      <th>Tempo de Convergência</th>
      <th>Direção do Mínimo Global</th>
      <th>Número de Épocas</th>
    </tr>
  </thead>
  <tbody>
    <tr> 
      <td>0.00001</td>
      <td>Pequeno</td>
      <td>Lento</td>
      <td>Subestima</td>
      <td>Alto</td>
    </tr>
    <tr>
      <td>10</td>
      <td>Grande</td>
      <td>Rápido</td>
      <td>Superestima</td>
      <td>Baixo</td>
    </tr>
  </tbody>
</table>

# Qual o tamanho do _batch_ (ou lote) ideal?

$N$ = Número de amostras de treinamento<br>
$B$ = Tamanho do batch<br>

 <table>
  <thead>
    <tr>
      <th>Algoritmo de Aprendizado</th>
      <th>Tamanho do Batch</th>
      <th>Frequência de Atualização de Pesos</th>
      <th>Tendência da Convergência</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>Stochastic Gradient Descent</td>
      <td>$1$</td>
      <td>Alta</td>  
      <td>Instável</td>
    </tr>
      <tr> 
      <td>Batch Gradient Descent</td>
      <td>$N$</td>
      <td>Baixa</td>
      <td>Prematura</td>
    </tr>
    <tr>
      <td>Mini-Batch Gradient Descent</td>
      <td>$1 < B < N$</td>
      <td>Moderada</td>
      <td>Robusta</td>
    </tr>
  </tbody>
</table>

- Valores comuns para mini-batch são: 32, 64, 128
- Caso o conjunto de treinamento não seja divisível pelo tamanho do mini-batch, o último mini-batch terá menos exemplos
- É importante revisar as curvas de aprendizado de treinamento entre erro e tempo para diferentes valores de batch
- Ajuste o tamanho do batch depois de todos os outros hiper-parâmetros.

# Qual o tamanho de épocas ideal?

- Não há um valor ideal
- O objetivo deste hiper-parâmetro é evitar que o algortimo fique treinando infinitamente e também evitar o _overfitting_ (vide <i>early stopping</i>)

# Qual número de camadas é ideal?

> Very simple. Just keep adding layers until the test error does not improve anymore.<br>
> <a href="https://www.quora.com/Artificial-Neural-Networks/Artificial-Neural-Networks-How-can-I-estimate-the-number-of-neurons-and-layers/answer/Yoshua-Bengio">Bengio, Yoshua - 2013</a>

 <table>
  <thead>
    <tr>
      <th># Camadas Ocultas</th>
      <th>Exemplo</th>
      <th>Capacidade de representação</th>
    </tr>
  </thead>
  <tbody>
    <tr> 
      <td>0</td>
      <td><a href="http://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=gauss&regDataset=reg-plane&learningRate=0.01&regularizationRate=0&noise=10&networkShape=&seed=0.80333&showTestData=false&discretize=true&percTrainData=80&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false">Gaussian</a></td>
      <td>Capaz de representar problemas linearmente separáveis</td>
    </tr>
    <tr>
      <td>1</td>
      <td><a href="http://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=circle&regDataset=reg-plane&learningRate=0.01&regularizationRate=0&noise=10&networkShape=4&seed=0.15366&showTestData=false&discretize=true&percTrainData=80&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false">Circle</a></td>
      <td>Capaz de aproximar qualquer <a href="https://en.wikipedia.org/wiki/Continuous_function">função que faça um mapeamento continuo</a> de um espaço finito para outro</td>
    </tr>
    <tr>
      <td>2</td> 
      <td><a href="http://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=xor&regDataset=reg-plane&learningRate=0.01&regularizationRate=0&noise=10&networkShape=3,3&seed=0.08973&showTestData=false&discretize=true&percTrainData=80&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false">XOR</a></td>
      <td>Capaz de representar uma fronteira de decisão arbitrária para uma acurácia arbitrária com funções de ativação racionais</td>
    </tr>
    <tr>
      <td>2+</td>
        <td><a href="http://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=spiral&regDataset=reg-plane&learningRate=0.01&regularizationRate=0&noise=20&networkShape=8,8,7,6,5,4&seed=0.62651&showTestData=false&discretize=true&percTrainData=80&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false">Spiral</a></td>
      <td>Capaz de aprender representações complexas entre camadas</td>
    </tr>
  </tbody>

</table>


# Qual número de neurônios é ideal?

$N_h$ = Número de neurônios ocultos<br>
$N_i$ = Número de neurônios de entrada<br>
$N_o$ = Número de neurônios de saída<br>
$N_s$ = Número de amostras no conjunto de treinamento<br>
$\alpha$ = Fator de multiplicação arbitrário (geralmente 2-10)<br>

### Heurística 1 (Lane, 2015)

$$N_h = \frac{N_s}{(\alpha*(N_i + N_o))}$$

### Heurística 2 (Heaton, 2008)

- $N_h = [N_i - N_o]$
- $N_h = \frac{2}{3}N_i + N_o$
- $N_h < 2 * N_i$

### Heurística 3 (Masters, 1993)

$$N_h = \sqrt{N_i * N_o}$$

# Referências

1. [The Number of Hidden Layers](https://www.heatonresearch.com/2017/06/01/hidden-layers.html)
2. [Practical recommendations for gradient-based training of deep architectures](https://arxiv.org/abs/1206.5533)
3. [How to choose the number of hidden layers and nodes in a feedforward neural network?](https://stats.stackexchange.com/a/136542)
4. [Universal approximation theorem](https://en.wikipedia.org/wiki/Universal_approximation_theorem)
5. [Difference between a batch and an epoch](https://machinelearningmastery.com/difference-between-a-batch-and-an-epoch)
6. [A Gentle Introduction to Mini-Batch Gradient Descent and How to Configure Batch Size](https://machinelearningmastery.com/gentle-introduction-mini-batch-gradient-descent-configure-batch-size/)
7. [Lista de bibliotecas para AutoML](https://github.com/eug/ai-resources#auto-machine-learning)
