Realizar um modelo de DNN (Deep neural network) n√£o √© t√£o simples. Alguns problemas que podemos ter:
- Se deparar com os gradientes de fuga ou explos√£o de gradientes, que ocorre quando os gradientes ficam cada vez menores ou maiores quando circulam de maneira reversa pela DNN durante o treinamento. Isso dificulta o treinamento das camadas inferiores.
- Possibilidade de n√£o ter dados de treinamento suficiente para uma rede t√£o grande ou pode custar os olhos da cara para rotular esses dados.
- Treinamento pode ser extremamente demorado
- Modelos com milh√µes de par√¢metros correm o risco de overfitting no conjunto de treinamento, principalmente se n√£o tiver inst√¢ncias de treinamento suficientes ou elas tiverem muito ru√≠do

# Problemas de gradientes de fuga e explos√£o de gradientes

Quando o algoritmo de retropropaga√ß√£o passa da camada de sa√≠da para a camada de entrada, propagando o gradiente do erro ao longo do caminho, ele calcula o gradiente da fun√ß√£o de custo em rela√ß√£o a cada par√¢metro na rede e usa esses gradientes para atualizar cada par√¢metro com uma etapa do GD.

Como os gradientes costumam ficar cada vez menores, a atualiza√ß√£o do GD deixa os pesos de conex√£o das camadas inferiores praticamente inalterados e o treinamento nunca converge para uma boa solu√ß√£o. Isso se chama _gradiente de fuga_. √Äs vezes pode acontecer o inverso, onde os gradientes podem aumentar cada vez mais at√© as camadas receberem atualiza√ß√µes extremamente grandes de peso e o algoritmo divergir (Explos√£o de divergentes). Em geral, redes neurais profundas sofrem de gradientes inst√°veis.

# Inicializa√ß√£o de Glorot e inicializa√ß√£o de He

Para remediar os gradientes inst√°veis , Glorot e Bengio (link do artigo no livro) destacam que precisamos que o sinal flua corretamente nas duas dire√ß√µes: √† frente (forward) ao fazer predi√ß√µes e na dire√ß√£o reversa (reverse) ao retropropagar os gradientes. Para que o sinal flua coretamente, os autores argumentam que precsamos que a vari√¢ncia das sa√≠das de cada camada seja igual a vari√¢ncia de suas entradas, e precisamos que os gradientes tenham vari√¢ncia igual antes e depois de fluir atrav√©s de uma camada na dire√ß√£o reversa.

A pinc√≠pio n√£o √© poss√≠vel garantir nem um nem outro, a menos que a camada tenha um n√∫mero igual de entradas (sendo chamados de _fan-in_ e _fan-out_ da camada). Os autores propuseram um bom meio-termo, os pesos de conex√£o de cada camada devem ser inicializados aleatoriamente:

### Defini√ß√µes

$$
fan_{avg} = \frac{fan_{in} + fan_{out}}{2}
$$

---

### Distribui√ß√£o uniforme
Pesos ùë§ pertencentes a uma distribui√ß√£o uniforme no intervalo de menos raiz quadrada de tr√™s sobre fan m√©dio at√© raiz quadrada de tr√™s sobre fan-avg.
$$
W \sim U\left(-\sqrt{\frac{3}{fan_{avg}}}, \; \sqrt{\frac{3}{fan_{avg}}}\right)
$$

---

### Distribui√ß√£o normal
Pesos ùë§ pertencentes a uma distribui√ß√£o normal com m√©dia zero e vari√¢ncia igual a 1 sobre fan-avg.
$$
W \sim \mathcal{N}\left(0, \; \frac{1}{fan_{avg}}\right)
$$

Rela√ß√£o de fun√ß√µes de ativa√ß√£o e inicializa√ß√£o:
- Glorot: Para nenhuma fun√ß√£o de ativa√ß√£o, ou tanh, log√≠stica, softmax
- He: ReLU e variantes
- LeCun: SELU

In [None]:
#Esse c√≥digo √© apenas de demonstra√ß√£o e n√£o ser√° executado

# Por padr√£o, a Keras usa inicializa√ß√£o de Glorot com uma distribui√ß√£o uniforme. Ao criar a camada, podemos mudar para a inicializa√ß√£o He
import tensorflow as tf
keras = tf.keras

keras.layers.Dense(10, activation='relu', kernel_initializer='he_normal')

# Para uma inicializa√ß√£o com uma distribui√ß√£o uniforme, mas com base em fan-avg em vez de fan-in, usar o inicializador VarianceScaling

he_avg_init = keras.initializers.VarianceScaling(scale=2., mode='fav_avg', distribution='uniform')
keras.layers.Dense(10, activation='sigmoid', kernel_initializer=he_avg_init)