Realizar um modelo de DNN (Deep neural network) n√£o √© t√£o simples. Alguns problemas que podemos ter:
- Se deparar com os gradientes de fuga ou explos√£o de gradientes, que ocorre quando os gradientes ficam cada vez menores ou maiores quando circulam de maneira reversa pela DNN durante o treinamento. Isso dificulta o treinamento das camadas inferiores.
- Possibilidade de n√£o ter dados de treinamento suficiente para uma rede t√£o grande ou pode custar os olhos da cara para rotular esses dados.
- Treinamento pode ser extremamente demorado
- Modelos com milh√µes de par√¢metros correm o risco de overfitting no conjunto de treinamento, principalmente se n√£o tiver inst√¢ncias de treinamento suficientes ou elas tiverem muito ru√≠do

# Problemas de gradientes de fuga e explos√£o de gradientes

Quando o algoritmo de retropropaga√ß√£o passa da camada de sa√≠da para a camada de entrada, propagando o gradiente do erro ao longo do caminho, ele calcula o gradiente da fun√ß√£o de custo em rela√ß√£o a cada par√¢metro na rede e usa esses gradientes para atualizar cada par√¢metro com uma etapa do GD.

Como os gradientes costumam ficar cada vez menores, a atualiza√ß√£o do GD deixa os pesos de conex√£o das camadas inferiores praticamente inalterados e o treinamento nunca converge para uma boa solu√ß√£o. Isso se chama _gradiente de fuga_. √Äs vezes pode acontecer o inverso, onde os gradientes podem aumentar cada vez mais at√© as camadas receberem atualiza√ß√µes extremamente grandes de peso e o algoritmo divergir (Explos√£o de divergentes). Em geral, redes neurais profundas sofrem de gradientes inst√°veis.

# Inicializa√ß√£o de Glorot e inicializa√ß√£o de He

Para remediar os gradientes inst√°veis , Glorot e Bengio (link do artigo no livro) destacam que precisamos que o sinal flua corretamente nas duas dire√ß√µes: √† frente (forward) ao fazer predi√ß√µes e na dire√ß√£o reversa (reverse) ao retropropagar os gradientes. Para que o sinal flua coretamente, os autores argumentam que precsamos que a vari√¢ncia das sa√≠das de cada camada seja igual a vari√¢ncia de suas entradas, e precisamos que os gradientes tenham vari√¢ncia igual antes e depois de fluir atrav√©s de uma camada na dire√ß√£o reversa.

A pinc√≠pio n√£o √© poss√≠vel garantir nem um nem outro, a menos que a camada tenha um n√∫mero igual de entradas (sendo chamados de _fan-in_ e _fan-out_ da camada). Os autores propuseram um bom meio-termo, os pesos de conex√£o de cada camada devem ser inicializados aleatoriamente:

### Defini√ß√µes

$$
fan_{avg} = \frac{fan_{in} + fan_{out}}{2}
$$

---

### Distribui√ß√£o uniforme
Pesos ùë§ pertencentes a uma distribui√ß√£o uniforme no intervalo de menos raiz quadrada de tr√™s sobre fan m√©dio at√© raiz quadrada de tr√™s sobre fan-avg.
$$
W \sim U\left(-\sqrt{\frac{3}{fan_{avg}}}, \; \sqrt{\frac{3}{fan_{avg}}}\right)
$$

---

### Distribui√ß√£o normal
Pesos ùë§ pertencentes a uma distribui√ß√£o normal com m√©dia zero e vari√¢ncia igual a 1 sobre fan-avg.
$$
W \sim \mathcal{N}\left(0, \; \frac{1}{fan_{avg}}\right)
$$

Rela√ß√£o de fun√ß√µes de ativa√ß√£o e inicializa√ß√£o:
- Glorot: Para nenhuma fun√ß√£o de ativa√ß√£o, ou tanh, log√≠stica, softmax
- He: ReLU e variantes
- LeCun: SELU

In [None]:
#Esse c√≥digo √© apenas de demonstra√ß√£o e n√£o ser√° executado

# Por padr√£o, a Keras usa inicializa√ß√£o de Glorot com uma distribui√ß√£o uniforme. Ao criar a camada, podemos mudar para a inicializa√ß√£o He
import tensorflow as tf
keras = tf.keras

keras.layers.Dense(10, activation='relu', kernel_initializer='he_normal', use_bias= False)

# Para uma inicializa√ß√£o com uma distribui√ß√£o uniforme, mas com base em fan-avg em vez de fan-in, usar o inicializador VarianceScaling

he_avg_init = keras.initializers.VarianceScaling(scale=2., mode='fav_avg', distribution='uniform')
keras.layers.Dense(10, activation='sigmoid', kernel_initializer=he_avg_init)

# Fun√ß√µes de ativa√ß√£o de n√£o satura√ß√£o
Parte dos problemas com gradientes inst√°veis se d√£o pela m√° escolha da fun√ß√£o de ativa√ß√£o. A fun√ß√£o de ativa√ß√£o ReLU (que normalmente √© utilizada em boa parte das redes neurais) n√£o √© perfeita, e sofre de _dying ReLUs_, ou seja, durante o treinamento, alguns neur√¥nios "morrem" na pr√°tica, parando de gerar a sa√≠da de qualquer coisa que seja diferente de 0.

Para solucionar esse problema, conv√©m usar uma variante da ReLU, como a _leaky ReLU_, que cont√©m uma inclina√ß√£o para $x < 0$, onde √© definido pelo hiperpar√¢metro $\alpha$ 

$\text{LeakyReLU}(x) = \max(\alpha x, x)$

Temos alguns outros tipos de LeakyReLU, como o RReLU que randomiza o $\alpha$ em um determinado intervalo durante o treinamento e √© fixado em um valor m√©dio durante o teste. PReLU (Parametric ReLU), em que $\alpha$ √© autorizado a ser aprendido durante o treinamento, se tornando um par√¢metro que pode ser modificado durante a retropropaga√ß√£o, o que √© muito √∫til em conjuntos de imagens grandes, mas que pode ocorrer overfitting em no conjunto de treinamento em datasets pequenos.

A fun√ß√£o de ativa√ß√£o ELU (Exponential linear unity) ultrapassou em desempenho todas as variantes da ReLU, ela se parece bastante com a ReLU, mas com algumas diferen√ßas:
- Ela assume valores negativos (ReLU transforma o gradiente da fun√ß√£o em 0 quando a entrada √© negativa) quando $x < 0$, possibilitando ter uma sa√≠da m√©dia pr√≥xima de 0 e ajuda a remediar o problema dos gradientes em fuga. O hiperpar√¢metro $\alpha$ define o valor que a fun√ß√£o ELU se aproxima, quando $x$ √© um n√∫mero negativo grande. Geralmente √© definido como 1, mas pode ser alterado como qualquer hiperpar√¢metro.
- Tem um gradiente diferente de 0 para $x < 0$, o que evita o problema dos neur√¥nios mortos.
- Se $\alpha$ √© igual a 1, a fun√ß√£o √© suavizada em todos os lugares, incluindo $x = 0$, coisa que ajuda a acelerar o gradiente descendente pois n√£o oscila tanto para a esquerda e direita de $x = 0$

***
Equa√ß√£o ELU:

$$
\text{ELU}(x) =
\begin{cases}
x & \text{se } x \ge 0 \\
\alpha (e^x - 1) & \text{se } x < 0
\end{cases}
$$


O principal problema da fun√ß√£o de ativa√ß√£o ELU √© que ela √© mais lenta que a fun√ß√£o ReLU e variantes, devido ao uso da fun√ß√£o exponencial. Sua taxa de converg√™ncia √© mais r√°pida durante o treinamento, mas ainda assim no teste, uma rede ELU ser√° mais lenta que uma rede ReLU.
***

Scaled ELU (SELU) √© uma variante escalonada da ELU, onde os autores demonstraram que construir uma rede neural composta exclusivamente de uma pilha de camadas densas e, se todas as camadas ocultas usarem a fun√ß√£o de ativa√ß√£o SELU, a rede se normalizar√° automaticamente. A sa√≠da de cada camada tende a preservar uma m√©dia 0 e um desvio-padr√£o 1 durante o treinamento, o que resolve o problema de fuga e explos√£o.
Condi√ß√µes para que a autonormaliza√ß√£o ocorra:
- Caracter√≠sticas devem estar padronizadas (StandardScaler)
- Os pesos de cada camada oculta devem ser inicializados com a inicializa√ß√£o normal de LeCun = kernel_initializer='lecun_normal'
- A arquitetura da rede **deve ser sequencial**. SELU em redes n√£o sequenciais , como redes recorrentes ou com _skip connections_, a autonormaliza√ß√£o n√£o ser√° garantida.
- O artigo apenas assegura a autonormaliza√ß√£o se todas as camadas forem densas, mas alguns pesquisadores observaram que a fun√ß√£o de ativa√ß√£o SELU tamb√©m pode melhorar o desempenho em redes neurais convolucionais.

Ent√£o basicamente: SELU > ELU > leaky ReLU > ReLU > tanh > log√≠stica

In [None]:
# Para utilizar a ativa√ß√£o leaky ReLU, √© s√≥ criar uma camada LeakyReLU() e adicionar ao modelo ap√≥s a camada √† qual quer aplicar

model = keras.models.Sequential([
    # [...]
    keras.layers.Dense(10, kernel_initializer='he_normal', use_bias= False),
    keras.layers.LeakyReLU(alpha=.2)
    # [...]
])

# Para a PReLU, substitua o alpha por PReLU().

#SELU defina activation='selu' e kernel_initializer='lecun_normal' quando criar a camada
layer = keras.layers.Dense(10, activation='selu', kernel_initializer='lecun_normal')

# Normaliza√ß√£o em batch
Embora o uso da inicializa√ß√£o He junto com a ELU (ou variantes da ReLU) possa reduzir significativamente o risco de problemas, de gradiente de fuga/explos√£o de gradientes no in√≠cio do treinamento, isso n√£o garante que eles n√£o voltem durante o treinamento.

A normaliza√ß√£o em batch (BN) aborda esses problams, consistindo em adicionar uma oper√ß√£o no modelo logo antes ou depois da fun√ß√£o de ativa√ß√£o de cada camada oculta. Essa opera√ß√£o centraliza o zero e normaliza cada entrada, em seguida escalona e modifica o resultando usando dois novos vetores de par√¢metros por camada: um para o escalonamento e outro para o deslocamento.

### Equa√ß√µes

Dado um batch \( B = \{x_1, x_2, ..., x_m\} \):

$$
\mu_B = \frac{1}{m} \sum_{i=1}^{m} x_i
$$

$$
\sigma_B^2 = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu_B)^2
$$

$$
\hat{x}_i = \frac{x_i - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}
$$

$$
y_i = \gamma \hat{x}_i + \beta
$$

---

### Explica√ß√£o

- $x_i$: valor de entrada de um neur√¥nio para o exemplo $i$  
- $m$: tamanho do batch  
- $\mu_B$: m√©dia do batch (centraliza os dados)  
- $\sigma_B^2$: vari√¢ncia do batch (mede dispers√£o)  
- $\epsilon$: constante pequena (evita divis√£o por zero)  
- $\hat{x}_i$: valor normalizado (m√©dia 0, vari√¢ncia 1)  
- $\gamma$: par√¢metro trein√°vel de escala  
- $\beta$: par√¢metro trein√°vel de deslocamento  
- $y_i$: sa√≠da final ap√≥s normaliza√ß√£o e ajuste  

Durante o treinamento, a BN padroniza suas entradas, em seguida as reescalona e as desloca. Mas na hora de testar, talvez tenhamos que fazer predi√ß√µes para as inst√¢ncias individuais, e n√£o para os batches de inst√¢ncias. Nesse caso n√£o teremos como calcular a m√©dia e desvio-padr√£o de cada entrada. Al√©m do mais, ainda que tenhamos um batch de inst√¢ncias, ele pode ser muito pequeno, ou as inst√¢ncias podem n√£o ser independentes e distribu√≠das de forma id√™ntica, logo, os c√°lculos computacionais em rela√ß√£o ao batch de inst√¢ncia s√£o duvidosos. Uma solu√ß√£o seria aguardar at√© o fim do treinamento, rodar todo o conjunto de treinamento pela rede neural, e calcular a m√©dia e o desvio padr√£o de cada entrada da camada BN. Assim, essas m√©dias de entrada "finais" e desvios-padr√£o podem ser utilizados em vez das m√©dias de entreda do batch e desvios-padr√£o ao fazer as predi√ß√µes. Contudo, a maioria das implementa√ß√µes da normaliza√ß√£o em batch estima essas estat√≠sticas finais durante o treinamento, utilizando uma m√©dia m√≥vel de entrada e dos desvios-padr√£o da camada.

A normaliza√ß√£o em batch se comporta como um regularizador, atenuando a necessidade de outras t√©cnicas de regulariza√ß√£o. No entanto, a regulariza√ß√£o em batch adiciona uma complexidade ao modelo. Al√©m disso, existe uma penalidade de temop de execu√ß√£o, a rede neural realiza predi√ß√µes mais demoradas em raz√£o dos c√°lculos extras necess√°rios em cada camada.

# Implementando a normaliza√ß√£o em batch com Keras

In [None]:
# Basta adicionar a camada BatchNormalization() antes ou depois de cada camada oculta e, opcionalmente, adicionar uma camada de BN, como a camada primeira camada do modelo.

model = keras.models.Sequential([
    keras.layers.Flatten(input=[28,28]),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(300, kernel_initializer='he_normal', use_bias= False),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(100, kernel_initializer='he_normal', use_bias= False),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(10, activation='softmax')
])

Os autores do artigo BN defendem a adi√ß√£o das camadas de BN antes das fun√ß√µes de ativa√ß√£o, e n√£o depois. A fim de adicionar as camadas de BN antes das fun√ß√µes de ativa√ß√£o, voc√™ deve remover a fun√ß√£o de ativa√ß√£o das camadas ocultas e adicion√°-las como camadas separadas ap√≥s as camadas de BN. Al√©m do mais, como uma camada BN inclui um par√¢metro de deslocamento por entrada, voc√™ pode remover o vi√©s da camada anterior (basta passar _"use_bias=False"_ ao cri√°-la)

In [None]:
model = keras.models.Sequential([
    keras.layers.Flatten(input=[28,28]),
    keras.layers.BatchNormalization(),
    keras.layers.Dense(300, kernel_initializer='he_normal', use_bias= False),
    keras.layers.BatchNormalization(),
    keras.Activation('elu'),
    keras.layers.Dense(100, kernel_initializer='he_normal', use_bias= False),
    keras.layers.BatchNormalization(),
    keras.layers.Activation('elu'),
    keras.layers.Dense(10, activation='softmax')
])

A _BatchNormalization()_ tem alguns hiperpar√¢metros, num geral o padr√£o √© bom, mas talvez seja necess√°rio ajustar o _momentum_ ocasionalmente. Esse hiperpar√¢metro √© utilizado pela classe quando atualiza as m√©dias m√≥veis exponenciais, tendo um novo valor $v$ (ou seja, um novo vetor de m√©dias de entrada ou desvios-padr√£o calculados no batch atual), a camada atualiza a m√©dia de execu√ß√£o $\hat{v}$.

Normalmente um bom valor de momentum fica pr√≥ximo de 1, por exemplo, 0,9, 0,99, ou 0,9999 (queremos mais 9s para conjuntos de dados maiores e mini-batches menores).

Outro hiperpar√¢metro importante √© o _axis_, ele determina qual eixo deve ser normalizado. O padr√£o √© -1, o que significa que ele normalizar√° o √∫ltimo eixo (empregando as m√©dias e desvios-padr√£o calculados nos _outros eixos_). Quando o batch de entrada √© 2D ([tamanho do batch, caracter√≠sticas]), significa que cada caracter√≠stica de entrada ser√° normalizada com base na m√©dia e no desvio-padr√£o calculados em todas as int√¢ncias do batch. Por exemplo, a primeira camada BN no exemplo de c√≥digo anterior normalizar√° independentemente (e reescalonar√° e deslocar√°) cada uma das 784 caracter√≠sticas de entrada.

Se deslocarmos a primera camada BN antes da camada Flatten, os batches de entrada ser√£o 3D, com um formato [tamanho do batch, altura, largura], desse modo, a camada BN calcular√° 28 m√©dias e 28 desvios-padr√£o (1 por coluna de pixels, calculado em todas as inst√¢ncias do batch e em todas as linhas da coluna) e normalizar√° todos os pixels em uma determinada coluna usando a mesma m√©dia e desvio-padr√£o. Existir√£o somente 28 par√¢metros de escalonamento e 28 de deslocamento. Se em vez disso, ainda quiser tratar cada um dos 784 pixels de forma independente, defina _axis=[1,2]._

A camada BN n√£o executa o mesmo c√°lculo durante o treinamento e ap√≥s o treinamento. Ela usa as estat√≠sticas do batch durante o treinamento e as estat√≠sticas "finais" ap√≥s o treinamento.

# Clipping do gradiente