# Aula 3 Regularização e Problemas do Gradiente Descendente

## Temas:
- Problemas do gradiente (vanish e exploding)
- Underfit e Overfit
- Regularização de Redes Neurais

## Problema do vanishing-gradient

O problema do gradiente de fuga (vanishing gradient) é encontrado ao __treinar redes neurais profundas__, com métodos de aprendizado baseados em gradiente e backpropagation. Em tais métodos, durante cada iteração de treinamento, cada um dos pesos da rede neural recebe uma atualização proporcional à derivada parcial da função de custo em relação ao peso atual. O problema é que, em alguns casos, __o gradiente será muito pequeno, impedindo efetivamente que o peso altere seu valor__. Na pior das hipóteses, isso __pode impedir completamente o treinamento__ da rede neural. 

Por exemplo, a função tangente hiperbólica tem gradientes no intervalo -1 a 1 e a sigmóide de 0 à 1 e como o backpropagation calcula gradientes pela regra da cadeia isso tem o efeito de multiplicar n desses pequenos números para calcular gradientes das camadas iniciais em uma rede de n camadas, o que significa que o gradiente diminui exponencialmente enquanto as camadas iniciais treinam muito lentamente.

O resultado é um aprendizado lento, especialmente das primeiras camadas da rede.

[Wikipedia](https://en.wikipedia.org/wiki/Vanishing_gradient_problem)

<center>
<img src=https://i0.wp.com/neptune.ai/wp-content/uploads/Vanishing-and-Exploding-Gradients-in-Neural-Network-Models-Debugging-Monitoring-and-Fixing-Practical-Guide_7.png width=450 text="https://neptune.ai/blog/vanishing-and-exploding-gradients-debugging-monitoring-fixing">


<img src=https://i.stack.imgur.com/lVKg7.png text=https://stats.stackexchange.com/questions/432300/help-understanding-vanishing-and-exploding-gradients width=600>

</center>

$$w_j^{(i)} \larr w_j^{(i)} - \alpha \frac{∂l}{∂w^{(i)}_{j}}$$

$$ \frac{∂l}{∂w^{(1)}_{1,1}}=\frac{∂l}{∂o}⋅\frac{∂o}{∂a^{(2)}_1}⋅\frac{∂a^{(2)}_1}{∂a^{(1)}_1}⋅\frac{∂a^{(1)}_1}{∂w^{(1)}_{1,1}}+\frac{∂l}{∂o}⋅\frac{∂o}{∂a^{(2)}_2}⋅\frac{∂a^{(2)}_2}{∂a^{(1)}_1}⋅\frac{∂a^{(1)}_1}{∂w^{(1)}_{1,1}} $$

In [None]:
# Suponha que o gradiente fosse 0.9 em uma rede com 100 camadas
# ao multiplicar esse valor 100x temos


In [None]:
# novo peso = peso anterior - learning rate * gradiente
novo_peso = 
novo_peso

Se o gradiente é muito pequeno, ele influenciará pouco na atualização dos pesos, impactando no tempo de aprendizagem.

Como identificar vanishing gradient
- os parâmetros das últimas camadas sobrem mudanças grandes enquanto as primeiras quase não mudam
- o modelo demora para aprender e o treino para após poucas iterações 
- performance do modelo é ruim


Soluções:

- Diminuir o tamanho da rede neural
- Utilizar outras funções de ativação como a ReLU
- Long short-term memory Networks (LSTM)
- Batch Normalization (BN)

#### Exemplo de análise que podemos fazer para avaliar o vanishing gradient

<center>
<img src=https://machinelearningmastery.com/wp-content/uploads/2021/11/vanishing-plot-sigmoid.png width=500 text="https://machinelearningmastery.com/visualizing-the-vanishing-gradient-problem/">
</center>

No gráfico temos os dados dos pesos de cada uma das 5 camadas (cores) com função de ativação sigmóide realizadas no treinamento de 100 epochs (eixo x). No primeiro temos a média dos pesos, no segundo o desvio padrão e no terceiro o Loss ao longo das 100 epochs.

## Problema do exploding-gradient

O oposto pode acontecer quando a função de ativação não possui um limite máximo. A multiplicação devido ao gradiente ao longo da rede neural pode fazer os valores explodirem. No pior dos casos os pesos acabam recebendo valores NaN e não conseguem mais ser atualizados.

O resultado é um modelo instável (em cada update a função perda varia muito) com grandes alterações a cada atualização.

<img src=https://miro.medium.com/max/1400/1*_YRWJr-jF7tKnmUq-e3ltw.png width=500 text="https://medium.com/@ayushch612/vanishing-gradient-and-exploding-gradient-problems-7737c0aa535f">

In [None]:
# novo peso = peso anterior - learning rate * gradiente
novo_peso = 
novo_peso

Como identificar um gradient exploding:

- a atualização dos pesos fica muito instável entre cada treino de batch/iteração
- os parâmetros das primeiras camadas sobrem mudanças grandes enquanto das últimas mudam bem menos
- pode haver o aparecimento de parâmetros nans
- a loss function também pode ser nan

Soluções:

- Diminuir o tamanho da rede neural
- Setar um valor máximo para o gradiente (Gradient clipping)
- Verificar o tamanho dos pesos da rede e aplicar uma penalidade à função de perda (loss function) para valores de peso ($W$) grandes. Isso pode ser feito com as famosas regularização L1 (pesos absolutos) ou L2 (pesos quadrados).
Batch Normalization (BN)

## Underfit e Overfit

<center>
<img src=https://i.pinimg.com/564x/72/e2/22/72e222c1542539754df1d914cb671bd7.jpg width=500>
</center>

Já sabemos como aumentar a complexidade da nossa rede neural e sair de um problema de underfiting. Mas o que fazer quando estamos overfittando nosso modelo?


## Regularização de Redes Neurais

### Regularização L1 e L2

Assim como nos modelos clássicos de ML, aqui podemos adicionar um regularizador de pesos L1 ou L2 ao calcular a função perda. 

[Regularizadores disponíveis no Keras](https://keras.io/api/layers/regularizers)


### Dropout
O Dropout consiste em desativar, ou dropar, alguns neurônios randomicamente durante o treino. Isso evita que a rede torne-se muito dependente de alguns únicos neurônios, já que a rede neural não pode contar com ele todo o tempo. Isso torna o aprendizado da rede muito mais balanceado e reduz o overfiting.

O *dropout_rate* indica quantos % dos neurônios daquela camada serão desligados aleatoriamente a cada conjunto de treino (batch) e seu valor, geralmente, fica entre 0.2 e 0.5.

Atenção: o drop de neurônios só acontece no treino. No teste e validação não!

<img src=https://www.i2tutorials.com/wp-content/media/2019/09/Deep-learning-41-i2tutorials.png width=500>

In [None]:
from nltk.corpus import stopwords
import numpy as np
import pandas as pd
import re
from sklearn.model_selection import train_test_split
from keras.utils.np_utils import to_categorical
from sklearn.metrics import accuracy_score
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Fonte dos dados: https://www.kaggle.com/datasets/crowdflower/twitter-airline-sentiment
df = pd.read_csv("Tweets.csv")
df.head()

[keras.preprocessing.text.Tokenizer](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/text/Tokenizer)

Vemos que nas primeiras epochs o erro da validação está decrescendo, mas logo começa a subir rapidamente, enquanto o loss do treino continua em queda. Nesse momento começamos a ter overfit.

É possível ver que o loss do treino quase chega a zero em 20 epochs.

Vamos agora adicionar as regularizações e comparar seus efeitos no modelo.

Vamos agora criar um modelo só com dropout

### Early stopping (“Parada Antecipada” ou “Parada Precoce”)

Como sabemos, o overfit acontece quando o erro no conjunto de validação começa a aumentar enquanto no treino continua a diminuir. O que o Early Stopping faz é observar após cada época como está a performance do modelo no conjunto de validação e se ela deixa de diminuir o modelo para de ser treinado.

Para evitar de parar o modelo muito cedo, o que geralmente fazemos é observar se a performance do modelo não diminui por algum tempo.

<img src=https://miro.medium.com/max/875/1*iAK5uMoOlX1gZu-cSh1nZw.png width=400>

Vamos ver como utilizar o Early Stopping no modelo com dropout:

### Simplificar o modelo

Assim como nos modelos clássicos, modelos mais complexos, ou seja, com mais parâmetros a serem treinados, tem mais chance de overfitar.

### Normalização do batch

A normalização em lote é um recurso que adicionamos entre as camadas da rede neural para normalizá-la usando média=0, padrão dev=1 (μ=0,σ=1) antes de enviá-la para a próxima camada. Essa normalização tem o efeito de estabilizar a rede neural e manter a distribuição dos dados, evitando valores muito grandes e muitos pequenos.

Outro efeito da normalização do batch é o treinamento mais rápido, já que agora é possível utilizarmos valores mais altos para o learning rate, além de aumentar a precisão do modelo.

<img src=https://149695847.v2.pressablecdn.com/wp-content/uploads/2020/07/batch_normalization.png width=500>


https://analyticsindiamag.com/hands-on-guide-to-implement-batch-normalization-in-deep-learning-models/

### Aumentar o tamanho da base de treino
Isso pode ser feito adquirindo novos dados ou criando novos dados artificialmente (data augmentation).

<img src=https://amitness.com/images/nlp-aug-bert-augmentations.png width=500>

Exemplos de data augmentation em NLP: https://www.analyticsvidhya.com/blog/2022/02/text-data-augmentation-in-natural-language-processing-with-texattack/

___
___

## Bibliografia e Aprofundamento

https://towardsdatascience.com/handling-overfitting-in-deep-learning-models-c760ee047c6e

https://analyticsindiamag.com/hands-on-guide-to-implement-batch-normalization-in-deep-learning-models/

[Exemplos de data augmentation em NLP](https://www.analyticsvidhya.com/blog/2022/02/text-data-augmentation-in-natural-language-processing-with-texattack/)

[Vanishing Gradient explained using Code!](https://www.youtube.com/watch?v=wTyZqtJyp5g)

[Investigando o problema de vanishing gradient](https://neptune.ai/blog/vanishing-and-exploding-gradients-debugging-monitoring-fixing)

___
___

## Exercício:

Retreine o modelo do exercício da aula anterior adicionando algumas regularizações vistas nessa aula.

___
___