<a href="https://colab.research.google.com/github/SampMark/Deep-Learning/blob/main/Dropout_and_Batch_Normalization_in_Neural_Network.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Dropout e Normalização em Lote em modelagens com Redes Neurais**

Duas técnicas importantes são frequentemente utilizadas para aprimorar o desempenho de redes neurais: **Dropout** e **Normalização em Lote**.

### **O que é Dropout?**

Dropout ("descarte aleatório") é uma técnica de regularização que ajuda a prevenir o _overfitting_ em redes neurais. A ideia do Dropout pode parecer contraintuitiva, mas é altamente eficaz. Assim como uma empresa que distribui conhecimento crítico entre vários funcionários para se tornar mais resiliente a fatores externos, o Dropout força os "neurônios" a não dependerem excessivamente de outros. Eles aprendem a funcionar de forma independente e prestam atenção em todas as entradas, criando uma rede mais robusta e menos sensível a pequenas alterações nos dados de entrada.

Durante o treinamento, o Dropout define aleatoriamente uma fração das unidades de entrada como zero a cada ciclo de atualização, impedindo que o modelo se torne excessivamente dependente de qualquer neurônio específico, o que incentiva a rede a aprender características mais robustas que generalizam melhor para dados não vistos.

Outra perspectiva é que, a cada etapa do treinamento, uma nova rede neural é gerada pela ativação aleatória de neurônios. Após várias iterações, o modelo treinado pode ser visto como uma média de diversas redes menores, o que melhora a generalização.

### **O que é Normalização em Lote?**

A Normalização em Lote é uma técnica usada para melhorar a estabilidade e a velocidade do treinamento de redes neurais. A técnica serve para normalizar a saída de uma camada anterior re-centralizando e redimensionando os dados, o que ajuda a estabilizar o processo de aprendizado. Ao reduzir a mudança de covariável interna (as mudanças na distribuição das entradas da camada), a normalização em lote permite que o modelo use taxas de aprendizado mais altas, o que geralmente acelera a convergência.




## **Importando e Instalando as Bibliotecas**

---



In [1]:
!pip install tensorflow



In [3]:
import tensorflow as tf
# Keras está incluído no TensorFlow como tensorflow.keras
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Dropout, BatchNormalization, Dense, Input

## **Adicionando uma Camada Dropout**

---
A técnica de dropout consiste no desligamento ou descarte aleatório de neurônios durante o treinamento. Ou seja, os neurônios são selecionados de forma não determinística, forçando a rede a ser mais robusta e aprender de maneira mais generalizada. O dropout tende a aumentar a acurácia dos modelos em cerca de 1% a 2%, o que pode representar uma redução significativa do erro.  

A taxa de dropout (probabilidade de um neurônio ser desligado) varia entre 10% e 50%, dependendo do tipo de rede neural. Durante o treinamento, os pesos são ajustados para compensar a desativação dos neurônios.

Embora o dropout possa reduzir a velocidade de convergência, o resultado são  modelos mais robustos quando configurado adequadamente, se mostrando uma técnica indispensável em redes neurais profundas. Configura-se, portanto, como técnica de regularização que ajuda a prevenir _overfitting_ em redes neurais.

### **Etapas**

1. **Adicionar Camadas de Dropout**: após cada camada oculta (Dense) no modelo, adiciona-se uma camada de dropout,  utilizando a função `keras.layers.Dropout()`.
  * Uma taxa de dropout de `0.5`, significa que 50% dos neurônios em cada camada oculta serão desativados aleatoriamente durante o treinamento.

2. **Recompilar o Modelo**: após a etapa é necessário recompilar o modelo para que as alterações na arquitetura sejam aplicadas, usanda `compile()`.

3. **Treinar o Modelo**: novamente o modelo será treinado usando `model.fit()`.

4. **Avaliar o Modelo**: utiliza-se o conjunto de dados de teste `model.evaluate()`.

### **Pontos chave:**

* O Dropout é aplicado apenas durante o treinamento, não durante a inferência.
* A taxa de dropout é um hiperparâmetro que determina a fração de neurônios a serem descartados.

In [4]:
# Definição da camada de entrada
# O modelo recebe vetores de 20 dimensões como entrada
input_layer = Input(shape=(20,))

# Primeira camada densa (oculta) com 64 neurônios e ativação ReLU
hidden_layer1 = Dense(64, activation='relu')(input_layer)

# Camada de dropout para regularização, com taxa de 50%
dropout_layer = Dropout(rate=0.5)(hidden_layer1)

# Segunda camada densa (oculta) com 64 neurônios e ativação ReLU
hidden_layer2 = Dense(64, activation='relu')(dropout_layer)

# Camada de saída com 1 neurônio e ativação sigmoide (para classificação binária)
output_layer = Dense(1, activation='sigmoid')(hidden_layer2)

# Criação do modelo, conectando a camada de entrada à camada de saída
model = Model(inputs=input_layer, outputs=output_layer)

# Exibição do resumo da arquitetura do modelo
model.summary()

# Compilar o modelo
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

In [5]:
# Importar a biblioteca NumPy para manipulação de arrays
import numpy as np

# Gerar dados de treinamento aleatórios
X_train = np.random.rand(1000, 20)  # 1000 exemplos com 20 features
y_train = np.random.randint(2, size=(1000, 1))  # 1000 rótulos binários

# Ajustar o modelo com os dados de treinamento
model.fit(X_train, y_train, epochs=10, batch_size=32)

Epoch 1/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2ms/step - accuracy: 0.5033 - loss: 0.7070
Epoch 2/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.4785 - loss: 0.6974
Epoch 3/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5316 - loss: 0.6877
Epoch 4/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5338 - loss: 0.6943
Epoch 5/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5370 - loss: 0.6940 
Epoch 6/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5282 - loss: 0.6903
Epoch 7/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5425 - loss: 0.6869 
Epoch 8/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5588 - loss: 0.6814
Epoch 9/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m

<keras.src.callbacks.history.History at 0x785852cceb10>

In [6]:
# Gerar dados de teste aleatórios
X_test = np.random.rand(200, 20)  # 200 exemplos com 20 features cada
y_test = np.random.randint(2, size=(200, 1))  # 200 rótulos binários

# Avaliar o modelo com os dados de teste
loss, accuracy = model.evaluate(X_test, y_test)

# Imprimir os resultados da avaliação
print(f'Perda no conjunto de teste: {loss}')
print(f'Acurácia no conjunto de teste: {accuracy}')

[1m7/7[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.4828 - loss: 0.6851  
Perda no conjunto de teste: 0.6896842122077942
Acurácia no conjunto de teste: 0.46000000834465027


## **Adicionando uma Segunda Camadas de dropout**

---

É importante comparar o desempenho dos modelos com e sem as camadas de dropout, de modo a se observar o efeito na capacidade de generalização.

In [7]:
# Define a camada de entrada
# O modelo espera vetores de 20 dimensões como entrada
input_layer = Input(shape=(20,))

# Adiciona a primeira camada oculta com 64 neurônios e ativação ReLU
hidden_layer1 = Dense(64, activation='relu')(input_layer)
# Adiciona uma camada de dropout com taxa de 50% após a primeira camada oculta
dropout1 = Dropout(0.5)(hidden_layer1)

# Adiciona a segunda camada oculta com 64 neurônios e ativação ReLU
hidden_layer2 = Dense(64, activation='relu')(dropout1)
# Adiciona uma camada de dropout com taxa de 50% após a segunda camada oculta
dropout2 = Dropout(0.5)(hidden_layer2)

# Define a camada de saída com 1 neurônio e ativação sigmoide (para classificação binária)
output_layer = Dense(1, activation='sigmoid')(dropout2)

# Cria o modelo conectando a camada de entrada à camada de saída
model = Model(inputs=input_layer, outputs=output_layer)

# Exibe o resumo do modelo
model.summary()

In [8]:
# Compila o modelo
# Utiliza o otimizador Adam, função de perda binária e métrica de acurácia
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

In [9]:
# Treina o modelo
# Utiliza os dados de treino X_train e y_train, com 10 épocas e tamanho de lote de 32
model.fit(X_train, y_train, epochs=10, batch_size=32)

Epoch 1/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2ms/step - accuracy: 0.4917 - loss: 0.7055
Epoch 2/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5092 - loss: 0.6985
Epoch 3/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5214 - loss: 0.6929
Epoch 4/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5309 - loss: 0.6939
Epoch 5/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5363 - loss: 0.6896
Epoch 6/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.4940 - loss: 0.6953
Epoch 7/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5016 - loss: 0.6927 
Epoch 8/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5751 - loss: 0.6791
Epoch 9/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m

<keras.src.callbacks.history.History at 0x78584fb8d6d0>

In [10]:
# Avalia o modelo
# Mede a perda e a acurácia nos dados de teste X_test e y_test
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Perda no conjunto de teste: {loss}')
print(f'Acurácia no conjunto de teste: {accuracy}')

[1m7/7[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.5266 - loss: 0.6939  
Perda no conjunto de teste: 0.697049617767334
Acurácia no conjunto de teste: 0.5049999952316284


# **Normalização em Lote (`BatchNormalization`)**

---


A normalização em lote, proposta por Sergey Ioffe e Christian Szegedy em 2015, é uma técnica de regularização que aborda os problemas de gradientes desaparecendo ou explodindo durante o treinamento de redes neurais profundas. Apesar de métodos como a inicialização de He com ReLU reduzirem esses problemas no início do treinamento, eles não garantem estabilidade ao longo de todo o processo.

A normalização em lote introduz uma operação que padroniza as entradas de cada camada, centralizando-as em zero e normalizando com base no desvio padrão. Além disso, permite que o modelo aprenda a escala e o deslocamento ideais dessas entradas por meio de dois novos parâmetros ajustáveis: γ (escala) e β (deslocamento). Essa operação é adicionada antes ou depois da função de ativação de cada camada oculta e segue os passos descritos no algoritmo de normalização em lote, resumido pelas equações a seguir:

1. Média das entradas no mini-lote 𝐵: $$ \mu_B = \frac{1}{m_B} \sum_{i=1}^{m_B} x^{(i)} $$

2. Variância das entradas no mini-lote: $$ \sigma_B^2 = \frac{1}{m_B} \sum_{i=1}^{m_B} \left( x^{(i)} - \mu_B \right)^2 $$

3. Normalização das entradas com um termo de suavização
𝜖 para evitar divisão por zero: $$ \hat{x}^{(i)} = \frac{x^{(i)} - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}} $$

4. Ajuste das entradas normalizadas usando os parâmetros de escala 𝛾 e deslocamento 𝛽: $$ z^{(i)} = \gamma \otimes \hat{x}^{(i)} + \beta $$

Em suma:
* $𝜇_B$: Média do batch.
* $𝜎_B^2$: Variância do batch.
* $\hat{x}^{(i)}$: Normalização de entrada.
* $ z^{(i)}$ : Saída ajustada pela escala 𝛾 e deslocamento 𝛽.
* ⊗: Multiplicação elemento a elemento.

### **Pontos chave:**

* A normalização em lote funciona normalizando as entradas de cada camada para ter uma média de zero e uma variância de um.
* É aplicada durante o treinamento e a inferência, embora seu comportamento varie ligeiramente entre as duas fases.
* As camadas de normalização em lote também introduzem dois parâmetros aprendíveis que permitem que o modelo dimensione e desloque a saída normalizada, o que ajuda a restaurar o poder de representação do modelo.

A normalização em lote se tornou uma técnica padrão em redes neurais modernas devido à sua eficácia em melhorar a estabilidade e o desempenho do treinamento. Apesar de sua simplicidade, ela reduz a necessidade de pré-processamento dos dados de entrada e atua como regularizador, acelerando o treinamento de modelos complexos. Podemos citar como principais benefícios

1. **Redução de Instabilidades**: a padronização das entradas em cada camada oculta estabiliza o treinamento ao controlar variações nos gradientes.

2. **Facilidade de Treinamento**: permite o uso de funções de ativação saturadas, como `tanh` e `sigmoide`, sem o risco de gradientes desaparecendo. As Redes Neurais se tornam menos sensíveis à inicialização dos pesos, permitindo taxas de aprendizado mais altas e aceleração significativa no treinamento.

3. **Regularização Implícita**: a `BatchNormalization` atua como um regularizador, reduzindo a necessidade de técnicas adicionais como dropout.


Além disso, a técnica demonstrou avanços significativos em tarefas como a classificação do dataset ImageNet, superando o desempenho humano em algumas métricas e reduzindo o número de passos de treinamento necessários em até 14 vezes. Ademais, avanços como o Alpha Dropout e ferramentas que fundem camadas após o treinamento tornam a técnica ainda mais poderosa para aplicações práticas.


## **Implantação da Normalização em Lote (`BatchNormalization`)**

---



In [11]:
# Define a camada de entrada
input_layer = Input(shape=(20,)) # Entrada com 20 atributos

# Adiciona camadas ocultas com ativação Tanh
hidden_layer1 = Dense(64, activation='tanh')(input_layer)
hidden_layer2 = Dense(64, activation='tanh')(hidden_layer1)

# Define a camada de saída
output_layer = Dense(1, activation='sigmoid')(hidden_layer2)

# Cria e exibe o resumo da arquitetura do modelo
model = Model(inputs=input_layer, outputs=output_layer)
model.summary()

# Compila o modelo
model.compile(optimizer='adam',  # Otimizador Adam, eficiente e amplamente utilizado
              loss='binary_crossentropy',  # Função de perda para classificação binária
              metrics=['accuracy'])  # Métrica para monitorar o desempenho do modelo

# Treina o modelo com o conjunto de validação
model.fit(X_train, y_train, epochs=10, batch_size=32)

# Avaliação do modelo
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Perda no conjunto de teste: {loss}')
print(f'Acurácia no conjunto de teste: {accuracy}')

Epoch 1/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.4840 - loss: 0.7042
Epoch 2/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5305 - loss: 0.6869 
Epoch 3/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5273 - loss: 0.6887 
Epoch 4/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5634 - loss: 0.6833 
Epoch 5/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5683 - loss: 0.6738
Epoch 6/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5501 - loss: 0.6904 
Epoch 7/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5273 - loss: 0.6916
Epoch 8/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5521 - loss: 0.6912 
Epoch 9/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━

In [12]:
# Define a camada de entrada
input_layer = Input(shape=(20,))  # Entrada com 20 atributos

# Primeira camada oculta
hidden_layer1 = Dense(64, activation='tanh')(input_layer)  # Camada totalmente conectada com 64 neurônios e ativação 'tanh'
batch_norm1 = BatchNormalization()(hidden_layer1)  # Normalização em lote para estabilizar os gradientes

# Segunda camada oculta
hidden_layer2 = Dense(64, activation='tanh')(batch_norm1)  # Outra camada totalmente conectada com ativação 'tanh'
batch_norm2 = BatchNormalization()(hidden_layer2)  # Normalização em lote aplicada à saída da segunda camada oculta

# Camada de saída
output_layer = Dense(1, activation='sigmoid')(batch_norm2)  # Camada de saída com ativação 'sigmoid' para classificação binária

# Cria e exibe o resumo da arquitetura do modelo
model = Model(inputs=input_layer, outputs=output_layer)
model.summary()

# Compila o modelo
model.compile(optimizer='adam',  # Otimizador Adam, eficiente e amplamente utilizado
              loss='binary_crossentropy',  # Função de perda para classificação binária
              metrics=['accuracy'])  # Métrica para monitorar o desempenho do modelo

# Treina o modelo com o conjunto de validação
model.fit(X_train, y_train, epochs=10, batch_size=32)  # Treinamento com 10 épocas e tamanho de lote de 32

# Avaliação do modelo
loss, accuracy = model.evaluate(X_test, y_test)  # Avaliação no conjunto de teste
print(f'Perda no conjunto de teste: {loss}')
print(f'Acurácia no conjunto de teste: {accuracy}')

Epoch 1/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2ms/step - accuracy: 0.4950 - loss: 0.7625
Epoch 2/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.5638 - loss: 0.6757
Epoch 3/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.6074 - loss: 0.6571
Epoch 4/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6178 - loss: 0.6531
Epoch 5/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6244 - loss: 0.6429
Epoch 6/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.6573 - loss: 0.6283
Epoch 7/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6495 - loss: 0.6188
Epoch 8/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.6800 - loss: 0.6090
Epoch 9/10
[1m32/32[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[

# **Referências**

  GÉRON, Aurélien. **Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow**: Unsupervised Learning Techniques. O'Reilly Media, Incorporated, 2023.

  GAL, Yarin; GHAHRAMANI, Zoubin. **Dropout as a bayesian approximation: Representing model uncertainty in deep learning**. In: international conference on machine learning. PMLR, 2016. p. 1050-1059. Disponível em: https://proceedings.mlr.press/v48/gal16.pdf Acesso em: 18 jan. 2025.

  CHOLLET, Francois; CHOLLET, François. **Deep learning with Python**. simon and schuster, 2021.


  TENSORFLOW. **TensorFlow Python API Documentation**. Disponível em: https://www.tensorflow.org/api_docs/python/tf. Acesso em: 19 jan. 2025.