# **EP4 - Variational Autoencoder (VAE)**

*Nome (matr√≠cula):* Pedro Semcovici (12745511)


Dando continuidade √† atividade proposta no EP4, este notebook apresenta uma implementa√ß√£o de refer√™ncia para um **Variational Autoencoder (VAE)**. O objetivo √© fornecer um c√≥digo base que facilite o in√≠cio do trabalho, permitindo que voc√™s invistam menos tempo configurando aspectos b√°sicos e tenham mais energia para explorar e experimentar, seguindo sua curiosidade.  

Para evitar problemas com tempos excessivos de treinamento, utilizaremos o dataset **Fashion MNIST**.  

## **Se√ß√µes**
1. **Carregando os dados**  
2. **Fun√ß√£o de perda (Loss)**  
3. **Constru√ß√£o do modelo**  
4. **Treinamento**  
5. **Amostragem de dados gerados**  
6. **Perguntas**  


## Refer√™ncias
Este notebook foi desenvolvido com base em dois c√≥digos-fonte. Do primeiro, foi extra√≠da uma descri√ß√£o b√°sica do modelo em PyTorch. Do segundo, aproveitou a customiza√ß√£o da fun√ß√£o de perda (loss) e o mecanismo de amostragem de novos exemplos. Al√©m disso, a revis√£o do texto e alguns coment√°rios nos c√≥digos foram realizados com o aux√≠lio do ChatGPT.

[1] "PyTorch-Autoencoders/Autoencoders.ipynb at Master ¬∑ Lharries/PyTorch-Autoencoders." GitHub. Dispon√≠vel em: https://github.com/lharries/PyTorch-Autoencoders/blob/master/autoencoders.ipynb.

[2] "PyTorch-VAE/Models/Vanilla_vae.py at Master ¬∑ AntixK/PyTorch-VAE." GitHub. Dispon√≠vel em: https://github.com/AntixK/PyTorch-VAE/blob/master/models/vanilla_vae.py.

In [None]:
# Setup
import torch
import torch.nn.functional as F
from torch import nn
from torch.utils.data import DataLoader, Dataset, random_split
from torchvision import datasets, transforms
import matplotlib.pyplot as plt

# O c√≥digo espera que voc√™ esteja utilizando uma GPU/CUDA.

## 1. **Carregando os dados:**

Carrega e organiza o dataset Fashion MNIST, aplicando transforma√ß√µes e criando dataloaders para os conjuntos de treinamento, valida√ß√£o e teste. 

1. Aplica transforma√ß√µes no dataset:
    - Converte imagens para tensores.
    - Normaliza os dados para o intervalo [-1, 1].
2. Baixa e carrega o dataset Fashion MNIST.
3. Divide o conjunto de treinamento em:
    - train_set: Dados para treinamento.
    - val_set: Dados para valida√ß√£o, com tamanho definido por validation_set_percent.
4. Exibe:
    - Informa√ß√µes sobre as dimens√µes e intervalos dos dados.
    - Exemplos visuais de imagens do dataset.
5. Retorna dataloaders para treinamento, valida√ß√£o e teste.

In [None]:
def carrega_dataset(validation_set_percent=0.1, batch_size=128, verbose=False):
  transform_list = transforms.Compose(
    [
      transforms.ToTensor(),
      transforms.Normalize((0.5), (0.5)),
    ]
  )

  training_data = datasets.FashionMNIST(root="data", train=True, download=True, transform=transform_list)
  test_data = datasets.FashionMNIST(root="data", train=False, download=True, transform=transform_list)

  # Particiona o conjunto de treinamento e valida√ß√£o
  n_val = int(len(training_data) * validation_set_percent)
  n_train = len(training_data) - n_val
  train_set, val_set = random_split(
    training_data, [n_train, n_val], generator=torch.Generator().manual_seed(0)
  )

  if verbose:
    print("Dataset carregado em Tensores com as seguintes dimens√µes:\n")
    print(f"all_training_data: X = {training_data.data.size()}, intervalo: [{training_data.data.min().item()}, {training_data.data.max().item()}]")
    print(f"                     training:   {len(train_set.indices):6} samples")
    print(f"                     validation: {len(val_set.indices):6} samples")
    print()
    print(f"test_data: X_test = {test_data.data.shape} [{test_data.data.min().item()}, {test_data.data.max().item()}]")

    figure = plt.figure(figsize=(20, 3))
    plt.suptitle("Exemplos de imagens do Fashion-MNIST")
    rows, cols = 3, 15
    for i in range(1, rows * cols + 1):
      sample_idx = torch.randint(len(training_data), size=(1,)).item()
      img, label = training_data[sample_idx]
      figure.add_subplot(rows, cols, i)
      plt.axis("off")
      plt.imshow(img.squeeze(), cmap="gray")
    plt.show()

  train_dataloader = DataLoader(train_set, batch_size=batch_size, shuffle=True, pin_memory=True)
  val_dataloader = DataLoader(val_set, batch_size=batch_size, shuffle=False, pin_memory=True)
  test_dataloader = DataLoader(test_data, batch_size=batch_size, shuffle=True, pin_memory=True)

  return (train_dataloader, val_dataloader, test_dataloader)

train_dataloader, val_dataloader, test_dataloader = carrega_dataset(validation_set_percent = 0.1, verbose=True)  

----
## 2. Fun√ß√£o de perda (Loss)

A fun√ß√£o de perda desempenha um papel fundamental no treinamento de um **Variational Autoencoder (VAE)**, pois combina termos que promovem a reconstru√ß√£o precisa dos dados e a regulariza√ß√£o da distribui√ß√£o latente.  

Neste notebook, utilizamos uma fun√ß√£o de perda composta pelos seguintes termos:
- **Mean Squared Error (MSE)**: Mede o erro de reconstru√ß√£o entre os dados originais e os gerados pelo decoder.  
- **Kullback-Leibler Divergence (KL-Divergence)**: Garante que a distribui√ß√£o latente gerada pelo encoder esteja pr√≥xima de uma distribui√ß√£o normal padr√£o (ùí©(0,1)).  

### Ajuste do Termo de Regulariza√ß√£o
Para evitar que o termo KL-Divergence domine a perda total, ele √© ajustado com base no tamanho do batch em rela√ß√£o ao tamanho do dataset. Neste caso, o redutor utilizado √© (256/60000).:  

Essa abordagem ajuda a balancear a contribui√ß√£o da KL-Divergence na fun√ß√£o de perda total, tornando o treinamento mais est√°vel.  

In [None]:
def vae_loss(recons, input, mu, log_var, kld_weight):
    """
    Fun√ß√£o para calcular a perda de um Variational Autoencoder (VAE).
    
    Par√¢metros:
    - recons: Reconstru√ß√£o produzida pelo decodificador do VAE.
    - input: Entrada original fornecida ao VAE.
    - mu: Vetor de m√©dias da distribui√ß√£o latente (gerado pelo codificador).
    - log_var: Vetor do logaritmo da vari√¢ncia da distribui√ß√£o latente (gerado pelo codificador).
    - kld_weight: Fator de peso para ajustar a import√¢ncia da perda KLD em rela√ß√£o √† perda de reconstru√ß√£o.
    
    Retorno:
    - Soma da perda de reconstru√ß√£o e da perda KLD ponderada.
    """
    
    # Calcula a perda de reconstru√ß√£o usando o erro m√©dio quadr√°tico (MSE)
    recons_loss = F.mse_loss(recons, input)
    
    # Calcula a perda de diverg√™ncia Kullback-Leibler (KLD) entre a distribui√ß√£o latente e uma normal padr√£o
    kld_loss = torch.mean(-0.5 * torch.sum(1 + log_var - mu ** 2 - log_var.exp(), dim=1), dim=0)
    
    # Retorna a soma da perda de reconstru√ß√£o e da perda KLD ponderada
    return recons_loss + kld_weight * kld_loss


----
## 3. Variational Autoencoder (VAE)

Arquitetura √© √∫til para gera√ß√£o de novos exemplos baseados em uma distribui√ß√£o latente aprendida.


In [None]:
class VariationalAutoencoder(nn.Module):
    def __init__(self, input_size):
        super(VariationalAutoencoder, self).__init__()

        # Proje√ß√£o inicial dos dados para 512 dimens√µes
        self.fc1 = nn.Sequential(
            nn.Flatten(),
            nn.Linear(input_size,512)
        )

        # Camadas para estimar os par√¢metros da distribui√ß√£o latente (Œº e log(œÉ¬≤))
        self.fc21 = nn.Linear(512, 10)  # Gera a m√©dia (Œº)
        self.fc22 = nn.Linear(512, 10)  # Gera o logaritmo da vari√¢ncia (log(œÉ¬≤))
        
        # Atributo para armazenar as embeddings latentes
        self.embeddings = None

        self.relu = nn.ReLU()
        
        # Camadas de decodifica√ß√£o para reconstruir os dados no espa√ßo original
        self.fc3 = nn.Linear(10, 512)
        self.fc4 = nn.Linear(512, input_size)
    

    # M√©todo de codifica√ß√£o: reduz os dados para o espa√ßo latente
    def encode(self, x):
        x = self.relu(self.fc1(x))
        return self.fc21(x), self.fc22(x)
    
    # M√©todo de decodifica√ß√£o: reconstr√≥i os dados a partir do espa√ßo latente
    def decode(self, z):
        z = self.relu(self.fc3(z))
        return torch.tanh(self.fc4(z))
        
    # Truque de reparametriza√ß√£o: amostra do espa√ßo latente de forma diferenci√°vel
    def reparameterize(self, mu, logvar):
        std = torch.exp(0.5 *logvar)
        eps = torch.randn_like(std)
        return eps.mul(std).add_(mu)
        
    # Forward: executa todo o fluxo do VAE
    def forward(self,x):
        mu, logvar = self.encode(x)
        z = self.reparameterize(mu, logvar)
        prediction = self.decode(z)
        self.embeddings = z
        return prediction, mu, logvar
    
    # M√©todo para gerar amostras a partir do espa√ßo latente
    def sample(self, num_samples:int):
        z = torch.randn(num_samples, 10)  # Gera vetores aleat√≥rios no espa√ßo latente
        z = z.cuda()  

        samples = self.decode(z) # Decodifica os vetores para gerar dados
        return samples
    
vae = VariationalAutoencoder(28*28).to('cuda')

----
## 4. Treinamento

Aqui s√£o definidos os hiper√¢metros e c√≥digo de treinamento.

In [None]:
# Hiperpar√¢metros
epochs = 30                   
batch_size= 256
learning_rate = 3.5e-3          
loss_fn = vae_loss
optimizer = torch.optim.AdamW(vae.parameters(), lr=learning_rate) 

In [None]:
@torch.inference_mode()
def eval_loop(dataloader, model, loss_fn):
  model.eval()
  num_batches = len(dataloader)
  eval_loss = 0

  ground_truth = None
  prediction = None

  for X, y in dataloader:
    X = X.cuda()
    ground_truth = X
    prediction, mu, logvar = model(X)
    kld_weight = X.shape[0]/60000
    X = X.view(-1, 784)
    eval_loss += loss_fn(prediction, X, mu, logvar, kld_weight).item()

  eval_loss /= num_batches
  
  del X, prediction
  return eval_loss

def train_loop(dataloader, model, loss_fn,  optimizer):
  model.train()
  train_loss = 0
  num_batches = len(dataloader)

  for _, (X, _) in enumerate(dataloader):
    X = X.cuda()
    prediction, mu, logvar = model(X)
    X = X.view(-1, 784)
    kld_weight = X.shape[0]/60000
    loss = loss_fn(prediction, X, mu, logvar, kld_weight)
    
    with torch.no_grad():
      train_loss += loss.item()

    loss.backward()
    optimizer.step()
    optimizer.zero_grad()
    
  train_loss /= num_batches

  del X, prediction, loss
  return train_loss 

In [None]:
for t in range(epochs):
  print(f"Epoch {t+1:2}/{epochs}", end='')
  train_loss = train_loop(train_dataloader, vae, loss_fn, optimizer)
  val_loss = eval_loop(val_dataloader, vae, loss_fn)
  print(f"\t train_loss={train_loss:.3f}  val_loss={val_loss:.3f}")


print("Treinamento conclu√≠do!")

----
# 5. Gerando amostras

Este c√≥digo gera uma imagem de exemplo do espa√ßo latente do VAE e a exibe em escala de cinza, formatando-a como uma matriz 28√ó28, utilizada que o tamanho da imagem do Fashion MNIST.

In [None]:
exemplos_gerado = vae.sample(1).view(-1, 28, 28).detach().cpu().numpy()
plt.imshow(exemplos_gerado[0],  cmap="gray")
plt.axis('off')

----
## 6. **Perguntas:**  
   - Quais foram as dificuldades enfrentadas durante o desenvolvimento?  

   
   - Quais experimentos adicionais voc√™ realizou? O que aprendeu com eles?  