# Módulo 7: GANs e VAEs - Geração Sintética de Imagens

## 🎯 Objetivos de Aprendizagem

Ao final deste módulo, você será capaz de:

- ✅ Compreender os fundamentos de Generative Adversarial Networks (GANs)
- ✅ Entender Variational Autoencoders (VAEs) para geração de imagens
- ✅ Implementar modelos de geração sintética
- ✅ Analisar aplicações práticas de geração de imagens
- ✅ Comparar diferentes abordagens de geração

---

## 🎨 7.1 Introdução à Geração Sintética de Imagens

### Conceito Fundamental

**Geração Sintética de Imagens** é o processo de criar imagens artificialmente usando modelos de machine learning, permitindo criar conteúdo visual novo e realista.

![Introdução Geração Sintética](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/introducao_geracao_sintetica.png)

### Definição e Características

**Definição:**
- **Geração**: Criação de novas imagens
- **Sintética**: Produzida artificialmente
- **Realista**: Visualmente convincente
- **Controlável**: Parâmetros ajustáveis

**Características Principais:**
- **Novidade**: Imagens nunca vistas antes
- **Variedade**: Diversidade de conteúdo
- **Qualidade**: Alta fidelidade visual
- **Controle**: Manipulação de características

### Aplicações Práticas

#### **1. Arte Digital**
- **Criação artística**: Geração de obras de arte
- **Estilos diversos**: Pinturas, fotografias, ilustrações
- **Personalização**: Adaptação a preferências
- **Colaboração**: Ferramenta para artistas

#### **2. Data Augmentation**
- **Aumento de datasets**: Criação de dados sintéticos
- **Balanceamento**: Correção de desbalanceamento
- **Variedade**: Diversificação de exemplos
- **Eficiência**: Redução de coleta manual

#### **3. Design e Prototipagem**
- **Conceitos visuais**: Ideias rápidas
- **Iteração**: Múltiplas versões
- **Personalização**: Adaptação a necessidades
- **Eficiência**: Redução de tempo de desenvolvimento

#### **4. Entretenimento**
- **Jogos**: Assets visuais
- **Filmes**: Efeitos especiais
- **Realidade virtual**: Ambientes sintéticos
- **Conteúdo**: Geração de mídia

### Evolução da Geração Sintética

![Evolução Geração Sintética](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/evolucao_geracao_sintetica.png)

#### **Progressão Histórica:**

| Ano | Marco | Contribuição |
|-----|-------|--------------|
| **2014** | GANs | Generative Adversarial Networks |
| **2015** | VAEs | Variational Autoencoders |
| **2016** | DCGAN | Deep Convolutional GANs |
| **2017** | Progressive GAN | Resolução crescente |
| **2018** | StyleGAN | Controle de estilo |
| **2020** | Diffusion Models | Revolução no campo |
| **2022** | DALL-E 2 | Popularização |

#### **Marcos Importantes:**
- **2014**: Generative Adversarial Networks - Goodfellow et al.
- **2015**: Auto-Encoding Variational Bayes - Kingma & Welling
- **2016**: Deep Convolutional GANs - Radford et al.
- **2017**: Progressive Growing of GANs - Karras et al.
- **2019**: StyleGAN - Karras et al.
- **2021**: DALL-E - Ramesh et al.

---

## ⚔️ 7.2 Generative Adversarial Networks (GANs)

### Conceito Fundamental

**GANs** são arquiteturas que consistem em dois modelos neurais competindo entre si: um **gerador** que cria imagens sintéticas e um **discriminador** que tenta distinguir entre imagens reais e sintéticas.

![Arquitetura GANs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/arquitetura_gans.png)

### Componentes Principais

#### **1. Gerador (Generator)**

**Função:**
- **Entrada**: Ruído aleatório (latent vector)
- **Saída**: Imagem sintética
- **Objetivo**: Enganar o discriminador
- **Treinamento**: Minimizar perda do discriminador

**Arquitetura:**
```
Ruído → FC → Reshape → Conv Transpose → Imagem
```

**Características:**
- **Upsampling**: Aumento de resolução
- **Convoluções transpostas**: Geração de features
- **Normalização**: Batch normalization
- **Ativação**: Tanh para saída

#### **2. Discriminador (Discriminator)**

**Função:**
- **Entrada**: Imagem (real ou sintética)
- **Saída**: Probabilidade de ser real
- **Objetivo**: Distinguir real de sintético
- **Treinamento**: Maximizar precisão

**Arquitetura:**
```
Imagem → Conv → Pool → Conv → Pool → FC → Probabilidade
```

**Características:**
- **Downsampling**: Redução de resolução
- **Convoluções**: Extração de features
- **Pooling**: Redução de dimensionalidade
- **Ativação**: Sigmoid para saída

### Processo de Treinamento

#### **1. Treinamento do Discriminador**
```
1. Imagens reais → Discriminador → Loss real
2. Ruído → Gerador → Imagens sintéticas
3. Imagens sintéticas → Discriminador → Loss sintético
4. Loss total = Loss real + Loss sintético
5. Backpropagation no discriminador
```

#### **2. Treinamento do Gerador**
```
1. Ruído → Gerador → Imagens sintéticas
2. Imagens sintéticas → Discriminador → Probabilidade
3. Loss = -log(probabilidade)
4. Backpropagation no gerador
```

### Vantagens e Desvantagens

#### **Vantagens:**
- ✅ **Qualidade alta**: Imagens muito realistas
- ✅ **Variedade**: Diversidade de conteúdo
- ✅ **Flexibilidade**: Múltiplas aplicações
- ✅ **Inovação**: Abordagem única

#### **Desvantagens:**
- ❌ **Treinamento instável**: Difícil convergência
- ❌ **Mode collapse**: Falta de diversidade
- ❌ **Computação intensiva**: Recursos elevados
- ❌ **Controle limitado**: Dificuldade de manipulação

---

## 🔄 7.3 Variational Autoencoders (VAEs)

### Conceito Fundamental

**VAEs** são modelos generativos que aprendem a representar dados em um espaço latente de menor dimensionalidade, permitindo geração de novas amostras através de amostragem do espaço latente.

![Arquitetura VAEs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/arquitetura_vaes.png)

### Componentes Principais

#### **1. Encoder**

**Função:**
- **Entrada**: Imagem real
- **Saída**: Parâmetros da distribuição latente (μ, σ)
- **Objetivo**: Comprimir informação
- **Resultado**: Representação latente

**Processo:**
```
Imagem → Conv → Pool → Conv → Pool → FC → μ, σ
```

#### **2. Decoder**

**Função:**
- **Entrada**: Amostra do espaço latente
- **Saída**: Imagem reconstruída
- **Objetivo**: Reconstruir imagem original
- **Resultado**: Imagem sintética

**Processo:**
```
z → FC → Reshape → Conv Transpose → Imagem
```

### Espaço Latente

#### **Características:**
- **Dimensionalidade**: Menor que dados originais
- **Distribuição**: Gaussiana multivariada
- **Continuidade**: Espaço contínuo
- **Interpretabilidade**: Características semânticas

#### **Amostragem:**
```
z = μ + σ ⊙ ε
onde ε ~ N(0, I)
```

### Função de Perda

#### **Loss Total:**
```
L = L_reconstruction + β * L_KL
```

#### **1. Loss de Reconstrução:**
```
L_reconstruction = ||x - x'||²
```

#### **2. Loss KL Divergence:**
```
L_KL = KL(q(z|x) || p(z))
```

### Vantagens e Desvantagens

#### **Vantagens:**
- ✅ **Treinamento estável**: Convergência garantida
- ✅ **Controle**: Manipulação do espaço latente
- ✅ **Interpretabilidade**: Características semânticas
- ✅ **Eficiência**: Treinamento mais rápido

#### **Desvantagens:**
- ❌ **Qualidade**: Imagens menos nítidas
- ❌ **Variedade**: Menos diversidade
- ❌ **Blur**: Efeito de desfoque
- ❌ **Complexidade**: Implementação mais complexa

---

## 🔍 7.4 Demonstração Prática: GANs Simples

Vamos implementar e visualizar um GAN simples para geração de imagens:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import matplotlib.pyplot as plt
import numpy as np
from torch.utils.data import DataLoader, TensorDataset

class SimpleGAN:
    """Implementação de um GAN simples para demonstração"""
    
    def __init__(self, latent_dim=100, img_size=64):
        self.latent_dim = latent_dim
        self.img_size = img_size
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
        # Inicializar modelos
        self.generator = self._build_generator()
        self.discriminator = self._build_discriminator()
        
        # Otimizadores
        self.g_optimizer = optim.Adam(self.generator.parameters(), lr=0.0002, betas=(0.5, 0.999))
        self.d_optimizer = optim.Adam(self.discriminator.parameters(), lr=0.0002, betas=(0.5, 0.999))
        
        # Loss function
        self.criterion = nn.BCELoss()
        
        # Histórico de treinamento
        self.g_losses = []
        self.d_losses = []
        
    def _build_generator(self):
        """Constrói o gerador"""
        
        class Generator(nn.Module):
            def __init__(self, latent_dim, img_size):
                super(Generator, self).__init__()
                
                # Camadas fully connected
                self.fc1 = nn.Linear(latent_dim, 256)
                self.fc2 = nn.Linear(256, 512)
                self.fc3 = nn.Linear(512, 1024)
                self.fc4 = nn.Linear(1024, img_size * img_size * 3)
                
                # Dropout
                self.dropout = nn.Dropout(0.3)
                
            def forward(self, x):
                x = F.relu(self.fc1(x))
                x = self.dropout(x)
                x = F.relu(self.fc2(x))
                x = self.dropout(x)
                x = F.relu(self.fc3(x))
                x = self.dropout(x)
                x = torch.tanh(self.fc4(x))
                
                # Reshape para imagem
                x = x.view(x.size(0), 3, self.img_size, self.img_size)
                return x
        
        return Generator(self.latent_dim, self.img_size).to(self.device)
    
    def _build_discriminator(self):
        """Constrói o discriminador"""
        
        class Discriminator(nn.Module):
            def __init__(self, img_size):
                super(Discriminator, self).__init__()
                
                # Camadas fully connected
                self.fc1 = nn.Linear(img_size * img_size * 3, 1024)
                self.fc2 = nn.Linear(1024, 512)
                self.fc3 = nn.Linear(512, 256)
                self.fc4 = nn.Linear(256, 1)
                
                # Dropout
                self.dropout = nn.Dropout(0.3)
                
            def forward(self, x):
                x = x.view(x.size(0), -1)
                x = F.leaky_relu(self.fc1(x), 0.2)
                x = self.dropout(x)
                x = F.leaky_relu(self.fc2(x), 0.2)
                x = self.dropout(x)
                x = F.leaky_relu(self.fc3(x), 0.2)
                x = self.dropout(x)
                x = torch.sigmoid(self.fc4(x))
                return x
        
        return Discriminator(self.img_size).to(self.device)
    
    def create_sample_data(self, num_samples=1000):
        """Cria dados de exemplo para demonstração"""
        
        # Criar imagens sintéticas simples
        images = []
        
        for _ in range(num_samples):
            # Criar imagem com padrões simples
            img = np.random.rand(3, self.img_size, self.img_size) * 2 - 1  # Normalizar para [-1, 1]
            
            # Adicionar padrões
            if np.random.random() > 0.5:
                # Padrão circular
                center_x, center_y = np.random.randint(20, self.img_size-20, 2)
                radius = np.random.randint(10, 20)
                
                y, x = np.ogrid[:self.img_size, :self.img_size]
                mask = (x - center_x)**2 + (y - center_y)**2 <= radius**2
                
                img[0, mask] = 1.0  # Red
                img[1, mask] = 0.0  # Green
                img[2, mask] = 0.0  # Blue
            else:
                # Padrão retangular
                x1, y1 = np.random.randint(0, self.img_size-30, 2)
                x2, y2 = x1 + np.random.randint(20, 40), y1 + np.random.randint(20, 40)
                
                img[0, y1:y2, x1:x2] = 0.0  # Red
                img[1, y1:y2, x1:x2] = 1.0  # Green
                img[2, y1:y2, x1:x2] = 0.0  # Blue
            
            images.append(img)
        
        return torch.FloatTensor(images)
    
    def train_step(self, real_images, batch_size):
        """Executa um passo de treinamento"""
        
        # Labels
        real_labels = torch.ones(batch_size, 1).to(self.device)
        fake_labels = torch.zeros(batch_size, 1).to(self.device)
        
        # Treinar Discriminador
        self.d_optimizer.zero_grad()
        
        # Loss com imagens reais
        real_output = self.discriminator(real_images)
        d_loss_real = self.criterion(real_output, real_labels)
        
        # Loss com imagens sintéticas
        noise = torch.randn(batch_size, self.latent_dim).to(self.device)
        fake_images = self.generator(noise)
        fake_output = self.discriminator(fake_images.detach())
        d_loss_fake = self.criterion(fake_output, fake_labels)
        
        d_loss = d_loss_real + d_loss_fake
        d_loss.backward()
        self.d_optimizer.step()
        
        # Treinar Gerador
        self.g_optimizer.zero_grad()
        
        noise = torch.randn(batch_size, self.latent_dim).to(self.device)
        fake_images = self.generator(noise)
        fake_output = self.discriminator(fake_images)
        g_loss = self.criterion(fake_output, real_labels)
        
        g_loss.backward()
        self.g_optimizer.step()
        
        return d_loss.item(), g_loss.item()
    
    def train(self, epochs=50, batch_size=32):
        """Treina o GAN"""
        
        # Criar dados
        real_images = self.create_sample_data(1000)
        dataset = TensorDataset(real_images)
        dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)
        
        print(f"Iniciando treinamento do GAN para {epochs} épocas...")
        
        for epoch in range(epochs):
            epoch_d_loss = 0
            epoch_g_loss = 0
            
            for batch_idx, (real_batch,) in enumerate(dataloader):
                real_batch = real_batch.to(self.device)
                
                d_loss, g_loss = self.train_step(real_batch, real_batch.size(0))
                
                epoch_d_loss += d_loss
                epoch_g_loss += g_loss
            
            # Médias
            avg_d_loss = epoch_d_loss / len(dataloader)
            avg_g_loss = epoch_g_loss / len(dataloader)
            
            self.d_losses.append(avg_d_loss)
            self.g_losses.append(avg_g_loss)
            
            if epoch % 10 == 0:
                print(f"Época {epoch}/{epochs} - D Loss: {avg_d_loss:.4f}, G Loss: {avg_g_loss:.4f}")
        
        print("Treinamento concluído!")
    
    def generate_samples(self, num_samples=16):
        """Gera amostras sintéticas"""
        
        self.generator.eval()
        
        with torch.no_grad():
            noise = torch.randn(num_samples, self.latent_dim).to(self.device)
            fake_images = self.generator(noise)
            
            # Converter para numpy
            fake_images = fake_images.cpu().numpy()
            
            # Normalizar para [0, 1]
            fake_images = (fake_images + 1) / 2
            fake_images = np.clip(fake_images, 0, 1)
            
        return fake_images
    
    def visualize_results(self):
        """Visualiza resultados do treinamento"""
        
        fig, axes = plt.subplots(2, 2, figsize=(15, 10))
        
        # Gráfico de perdas
        axes[0, 0].plot(self.d_losses, label='Discriminador', color='red')
        axes[0, 0].plot(self.g_losses, label='Gerador', color='blue')
        axes[0, 0].set_title('Evolução das Perdas')
        axes[0, 0].set_xlabel('Época')
        axes[0, 0].set_ylabel('Perda')
        axes[0, 0].legend()
        axes[0, 0].grid(True, alpha=0.3)
        
        # Amostras geradas
        fake_images = self.generate_samples(16)
        
        # Criar grid de imagens
        grid_img = np.zeros((4 * self.img_size, 4 * self.img_size, 3))
        
        for i in range(4):
            for j in range(4):
                idx = i * 4 + j
                if idx < len(fake_images):
                    img = fake_images[idx].transpose(1, 2, 0)
                    grid_img[i*self.img_size:(i+1)*self.img_size, 
                           j*self.img_size:(j+1)*self.img_size] = img
        
        axes[0, 1].imshow(grid_img)
        axes[0, 1].set_title('Amostras Geradas')
        axes[0, 1].axis('off')
        
        # Análise de qualidade
        fake_images = self.generate_samples(100)
        
        # Calcular estatísticas
        mean_values = np.mean(fake_images, axis=(2, 3))
        std_values = np.std(fake_images, axis=(2, 3))
        
        axes[1, 0].scatter(mean_values[:, 0], mean_values[:, 1], alpha=0.6, label='Red vs Green')
        axes[1, 0].set_title('Distribuição de Cores (Média)')
        axes[1, 0].set_xlabel('Red')
        axes[1, 0].set_ylabel('Green')
        axes[1, 0].legend()
        axes[1, 0].grid(True, alpha=0.3)
        
        axes[1, 1].scatter(std_values[:, 0], std_values[:, 1], alpha=0.6, label='Red vs Green')
        axes[1, 1].set_title('Distribuição de Cores (Desvio Padrão)')
        axes[1, 1].set_xlabel('Red')
        axes[1, 1].set_ylabel('Green')
        axes[1, 1].legend()
        axes[1, 1].grid(True, alpha=0.3)
        
        plt.tight_layout()
        plt.show()
        
        # Análise quantitativa
        print("=== ANÁLISE QUANTITATIVA DO GAN ===")
        print(f"\nEstatísticas de Treinamento:")
        print(f"  - Épocas: {len(self.d_losses)}")
        print(f"  - Perda final do Discriminador: {self.d_losses[-1]:.4f}")
        print(f"  - Perda final do Gerador: {self.g_losses[-1]:.4f}")
        print(f"  - Diferença de perdas: {abs(self.d_losses[-1] - self.g_losses[-1]):.4f}")
        
        print(f"\nEstatísticas das Imagens Geradas:")
        print(f"  - Média Red: {np.mean(mean_values[:, 0]):.3f}")
        print(f"  - Média Green: {np.mean(mean_values[:, 1]):.3f}")
        print(f"  - Média Blue: {np.mean(mean_values[:, 2]):.3f}")
        print(f"  - Desvio Red: {np.mean(std_values[:, 0]):.3f}")
        print(f"  - Desvio Green: {np.mean(std_values[:, 1]):.3f}")
        print(f"  - Desvio Blue: {np.mean(std_values[:, 2]):.3f}")
        
        return fake_images

# Executar demonstração
print("=== DEMONSTRAÇÃO: GAN SIMPLES ===")
gan = SimpleGAN(latent_dim=100, img_size=32)
gan.train(epochs=30, batch_size=16)
generated_images = gan.visualize_results()

### Análise dos Resultados

**Observações Importantes:**

1. **Evolução das Perdas**:
   - **Discriminador**: Deve diminuir gradualmente
   - **Gerador**: Deve diminuir para enganar o discriminador
   - **Equilíbrio**: Perdas devem se estabilizar

2. **Qualidade das Imagens**:
   - **Diversidade**: Variação nas cores e padrões
   - **Realismo**: Aparência convincente
   - **Consistência**: Padrões reconhecíveis

3. **Distribuição de Cores**:
   - **Média**: Concentração em certas cores
   - **Desvio**: Variabilidade das cores
   - **Balanceamento**: Distribuição equilibrada

---

## 🔄 7.5 Demonstração Prática: VAEs Simples

Vamos implementar e visualizar um VAE simples:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import matplotlib.pyplot as plt
import numpy as np
from torch.utils.data import DataLoader, TensorDataset

class SimpleVAE:
    """Implementação de um VAE simples para demonstração"""
    
    def __init__(self, latent_dim=20, img_size=32):
        self.latent_dim = latent_dim
        self.img_size = img_size
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
        # Inicializar modelo
        self.vae = self._build_vae()
        
        # Otimizador
        self.optimizer = optim.Adam(self.vae.parameters(), lr=0.001)
        
        # Histórico de treinamento
        self.reconstruction_losses = []
        self.kl_losses = []
        self.total_losses = []
        
    def _build_vae(self):
        """Constrói o VAE"""
        
        class VAE(nn.Module):
            def __init__(self, latent_dim, img_size):
                super(VAE, self).__init__()
                
                self.latent_dim = latent_dim
                self.img_size = img_size
                
                # Encoder
                self.encoder = nn.Sequential(
                    nn.Linear(img_size * img_size * 3, 512),
                    nn.ReLU(),
                    nn.Linear(512, 256),
                    nn.ReLU(),
                    nn.Linear(256, 128),
                    nn.ReLU()
                )
                
                # Latent space
                self.fc_mu = nn.Linear(128, latent_dim)
                self.fc_logvar = nn.Linear(128, latent_dim)
                
                # Decoder
                self.decoder = nn.Sequential(
                    nn.Linear(latent_dim, 128),
                    nn.ReLU(),
                    nn.Linear(128, 256),
                    nn.ReLU(),
                    nn.Linear(256, 512),
                    nn.ReLU(),
                    nn.Linear(512, img_size * img_size * 3),
                    nn.Tanh()
                )
                
            def encode(self, x):
                h = self.encoder(x.view(x.size(0), -1))
                mu = self.fc_mu(h)
                logvar = self.fc_logvar(h)
                return mu, logvar
                
            def reparameterize(self, mu, logvar):
                std = torch.exp(0.5 * logvar)
                eps = torch.randn_like(std)
                return mu + eps * std
                
            def decode(self, z):
                h = self.decoder(z)
                return h.view(-1, 3, self.img_size, self.img_size)
                
            def forward(self, x):
                mu, logvar = self.encode(x)
                z = self.reparameterize(mu, logvar)
                recon_x = self.decode(z)
                return recon_x, mu, logvar
        
        return VAE(self.latent_dim, self.img_size).to(self.device)
    
    def create_sample_data(self, num_samples=1000):
        """Cria dados de exemplo para demonstração"""
        
        # Criar imagens sintéticas simples
        images = []
        
        for _ in range(num_samples):
            # Criar imagem com padrões simples
            img = np.random.rand(3, self.img_size, self.img_size) * 2 - 1  # Normalizar para [-1, 1]
            
            # Adicionar padrões
            if np.random.random() > 0.5:
                # Padrão circular
                center_x, center_y = np.random.randint(10, self.img_size-10, 2)
                radius = np.random.randint(5, 15)
                
                y, x = np.ogrid[:self.img_size, :self.img_size]
                mask = (x - center_x)**2 + (y - center_y)**2 <= radius**2
                
                img[0, mask] = 1.0  # Red
                img[1, mask] = 0.0  # Green
                img[2, mask] = 0.0  # Blue
            else:
                # Padrão retangular
                x1, y1 = np.random.randint(0, self.img_size-20, 2)
                x2, y2 = x1 + np.random.randint(10, 25), y1 + np.random.randint(10, 25)
                
                img[0, y1:y2, x1:x2] = 0.0  # Red
                img[1, y1:y2, x1:x2] = 1.0  # Green
                img[2, y1:y2, x1:x2] = 0.0  # Blue
            
            images.append(img)
        
        return torch.FloatTensor(images)
    
    def loss_function(self, recon_x, x, mu, logvar):
        """Calcula a função de perda do VAE"""
        
        # Loss de reconstrução (MSE)
        recon_loss = F.mse_loss(recon_x, x, reduction='sum')
        
        # Loss KL divergence
        kl_loss = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp())
        
        return recon_loss, kl_loss
    
    def train_step(self, batch):
        """Executa um passo de treinamento"""
        
        self.optimizer.zero_grad()
        
        # Forward pass
        recon_batch, mu, logvar = self.vae(batch)
        
        # Calcular perdas
        recon_loss, kl_loss = self.loss_function(recon_batch, batch, mu, logvar)
        total_loss = recon_loss + kl_loss
        
        # Backward pass
        total_loss.backward()
        self.optimizer.step()
        
        return recon_loss.item(), kl_loss.item(), total_loss.item()
    
    def train(self, epochs=50, batch_size=32):
        """Treina o VAE"""
        
        # Criar dados
        real_images = self.create_sample_data(1000)
        dataset = TensorDataset(real_images)
        dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)
        
        print(f"Iniciando treinamento do VAE para {epochs} épocas...")
        
        for epoch in range(epochs):
            epoch_recon_loss = 0
            epoch_kl_loss = 0
            epoch_total_loss = 0
            
            for batch_idx, (batch,) in enumerate(dataloader):
                batch = batch.to(self.device)
                
                recon_loss, kl_loss, total_loss = self.train_step(batch)
                
                epoch_recon_loss += recon_loss
                epoch_kl_loss += kl_loss
                epoch_total_loss += total_loss
            
            # Médias
            avg_recon_loss = epoch_recon_loss / len(dataloader)
            avg_kl_loss = epoch_kl_loss / len(dataloader)
            avg_total_loss = epoch_total_loss / len(dataloader)
            
            self.reconstruction_losses.append(avg_recon_loss)
            self.kl_losses.append(avg_kl_loss)
            self.total_losses.append(avg_total_loss)
            
            if epoch % 10 == 0:
                print(f"Época {epoch}/{epochs} - Recon Loss: {avg_recon_loss:.4f}, KL Loss: {avg_kl_loss:.4f}, Total Loss: {avg_total_loss:.4f}")
        
        print("Treinamento concluído!")
    
    def generate_samples(self, num_samples=16):
        """Gera amostras sintéticas"""
        
        self.vae.eval()
        
        with torch.no_grad():
            # Amostrar do espaço latente
            z = torch.randn(num_samples, self.latent_dim).to(self.device)
            fake_images = self.vae.decode(z)
            
            # Converter para numpy
            fake_images = fake_images.cpu().numpy()
            
            # Normalizar para [0, 1]
            fake_images = (fake_images + 1) / 2
            fake_images = np.clip(fake_images, 0, 1)
            
        return fake_images
    
    def reconstruct_samples(self, num_samples=16):
        """Reconstrói amostras reais"""
        
        self.vae.eval()
        
        # Criar amostras reais
        real_images = self.create_sample_data(num_samples)
        
        with torch.no_grad():
            real_images = real_images.to(self.device)
            recon_images, _, _ = self.vae(real_images)
            
            # Converter para numpy
            real_images = real_images.cpu().numpy()
            recon_images = recon_images.cpu().numpy()
            
            # Normalizar para [0, 1]
            real_images = (real_images + 1) / 2
            recon_images = (recon_images + 1) / 2
            real_images = np.clip(real_images, 0, 1)
            recon_images = np.clip(recon_images, 0, 1)
            
        return real_images, recon_images
    
    def visualize_results(self):
        """Visualiza resultados do treinamento"""
        
        fig, axes = plt.subplots(2, 3, figsize=(18, 12))
        
        # Gráfico de perdas
        axes[0, 0].plot(self.reconstruction_losses, label='Reconstrução', color='blue')
        axes[0, 0].plot(self.kl_losses, label='KL Divergence', color='red')
        axes[0, 0].plot(self.total_losses, label='Total', color='green')
        axes[0, 0].set_title('Evolução das Perdas')
        axes[0, 0].set_xlabel('Época')
        axes[0, 0].set_ylabel('Perda')
        axes[0, 0].legend()
        axes[0, 0].grid(True, alpha=0.3)
        
        # Amostras geradas
        fake_images = self.generate_samples(16)
        
        # Criar grid de imagens
        grid_img = np.zeros((4 * self.img_size, 4 * self.img_size, 3))
        
        for i in range(4):
            for j in range(4):
                idx = i * 4 + j
                if idx < len(fake_images):
                    img = fake_images[idx].transpose(1, 2, 0)
                    grid_img[i*self.img_size:(i+1)*self.img_size, 
                           j*self.img_size:(j+1)*self.img_size] = img
        
        axes[0, 1].imshow(grid_img)
        axes[0, 1].set_title('Amostras Geradas')
        axes[0, 1].axis('off')
        
        # Reconstruções
        real_images, recon_images = self.reconstruct_samples(16)
        
        # Grid de imagens reais
        real_grid = np.zeros((4 * self.img_size, 4 * self.img_size, 3))
        for i in range(4):
            for j in range(4):
                idx = i * 4 + j
                if idx < len(real_images):
                    img = real_images[idx].transpose(1, 2, 0)
                    real_grid[i*self.img_size:(i+1)*self.img_size, 
                            j*self.img_size:(j+1)*self.img_size] = img
        
        axes[0, 2].imshow(real_grid)
        axes[0, 2].set_title('Imagens Reais')
        axes[0, 2].axis('off')
        
        # Grid de reconstruções
        recon_grid = np.zeros((4 * self.img_size, 4 * self.img_size, 3))
        for i in range(4):
            for j in range(4):
                idx = i * 4 + j
                if idx < len(recon_images):
                    img = recon_images[idx].transpose(1, 2, 0)
                    recon_grid[i*self.img_size:(i+1)*self.img_size, 
                             j*self.img_size:(j+1)*self.img_size] = img
        
        axes[1, 0].imshow(recon_grid)
        axes[1, 0].set_title('Reconstruções')
        axes[1, 0].axis('off')
        
        # Análise de qualidade
        fake_images = self.generate_samples(100)
        
        # Calcular estatísticas
        mean_values = np.mean(fake_images, axis=(2, 3))
        std_values = np.std(fake_images, axis=(2, 3))
        
        axes[1, 1].scatter(mean_values[:, 0], mean_values[:, 1], alpha=0.6, label='Red vs Green')
        axes[1, 1].set_title('Distribuição de Cores (Média)')
        axes[1, 1].set_xlabel('Red')
        axes[1, 1].set_ylabel('Green')
        axes[1, 1].legend()
        axes[1, 1].grid(True, alpha=0.3)
        
        axes[1, 2].scatter(std_values[:, 0], std_values[:, 1], alpha=0.6, label='Red vs Green')
        axes[1, 2].set_title('Distribuição de Cores (Desvio Padrão)')
        axes[1, 2].set_xlabel('Red')
        axes[1, 2].set_ylabel('Green')
        axes[1, 2].legend()
        axes[1, 2].grid(True, alpha=0.3)
        
        plt.tight_layout()
        plt.show()
        
        # Análise quantitativa
        print("=== ANÁLISE QUANTITATIVA DO VAE ===")
        print(f"\nEstatísticas de Treinamento:")
        print(f"  - Épocas: {len(self.total_losses)}")
        print(f"  - Perda final de Reconstrução: {self.reconstruction_losses[-1]:.4f}")
        print(f"  - Perda final KL: {self.kl_losses[-1]:.4f}")
        print(f"  - Perda final Total: {self.total_losses[-1]:.4f}")
        
        print(f"\nEstatísticas das Imagens Geradas:")
        print(f"  - Média Red: {np.mean(mean_values[:, 0]):.3f}")
        print(f"  - Média Green: {np.mean(mean_values[:, 1]):.3f}")
        print(f"  - Média Blue: {np.mean(mean_values[:, 2]):.3f}")
        print(f"  - Desvio Red: {np.mean(std_values[:, 0]):.3f}")
        print(f"  - Desvio Green: {np.mean(std_values[:, 1]):.3f}")
        print(f"  - Desvio Blue: {np.mean(std_values[:, 2]):.3f}")
        
        return fake_images

# Executar demonstração
print("=== DEMONSTRAÇÃO: VAE SIMPLES ===")
vae = SimpleVAE(latent_dim=20, img_size=32)
vae.train(epochs=30, batch_size=16)
generated_images = vae.visualize_results()

### Análise dos Resultados

**Observações Importantes:**

1. **Evolução das Perdas**:
   - **Reconstrução**: Deve diminuir para melhor reconstrução
   - **KL Divergence**: Deve diminuir para espaço latente regularizado
   - **Total**: Soma das duas perdas

2. **Qualidade das Reconstruções**:
   - **Fidelidade**: Similaridade com imagens originais
   - **Blur**: Efeito de desfoque típico de VAEs
   - **Consistência**: Padrões reconhecíveis

3. **Geração de Novas Imagens**:
   - **Diversidade**: Variação nas cores e padrões
   - **Realismo**: Aparência convincente
   - **Controle**: Manipulação do espaço latente

---

## 📊 7.6 Comparação: GANs vs VAEs

### Análise Comparativa

![Comparação GANs vs VAEs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/comparacao_gans_vaes.png)

#### **Qualidade das Imagens**

| Aspecto | GANs | VAEs |
|---------|------|------|
| **Nitidez** | Alta | Média (blur) |
| **Realismo** | Muito Alto | Alto |
| **Diversidade** | Alta | Média |
| **Consistência** | Variável | Alta |

#### **Treinamento**

| Aspecto | GANs | VAEs |
|---------|------|------|
| **Estabilidade** | Baixa | Alta |
| **Convergência** | Difícil | Garantida |
| **Velocidade** | Lenta | Rápida |
| **Complexidade** | Alta | Média |

#### **Controle e Manipulação**

| Aspecto | GANs | VAEs |
|---------|------|------|
| **Espaço Latente** | Não estruturado | Estruturado |
| **Interpolação** | Difícil | Fácil |
| **Manipulação** | Limitada | Alta |
| **Interpretabilidade** | Baixa | Alta |

### Quando Usar Cada Um

#### **Use GANs quando:**
- ✅ **Qualidade máxima** é necessária
- ✅ **Realismo** é prioritário
- ✅ **Diversidade** é importante
- ✅ **Recursos computacionais** são abundantes

#### **Use VAEs quando:**
- ✅ **Treinamento estável** é necessário
- ✅ **Controle** do espaço latente é importante
- ✅ **Interpretabilidade** é prioritária
- ✅ **Recursos limitados** estão disponíveis

---

## 📝 Resumo do Módulo 7

### Principais Conceitos Abordados

1. **Fundamentos**: Geração sintética de imagens
2. **GANs**: Arquitetura adversarial
3. **VAEs**: Autoencoders variacionais
4. **Implementação**: Demonstrações práticas
5. **Comparação**: Análise de vantagens e desvantagens

### Demonstrações Práticas

**1. GAN Simples:**
   - Implementação de gerador e discriminador
   - Treinamento adversarial
   - Análise de qualidade das imagens

**2. VAE Simples:**
   - Implementação de encoder e decoder
   - Treinamento com perda de reconstrução e KL
   - Análise de reconstruções e geração

### Próximos Passos

No **Módulo 8**, exploraremos **Vision Transformers e Mecanismos de Atenção**, uma abordagem revolucionária para visão computacional.

### Referências Principais

- [Generative Adversarial Networks - Goodfellow et al.](https://arxiv.org/abs/1406.2661)
- [Auto-Encoding Variational Bayes - Kingma & Welling](https://arxiv.org/abs/1312.6114)

---

**Próximo Módulo**: Vision Transformers e Mecanismos de Atenção

## 🎯 Conexão com o Próximo Módulo

Agora que dominamos **GANs e VAEs** para geração sintética, estamos preparados para explorar **Vision Transformers e Mecanismos de Atenção**.

No **Módulo 8**, veremos como:

### 🔗 **Conexões Diretas:**

1. **Geração** → **Atenção**
   - GANs geram imagens sintéticas
   - Transformers usam atenção para processar imagens

2. **Espaço Latente** → **Espaço de Atenção**
   - VAEs aprendem representações latentes
   - Transformers aprendem representações de atenção

3. **Arquiteturas Complexas** → **Arquiteturas de Atenção**
   - GANs e VAEs são arquiteturas complexas
   - Vision Transformers são arquiteturas baseadas em atenção

4. **Aplicações Práticas** → **Aplicações de Atenção**
   - Geração sintética para criação
   - Atenção para análise e classificação

### 🚀 **Evolução Natural:**

- **Geração** → **Análise**
- **Criação** → **Compreensão**
- **Síntese** → **Processamento**
- **Arquiteturas Complexas** → **Arquiteturas de Atenção**

Esta transição marca o início da **era dos Vision Transformers** em visão computacional!

## 🖼️ Imagens de Referência - Módulo 7

![Arquitetura GAN](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/arquitetura_gan.png)

![Arquitetura VAE](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/arquitetura_vae.png)

![Conceito GANs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/gans_conceito.png)

![Tipos de GANs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/tipos_gans.png)

![Conceito VAEs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/vaes_conceito.png)

