# M√≥dulo 7: GANs e VAEs - Gera√ß√£o Sint√©tica de Imagens

## üéØ Objetivos de Aprendizagem

Ao final deste m√≥dulo, voc√™ ser√° capaz de:

- ‚úÖ Compreender os fundamentos de Generative Adversarial Networks (GANs)
- ‚úÖ Entender Variational Autoencoders (VAEs) para gera√ß√£o de imagens
- ‚úÖ Implementar modelos de gera√ß√£o sint√©tica
- ‚úÖ Analisar aplica√ß√µes pr√°ticas de gera√ß√£o de imagens
- ‚úÖ Comparar diferentes abordagens de gera√ß√£o

---

## üé® 7.1 Introdu√ß√£o √† Gera√ß√£o Sint√©tica de Imagens

### Conceito Fundamental

**Gera√ß√£o Sint√©tica de Imagens** √© o processo de criar imagens artificialmente usando modelos de machine learning, permitindo criar conte√∫do visual novo e realista.

![Introdu√ß√£o Gera√ß√£o Sint√©tica](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/introducao_geracao_sintetica.png)

### Defini√ß√£o e Caracter√≠sticas

**Defini√ß√£o:**
- **Gera√ß√£o**: Cria√ß√£o de novas imagens
- **Sint√©tica**: Produzida artificialmente
- **Realista**: Visualmente convincente
- **Control√°vel**: Par√¢metros ajust√°veis

**Caracter√≠sticas Principais:**
- **Novidade**: Imagens nunca vistas antes
- **Variedade**: Diversidade de conte√∫do
- **Qualidade**: Alta fidelidade visual
- **Controle**: Manipula√ß√£o de caracter√≠sticas

### Aplica√ß√µes Pr√°ticas

#### **1. Arte Digital**
- **Cria√ß√£o art√≠stica**: Gera√ß√£o de obras de arte
- **Estilos diversos**: Pinturas, fotografias, ilustra√ß√µes
- **Personaliza√ß√£o**: Adapta√ß√£o a prefer√™ncias
- **Colabora√ß√£o**: Ferramenta para artistas

#### **2. Data Augmentation**
- **Aumento de datasets**: Cria√ß√£o de dados sint√©ticos
- **Balanceamento**: Corre√ß√£o de desbalanceamento
- **Variedade**: Diversifica√ß√£o de exemplos
- **Efici√™ncia**: Redu√ß√£o de coleta manual

#### **3. Design e Prototipagem**
- **Conceitos visuais**: Ideias r√°pidas
- **Itera√ß√£o**: M√∫ltiplas vers√µes
- **Personaliza√ß√£o**: Adapta√ß√£o a necessidades
- **Efici√™ncia**: Redu√ß√£o de tempo de desenvolvimento

#### **4. Entretenimento**
- **Jogos**: Assets visuais
- **Filmes**: Efeitos especiais
- **Realidade virtual**: Ambientes sint√©ticos
- **Conte√∫do**: Gera√ß√£o de m√≠dia

### Evolu√ß√£o da Gera√ß√£o Sint√©tica

![Evolu√ß√£o Gera√ß√£o Sint√©tica](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/evolucao_geracao_sintetica.png)

#### **Progress√£o Hist√≥rica:**

| Ano | Marco | Contribui√ß√£o |
|-----|-------|--------------|
| **2014** | GANs | Generative Adversarial Networks |
| **2015** | VAEs | Variational Autoencoders |
| **2016** | DCGAN | Deep Convolutional GANs |
| **2017** | Progressive GAN | Resolu√ß√£o crescente |
| **2018** | StyleGAN | Controle de estilo |
| **2020** | Diffusion Models | Revolu√ß√£o no campo |
| **2022** | DALL-E 2 | Populariza√ß√£o |

#### **Marcos Importantes:**
- **2014**: Generative Adversarial Networks - Goodfellow et al.
- **2015**: Auto-Encoding Variational Bayes - Kingma & Welling
- **2016**: Deep Convolutional GANs - Radford et al.
- **2017**: Progressive Growing of GANs - Karras et al.
- **2019**: StyleGAN - Karras et al.
- **2021**: DALL-E - Ramesh et al.

---

## ‚öîÔ∏è 7.2 Generative Adversarial Networks (GANs)

### Conceito Fundamental

**GANs** s√£o arquiteturas que consistem em dois modelos neurais competindo entre si: um **gerador** que cria imagens sint√©ticas e um **discriminador** que tenta distinguir entre imagens reais e sint√©ticas.

![Arquitetura GANs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/arquitetura_gans.png)

### Componentes Principais

#### **1. Gerador (Generator)**

**Fun√ß√£o:**
- **Entrada**: Ru√≠do aleat√≥rio (latent vector)
- **Sa√≠da**: Imagem sint√©tica
- **Objetivo**: Enganar o discriminador
- **Treinamento**: Minimizar perda do discriminador

**Arquitetura:**
```
Ru√≠do ‚Üí FC ‚Üí Reshape ‚Üí Conv Transpose ‚Üí Imagem
```

**Caracter√≠sticas:**
- **Upsampling**: Aumento de resolu√ß√£o
- **Convolu√ß√µes transpostas**: Gera√ß√£o de features
- **Normaliza√ß√£o**: Batch normalization
- **Ativa√ß√£o**: Tanh para sa√≠da

#### **2. Discriminador (Discriminator)**

**Fun√ß√£o:**
- **Entrada**: Imagem (real ou sint√©tica)
- **Sa√≠da**: Probabilidade de ser real
- **Objetivo**: Distinguir real de sint√©tico
- **Treinamento**: Maximizar precis√£o

**Arquitetura:**
```
Imagem ‚Üí Conv ‚Üí Pool ‚Üí Conv ‚Üí Pool ‚Üí FC ‚Üí Probabilidade
```

**Caracter√≠sticas:**
- **Downsampling**: Redu√ß√£o de resolu√ß√£o
- **Convolu√ß√µes**: Extra√ß√£o de features
- **Pooling**: Redu√ß√£o de dimensionalidade
- **Ativa√ß√£o**: Sigmoid para sa√≠da

### Processo de Treinamento

#### **1. Treinamento do Discriminador**
```
1. Imagens reais ‚Üí Discriminador ‚Üí Loss real
2. Ru√≠do ‚Üí Gerador ‚Üí Imagens sint√©ticas
3. Imagens sint√©ticas ‚Üí Discriminador ‚Üí Loss sint√©tico
4. Loss total = Loss real + Loss sint√©tico
5. Backpropagation no discriminador
```

#### **2. Treinamento do Gerador**
```
1. Ru√≠do ‚Üí Gerador ‚Üí Imagens sint√©ticas
2. Imagens sint√©ticas ‚Üí Discriminador ‚Üí Probabilidade
3. Loss = -log(probabilidade)
4. Backpropagation no gerador
```

### Vantagens e Desvantagens

#### **Vantagens:**
- ‚úÖ **Qualidade alta**: Imagens muito realistas
- ‚úÖ **Variedade**: Diversidade de conte√∫do
- ‚úÖ **Flexibilidade**: M√∫ltiplas aplica√ß√µes
- ‚úÖ **Inova√ß√£o**: Abordagem √∫nica

#### **Desvantagens:**
- ‚ùå **Treinamento inst√°vel**: Dif√≠cil converg√™ncia
- ‚ùå **Mode collapse**: Falta de diversidade
- ‚ùå **Computa√ß√£o intensiva**: Recursos elevados
- ‚ùå **Controle limitado**: Dificuldade de manipula√ß√£o

---

## üîÑ 7.3 Variational Autoencoders (VAEs)

### Conceito Fundamental

**VAEs** s√£o modelos generativos que aprendem a representar dados em um espa√ßo latente de menor dimensionalidade, permitindo gera√ß√£o de novas amostras atrav√©s de amostragem do espa√ßo latente.

![Arquitetura VAEs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/arquitetura_vaes.png)

### Componentes Principais

#### **1. Encoder**

**Fun√ß√£o:**
- **Entrada**: Imagem real
- **Sa√≠da**: Par√¢metros da distribui√ß√£o latente (Œº, œÉ)
- **Objetivo**: Comprimir informa√ß√£o
- **Resultado**: Representa√ß√£o latente

**Processo:**
```
Imagem ‚Üí Conv ‚Üí Pool ‚Üí Conv ‚Üí Pool ‚Üí FC ‚Üí Œº, œÉ
```

#### **2. Decoder**

**Fun√ß√£o:**
- **Entrada**: Amostra do espa√ßo latente
- **Sa√≠da**: Imagem reconstru√≠da
- **Objetivo**: Reconstruir imagem original
- **Resultado**: Imagem sint√©tica

**Processo:**
```
z ‚Üí FC ‚Üí Reshape ‚Üí Conv Transpose ‚Üí Imagem
```

### Espa√ßo Latente

#### **Caracter√≠sticas:**
- **Dimensionalidade**: Menor que dados originais
- **Distribui√ß√£o**: Gaussiana multivariada
- **Continuidade**: Espa√ßo cont√≠nuo
- **Interpretabilidade**: Caracter√≠sticas sem√¢nticas

#### **Amostragem:**
```
z = Œº + œÉ ‚äô Œµ
onde Œµ ~ N(0, I)
```

### Fun√ß√£o de Perda

#### **Loss Total:**
```
L = L_reconstruction + Œ≤ * L_KL
```

#### **1. Loss de Reconstru√ß√£o:**
```
L_reconstruction = ||x - x'||¬≤
```

#### **2. Loss KL Divergence:**
```
L_KL = KL(q(z|x) || p(z))
```

### Vantagens e Desvantagens

#### **Vantagens:**
- ‚úÖ **Treinamento est√°vel**: Converg√™ncia garantida
- ‚úÖ **Controle**: Manipula√ß√£o do espa√ßo latente
- ‚úÖ **Interpretabilidade**: Caracter√≠sticas sem√¢nticas
- ‚úÖ **Efici√™ncia**: Treinamento mais r√°pido

#### **Desvantagens:**
- ‚ùå **Qualidade**: Imagens menos n√≠tidas
- ‚ùå **Variedade**: Menos diversidade
- ‚ùå **Blur**: Efeito de desfoque
- ‚ùå **Complexidade**: Implementa√ß√£o mais complexa

---

## üîç 7.4 Demonstra√ß√£o Pr√°tica: GANs Simples

Vamos implementar e visualizar um GAN simples para gera√ß√£o de imagens:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import matplotlib.pyplot as plt
import numpy as np
from torch.utils.data import DataLoader, TensorDataset

class SimpleGAN:
    """Implementa√ß√£o de um GAN simples para demonstra√ß√£o"""
    
    def __init__(self, latent_dim=100, img_size=64):
        self.latent_dim = latent_dim
        self.img_size = img_size
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
        # Inicializar modelos
        self.generator = self._build_generator()
        self.discriminator = self._build_discriminator()
        
        # Otimizadores
        self.g_optimizer = optim.Adam(self.generator.parameters(), lr=0.0002, betas=(0.5, 0.999))
        self.d_optimizer = optim.Adam(self.discriminator.parameters(), lr=0.0002, betas=(0.5, 0.999))
        
        # Loss function
        self.criterion = nn.BCELoss()
        
        # Hist√≥rico de treinamento
        self.g_losses = []
        self.d_losses = []
        
    def _build_generator(self):
        """Constr√≥i o gerador"""
        
        class Generator(nn.Module):
            def __init__(self, latent_dim, img_size):
                super(Generator, self).__init__()
                
                # Camadas fully connected
                self.fc1 = nn.Linear(latent_dim, 256)
                self.fc2 = nn.Linear(256, 512)
                self.fc3 = nn.Linear(512, 1024)
                self.fc4 = nn.Linear(1024, img_size * img_size * 3)
                
                # Dropout
                self.dropout = nn.Dropout(0.3)
                
            def forward(self, x):
                x = F.relu(self.fc1(x))
                x = self.dropout(x)
                x = F.relu(self.fc2(x))
                x = self.dropout(x)
                x = F.relu(self.fc3(x))
                x = self.dropout(x)
                x = torch.tanh(self.fc4(x))
                
                # Reshape para imagem
                x = x.view(x.size(0), 3, self.img_size, self.img_size)
                return x
        
        return Generator(self.latent_dim, self.img_size).to(self.device)
    
    def _build_discriminator(self):
        """Constr√≥i o discriminador"""
        
        class Discriminator(nn.Module):
            def __init__(self, img_size):
                super(Discriminator, self).__init__()
                
                # Camadas fully connected
                self.fc1 = nn.Linear(img_size * img_size * 3, 1024)
                self.fc2 = nn.Linear(1024, 512)
                self.fc3 = nn.Linear(512, 256)
                self.fc4 = nn.Linear(256, 1)
                
                # Dropout
                self.dropout = nn.Dropout(0.3)
                
            def forward(self, x):
                x = x.view(x.size(0), -1)
                x = F.leaky_relu(self.fc1(x), 0.2)
                x = self.dropout(x)
                x = F.leaky_relu(self.fc2(x), 0.2)
                x = self.dropout(x)
                x = F.leaky_relu(self.fc3(x), 0.2)
                x = self.dropout(x)
                x = torch.sigmoid(self.fc4(x))
                return x
        
        return Discriminator(self.img_size).to(self.device)
    
    def create_sample_data(self, num_samples=1000):
        """Cria dados de exemplo para demonstra√ß√£o"""
        
        # Criar imagens sint√©ticas simples
        images = []
        
        for _ in range(num_samples):
            # Criar imagem com padr√µes simples
            img = np.random.rand(3, self.img_size, self.img_size) * 2 - 1  # Normalizar para [-1, 1]
            
            # Adicionar padr√µes
            if np.random.random() > 0.5:
                # Padr√£o circular
                center_x, center_y = np.random.randint(20, self.img_size-20, 2)
                radius = np.random.randint(10, 20)
                
                y, x = np.ogrid[:self.img_size, :self.img_size]
                mask = (x - center_x)**2 + (y - center_y)**2 <= radius**2
                
                img[0, mask] = 1.0  # Red
                img[1, mask] = 0.0  # Green
                img[2, mask] = 0.0  # Blue
            else:
                # Padr√£o retangular
                x1, y1 = np.random.randint(0, self.img_size-30, 2)
                x2, y2 = x1 + np.random.randint(20, 40), y1 + np.random.randint(20, 40)
                
                img[0, y1:y2, x1:x2] = 0.0  # Red
                img[1, y1:y2, x1:x2] = 1.0  # Green
                img[2, y1:y2, x1:x2] = 0.0  # Blue
            
            images.append(img)
        
        return torch.FloatTensor(images)
    
    def train_step(self, real_images, batch_size):
        """Executa um passo de treinamento"""
        
        # Labels
        real_labels = torch.ones(batch_size, 1).to(self.device)
        fake_labels = torch.zeros(batch_size, 1).to(self.device)
        
        # Treinar Discriminador
        self.d_optimizer.zero_grad()
        
        # Loss com imagens reais
        real_output = self.discriminator(real_images)
        d_loss_real = self.criterion(real_output, real_labels)
        
        # Loss com imagens sint√©ticas
        noise = torch.randn(batch_size, self.latent_dim).to(self.device)
        fake_images = self.generator(noise)
        fake_output = self.discriminator(fake_images.detach())
        d_loss_fake = self.criterion(fake_output, fake_labels)
        
        d_loss = d_loss_real + d_loss_fake
        d_loss.backward()
        self.d_optimizer.step()
        
        # Treinar Gerador
        self.g_optimizer.zero_grad()
        
        noise = torch.randn(batch_size, self.latent_dim).to(self.device)
        fake_images = self.generator(noise)
        fake_output = self.discriminator(fake_images)
        g_loss = self.criterion(fake_output, real_labels)
        
        g_loss.backward()
        self.g_optimizer.step()
        
        return d_loss.item(), g_loss.item()
    
    def train(self, epochs=50, batch_size=32):
        """Treina o GAN"""
        
        # Criar dados
        real_images = self.create_sample_data(1000)
        dataset = TensorDataset(real_images)
        dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)
        
        print(f"Iniciando treinamento do GAN para {epochs} √©pocas...")
        
        for epoch in range(epochs):
            epoch_d_loss = 0
            epoch_g_loss = 0
            
            for batch_idx, (real_batch,) in enumerate(dataloader):
                real_batch = real_batch.to(self.device)
                
                d_loss, g_loss = self.train_step(real_batch, real_batch.size(0))
                
                epoch_d_loss += d_loss
                epoch_g_loss += g_loss
            
            # M√©dias
            avg_d_loss = epoch_d_loss / len(dataloader)
            avg_g_loss = epoch_g_loss / len(dataloader)
            
            self.d_losses.append(avg_d_loss)
            self.g_losses.append(avg_g_loss)
            
            if epoch % 10 == 0:
                print(f"√âpoca {epoch}/{epochs} - D Loss: {avg_d_loss:.4f}, G Loss: {avg_g_loss:.4f}")
        
        print("Treinamento conclu√≠do!")
    
    def generate_samples(self, num_samples=16):
        """Gera amostras sint√©ticas"""
        
        self.generator.eval()
        
        with torch.no_grad():
            noise = torch.randn(num_samples, self.latent_dim).to(self.device)
            fake_images = self.generator(noise)
            
            # Converter para numpy
            fake_images = fake_images.cpu().numpy()
            
            # Normalizar para [0, 1]
            fake_images = (fake_images + 1) / 2
            fake_images = np.clip(fake_images, 0, 1)
            
        return fake_images
    
    def visualize_results(self):
        """Visualiza resultados do treinamento"""
        
        fig, axes = plt.subplots(2, 2, figsize=(15, 10))
        
        # Gr√°fico de perdas
        axes[0, 0].plot(self.d_losses, label='Discriminador', color='red')
        axes[0, 0].plot(self.g_losses, label='Gerador', color='blue')
        axes[0, 0].set_title('Evolu√ß√£o das Perdas')
        axes[0, 0].set_xlabel('√âpoca')
        axes[0, 0].set_ylabel('Perda')
        axes[0, 0].legend()
        axes[0, 0].grid(True, alpha=0.3)
        
        # Amostras geradas
        fake_images = self.generate_samples(16)
        
        # Criar grid de imagens
        grid_img = np.zeros((4 * self.img_size, 4 * self.img_size, 3))
        
        for i in range(4):
            for j in range(4):
                idx = i * 4 + j
                if idx < len(fake_images):
                    img = fake_images[idx].transpose(1, 2, 0)
                    grid_img[i*self.img_size:(i+1)*self.img_size, 
                           j*self.img_size:(j+1)*self.img_size] = img
        
        axes[0, 1].imshow(grid_img)
        axes[0, 1].set_title('Amostras Geradas')
        axes[0, 1].axis('off')
        
        # An√°lise de qualidade
        fake_images = self.generate_samples(100)
        
        # Calcular estat√≠sticas
        mean_values = np.mean(fake_images, axis=(2, 3))
        std_values = np.std(fake_images, axis=(2, 3))
        
        axes[1, 0].scatter(mean_values[:, 0], mean_values[:, 1], alpha=0.6, label='Red vs Green')
        axes[1, 0].set_title('Distribui√ß√£o de Cores (M√©dia)')
        axes[1, 0].set_xlabel('Red')
        axes[1, 0].set_ylabel('Green')
        axes[1, 0].legend()
        axes[1, 0].grid(True, alpha=0.3)
        
        axes[1, 1].scatter(std_values[:, 0], std_values[:, 1], alpha=0.6, label='Red vs Green')
        axes[1, 1].set_title('Distribui√ß√£o de Cores (Desvio Padr√£o)')
        axes[1, 1].set_xlabel('Red')
        axes[1, 1].set_ylabel('Green')
        axes[1, 1].legend()
        axes[1, 1].grid(True, alpha=0.3)
        
        plt.tight_layout()
        plt.show()
        
        # An√°lise quantitativa
        print("=== AN√ÅLISE QUANTITATIVA DO GAN ===")
        print(f"\nEstat√≠sticas de Treinamento:")
        print(f"  - √âpocas: {len(self.d_losses)}")
        print(f"  - Perda final do Discriminador: {self.d_losses[-1]:.4f}")
        print(f"  - Perda final do Gerador: {self.g_losses[-1]:.4f}")
        print(f"  - Diferen√ßa de perdas: {abs(self.d_losses[-1] - self.g_losses[-1]):.4f}")
        
        print(f"\nEstat√≠sticas das Imagens Geradas:")
        print(f"  - M√©dia Red: {np.mean(mean_values[:, 0]):.3f}")
        print(f"  - M√©dia Green: {np.mean(mean_values[:, 1]):.3f}")
        print(f"  - M√©dia Blue: {np.mean(mean_values[:, 2]):.3f}")
        print(f"  - Desvio Red: {np.mean(std_values[:, 0]):.3f}")
        print(f"  - Desvio Green: {np.mean(std_values[:, 1]):.3f}")
        print(f"  - Desvio Blue: {np.mean(std_values[:, 2]):.3f}")
        
        return fake_images

# Executar demonstra√ß√£o
print("=== DEMONSTRA√á√ÉO: GAN SIMPLES ===")
gan = SimpleGAN(latent_dim=100, img_size=32)
gan.train(epochs=30, batch_size=16)
generated_images = gan.visualize_results()

### An√°lise dos Resultados

**Observa√ß√µes Importantes:**

1. **Evolu√ß√£o das Perdas**:
   - **Discriminador**: Deve diminuir gradualmente
   - **Gerador**: Deve diminuir para enganar o discriminador
   - **Equil√≠brio**: Perdas devem se estabilizar

2. **Qualidade das Imagens**:
   - **Diversidade**: Varia√ß√£o nas cores e padr√µes
   - **Realismo**: Apar√™ncia convincente
   - **Consist√™ncia**: Padr√µes reconhec√≠veis

3. **Distribui√ß√£o de Cores**:
   - **M√©dia**: Concentra√ß√£o em certas cores
   - **Desvio**: Variabilidade das cores
   - **Balanceamento**: Distribui√ß√£o equilibrada

---

## üîÑ 7.5 Demonstra√ß√£o Pr√°tica: VAEs Simples

Vamos implementar e visualizar um VAE simples:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import matplotlib.pyplot as plt
import numpy as np
from torch.utils.data import DataLoader, TensorDataset

class SimpleVAE:
    """Implementa√ß√£o de um VAE simples para demonstra√ß√£o"""
    
    def __init__(self, latent_dim=20, img_size=32):
        self.latent_dim = latent_dim
        self.img_size = img_size
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
        # Inicializar modelo
        self.vae = self._build_vae()
        
        # Otimizador
        self.optimizer = optim.Adam(self.vae.parameters(), lr=0.001)
        
        # Hist√≥rico de treinamento
        self.reconstruction_losses = []
        self.kl_losses = []
        self.total_losses = []
        
    def _build_vae(self):
        """Constr√≥i o VAE"""
        
        class VAE(nn.Module):
            def __init__(self, latent_dim, img_size):
                super(VAE, self).__init__()
                
                self.latent_dim = latent_dim
                self.img_size = img_size
                
                # Encoder
                self.encoder = nn.Sequential(
                    nn.Linear(img_size * img_size * 3, 512),
                    nn.ReLU(),
                    nn.Linear(512, 256),
                    nn.ReLU(),
                    nn.Linear(256, 128),
                    nn.ReLU()
                )
                
                # Latent space
                self.fc_mu = nn.Linear(128, latent_dim)
                self.fc_logvar = nn.Linear(128, latent_dim)
                
                # Decoder
                self.decoder = nn.Sequential(
                    nn.Linear(latent_dim, 128),
                    nn.ReLU(),
                    nn.Linear(128, 256),
                    nn.ReLU(),
                    nn.Linear(256, 512),
                    nn.ReLU(),
                    nn.Linear(512, img_size * img_size * 3),
                    nn.Tanh()
                )
                
            def encode(self, x):
                h = self.encoder(x.view(x.size(0), -1))
                mu = self.fc_mu(h)
                logvar = self.fc_logvar(h)
                return mu, logvar
                
            def reparameterize(self, mu, logvar):
                std = torch.exp(0.5 * logvar)
                eps = torch.randn_like(std)
                return mu + eps * std
                
            def decode(self, z):
                h = self.decoder(z)
                return h.view(-1, 3, self.img_size, self.img_size)
                
            def forward(self, x):
                mu, logvar = self.encode(x)
                z = self.reparameterize(mu, logvar)
                recon_x = self.decode(z)
                return recon_x, mu, logvar
        
        return VAE(self.latent_dim, self.img_size).to(self.device)
    
    def create_sample_data(self, num_samples=1000):
        """Cria dados de exemplo para demonstra√ß√£o"""
        
        # Criar imagens sint√©ticas simples
        images = []
        
        for _ in range(num_samples):
            # Criar imagem com padr√µes simples
            img = np.random.rand(3, self.img_size, self.img_size) * 2 - 1  # Normalizar para [-1, 1]
            
            # Adicionar padr√µes
            if np.random.random() > 0.5:
                # Padr√£o circular
                center_x, center_y = np.random.randint(10, self.img_size-10, 2)
                radius = np.random.randint(5, 15)
                
                y, x = np.ogrid[:self.img_size, :self.img_size]
                mask = (x - center_x)**2 + (y - center_y)**2 <= radius**2
                
                img[0, mask] = 1.0  # Red
                img[1, mask] = 0.0  # Green
                img[2, mask] = 0.0  # Blue
            else:
                # Padr√£o retangular
                x1, y1 = np.random.randint(0, self.img_size-20, 2)
                x2, y2 = x1 + np.random.randint(10, 25), y1 + np.random.randint(10, 25)
                
                img[0, y1:y2, x1:x2] = 0.0  # Red
                img[1, y1:y2, x1:x2] = 1.0  # Green
                img[2, y1:y2, x1:x2] = 0.0  # Blue
            
            images.append(img)
        
        return torch.FloatTensor(images)
    
    def loss_function(self, recon_x, x, mu, logvar):
        """Calcula a fun√ß√£o de perda do VAE"""
        
        # Loss de reconstru√ß√£o (MSE)
        recon_loss = F.mse_loss(recon_x, x, reduction='sum')
        
        # Loss KL divergence
        kl_loss = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp())
        
        return recon_loss, kl_loss
    
    def train_step(self, batch):
        """Executa um passo de treinamento"""
        
        self.optimizer.zero_grad()
        
        # Forward pass
        recon_batch, mu, logvar = self.vae(batch)
        
        # Calcular perdas
        recon_loss, kl_loss = self.loss_function(recon_batch, batch, mu, logvar)
        total_loss = recon_loss + kl_loss
        
        # Backward pass
        total_loss.backward()
        self.optimizer.step()
        
        return recon_loss.item(), kl_loss.item(), total_loss.item()
    
    def train(self, epochs=50, batch_size=32):
        """Treina o VAE"""
        
        # Criar dados
        real_images = self.create_sample_data(1000)
        dataset = TensorDataset(real_images)
        dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)
        
        print(f"Iniciando treinamento do VAE para {epochs} √©pocas...")
        
        for epoch in range(epochs):
            epoch_recon_loss = 0
            epoch_kl_loss = 0
            epoch_total_loss = 0
            
            for batch_idx, (batch,) in enumerate(dataloader):
                batch = batch.to(self.device)
                
                recon_loss, kl_loss, total_loss = self.train_step(batch)
                
                epoch_recon_loss += recon_loss
                epoch_kl_loss += kl_loss
                epoch_total_loss += total_loss
            
            # M√©dias
            avg_recon_loss = epoch_recon_loss / len(dataloader)
            avg_kl_loss = epoch_kl_loss / len(dataloader)
            avg_total_loss = epoch_total_loss / len(dataloader)
            
            self.reconstruction_losses.append(avg_recon_loss)
            self.kl_losses.append(avg_kl_loss)
            self.total_losses.append(avg_total_loss)
            
            if epoch % 10 == 0:
                print(f"√âpoca {epoch}/{epochs} - Recon Loss: {avg_recon_loss:.4f}, KL Loss: {avg_kl_loss:.4f}, Total Loss: {avg_total_loss:.4f}")
        
        print("Treinamento conclu√≠do!")
    
    def generate_samples(self, num_samples=16):
        """Gera amostras sint√©ticas"""
        
        self.vae.eval()
        
        with torch.no_grad():
            # Amostrar do espa√ßo latente
            z = torch.randn(num_samples, self.latent_dim).to(self.device)
            fake_images = self.vae.decode(z)
            
            # Converter para numpy
            fake_images = fake_images.cpu().numpy()
            
            # Normalizar para [0, 1]
            fake_images = (fake_images + 1) / 2
            fake_images = np.clip(fake_images, 0, 1)
            
        return fake_images
    
    def reconstruct_samples(self, num_samples=16):
        """Reconstr√≥i amostras reais"""
        
        self.vae.eval()
        
        # Criar amostras reais
        real_images = self.create_sample_data(num_samples)
        
        with torch.no_grad():
            real_images = real_images.to(self.device)
            recon_images, _, _ = self.vae(real_images)
            
            # Converter para numpy
            real_images = real_images.cpu().numpy()
            recon_images = recon_images.cpu().numpy()
            
            # Normalizar para [0, 1]
            real_images = (real_images + 1) / 2
            recon_images = (recon_images + 1) / 2
            real_images = np.clip(real_images, 0, 1)
            recon_images = np.clip(recon_images, 0, 1)
            
        return real_images, recon_images
    
    def visualize_results(self):
        """Visualiza resultados do treinamento"""
        
        fig, axes = plt.subplots(2, 3, figsize=(18, 12))
        
        # Gr√°fico de perdas
        axes[0, 0].plot(self.reconstruction_losses, label='Reconstru√ß√£o', color='blue')
        axes[0, 0].plot(self.kl_losses, label='KL Divergence', color='red')
        axes[0, 0].plot(self.total_losses, label='Total', color='green')
        axes[0, 0].set_title('Evolu√ß√£o das Perdas')
        axes[0, 0].set_xlabel('√âpoca')
        axes[0, 0].set_ylabel('Perda')
        axes[0, 0].legend()
        axes[0, 0].grid(True, alpha=0.3)
        
        # Amostras geradas
        fake_images = self.generate_samples(16)
        
        # Criar grid de imagens
        grid_img = np.zeros((4 * self.img_size, 4 * self.img_size, 3))
        
        for i in range(4):
            for j in range(4):
                idx = i * 4 + j
                if idx < len(fake_images):
                    img = fake_images[idx].transpose(1, 2, 0)
                    grid_img[i*self.img_size:(i+1)*self.img_size, 
                           j*self.img_size:(j+1)*self.img_size] = img
        
        axes[0, 1].imshow(grid_img)
        axes[0, 1].set_title('Amostras Geradas')
        axes[0, 1].axis('off')
        
        # Reconstru√ß√µes
        real_images, recon_images = self.reconstruct_samples(16)
        
        # Grid de imagens reais
        real_grid = np.zeros((4 * self.img_size, 4 * self.img_size, 3))
        for i in range(4):
            for j in range(4):
                idx = i * 4 + j
                if idx < len(real_images):
                    img = real_images[idx].transpose(1, 2, 0)
                    real_grid[i*self.img_size:(i+1)*self.img_size, 
                            j*self.img_size:(j+1)*self.img_size] = img
        
        axes[0, 2].imshow(real_grid)
        axes[0, 2].set_title('Imagens Reais')
        axes[0, 2].axis('off')
        
        # Grid de reconstru√ß√µes
        recon_grid = np.zeros((4 * self.img_size, 4 * self.img_size, 3))
        for i in range(4):
            for j in range(4):
                idx = i * 4 + j
                if idx < len(recon_images):
                    img = recon_images[idx].transpose(1, 2, 0)
                    recon_grid[i*self.img_size:(i+1)*self.img_size, 
                             j*self.img_size:(j+1)*self.img_size] = img
        
        axes[1, 0].imshow(recon_grid)
        axes[1, 0].set_title('Reconstru√ß√µes')
        axes[1, 0].axis('off')
        
        # An√°lise de qualidade
        fake_images = self.generate_samples(100)
        
        # Calcular estat√≠sticas
        mean_values = np.mean(fake_images, axis=(2, 3))
        std_values = np.std(fake_images, axis=(2, 3))
        
        axes[1, 1].scatter(mean_values[:, 0], mean_values[:, 1], alpha=0.6, label='Red vs Green')
        axes[1, 1].set_title('Distribui√ß√£o de Cores (M√©dia)')
        axes[1, 1].set_xlabel('Red')
        axes[1, 1].set_ylabel('Green')
        axes[1, 1].legend()
        axes[1, 1].grid(True, alpha=0.3)
        
        axes[1, 2].scatter(std_values[:, 0], std_values[:, 1], alpha=0.6, label='Red vs Green')
        axes[1, 2].set_title('Distribui√ß√£o de Cores (Desvio Padr√£o)')
        axes[1, 2].set_xlabel('Red')
        axes[1, 2].set_ylabel('Green')
        axes[1, 2].legend()
        axes[1, 2].grid(True, alpha=0.3)
        
        plt.tight_layout()
        plt.show()
        
        # An√°lise quantitativa
        print("=== AN√ÅLISE QUANTITATIVA DO VAE ===")
        print(f"\nEstat√≠sticas de Treinamento:")
        print(f"  - √âpocas: {len(self.total_losses)}")
        print(f"  - Perda final de Reconstru√ß√£o: {self.reconstruction_losses[-1]:.4f}")
        print(f"  - Perda final KL: {self.kl_losses[-1]:.4f}")
        print(f"  - Perda final Total: {self.total_losses[-1]:.4f}")
        
        print(f"\nEstat√≠sticas das Imagens Geradas:")
        print(f"  - M√©dia Red: {np.mean(mean_values[:, 0]):.3f}")
        print(f"  - M√©dia Green: {np.mean(mean_values[:, 1]):.3f}")
        print(f"  - M√©dia Blue: {np.mean(mean_values[:, 2]):.3f}")
        print(f"  - Desvio Red: {np.mean(std_values[:, 0]):.3f}")
        print(f"  - Desvio Green: {np.mean(std_values[:, 1]):.3f}")
        print(f"  - Desvio Blue: {np.mean(std_values[:, 2]):.3f}")
        
        return fake_images

# Executar demonstra√ß√£o
print("=== DEMONSTRA√á√ÉO: VAE SIMPLES ===")
vae = SimpleVAE(latent_dim=20, img_size=32)
vae.train(epochs=30, batch_size=16)
generated_images = vae.visualize_results()

### An√°lise dos Resultados

**Observa√ß√µes Importantes:**

1. **Evolu√ß√£o das Perdas**:
   - **Reconstru√ß√£o**: Deve diminuir para melhor reconstru√ß√£o
   - **KL Divergence**: Deve diminuir para espa√ßo latente regularizado
   - **Total**: Soma das duas perdas

2. **Qualidade das Reconstru√ß√µes**:
   - **Fidelidade**: Similaridade com imagens originais
   - **Blur**: Efeito de desfoque t√≠pico de VAEs
   - **Consist√™ncia**: Padr√µes reconhec√≠veis

3. **Gera√ß√£o de Novas Imagens**:
   - **Diversidade**: Varia√ß√£o nas cores e padr√µes
   - **Realismo**: Apar√™ncia convincente
   - **Controle**: Manipula√ß√£o do espa√ßo latente

---

## üìä 7.6 Compara√ß√£o: GANs vs VAEs

### An√°lise Comparativa

![Compara√ß√£o GANs vs VAEs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/comparacao_gans_vaes.png)

#### **Qualidade das Imagens**

| Aspecto | GANs | VAEs |
|---------|------|------|
| **Nitidez** | Alta | M√©dia (blur) |
| **Realismo** | Muito Alto | Alto |
| **Diversidade** | Alta | M√©dia |
| **Consist√™ncia** | Vari√°vel | Alta |

#### **Treinamento**

| Aspecto | GANs | VAEs |
|---------|------|------|
| **Estabilidade** | Baixa | Alta |
| **Converg√™ncia** | Dif√≠cil | Garantida |
| **Velocidade** | Lenta | R√°pida |
| **Complexidade** | Alta | M√©dia |

#### **Controle e Manipula√ß√£o**

| Aspecto | GANs | VAEs |
|---------|------|------|
| **Espa√ßo Latente** | N√£o estruturado | Estruturado |
| **Interpola√ß√£o** | Dif√≠cil | F√°cil |
| **Manipula√ß√£o** | Limitada | Alta |
| **Interpretabilidade** | Baixa | Alta |

### Quando Usar Cada Um

#### **Use GANs quando:**
- ‚úÖ **Qualidade m√°xima** √© necess√°ria
- ‚úÖ **Realismo** √© priorit√°rio
- ‚úÖ **Diversidade** √© importante
- ‚úÖ **Recursos computacionais** s√£o abundantes

#### **Use VAEs quando:**
- ‚úÖ **Treinamento est√°vel** √© necess√°rio
- ‚úÖ **Controle** do espa√ßo latente √© importante
- ‚úÖ **Interpretabilidade** √© priorit√°ria
- ‚úÖ **Recursos limitados** est√£o dispon√≠veis

---

## üìù Resumo do M√≥dulo 7

### Principais Conceitos Abordados

1. **Fundamentos**: Gera√ß√£o sint√©tica de imagens
2. **GANs**: Arquitetura adversarial
3. **VAEs**: Autoencoders variacionais
4. **Implementa√ß√£o**: Demonstra√ß√µes pr√°ticas
5. **Compara√ß√£o**: An√°lise de vantagens e desvantagens

### Demonstra√ß√µes Pr√°ticas

**1. GAN Simples:**
   - Implementa√ß√£o de gerador e discriminador
   - Treinamento adversarial
   - An√°lise de qualidade das imagens

**2. VAE Simples:**
   - Implementa√ß√£o de encoder e decoder
   - Treinamento com perda de reconstru√ß√£o e KL
   - An√°lise de reconstru√ß√µes e gera√ß√£o

### Pr√≥ximos Passos

No **M√≥dulo 8**, exploraremos **Vision Transformers e Mecanismos de Aten√ß√£o**, uma abordagem revolucion√°ria para vis√£o computacional.

### Refer√™ncias Principais

- [Generative Adversarial Networks - Goodfellow et al.](https://arxiv.org/abs/1406.2661)
- [Auto-Encoding Variational Bayes - Kingma & Welling](https://arxiv.org/abs/1312.6114)

---

**Pr√≥ximo M√≥dulo**: Vision Transformers e Mecanismos de Aten√ß√£o

## üéØ Conex√£o com o Pr√≥ximo M√≥dulo

Agora que dominamos **GANs e VAEs** para gera√ß√£o sint√©tica, estamos preparados para explorar **Vision Transformers e Mecanismos de Aten√ß√£o**.

No **M√≥dulo 8**, veremos como:

### üîó **Conex√µes Diretas:**

1. **Gera√ß√£o** ‚Üí **Aten√ß√£o**
   - GANs geram imagens sint√©ticas
   - Transformers usam aten√ß√£o para processar imagens

2. **Espa√ßo Latente** ‚Üí **Espa√ßo de Aten√ß√£o**
   - VAEs aprendem representa√ß√µes latentes
   - Transformers aprendem representa√ß√µes de aten√ß√£o

3. **Arquiteturas Complexas** ‚Üí **Arquiteturas de Aten√ß√£o**
   - GANs e VAEs s√£o arquiteturas complexas
   - Vision Transformers s√£o arquiteturas baseadas em aten√ß√£o

4. **Aplica√ß√µes Pr√°ticas** ‚Üí **Aplica√ß√µes de Aten√ß√£o**
   - Gera√ß√£o sint√©tica para cria√ß√£o
   - Aten√ß√£o para an√°lise e classifica√ß√£o

### üöÄ **Evolu√ß√£o Natural:**

- **Gera√ß√£o** ‚Üí **An√°lise**
- **Cria√ß√£o** ‚Üí **Compreens√£o**
- **S√≠ntese** ‚Üí **Processamento**
- **Arquiteturas Complexas** ‚Üí **Arquiteturas de Aten√ß√£o**

Esta transi√ß√£o marca o in√≠cio da **era dos Vision Transformers** em vis√£o computacional!

## üñºÔ∏è Imagens de Refer√™ncia - M√≥dulo 7

![Arquitetura GAN](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/arquitetura_gan.png)

![Arquitetura VAE](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/arquitetura_vae.png)

![Conceito GANs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/gans_conceito.png)

![Tipos de GANs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/tipos_gans.png)

![Conceito VAEs](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo7/vaes_conceito.png)

