# üîß Autoencoder B√°sico: Implementa√ß√£o e Treinamento

**Tutorial de Espa√ßo Latente - Notebook 2**

Neste notebook, vamos implementar e treinar um Autoencoder real no dataset MNIST.

## üéØ Objetivos
- Entender a arquitetura de um Autoencoder
- Treinar o modelo no MNIST
- Visualizar o espa√ßo latente 2D
- Analisar reconstru√ß√µes
- Explorar interpola√ß√µes

In [None]:
# Imports
import torch
import numpy as np
import matplotlib.pyplot as plt

# Importa nossos m√≥dulos
from src.models.autoencoder import Autoencoder
from src.utils.data_loader import load_mnist
from src.utils.training import train_model
from src.utils.visualization import (
    visualize_latent_space,
    plot_reconstructions,
    plot_interpolation,
    plot_training_history
)

# Configura√ß√£o
DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f"Using device: {DEVICE}")

## üìä Passo 1: Carregando os Dados

O MNIST cont√©m 70.000 imagens de d√≠gitos manuscritos (0-9), cada uma com 28x28 pixels.

In [None]:
# Carrega MNIST
train_loader, val_loader, test_loader = load_mnist(batch_size=128)

print(f"Train samples: {len(train_loader.dataset)}")
print(f"Val samples: {len(val_loader.dataset)}")
print(f"Test samples: {len(test_loader.dataset)}")

# Visualiza algumas imagens
images, labels = next(iter(train_loader))

fig, axes = plt.subplots(2, 10, figsize=(15, 3))
for i in range(20):
    ax = axes[i//10, i%10]
    ax.imshow(images[i].squeeze(), cmap='gray')
    ax.set_title(f'{labels[i].item()}', fontsize=10)
    ax.axis('off')
plt.suptitle('MNIST Dataset Samples', fontweight='bold')
plt.tight_layout()
plt.show()

## üèóÔ∏è Passo 2: Criando o Autoencoder

Nossa arquitetura:
```
Input (784) ‚Üí [512] ‚Üí [256] ‚Üí [128] ‚Üí Latent (2) ‚Üí [128] ‚Üí [256] ‚Üí [512] ‚Üí Output (784)
            Encoder                                           Decoder
```

Taxa de compress√£o: 784 / 2 = **392x**!

In [None]:
# Cria modelo
model = Autoencoder(
    input_dim=784,
    latent_dim=2,  # 2D para visualiza√ß√£o
    hidden_dims=[512, 256, 128]
)

print(model)
print(f"\nCompression ratio: {model.compression_ratio():.1f}x")

# Conta par√¢metros
n_params = sum(p.numel() for p in model.parameters())
print(f"Total parameters: {n_params:,}")

## üéì Passo 3: Treinamento

Vamos treinar o modelo para minimizar o erro de reconstru√ß√£o (MSE).

In [None]:
# Treina
history = train_model(
    model=model,
    train_loader=train_loader,
    val_loader=val_loader,
    num_epochs=20,
    learning_rate=1e-3,
    device=DEVICE,
    early_stopping_patience=5,
    verbose=True
)

# Plota curvas de treinamento
plot_training_history(history)

## üìà Passo 4: Visualizando o Espa√ßo Latente

Vamos ver como o modelo organizou os d√≠gitos no espa√ßo 2D.

In [None]:
# Visualiza espa√ßo latente
visualize_latent_space(model, test_loader, device=DEVICE,
                      title='Autoencoder Latent Space (MNIST)')

**An√°lise:**
- D√≠gitos similares ficam pr√≥ximos no espa√ßo latente
- Clusters claramente separados
- Apenas 2 dimens√µes capturam a ess√™ncia de 784 pixels!

## üîç Passo 5: Analisando Reconstru√ß√µes

Qu√£o bem o modelo reconstr√≥i as imagens originais?

In [None]:
# Plota reconstru√ß√µes
plot_reconstructions(model, test_loader, n_samples=10, device=DEVICE)

## üåä Passo 6: Interpola√ß√£o no Espa√ßo Latente

O que acontece quando "caminhamos" entre dois d√≠gitos no espa√ßo latente?

In [None]:
# Pega dois d√≠gitos
data, labels = next(iter(test_loader))

# Interpola entre primeiro e segundo d√≠gito
plot_interpolation(model, data[0], data[5], num_steps=10, device=DEVICE)

print(f"\nInterpolating from digit {labels[0]} to digit {labels[5]}")

## üé® Passo 7: Explorando Manualmente o Espa√ßo Latente

Vamos decodificar pontos arbitr√°rios do espa√ßo latente.

In [None]:
model.eval()

# Define pontos no espa√ßo latente
latent_points = torch.tensor([
    [0, 0],    # Centro
    [-2, -2],  # Canto inferior esquerdo
    [2, 2],    # Canto superior direito
    [-2, 2],   # Canto superior esquerdo
    [2, -2],   # Canto inferior direito
    [0, 3],    # Topo
    [3, 0],    # Direita
], dtype=torch.float32).to(DEVICE)

# Decodifica
with torch.no_grad():
    decoded = model.decode(latent_points)
    decoded = decoded.view(-1, 28, 28).cpu()

# Visualiza
fig, axes = plt.subplots(1, 7, figsize=(14, 2))
for i, ax in enumerate(axes):
    ax.imshow(decoded[i], cmap='gray')
    ax.set_title(f'z={latent_points[i].cpu().numpy()}', fontsize=8)
    ax.axis('off')
plt.suptitle('Decoded Images from Latent Points', fontweight='bold')
plt.tight_layout()
plt.show()

## üìä Passo 8: An√°lise Quantitativa

In [None]:
from src.utils.training import evaluate_model

# Avalia no test set
test_metrics = evaluate_model(model, test_loader, device=DEVICE, is_vae=False)

print("Test Set Metrics:")
print(f"  Loss (MSE): {test_metrics['loss']:.6f}")
print(f"\nInterpretation:")
print(f"  - Average pixel error: {np.sqrt(test_metrics['loss']):.4f}")
print(f"  - Compression: 784 ‚Üí 2 dimensions ({model.compression_ratio():.0f}x)")

## üî¨ Experimento: Diferentes Dimens√µes Latentes

O que acontece com dimens√µes latentes maiores?

In [None]:
# Testa diferentes latent_dims
latent_dims = [2, 5, 10, 20, 50]
results = []

for latent_dim in latent_dims:
    print(f"\nTraining with latent_dim={latent_dim}...")
    
    model_temp = Autoencoder(input_dim=784, latent_dim=latent_dim)
    
    history_temp = train_model(
        model=model_temp,
        train_loader=train_loader,
        val_loader=val_loader,
        num_epochs=10,
        device=DEVICE,
        verbose=False
    )
    
    final_loss = history_temp['val_loss'][-1]
    results.append((latent_dim, final_loss))
    print(f"  Final val loss: {final_loss:.6f}")

# Plota
dims, losses = zip(*results)
plt.figure(figsize=(10, 6))
plt.plot(dims, losses, marker='o', linewidth=2, markersize=10)
plt.xlabel('Latent Dimension', fontsize=12, fontweight='bold')
plt.ylabel('Validation Loss', fontsize=12, fontweight='bold')
plt.title('Reconstruction Quality vs Latent Dimension', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print("\nüìä Observa√ß√£o:")
print("- Dimens√µes maiores ‚Üí melhor reconstru√ß√£o")
print("- Mas perde interpretabilidade e compress√£o")
print("- Trade-off entre compress√£o e qualidade")

## üìù Resumo

Neste notebook, aprendemos:

‚úÖ Como treinar um Autoencoder em PyTorch  
‚úÖ Visualizar o espa√ßo latente aprendido  
‚úÖ Analisar reconstru√ß√µes  
‚úÖ Interpolar no espa√ßo latente  
‚úÖ Trade-off entre compress√£o e qualidade  

**Limita√ß√µes do Autoencoder:**
- Espa√ßo latente n√£o √© cont√≠nuo (buracos)
- N√£o pode gerar novas amostras facilmente
- Aprende mapeamento determin√≠stico

**Solu√ß√£o:** Variational Autoencoder (VAE)!

---

## üöÄ Pr√≥ximo Notebook

No **Notebook 03**, vamos explorar VAEs que resolvem essas limita√ß√µes!

‚Üí‚Üí `03_vae_explicativo.ipynb`