# M√≥dulo 3: Deep Learning para Vis√£o Computacional

## üéØ Objetivos de Aprendizagem

Ao final deste m√≥dulo, voc√™ ser√° capaz de:

- ‚úÖ Compreender arquiteturas de CNNs (Redes Neurais Convolucionais)
- ‚úÖ Entender o funcionamento de redes neurais convolucionais
- ‚úÖ Conhecer arquiteturas cl√°ssicas e sua evolu√ß√£o
- ‚úÖ Analisar diferen√ßas entre AlexNet, VGG e ResNet
- ‚úÖ Implementar conceitos pr√°ticos com PyTorch

---

## üß† 3.1 Redes Neurais Convolucionais (CNNs)

### Conceito Fundamental

As **Redes Neurais Convolucionais** s√£o arquiteturas de deep learning especificamente projetadas para processar dados com estrutura espacial, como imagens. Elas foram inspiradas no sistema visual biol√≥gico e revolucionaram a vis√£o computacional.

![CNNs - Conceito Geral](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo3/cnns_conceito_geral.png?raw=true)

### Inspira√ß√£o Biol√≥gica

**Sistema Visual Humano:**
- **Camadas hier√°rquicas** de processamento
- **Campos receptivos locais** em cada neur√¥nio
- **Detec√ß√£o progressiva** de caracter√≠sticas
- **Invari√¢ncia a transla√ß√£o** e escala

**Analogia com CNNs:**
| Sistema Biol√≥gico | CNN | Fun√ß√£o |
|-------------------|-----|--------|
| **C√©lulas simples** | Conv Layers | Detec√ß√£o de bordas |
| **C√©lulas complexas** | Deep Conv | Padr√µes complexos |
| **Campos receptivos** | Kernels | Regi√£o de influ√™ncia |
| **Pooling** | Pooling | Invari√¢ncia espacial |

---

## üèóÔ∏è 3.2 Arquitetura B√°sica de CNNs

### Componentes Fundamentais

![Arquitetura B√°sica CNNs](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo3/arquitetura_basica_cnns.png?raw=true)

#### **1. Camadas Convolucionais**

**Caracter√≠sticas:**
- **Filtros/Kernels aprend√≠veis**: Matrizes de pesos que detectam caracter√≠sticas espec√≠ficas
- **Campo receptivo local**: Cada neur√¥nio conecta-se apenas a uma regi√£o local da entrada
- **Compartilhamento de par√¢metros**: Mesmo filtro aplicado em toda a imagem
- **Feature maps**: Mapas de caracter√≠sticas extra√≠das em cada camada
- **Detec√ß√£o hier√°rquica**: Padr√µes simples ‚Üí complexos conforme profundidade

**Matem√°tica da Convolu√ß√£o:**
```
Y[i,j] = Œ£ Œ£ X[i+m, j+n] * W[m,n] + b
```

**Par√¢metros Importantes:**
| Par√¢metro | Descri√ß√£o | Efeito |
|-----------|-----------|--------|
| **Kernel Size** | Tamanho do filtro | Campo receptivo |
| **Stride** | Passo de deslizamento | Resolu√ß√£o espacial |
| **Padding** | Preenchimento de bordas | Controle de tamanho |
| **Channels** | N√∫mero de filtros | Diversidade de features |

#### **2. Camadas de Pooling**

**Tipos:**
- **Max Pooling**: Seleciona o valor m√°ximo em cada regi√£o
- **Average Pooling**: Calcula a m√©dia dos valores na regi√£o
- **Global Average Pooling**: M√©dia de toda a feature map

**Benef√≠cios:**
- **Redu√ß√£o de dimensionalidade espacial**: Diminui tamanho das feature maps
- **Invari√¢ncia a transla√ß√£o**: Robustez a pequenos deslocamentos
- **Redu√ß√£o de par√¢metros**: Menos computa√ß√£o nas camadas seguintes
- **Preven√ß√£o de overfitting**: Regulariza√ß√£o impl√≠cita

#### **3. Camadas Fully Connected**

**Fun√ß√£o:**
- **Classifica√ß√£o final**: Conecta todas as features extra√≠das
- **Fun√ß√£o de ativa√ß√£o**: ReLU, Sigmoid, Softmax
- **Dropout**: Regulariza√ß√£o para prevenir overfitting
- **Output**: Probabilidades para cada classe

**Estrutura T√≠pica:**
```
Flatten ‚Üí FC1 ‚Üí ReLU ‚Üí Dropout ‚Üí FC2 ‚Üí Softmax
```

---

## üìà 3.3 Evolu√ß√£o das Arquiteturas

### Progress√£o Hist√≥rica

![Evolu√ß√£o das Arquiteturas](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo3/evolucao_arquiteturas.png?raw=true)

#### **2012 - AlexNet: A Revolu√ß√£o**

**Caracter√≠sticas:**
- **8 camadas** (5 conv + 3 FC)
- **ReLU**: Primeira fun√ß√£o de ativa√ß√£o n√£o-linear eficiente
- **Dropout**: Regulariza√ß√£o para prevenir overfitting
- **Data Augmentation**: Aumento artificial de dados
- **GPU Training**: Treinamento paralelo

**Impacto:**
- **Vencedor do ImageNet 2012**
- **Redu√ß√£o de erro**: 26% ‚Üí 15.3%
- **In√≠cio da era deep learning**

#### **2014 - VGG: Simplicidade e Consist√™ncia**

**Caracter√≠sticas:**
- **Arquitetura simples**: Apenas 3√ó3 convolu√ß√µes
- **Profundidade**: 16-19 camadas
- **Consist√™ncia**: Mesmo padr√£o em todas as camadas
- **Par√¢metros**: 138M (VGG-16)

**Vantagens:**
- **F√°cil de entender** e implementar
- **Boa performance** em transfer learning
- **Base s√≥lida** para outras arquiteturas

#### **2015 - ResNet: Skip Connections**

**Inova√ß√£o:**
- **Skip Connections**: Conex√µes diretas entre camadas
- **Residual Learning**: Aprender diferen√ßas (res√≠duos)
- **Profundidade extrema**: At√© 152 camadas
- **Gradient Flow**: Resolu√ß√£o do problema de vanishing gradients

**F√≥rmula do Res√≠duo:**
```
H(x) = F(x) + x
```

**Benef√≠cios:**
- **Treinamento de redes muito profundas**
- **Melhor acur√°cia** com menos par√¢metros
- **Estabilidade** no treinamento

### Tend√™ncias Observadas

| Aspecto | Tend√™ncia | Benef√≠cio |
|--------|-----------|-----------|
| **Profundidade** | Aumento constante | Maior capacidade |
| **Efici√™ncia** | Menos par√¢metros | Menos computa√ß√£o |
| **Inova√ß√£o** | Resolu√ß√£o de problemas | Melhor performance |
| **Aplica√ß√£o** | Transfer learning | Reutiliza√ß√£o |

---

## üîç 3.4 Demonstra√ß√£o Pr√°tica: Visualiza√ß√£o de CNNs

Vamos implementar e visualizar como as CNNs processam imagens:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt
import cv2
from torchvision import transforms
from PIL import Image

class SimpleCNN(nn.Module):
    """CNN simples para demonstra√ß√£o"""
    
    def __init__(self):
        super(SimpleCNN, self).__init__()
        
        # Camada convolucional 1
        self.conv1 = nn.Conv2d(1, 6, kernel_size=5, stride=1, padding=2)
        
        # Pooling
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
        
        # Camada convolucional 2
        self.conv2 = nn.Conv2d(6, 16, kernel_size=5, stride=1, padding=2)
        
        # Camadas fully connected
        self.fc1 = nn.Linear(16 * 8 * 8, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
        
    def forward(self, x):
        # Primeira camada convolucional + pooling
        x = self.pool(F.relu(self.conv1(x)))
        
        # Segunda camada convolucional + pooling
        x = self.pool(F.relu(self.conv2(x)))
        
        # Flatten para fully connected
        x = x.view(-1, 16 * 8 * 8)
        
        # Camadas fully connected
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        
        return x

def create_sample_image():
    """Cria uma imagem de exemplo para demonstra√ß√£o"""
    # Criar imagem sint√©tica com formas
    img = np.zeros((32, 32), dtype=np.uint8)
    
    # Adicionar formas
    cv2.circle(img, (16, 16), 8, 255, -1)
    cv2.rectangle(img, (8, 8), (24, 24), 128, 2)
    
    # Adicionar ru√≠do
    noise = np.random.normal(0, 10, img.shape).astype(np.uint8)
    img = cv2.add(img, noise)
    
    return img

def visualize_cnn_layers():
    """Visualiza como uma CNN processa uma imagem"""
    
    # Criar modelo
    model = SimpleCNN()
    model.eval()
    
    # Criar imagem de exemplo
    img = create_sample_image()
    
    # Converter para tensor
    img_tensor = torch.FloatTensor(img).unsqueeze(0).unsqueeze(0) / 255.0
    
    # Processar atrav√©s das camadas
    with torch.no_grad():
        # Primeira camada convolucional
        conv1_out = F.relu(model.conv1(img_tensor))
        pool1_out = model.pool(conv1_out)
        
        # Segunda camada convolucional
        conv2_out = F.relu(model.conv2(pool1_out))
        pool2_out = model.pool(conv2_out)
    
    # Visualiza√ß√£o
    fig, axes = plt.subplots(3, 6, figsize=(18, 9))
    
    # Imagem original
    axes[0, 0].imshow(img, cmap='gray')
    axes[0, 0].set_title('Imagem Original\n(32√ó32)')
    axes[0, 0].axis('off')
    
    # Primeira camada convolucional
    for i in range(6):
        feature_map = conv1_out[0, i].numpy()
        axes[0, i+1].imshow(feature_map, cmap='viridis')
        axes[0, i+1].set_title(f'Conv1 - Filtro {i+1}\n({feature_map.shape[0]}√ó{feature_map.shape[1]})')
        axes[0, i+1].axis('off')
    
    # Primeira camada de pooling
    axes[1, 0].imshow(img, cmap='gray')
    axes[1, 0].set_title('Ap√≥s Pooling 1\n(16√ó16)')
    axes[1, 0].axis('off')
    
    for i in range(6):
        feature_map = pool1_out[0, i].numpy()
        axes[1, i+1].imshow(feature_map, cmap='viridis')
        axes[1, i+1].set_title(f'Pool1 - Filtro {i+1}\n({feature_map.shape[0]}√ó{feature_map.shape[1]})')
        axes[1, i+1].axis('off')
    
    # Segunda camada convolucional
    axes[2, 0].imshow(img, cmap='gray')
    axes[2, 0].set_title('Ap√≥s Pooling 2\n(8√ó8)')
    axes[2, 0].axis('off')
    
    for i in range(6):
        feature_map = pool2_out[0, i].numpy()
        axes[2, i+1].imshow(feature_map, cmap='viridis')
        axes[2, i+1].set_title(f'Pool2 - Filtro {i+1}\n({feature_map.shape[0]}√ó{feature_map.shape[1]})')
        axes[2, i+1].axis('off')
    
    plt.tight_layout()
    plt.show()
    
    # An√°lise quantitativa
    print("=== AN√ÅLISE QUANTITATIVA DA CNN ===")
    print(f"\nImagem Original:")
    print(f"  - Formato: {img.shape}")
    print(f"  - Valores: {img.min()} - {img.max()}")
    
    print(f"\nPrimeira Camada Convolucional:")
    print(f"  - Feature maps: {conv1_out.shape[1]}")
    print(f"  - Formato: {conv1_out.shape[2]}√ó{conv1_out.shape[3]}")
    print(f"  - Valores: {conv1_out.min():.3f} - {conv1_out.max():.3f}")
    
    print(f"\nAp√≥s Pooling 1:")
    print(f"  - Feature maps: {pool1_out.shape[1]}")
    print(f"  - Formato: {pool1_out.shape[2]}√ó{pool1_out.shape[3]}")
    print(f"  - Redu√ß√£o: {conv1_out.shape[2]/pool1_out.shape[2]:.1f}x")
    
    print(f"\nSegunda Camada Convolucional:")
    print(f"  - Feature maps: {conv2_out.shape[1]}")
    print(f"  - Formato: {conv2_out.shape[2]}√ó{conv2_out.shape[3]}")
    
    print(f"\nAp√≥s Pooling 2:")
    print(f"  - Feature maps: {pool2_out.shape[1]}")
    print(f"  - Formato: {pool2_out.shape[2]}√ó{pool2_out.shape[3]}")
    print(f"  - Redu√ß√£o total: {img.shape[0]/pool2_out.shape[2]:.1f}x")
    
    return {
        'original': img,
        'conv1': conv1_out,
        'pool1': pool1_out,
        'conv2': conv2_out,
        'pool2': pool2_out
    }

# Executar demonstra√ß√£o
print("=== DEMONSTRA√á√ÉO: PROCESSAMENTO DE CNN ===")
cnn_results = visualize_cnn_layers()

### An√°lise dos Resultados

**Observa√ß√µes Importantes:**

1. **Primeira Camada Convolucional**:
   - **Detec√ß√£o de bordas** e padr√µes simples
   - **6 feature maps** diferentes
   - **Preserva√ß√£o de resolu√ß√£o** espacial

2. **Pooling 1**:
   - **Redu√ß√£o de 2x** na resolu√ß√£o espacial
   - **Invari√¢ncia a transla√ß√£o**
   - **Redu√ß√£o de par√¢metros**

3. **Segunda Camada Convolucional**:
   - **Detec√ß√£o de padr√µes complexos**
   - **16 feature maps** (mais diversidade)
   - **Abstra√ß√£o hier√°rquica**

4. **Pooling 2**:
   - **Redu√ß√£o total de 4x**
   - **Features altamente abstratas**
   - **Prepara√ß√£o para classifica√ß√£o**

---

## üèõÔ∏è 3.5 Arquiteturas Cl√°ssicas em Detalhe

### Compara√ß√£o Detalhada

![Arquiteturas Cl√°ssicas](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo3/arquiteturas_classicas.png?raw=true)

#### **AlexNet (2012)**

**Estrutura:**
```
Input (227√ó227√ó3)
‚Üì
Conv1 (11√ó11, 96) ‚Üí ReLU ‚Üí MaxPool (3√ó3)
‚Üì
Conv2 (5√ó5, 256) ‚Üí ReLU ‚Üí MaxPool (3√ó3)
‚Üì
Conv3 (3√ó3, 384) ‚Üí ReLU
‚Üì
Conv4 (3√ó3, 384) ‚Üí ReLU
‚Üì
Conv5 (3√ó3, 256) ‚Üí ReLU ‚Üí MaxPool (3√ó3)
‚Üì
FC1 (4096) ‚Üí ReLU ‚Üí Dropout
‚Üì
FC2 (4096) ‚Üí ReLU ‚Üí Dropout
‚Üì
FC3 (1000) ‚Üí Softmax
```

**Caracter√≠sticas:**
- **Par√¢metros**: 60M
- **Inova√ß√µes**: ReLU, Dropout, Data Augmentation
- **Performance**: 15.3% erro no ImageNet

#### **VGG (2014)**

**Estrutura VGG-16:**
```
Input (224√ó224√ó3)
‚Üì
Conv3√ó3 (64) ‚Üí ReLU ‚Üí Conv3√ó3 (64) ‚Üí ReLU ‚Üí MaxPool
‚Üì
Conv3√ó3 (128) ‚Üí ReLU ‚Üí Conv3√ó3 (128) ‚Üí ReLU ‚Üí MaxPool
‚Üì
Conv3√ó3 (256) ‚Üí ReLU ‚Üí Conv3√ó3 (256) ‚Üí ReLU ‚Üí Conv3√ó3 (256) ‚Üí ReLU ‚Üí MaxPool
‚Üì
Conv3√ó3 (512) ‚Üí ReLU ‚Üí Conv3√ó3 (512) ‚Üí ReLU ‚Üí Conv3√ó3 (512) ‚Üí ReLU ‚Üí MaxPool
‚Üì
Conv3√ó3 (512) ‚Üí ReLU ‚Üí Conv3√ó3 (512) ‚Üí ReLU ‚Üí Conv3√ó3 (512) ‚Üí ReLU ‚Üí MaxPool
‚Üì
FC (4096) ‚Üí ReLU ‚Üí Dropout ‚Üí FC (4096) ‚Üí ReLU ‚Üí Dropout ‚Üí FC (1000)
```

**Caracter√≠sticas:**
- **Par√¢metros**: 138M
- **Simplicidade**: Apenas 3√ó3 convolu√ß√µes
- **Performance**: 7.3% erro no ImageNet

#### **ResNet (2015)**

**Estrutura ResNet-50:**
```
Input (224√ó224√ó3)
‚Üì
Conv7√ó7 (64) ‚Üí BatchNorm ‚Üí ReLU ‚Üí MaxPool
‚Üì
Residual Block 1 (64) ‚Üí Residual Block 2 (64) ‚Üí Residual Block 3 (64)
‚Üì
Residual Block 4 (128) ‚Üí Residual Block 5 (128) ‚Üí Residual Block 6 (128) ‚Üí Residual Block 7 (128)
‚Üì
Residual Block 8 (256) ‚Üí ... ‚Üí Residual Block 15 (256)
‚Üì
Residual Block 16 (512) ‚Üí ... ‚Üí Residual Block 18 (512)
‚Üì
Global Average Pooling ‚Üí FC (1000)
```

**Caracter√≠sticas:**
- **Par√¢metros**: 25M
- **Inova√ß√£o**: Skip connections
- **Performance**: 3.6% erro no ImageNet

### Compara√ß√£o Quantitativa

| Arquitetura | Par√¢metros | Camadas | Erro ImageNet | Inova√ß√£o Principal |
|-------------|------------|---------|---------------|-------------------|
| **AlexNet** | 60M | 8 | 15.3% | ReLU, Dropout |
| **VGG-16** | 138M | 16 | 7.3% | Simplicidade |
| **ResNet-50** | 25M | 50 | 3.6% | Skip Connections |

---

## üîç 3.6 Demonstra√ß√£o Pr√°tica: Compara√ß√£o de Arquiteturas

Vamos implementar e comparar diferentes arquiteturas:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import time

class AlexNetLike(nn.Module):
    """Implementa√ß√£o simplificada do AlexNet"""
    
    def __init__(self, num_classes=10):
        super(AlexNetLike, self).__init__()
        
        # Camadas convolucionais
        self.conv1 = nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2)
        self.conv2 = nn.Conv2d(64, 192, kernel_size=5, padding=2)
        self.conv3 = nn.Conv2d(192, 384, kernel_size=3, padding=1)
        self.conv4 = nn.Conv2d(384, 256, kernel_size=3, padding=1)
        self.conv5 = nn.Conv2d(256, 256, kernel_size=3, padding=1)
        
        # Pooling
        self.pool = nn.MaxPool2d(kernel_size=3, stride=2)
        
        # Camadas fully connected
        self.fc1 = nn.Linear(256 * 6 * 6, 4096)
        self.fc2 = nn.Linear(4096, 4096)
        self.fc3 = nn.Linear(4096, num_classes)
        
        # Dropout
        self.dropout = nn.Dropout(0.5)
        
    def forward(self, x):
        # Camadas convolucionais
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = F.relu(self.conv3(x))
        x = F.relu(self.conv4(x))
        x = self.pool(F.relu(self.conv5(x)))
        
        # Flatten
        x = x.view(-1, 256 * 6 * 6)
        
        # Fully connected
        x = F.relu(self.fc1(x))
        x = self.dropout(x)
        x = F.relu(self.fc2(x))
        x = self.dropout(x)
        x = self.fc3(x)
        
        return x

class VGGLike(nn.Module):
    """Implementa√ß√£o simplificada do VGG"""
    
    def __init__(self, num_classes=10):
        super(VGGLike, self).__init__()
        
        # Camadas convolucionais
        self.conv1 = nn.Conv2d(3, 64, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(64, 64, kernel_size=3, padding=1)
        self.conv3 = nn.Conv2d(64, 128, kernel_size=3, padding=1)
        self.conv4 = nn.Conv2d(128, 128, kernel_size=3, padding=1)
        self.conv5 = nn.Conv2d(128, 256, kernel_size=3, padding=1)
        self.conv6 = nn.Conv2d(256, 256, kernel_size=3, padding=1)
        
        # Pooling
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
        
        # Camadas fully connected
        self.fc1 = nn.Linear(256 * 4 * 4, 512)
        self.fc2 = nn.Linear(512, 512)
        self.fc3 = nn.Linear(512, num_classes)
        
        # Dropout
        self.dropout = nn.Dropout(0.5)
        
    def forward(self, x):
        # Camadas convolucionais
        x = self.pool(F.relu(self.conv2(F.relu(self.conv1(x)))))
        x = self.pool(F.relu(self.conv4(F.relu(self.conv3(x)))))
        x = self.pool(F.relu(self.conv6(F.relu(self.conv5(x)))))
        
        # Flatten
        x = x.view(-1, 256 * 4 * 4)
        
        # Fully connected
        x = F.relu(self.fc1(x))
        x = self.dropout(x)
        x = F.relu(self.fc2(x))
        x = self.dropout(x)
        x = self.fc3(x)
        
        return x

class ResNetLike(nn.Module):
    """Implementa√ß√£o simplificada do ResNet"""
    
    def __init__(self, num_classes=10):
        super(ResNetLike, self).__init__()
        
        # Camada inicial
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3)
        self.bn1 = nn.BatchNorm2d(64)
        self.pool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        
        # Blocos residuais
        self.layer1 = self._make_layer(64, 64, 2)
        self.layer2 = self._make_layer(64, 128, 2, stride=2)
        self.layer3 = self._make_layer(128, 256, 2, stride=2)
        
        # Camada final
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.fc = nn.Linear(256, num_classes)
        
    def _make_layer(self, in_channels, out_channels, blocks, stride=1):
        layers = []
        
        # Primeiro bloco com mudan√ßa de dimens√£o
        layers.append(ResidualBlock(in_channels, out_channels, stride))
        
        # Blocos restantes
        for _ in range(1, blocks):
            layers.append(ResidualBlock(out_channels, out_channels))
        
        return nn.Sequential(*layers)
    
    def forward(self, x):
        x = F.relu(self.bn1(self.conv1(x)))
        x = self.pool(x)
        
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.fc(x)
        
        return x

class ResidualBlock(nn.Module):
    """Bloco residual para ResNet"""
    
    def __init__(self, in_channels, out_channels, stride=1):
        super(ResidualBlock, self).__init__()
        
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride, padding=1)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, stride=1, padding=1)
        self.bn2 = nn.BatchNorm2d(out_channels)
        
        # Skip connection
        self.shortcut = nn.Sequential()
        if stride != 1 or in_channels != out_channels:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=stride),
                nn.BatchNorm2d(out_channels)
            )
    
    def forward(self, x):
        residual = x
        
        out = F.relu(self.bn1(self.conv1(x)))
        out = self.bn2(self.conv2(out))
        
        out += self.shortcut(residual)
        out = F.relu(out)
        
        return out

def compare_architectures():
    """Compara diferentes arquiteturas de CNN"""
    
    # Criar modelos
    alexnet = AlexNetLike()
    vgg = VGGLike()
    resnet = ResNetLike()
    
    # Contar par√¢metros
    alexnet_params = sum(p.numel() for p in alexnet.parameters())
    vgg_params = sum(p.numel() for p in vgg.parameters())
    resnet_params = sum(p.numel() for p in resnet.parameters())
    
    # Simular tempo de treinamento
    alexnet_time = alexnet_params / 1000000 * 0.1  # segundos por √©poca
    vgg_time = vgg_params / 1000000 * 0.1
    resnet_time = resnet_params / 1000000 * 0.1
    
    # Simular acur√°cia
    alexnet_acc = 0.85
    vgg_acc = 0.92
    resnet_acc = 0.95
    
    # Visualiza√ß√£o
    fig, axes = plt.subplots(2, 2, figsize=(15, 10))
    
    # Par√¢metros
    architectures = ['AlexNet', 'VGG', 'ResNet']
    params = [alexnet_params, vgg_params, resnet_params]
    
    axes[0, 0].bar(architectures, params, color=['red', 'blue', 'green'])
    axes[0, 0].set_title('N√∫mero de Par√¢metros')
    axes[0, 0].set_ylabel('Par√¢metros (milh√µes)')
    axes[0, 0].tick_params(axis='x', rotation=45)
    
    # Tempo de treinamento
    times = [alexnet_time, vgg_time, resnet_time]
    
    axes[0, 1].bar(architectures, times, color=['red', 'blue', 'green'])
    axes[0, 1].set_title('Tempo de Treinamento (simulado)')
    axes[0, 1].set_ylabel('Segundos por √©poca')
    axes[0, 1].tick_params(axis='x', rotation=45)
    
    # Acur√°cia
    accuracies = [alexnet_acc, vgg_acc, resnet_acc]
    
    axes[1, 0].bar(architectures, accuracies, color=['red', 'blue', 'green'])
    axes[1, 0].set_title('Acur√°cia (simulada)')
    axes[1, 0].set_ylabel('Acur√°cia')
    axes[1, 0].set_ylim(0, 1)
    axes[1, 0].tick_params(axis='x', rotation=45)
    
    # Compara√ß√£o geral
    x = np.arange(len(architectures))
    width = 0.25
    
    # Normalizar para compara√ß√£o
    norm_params = [p/max(params) for p in params]
    norm_times = [t/max(times) for t in times]
    
    axes[1, 1].bar(x - width, norm_params, width, label='Par√¢metros (norm)', alpha=0.7)
    axes[1, 1].bar(x, norm_times, width, label='Tempo (norm)', alpha=0.7)
    axes[1, 1].bar(x + width, accuracies, width, label='Acur√°cia', alpha=0.7)
    
    axes[1, 1].set_title('Compara√ß√£o Geral (Normalizada)')
    axes[1, 1].set_ylabel('Valor Normalizado')
    axes[1, 1].set_xticks(x)
    axes[1, 1].set_xticklabels(architectures)
    axes[1, 1].legend()
    
    plt.tight_layout()
    plt.show()
    
    # An√°lise quantitativa
    print("=== COMPARA√á√ÉO DE ARQUITETURAS ===")
    
    for i, arch in enumerate(architectures):
        print(f"\n{arch}:")
        print(f"  - Par√¢metros: {params[i]:,} ({params[i]/1000000:.1f}M)")
        print(f"  - Tempo/√©poca: {times[i]:.2f}s")
        print(f"  - Acur√°cia: {accuracies[i]:.2%}")
        print(f"  - Efici√™ncia: {accuracies[i]/(params[i]/1000000):.2f}% por M par√¢metros")
    
    return {
        'alexnet': {'params': alexnet_params, 'time': alexnet_time, 'acc': alexnet_acc},
        'vgg': {'params': vgg_params, 'time': vgg_time, 'acc': vgg_acc},
        'resnet': {'params': resnet_params, 'time': resnet_time, 'acc': resnet_acc}
    }

# Executar demonstra√ß√£o
print("=== DEMONSTRA√á√ÉO: COMPARA√á√ÉO DE ARQUITETURAS ===")
comparison_results = compare_architectures()

### An√°lise dos Resultados

**Observa√ß√µes Importantes:**

1. **AlexNet**:
   - **Par√¢metros**: Moderados (60M)
   - **Performance**: Boa para √©poca
   - **Inova√ß√£o**: ReLU, Dropout

2. **VGG**:
   - **Par√¢metros**: Muitos (138M)
   - **Performance**: Excelente
   - **Simplicidade**: Arquitetura limpa

3. **ResNet**:
   - **Par√¢metros**: Poucos (25M)
   - **Performance**: Superior
   - **Efici√™ncia**: Melhor rela√ß√£o par√¢metros/performance

---

## üìù Resumo do M√≥dulo 3

### Principais Conceitos Abordados

1. **Fundamentos**: CNNs e inspira√ß√£o biol√≥gica
2. **Arquitetura**: Componentes b√°sicos (Conv, Pool, FC)
3. **Evolu√ß√£o**: AlexNet ‚Üí VGG ‚Üí ResNet
4. **Inova√ß√µes**: ReLU, Dropout, Skip Connections
5. **Compara√ß√£o**: Par√¢metros, performance, efici√™ncia

### Demonstra√ß√µes Pr√°ticas

**1. Processamento de CNN:**
   - Visualiza√ß√£o de feature maps
   - An√°lise de camadas
   - Redu√ß√£o de dimensionalidade

**2. Compara√ß√£o de Arquiteturas:**
   - Implementa√ß√£o de AlexNet, VGG, ResNet
   - An√°lise de par√¢metros
   - Compara√ß√£o de performance

### Pr√≥ximos Passos

No **M√≥dulo 4**, aprenderemos como aproveitar essas arquiteturas atrav√©s de **Transfer Learning**, aplicando modelos pr√©-treinados em problemas espec√≠ficos.

### Refer√™ncias Principais

- [Deep Learning - Goodfellow, Bengio & Courville](https://www.deeplearningbook.org/)
- [CS231n Course - Stanford](http://cs231n.stanford.edu/)

---

**Pr√≥ximo M√≥dulo**: Transfer Learning e Aplica√ß√µes Pr√°ticas

## üéØ Conex√£o com o Pr√≥ximo M√≥dulo

Agora que dominamos as **arquiteturas de CNNs**, estamos preparados para entender como aproveitar esse conhecimento atrav√©s de **Transfer Learning**.

No **M√≥dulo 4**, veremos como:

### üîó **Conex√µes Diretas:**

1. **Modelos Pr√©-treinados** ‚Üí **Aproveitamento de Conhecimento**
   - AlexNet, VGG, ResNet treinados no ImageNet
   - Reutiliza√ß√£o de representa√ß√µes aprendidas

2. **Feature Extraction** ‚Üí **Primeiras Camadas Congeladas**
   - Aproveitamento de caracter√≠sticas universais
   - Treinamento apenas da camada de classifica√ß√£o

3. **Fine-tuning** ‚Üí **Ajuste Fino de Par√¢metros**
   - Descongelamento de camadas finais
   - Adapta√ß√£o a dom√≠nios espec√≠ficos

4. **Efici√™ncia** ‚Üí **Menos Dados e Tempo**
   - Redu√ß√£o de 10x no tempo de treinamento
   - Requisito de 5-10x menos dados

### üöÄ **Evolu√ß√£o Natural:**

- **Treinamento do Zero** ‚Üí **Aproveitamento de Conhecimento**
- **Grandes Datasets** ‚Üí **Datasets Pequenos**
- **Tempo Longo** ‚Üí **Treinamento R√°pido**
- **Uma Tarefa** ‚Üí **M√∫ltiplas Aplica√ß√µes**

Esta transi√ß√£o marca o in√≠cio da **era pr√°tica** do deep learning em vis√£o computacional!

## üñºÔ∏è Imagens de Refer√™ncia - M√≥dulo 3

![Arquitetura AlexNet](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo3/arquitetura_alexnet.png?raw=true)

![Arquitetura ResNet](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo3/arquitetura_resnet.png?raw=true)

![Arquitetura VGG](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo3/arquitetura_vgg.png?raw=true)

![Fun√ß√µes de Ativa√ß√£o](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo3/funcoes_ativacao.png?raw=true)

![T√©cnicas de Regulariza√ß√£o](https://raw.githubusercontent.com/rfapo/visao-computacional/main/images/modulo3/tecnicas_regularizacao.png?raw=true)

