# Módulo 5: Tarefas Fundamentais em Visão Computacional

## 🎯 Objetivos de Aprendizagem

Ao final deste módulo, você será capaz de:

- ✅ Dominar as principais tarefas de visão computacional
- ✅ Compreender diferenças entre classificação, detecção e segmentação
- ✅ Conhecer arquiteturas específicas para cada tarefa
- ✅ Implementar soluções práticas com PyTorch
- ✅ Analisar métricas de avaliação específicas

---

## 🏷️ 5.1 Classificação de Imagens

### Conceito Fundamental

**Classificação de Imagens** é a tarefa de atribuir uma ou mais labels (etiquetas) a uma imagem completa, determinando a categoria ou classe à qual ela pertence.

![Classificação de Imagens](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/classificacao_imagens.png)

### Definição e Características

**Definição:**
- **Entrada**: Uma imagem completa
- **Saída**: Uma ou mais classes/categorias
- **Objetivo**: Determinar "o que" está na imagem
- **Granularidade**: Nível de imagem inteira

**Características Principais:**
- **Uma imagem = Uma classe**: Cada imagem recebe uma label principal
- **Classes mutuamente exclusivas**: Geralmente uma classe por imagem
- **Classificação multi-label**: Possível em alguns casos
- **Hierárquica**: Classes podem ter subclasses

### Tipos de Classificação

#### **1. Classificação Binária**
- **Duas classes**: Sim/Não, Positivo/Negativo
- **Aplicações**: Detecção de spam, diagnóstico médico
- **Métricas**: Accuracy, Precision, Recall, F1-Score

#### **2. Classificação Multiclasse**
- **Múltiplas classes**: Cão, Gato, Pássaro, etc.
- **Aplicações**: Reconhecimento de objetos, categorização
- **Métricas**: Accuracy, Confusion Matrix

#### **3. Classificação Multilabel**
- **Múltiplas labels**: Uma imagem pode ter várias classes
- **Aplicações**: Análise de conteúdo, tags
- **Métricas**: Hamming Loss, Jaccard Index

### Arquiteturas Específicas

![Arquiteturas de Classificação](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/classificacao_imagens.png)

#### **Modelos Clássicos:**

| Arquitetura | Características | Aplicação |
|-------------|-----------------|----------|
| **VGG** | Kernels 3×3 uniformes | Classificação geral |
| **ResNet** | Skip connections | Classificação profunda |
| **EfficientNet** | Otimização de eficiência | Classificação eficiente |
| **DenseNet** | Conexões densas | Classificação compacta |

#### **Componentes Essenciais:**
- **Camadas convolucionais**: Extração de características
- **Pooling**: Redução de dimensionalidade
- **Fully connected**: Classificação final
- **Softmax**: Probabilidades normalizadas

---

## 🔍 5.2 Detecção de Objetos

### Conceito Fundamental

**Detecção de Objetos** é a tarefa de localizar e classificar múltiplos objetos em uma imagem, fornecendo bounding boxes e classes para cada objeto detectado.

![Detecção de Objetos](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/deteccao_objetos.png)

### Definição e Características

**Definição:**
- **Entrada**: Uma imagem completa
- **Saída**: Bounding boxes + classes para cada objeto
- **Objetivo**: Determinar "o que" e "onde" estão os objetos
- **Granularidade**: Nível de objeto individual

**Características Principais:**
- **Múltiplos objetos**: Uma imagem pode conter vários objetos
- **Localização precisa**: Coordenadas dos bounding boxes
- **Classificação simultânea**: Classe de cada objeto detectado
- **Tamanhos variados**: Objetos de diferentes escalas

### Arquiteturas Específicas

#### **1. R-CNN Family**

**R-CNN (2014):**
- **Região proposta**: Selective Search
- **Classificação**: CNN para cada região
- **Desvantagem**: Muito lento

**Fast R-CNN (2015):**
- **Melhoria**: ROI Pooling
- **Velocidade**: Mais rápido que R-CNN
- **Ainda lento**: Selective Search

**Faster R-CNN (2016):**
- **Inovação**: RPN (Region Proposal Network)
- **Velocidade**: Muito mais rápido
- **Precisão**: Alta precisão

#### **2. YOLO Family**

**YOLO (2016):**
- **Abordagem**: Detecção em uma passada
- **Velocidade**: Muito rápido
- **Precisão**: Boa para objetos grandes

**YOLOv2 (2017):**
- **Melhorias**: Batch normalization, anchor boxes
- **Precisão**: Melhor que YOLO original

**YOLOv3 (2018):**
- **Inovações**: Multi-scale, feature pyramid
- **Performance**: Boa precisão e velocidade

**YOLOv4+ (2020+):**
- **Otimizações**: CSP, PAN, SAM
- **Performance**: Estado da arte

#### **3. SSD (Single Shot Detector)**

**Características:**
- **Detecção em uma passada**: Como YOLO
- **Multi-scale**: Diferentes escalas
- **Velocidade**: Rápido
- **Precisão**: Boa para objetos médios

### Métricas de Avaliação

#### **mAP (mean Average Precision)**
- **Definição**: Média das APs para cada classe
- **Cálculo**: AP = Área sob curva Precision-Recall
- **Interpretação**: Maior mAP = Melhor performance

#### **IoU (Intersection over Union)**
- **Definição**: Sobreposição entre predição e ground truth
- **Cálculo**: IoU = Intersecção / União
- **Threshold**: Geralmente 0.5 para detecção

---

## 🎨 5.3 Segmentação de Imagens

### Conceito Fundamental

**Segmentação de Imagens** é a tarefa de dividir uma imagem em regiões significativas, atribuindo cada pixel a uma classe específica.

![Segmentação de Imagens](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/segmentacao_imagens.png)

### Tipos de Segmentação

#### **1. Segmentação Semântica**
- **Objetivo**: Classificar cada pixel
- **Saída**: Mapa de classes por pixel
- **Aplicações**: Análise de cenas, medicina
- **Exemplo**: Todos os pixels de "carro" têm a mesma classe

#### **2. Segmentação de Instância**
- **Objetivo**: Separar instâncias individuais
- **Saída**: Mapa de instâncias por pixel
- **Aplicações**: Contagem de objetos, análise de tráfego
- **Exemplo**: Cada carro tem uma instância diferente

#### **3. Segmentação Panóptica**
- **Objetivo**: Combinação de semântica e instância
- **Saída**: Classes + instâncias por pixel
- **Aplicações**: Análise completa de cenas
- **Exemplo**: Classes para coisas + instâncias para objetos

### Arquiteturas Específicas

#### **1. U-Net**

**Características:**
- **Arquitetura em U**: Encoder-Decoder
- **Skip connections**: Conexões diretas
- **Aplicação**: Segmentação médica
- **Vantagem**: Funciona bem com poucos dados

**Estrutura:**
```
Encoder: Conv → Pool → Conv → Pool → ...
Decoder: Upsample → Conv → Upsample → Conv → ...
Skip: Conexões diretas entre encoder e decoder
```

#### **2. FCN (Fully Convolutional Networks)**

**Características:**
- **Sem camadas FC**: Apenas convoluções
- **Upsampling**: Deconvolution para aumentar resolução
- **Aplicação**: Segmentação geral
- **Vantagem**: Arquitetura simples

#### **3. DeepLab**

**Características:**
- **Atrous Convolution**: Dilated convolutions
- **ASPP**: Atrous Spatial Pyramid Pooling
- **Aplicação**: Segmentação de alta resolução
- **Vantagem**: Boa precisão em bordas

### Métricas de Avaliação

#### **Pixel Accuracy**
- **Definição**: Porcentagem de pixels corretos
- **Cálculo**: Pixels corretos / Total de pixels
- **Limitação**: Não considera desbalanceamento de classes

#### **Mean IoU**
- **Definição**: Média dos IoUs para cada classe
- **Cálculo**: IoU = Intersecção / União por classe
- **Vantagem**: Considera todas as classes igualmente

#### **Dice Coefficient**
- **Definição**: Sobreposição entre predição e ground truth
- **Cálculo**: Dice = 2 * Intersecção / (Predição + Ground Truth)
- **Aplicação**: Especialmente útil para segmentação médica

---

## 🔍 5.4 Demonstração Prática: Classificação de Imagens

Vamos implementar e visualizar diferentes aspectos da classificação:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.transforms as transforms
from torchvision import models
import matplotlib.pyplot as plt
import numpy as np
import cv2
from PIL import Image

class ImageClassificationDemo:
    """Demonstração de classificação de imagens"""
    
    def __init__(self):
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
    def create_sample_images(self):
        """Cria imagens de exemplo para demonstração"""
        
        # Criar imagens sintéticas representando diferentes classes
        images = {}
        
        # Classe 1: Círculos
        img_circle = np.zeros((224, 224, 3), dtype=np.uint8)
        cv2.circle(img_circle, (112, 112), 50, (255, 0, 0), -1)
        cv2.circle(img_circle, (112, 112), 30, (0, 255, 0), -1)
        images['circle'] = img_circle
        
        # Classe 2: Retângulos
        img_rect = np.zeros((224, 224, 3), dtype=np.uint8)
        cv2.rectangle(img_rect, (50, 50), (174, 174), (0, 0, 255), -1)
        cv2.rectangle(img_rect, (80, 80), (144, 144), (255, 255, 0), -1)
        images['rectangle'] = img_rect
        
        # Classe 3: Triângulos
        img_triangle = np.zeros((224, 224, 3), dtype=np.uint8)
        pts = np.array([[112, 50], [50, 174], [174, 174]], np.int32)
        cv2.fillPoly(img_triangle, [pts], (255, 0, 255))
        images['triangle'] = img_triangle
        
        # Classe 4: Linhas
        img_lines = np.zeros((224, 224, 3), dtype=np.uint8)
        cv2.line(img_lines, (50, 50), (174, 174), (0, 255, 255), 5)
        cv2.line(img_lines, (174, 50), (50, 174), (255, 255, 0), 5)
        images['lines'] = img_lines
        
        # Classe 5: Ruído
        img_noise = np.random.randint(0, 256, (224, 224, 3), dtype=np.uint8)
        images['noise'] = img_noise
        
        return images
    
    def create_simple_classifier(self, num_classes=5):
        """Cria um classificador simples"""
        
        class SimpleClassifier(nn.Module):
            def __init__(self, num_classes):
                super(SimpleClassifier, self).__init__()
                
                # Camadas convolucionais
                self.conv1 = nn.Conv2d(3, 32, kernel_size=5, stride=2, padding=2)
                self.conv2 = nn.Conv2d(32, 64, kernel_size=5, stride=2, padding=2)
                self.conv3 = nn.Conv2d(64, 128, kernel_size=5, stride=2, padding=2)
                
                # Pooling
                self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
                
                # Fully connected
                self.fc1 = nn.Linear(128 * 3 * 3, 256)
                self.fc2 = nn.Linear(256, num_classes)
                
                # Dropout
                self.dropout = nn.Dropout(0.5)
                
            def forward(self, x):
                # Camadas convolucionais
                x = F.relu(self.conv1(x))
                x = self.pool(x)
                x = F.relu(self.conv2(x))
                x = self.pool(x)
                x = F.relu(self.conv3(x))
                x = self.pool(x)
                
                # Flatten
                x = x.view(-1, 128 * 3 * 3)
                
                # Fully connected
                x = F.relu(self.fc1(x))
                x = self.dropout(x)
                x = self.fc2(x)
                
                return x
        
        return SimpleClassifier(num_classes)
    
    def simulate_classification(self, images, model):
        """Simula classificação das imagens"""
        
        model.eval()
        results = {}
        
        # Definir classes
        classes = ['circle', 'rectangle', 'triangle', 'lines', 'noise']
        
        for class_name, img in images.items():
            # Converter para tensor
            img_tensor = torch.FloatTensor(img).permute(2, 0, 1).unsqueeze(0) / 255.0
            
            # Simular predição
            with torch.no_grad():
                # Criar predição simulada baseada na classe real
                if class_name == 'circle':
                    pred = torch.tensor([[0.8, 0.1, 0.05, 0.03, 0.02]])
                elif class_name == 'rectangle':
                    pred = torch.tensor([[0.1, 0.8, 0.05, 0.03, 0.02]])
                elif class_name == 'triangle':
                    pred = torch.tensor([[0.05, 0.1, 0.8, 0.03, 0.02]])
                elif class_name == 'lines':
                    pred = torch.tensor([[0.03, 0.05, 0.1, 0.8, 0.02]])
                else:  # noise
                    pred = torch.tensor([[0.02, 0.03, 0.05, 0.1, 0.8]])
                
                # Aplicar softmax
                pred = F.softmax(pred, dim=1)
                
                # Obter classe predita
                predicted_class = torch.argmax(pred, dim=1).item()
                confidence = pred[0, predicted_class].item()
                
                results[class_name] = {
                    'image': img,
                    'true_class': class_name,
                    'predicted_class': classes[predicted_class],
                    'confidence': confidence,
                    'probabilities': pred[0].numpy()
                }
        
        return results
    
    def visualize_classification_results(self, results):
        """Visualiza resultados da classificação"""
        
        fig, axes = plt.subplots(2, 5, figsize=(20, 8))
        
        classes = ['circle', 'rectangle', 'triangle', 'lines', 'noise']
        
        for i, class_name in enumerate(classes):
            result = results[class_name]
            
            # Imagem original
            axes[0, i].imshow(cv2.cvtColor(result['image'], cv2.COLOR_BGR2RGB))
            axes[0, i].set_title(f'Classe Real: {result["true_class"]}\nPredição: {result["predicted_class"]}\nConfiança: {result["confidence"]:.3f}')
            axes[0, i].axis('off')
            
            # Probabilidades
            axes[1, i].bar(classes, result['probabilities'], color=['red', 'blue', 'green', 'orange', 'purple'])
            axes[1, i].set_title('Probabilidades por Classe')
            axes[1, i].set_ylabel('Probabilidade')
            axes[1, i].tick_params(axis='x', rotation=45)
            axes[1, i].set_ylim(0, 1)
        
        plt.tight_layout()
        plt.show()
        
        # Análise quantitativa
        print("=== ANÁLISE QUANTITATIVA DA CLASSIFICAÇÃO ===")
        
        correct_predictions = 0
        total_predictions = len(results)
        
        for class_name, result in results.items():
            is_correct = result['true_class'] == result['predicted_class']
            if is_correct:
                correct_predictions += 1
            
            print(f"\n{class_name.upper()}:")
            print(f"  - Classe real: {result['true_class']}")
            print(f"  - Classe predita: {result['predicted_class']}")
            print(f"  - Confiança: {result['confidence']:.3f}")
            print(f"  - Correto: {'Sim' if is_correct else 'Não'}")
        
        accuracy = correct_predictions / total_predictions
        print(f"\nACURÁCIA GERAL: {accuracy:.3f} ({correct_predictions}/{total_predictions})")
        
        return results

# Executar demonstração
print("=== DEMONSTRAÇÃO: CLASSIFICAÇÃO DE IMAGENS ===")
demo = ImageClassificationDemo()
images = demo.create_sample_images()
model = demo.create_simple_classifier()
results = demo.simulate_classification(images, model)
demo.visualize_classification_results(results)

### Análise dos Resultados

**Observações Importantes:**

1. **Classificação Binária**:
   - **Precisão**: Alta para classes bem definidas
   - **Confiança**: Alta para padrões claros
   - **Aplicação**: Detecção de spam, diagnóstico médico

2. **Classificação Multiclasse**:
   - **Precisão**: Boa para classes distintas
   - **Confiança**: Variável dependendo da complexidade
   - **Aplicação**: Reconhecimento de objetos, categorização

3. **Classificação Multilabel**:
   - **Precisão**: Desafiadora para múltiplas labels
   - **Confiança**: Pode ser baixa para labels raras
   - **Aplicação**: Análise de conteúdo, tags

---

## 🔍 5.5 Demonstração Prática: Detecção de Objetos

Vamos implementar e visualizar detecção de objetos:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import cv2
from matplotlib.patches import Rectangle

class ObjectDetectionDemo:
    """Demonstração de detecção de objetos"""
    
    def __init__(self):
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
    def create_sample_scene(self):
        """Cria uma cena de exemplo com múltiplos objetos"""
        
        # Criar imagem de fundo
        img = np.ones((400, 600, 3), dtype=np.uint8) * 255
        
        # Adicionar objetos
        objects = []
        
        # Objeto 1: Círculo (classe 0)
        cv2.circle(img, (150, 100), 40, (255, 0, 0), -1)
        objects.append({'class': 0, 'bbox': [110, 60, 190, 140], 'name': 'circle'})
        
        # Objeto 2: Retângulo (classe 1)
        cv2.rectangle(img, (300, 80), (450, 180), (0, 255, 0), -1)
        objects.append({'class': 1, 'bbox': [300, 80, 450, 180], 'name': 'rectangle'})
        
        # Objeto 3: Triângulo (classe 2)
        pts = np.array([[500, 50], [450, 150], [550, 150]], np.int32)
        cv2.fillPoly(img, [pts], (0, 0, 255))
        objects.append({'class': 2, 'bbox': [450, 50, 550, 150], 'name': 'triangle'})
        
        # Objeto 4: Círculo pequeno (classe 0)
        cv2.circle(img, (200, 300), 25, (255, 255, 0), -1)
        objects.append({'class': 0, 'bbox': [175, 275, 225, 325], 'name': 'circle'})
        
        # Objeto 5: Retângulo pequeno (classe 1)
        cv2.rectangle(img, (400, 280), (500, 320), (255, 0, 255), -1)
        objects.append({'class': 1, 'bbox': [400, 280, 500, 320], 'name': 'rectangle'})
        
        return img, objects
    
    def simulate_object_detection(self, img, objects):
        """Simula detecção de objetos"""
        
        # Simular detecções com algumas imprecisões
        detections = []
        
        for obj in objects:
            # Adicionar ruído às coordenadas
            noise_x = np.random.randint(-10, 11)
            noise_y = np.random.randint(-10, 11)
            noise_w = np.random.randint(-5, 6)
            noise_h = np.random.randint(-5, 6)
            
            # Coordenadas com ruído
            x1 = max(0, obj['bbox'][0] + noise_x)
            y1 = max(0, obj['bbox'][1] + noise_y)
            x2 = min(img.shape[1], obj['bbox'][2] + noise_w)
            y2 = min(img.shape[0], obj['bbox'][3] + noise_h)
            
            # Simular confiança
            confidence = np.random.uniform(0.7, 0.95)
            
            detections.append({
                'class': obj['class'],
                'bbox': [x1, y1, x2, y2],
                'confidence': confidence,
                'name': obj['name']
            })
        
        # Adicionar falsos positivos
        false_positives = 2
        for _ in range(false_positives):
            x1 = np.random.randint(0, img.shape[1] - 50)
            y1 = np.random.randint(0, img.shape[0] - 50)
            x2 = x1 + np.random.randint(20, 80)
            y2 = y1 + np.random.randint(20, 80)
            
            detections.append({
                'class': np.random.randint(0, 3),
                'bbox': [x1, y1, x2, y2],
                'confidence': np.random.uniform(0.3, 0.6),
                'name': 'false_positive'
            })
        
        return detections
    
    def calculate_iou(self, box1, box2):
        """Calcula IoU entre duas caixas"""
        
        # Coordenadas das caixas
        x1_1, y1_1, x2_1, y2_1 = box1
        x1_2, y1_2, x2_2, y2_2 = box2
        
        # Calcular interseção
        x1_i = max(x1_1, x1_2)
        y1_i = max(y1_1, y1_2)
        x2_i = min(x2_1, x2_2)
        y2_i = min(y2_1, y2_2)
        
        if x2_i <= x1_i or y2_i <= y1_i:
            return 0.0
        
        intersection = (x2_i - x1_i) * (y2_i - y1_i)
        
        # Calcular união
        area1 = (x2_1 - x1_1) * (y2_1 - y1_1)
        area2 = (x2_2 - x1_2) * (y2_2 - y1_2)
        union = area1 + area2 - intersection
        
        return intersection / union if union > 0 else 0.0
    
    def visualize_detection_results(self, img, objects, detections):
        """Visualiza resultados da detecção"""
        
        fig, axes = plt.subplots(1, 3, figsize=(18, 6))
        
        # Imagem original
        axes[0].imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
        axes[0].set_title('Imagem Original')
        axes[0].axis('off')
        
        # Ground truth
        axes[1].imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
        colors = ['red', 'blue', 'green']
        for obj in objects:
            x1, y1, x2, y2 = obj['bbox']
            rect = Rectangle((x1, y1), x2-x1, y2-y1, linewidth=2, edgecolor=colors[obj['class']], facecolor='none')
            axes[1].add_patch(rect)
            axes[1].text(x1, y1-5, f'{obj["name"]}', fontsize=10, color=colors[obj['class']])
        axes[1].set_title('Ground Truth')
        axes[1].axis('off')
        
        # Detecções
        axes[2].imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
        for det in detections:
            x1, y1, x2, y2 = det['bbox']
            color = colors[det['class']] if det['name'] != 'false_positive' else 'orange'
            rect = Rectangle((x1, y1), x2-x1, y2-y1, linewidth=2, edgecolor=color, facecolor='none')
            axes[2].add_patch(rect)
            axes[2].text(x1, y1-5, f'{det["name"]} ({det["confidence"]:.2f})', fontsize=10, color=color)
        axes[2].set_title('Detecções')
        axes[2].axis('off')
        
        plt.tight_layout()
        plt.show()
        
        # Análise quantitativa
        print("=== ANÁLISE QUANTITATIVA DA DETECÇÃO ===")
        
        # Calcular métricas
        true_positives = 0
        false_positives = 0
        false_negatives = 0
        
        # Para cada detecção
        for det in detections:
            if det['name'] == 'false_positive':
                false_positives += 1
            else:
                # Verificar se há overlap com ground truth
                max_iou = 0
                for obj in objects:
                    if obj['class'] == det['class']:
                        iou = self.calculate_iou(det['bbox'], obj['bbox'])
                        max_iou = max(max_iou, iou)
                
                if max_iou > 0.5:  # Threshold para considerar TP
                    true_positives += 1
                else:
                    false_positives += 1
        
        # Calcular false negatives
        for obj in objects:
            max_iou = 0
            for det in detections:
                if det['name'] != 'false_positive' and det['class'] == obj['class']:
                    iou = self.calculate_iou(det['bbox'], obj['bbox'])
                    max_iou = max(max_iou, iou)
            
            if max_iou < 0.5:
                false_negatives += 1
        
        # Calcular métricas
        precision = true_positives / (true_positives + false_positives) if (true_positives + false_positives) > 0 else 0
        recall = true_positives / (true_positives + false_negatives) if (true_positives + false_negatives) > 0 else 0
        f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
        
        print(f"\nMétricas de Detecção:")
        print(f"  - True Positives: {true_positives}")
        print(f"  - False Positives: {false_positives}")
        print(f"  - False Negatives: {false_negatives}")
        print(f"  - Precision: {precision:.3f}")
        print(f"  - Recall: {recall:.3f}")
        print(f"  - F1-Score: {f1_score:.3f}")
        
        return {
            'true_positives': true_positives,
            'false_positives': false_positives,
            'false_negatives': false_negatives,
            'precision': precision,
            'recall': recall,
            'f1_score': f1_score
        }

# Executar demonstração
print("=== DEMONSTRAÇÃO: DETECÇÃO DE OBJETOS ===")
detection_demo = ObjectDetectionDemo()
img, objects = detection_demo.create_sample_scene()
detections = detection_demo.simulate_object_detection(img, objects)
metrics = detection_demo.visualize_detection_results(img, objects, detections)

### Análise dos Resultados

**Observações Importantes:**

1. **True Positives**:
   - **Detecções corretas**: Objetos encontrados com IoU > 0.5
   - **Confiança**: Geralmente alta para detecções corretas
   - **Localização**: Boa precisão nas coordenadas

2. **False Positives**:
   - **Detecções incorretas**: Objetos que não existem
   - **Confiança**: Geralmente baixa
   - **Causa**: Ruído, padrões similares

3. **False Negatives**:
   - **Objetos não detectados**: Objetos que existem mas não foram encontrados
   - **Causa**: Objetos pequenos, oclusão, baixa qualidade

---

## 🎨 5.6 Demonstração Prática: Segmentação de Imagens

Vamos implementar e visualizar segmentação de imagens:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import cv2
from matplotlib.colors import ListedColormap

class ImageSegmentationDemo:
    """Demonstração de segmentação de imagens"""
    
    def __init__(self):
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
    def create_sample_scene(self):
        """Cria uma cena de exemplo para segmentação"""
        
        # Criar imagem de fundo
        img = np.ones((300, 400, 3), dtype=np.uint8) * 128  # Fundo cinza
        
        # Adicionar objetos com diferentes classes
        
        # Classe 1: Círculo azul (céu)
        cv2.circle(img, (200, 80), 60, (255, 200, 100), -1)
        
        # Classe 2: Retângulo verde (grama)
        cv2.rectangle(img, (50, 200), (350, 300), (100, 255, 100), -1)
        
        # Classe 3: Triângulo marrom (montanha)
        pts = np.array([[100, 150], [50, 200], [150, 200]], np.int32)
        cv2.fillPoly(img, [pts], (150, 100, 50))
        
        # Classe 4: Retângulo azul (água)
        cv2.rectangle(img, (200, 220), (350, 280), (100, 150, 255), -1)
        
        # Classe 5: Círculo pequeno amarelo (sol)
        cv2.circle(img, (320, 60), 25, (255, 255, 100), -1)
        
        return img
    
    def create_ground_truth_mask(self, img):
        """Cria máscara de ground truth para segmentação"""
        
        # Criar máscara baseada na imagem
        mask = np.zeros((img.shape[0], img.shape[1]), dtype=np.uint8)
        
        # Classe 0: Fundo
        mask[:] = 0
        
        # Classe 1: Céu (círculo azul)
        cv2.circle(mask, (200, 80), 60, 1, -1)
        
        # Classe 2: Grama (retângulo verde)
        cv2.rectangle(mask, (50, 200), (350, 300), 2, -1)
        
        # Classe 3: Montanha (triângulo marrom)
        pts = np.array([[100, 150], [50, 200], [150, 200]], np.int32)
        cv2.fillPoly(mask, [pts], 3)
        
        # Classe 4: Água (retângulo azul)
        cv2.rectangle(mask, (200, 220), (350, 280), 4, -1)
        
        # Classe 5: Sol (círculo amarelo)
        cv2.circle(mask, (320, 60), 25, 5, -1)
        
        return mask
    
    def simulate_segmentation(self, img, ground_truth):
        """Simula segmentação com algumas imprecisões"""
        
        # Criar predição simulada
        prediction = ground_truth.copy()
        
        # Adicionar ruído
        noise = np.random.randint(0, 6, prediction.shape)
        
        # Aplicar ruído em algumas regiões
        for i in range(prediction.shape[0]):
            for j in range(prediction.shape[1]):
                if np.random.random() < 0.1:  # 10% de chance de erro
                    prediction[i, j] = noise[i, j]
        
        # Suavizar bordas
        prediction = cv2.medianBlur(prediction, 3)
        
        return prediction
    
    def calculate_segmentation_metrics(self, ground_truth, prediction):
        """Calcula métricas de segmentação"""
        
        # Pixel Accuracy
        pixel_accuracy = np.mean(ground_truth == prediction)
        
        # Mean IoU
        num_classes = 6  # 0-5
        ious = []
        
        for class_id in range(num_classes):
            gt_mask = (ground_truth == class_id)
            pred_mask = (prediction == class_id)
            
            intersection = np.sum(gt_mask & pred_mask)
            union = np.sum(gt_mask | pred_mask)
            
            if union > 0:
                iou = intersection / union
                ious.append(iou)
            else:
                ious.append(0.0)
        
        mean_iou = np.mean(ious)
        
        # Dice Coefficient
        dice_coeffs = []
        
        for class_id in range(num_classes):
            gt_mask = (ground_truth == class_id)
            pred_mask = (prediction == class_id)
            
            intersection = np.sum(gt_mask & pred_mask)
            total = np.sum(gt_mask) + np.sum(pred_mask)
            
            if total > 0:
                dice = 2 * intersection / total
                dice_coeffs.append(dice)
            else:
                dice_coeffs.append(0.0)
        
        mean_dice = np.mean(dice_coeffs)
        
        return {
            'pixel_accuracy': pixel_accuracy,
            'mean_iou': mean_iou,
            'mean_dice': mean_dice,
            'class_ious': ious,
            'class_dices': dice_coeffs
        }
    
    def visualize_segmentation_results(self, img, ground_truth, prediction, metrics):
        """Visualiza resultados da segmentação"""
        
        fig, axes = plt.subplots(2, 3, figsize=(18, 12))
        
        # Imagem original
        axes[0, 0].imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
        axes[0, 0].set_title('Imagem Original')
        axes[0, 0].axis('off')
        
        # Ground truth
        colors = ['black', 'lightblue', 'green', 'brown', 'blue', 'yellow']
        cmap = ListedColormap(colors)
        axes[0, 1].imshow(ground_truth, cmap=cmap, vmin=0, vmax=5)
        axes[0, 1].set_title('Ground Truth')
        axes[0, 1].axis('off')
        
        # Predição
        axes[0, 2].imshow(prediction, cmap=cmap, vmin=0, vmax=5)
        axes[0, 2].set_title('Predição')
        axes[0, 2].axis('off')
        
        # Diferenças
        diff = np.abs(ground_truth.astype(float) - prediction.astype(float))
        axes[1, 0].imshow(diff, cmap='hot')
        axes[1, 0].set_title('Diferenças (Ground Truth vs Predição)')
        axes[1, 0].axis('off')
        
        # Métricas por classe
        class_names = ['Fundo', 'Céu', 'Grama', 'Montanha', 'Água', 'Sol']
        x = np.arange(len(class_names))
        
        axes[1, 1].bar(x, metrics['class_ious'], color=colors, alpha=0.7)
        axes[1, 1].set_title('IoU por Classe')
        axes[1, 1].set_xlabel('Classe')
        axes[1, 1].set_ylabel('IoU')
        axes[1, 1].set_xticks(x)
        axes[1, 1].set_xticklabels(class_names, rotation=45)
        axes[1, 1].set_ylim(0, 1)
        
        # Métricas gerais
        metric_names = ['Pixel\nAccuracy', 'Mean\nIoU', 'Mean\nDice']
        metric_values = [metrics['pixel_accuracy'], metrics['mean_iou'], metrics['mean_dice']]
        
        axes[1, 2].bar(metric_names, metric_values, color=['blue', 'green', 'red'], alpha=0.7)
        axes[1, 2].set_title('Métricas Gerais')
        axes[1, 2].set_ylabel('Valor')
        axes[1, 2].set_ylim(0, 1)
        
        plt.tight_layout()
        plt.show()
        
        # Análise quantitativa
        print("=== ANÁLISE QUANTITATIVA DA SEGMENTAÇÃO ===")
        
        print(f"\nMétricas Gerais:")
        print(f"  - Pixel Accuracy: {metrics['pixel_accuracy']:.3f}")
        print(f"  - Mean IoU: {metrics['mean_iou']:.3f}")
        print(f"  - Mean Dice: {metrics['mean_dice']:.3f}")
        
        print(f"\nMétricas por Classe:")
        for i, class_name in enumerate(class_names):
            print(f"  - {class_name}: IoU={metrics['class_ious'][i]:.3f}, Dice={metrics['class_dices'][i]:.3f}")
        
        return metrics

# Executar demonstração
print("=== DEMONSTRAÇÃO: SEGMENTAÇÃO DE IMAGENS ===")
segmentation_demo = ImageSegmentationDemo()
img = segmentation_demo.create_sample_scene()
ground_truth = segmentation_demo.create_ground_truth_mask(img)
prediction = segmentation_demo.simulate_segmentation(img, ground_truth)
metrics = segmentation_demo.calculate_segmentation_metrics(ground_truth, prediction)
segmentation_demo.visualize_segmentation_results(img, ground_truth, prediction, metrics)

### Análise dos Resultados

**Observações Importantes:**

1. **Segmentação Semântica**:
   - **Precisão**: Boa para classes bem definidas
   - **IoU**: Variável dependendo da complexidade da classe
   - **Aplicação**: Análise de cenas, medicina

2. **Segmentação de Instância**:
   - **Precisão**: Desafiadora para objetos sobrepostos
   - **IoU**: Pode ser baixa para instâncias pequenas
   - **Aplicação**: Contagem de objetos, análise de tráfego

3. **Segmentação Panóptica**:
   - **Precisão**: Combinação de semântica e instância
   - **IoU**: Balance entre classes e instâncias
   - **Aplicação**: Análise completa de cenas

---

## 📝 Resumo do Módulo 5

### Principais Conceitos Abordados

1. **Classificação**: Determinar "o que" está na imagem
2. **Detecção**: Determinar "o que" e "onde" estão os objetos
3. **Segmentação**: Determinar "o que" está em cada pixel
4. **Arquiteturas**: Específicas para cada tarefa
5. **Métricas**: Avaliação adequada para cada tarefa

### Demonstrações Práticas

**1. Classificação de Imagens:**
   - Implementação de classificador simples
   - Análise de probabilidades por classe
   - Cálculo de acurácia

**2. Detecção de Objetos:**
   - Simulação de detecção com bounding boxes
   - Cálculo de IoU e métricas de detecção
   - Análise de true/false positives/negatives

**3. Segmentação de Imagens:**
   - Criação de máscaras de segmentação
   - Cálculo de métricas de segmentação
   - Análise de performance por classe

### Próximos Passos

No **Módulo 6**, aplicaremos essas técnicas em **OCR e Reconhecimento de Texto**, uma aplicação específica de visão computacional.

### Referências Principais

- [ImageNet Classification with Deep Convolutional Neural Networks - Krizhevsky et al.](https://papers.nips.cc/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html)
- [Rich feature hierarchies for accurate object detection and semantic segmentation - Girshick et al.](https://arxiv.org/abs/1311.2524)

---

**Próximo Módulo**: OCR e Reconhecimento de Texto

## 🎯 Conexão com o Próximo Módulo

Agora que dominamos as **tarefas fundamentais** de visão computacional, estamos preparados para aplicar essas técnicas em **OCR e Reconhecimento de Texto**.

No **Módulo 6**, veremos como:

### 🔗 **Conexões Diretas:**

1. **Classificação** → **Reconhecimento de Caracteres**
   - Classificar cada caractere em uma categoria
   - Aplicar CNNs para reconhecimento de padrões

2. **Detecção** → **Localização de Texto**
   - Encontrar regiões de texto na imagem
   - Usar bounding boxes para delimitar texto

3. **Segmentação** → **Separação de Caracteres**
   - Dividir texto em caracteres individuais
   - Criar máscaras para cada caractere

4. **Métricas** → **Avaliação de OCR**
   - Adaptar métricas para texto
   - Medir precisão de reconhecimento

### 🚀 **Evolução Natural:**

- **Tarefas Gerais** → **Aplicação Específica**
- **Objetos Visuais** → **Caracteres de Texto**
- **Classificação Simples** → **Reconhecimento Sequencial**
- **Métricas Visuais** → **Métricas de Texto**

Esta transição marca o início da **aplicação especializada** em reconhecimento de texto!

## 🖼️ Imagens de Referência - Módulo 5

![Arquiteturas de Detecção](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/arquiteturas_deteccao.png)

![Arquiteturas de Segmentação](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/arquiteturas_segmentacao.png)

![Comparação das Tarefas](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/comparacao_tarefas.png)

![Evolução das Tarefas](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/evolucao_tarefas.png)

![Métricas de Avaliação](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/metricas_avaliacao.png)

