# M√≥dulo 5: Tarefas Fundamentais em Vis√£o Computacional

## üéØ Objetivos de Aprendizagem

Ao final deste m√≥dulo, voc√™ ser√° capaz de:

- ‚úÖ Dominar as principais tarefas de vis√£o computacional
- ‚úÖ Compreender diferen√ßas entre classifica√ß√£o, detec√ß√£o e segmenta√ß√£o
- ‚úÖ Conhecer arquiteturas espec√≠ficas para cada tarefa
- ‚úÖ Implementar solu√ß√µes pr√°ticas com PyTorch
- ‚úÖ Analisar m√©tricas de avalia√ß√£o espec√≠ficas

---

## üè∑Ô∏è 5.1 Classifica√ß√£o de Imagens

### Conceito Fundamental

**Classifica√ß√£o de Imagens** √© a tarefa de atribuir uma ou mais labels (etiquetas) a uma imagem completa, determinando a categoria ou classe √† qual ela pertence.

![Classifica√ß√£o de Imagens](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/classificacao_imagens.png)

### Defini√ß√£o e Caracter√≠sticas

**Defini√ß√£o:**
- **Entrada**: Uma imagem completa
- **Sa√≠da**: Uma ou mais classes/categorias
- **Objetivo**: Determinar "o que" est√° na imagem
- **Granularidade**: N√≠vel de imagem inteira

**Caracter√≠sticas Principais:**
- **Uma imagem = Uma classe**: Cada imagem recebe uma label principal
- **Classes mutuamente exclusivas**: Geralmente uma classe por imagem
- **Classifica√ß√£o multi-label**: Poss√≠vel em alguns casos
- **Hier√°rquica**: Classes podem ter subclasses

### Tipos de Classifica√ß√£o

#### **1. Classifica√ß√£o Bin√°ria**
- **Duas classes**: Sim/N√£o, Positivo/Negativo
- **Aplica√ß√µes**: Detec√ß√£o de spam, diagn√≥stico m√©dico
- **M√©tricas**: Accuracy, Precision, Recall, F1-Score

#### **2. Classifica√ß√£o Multiclasse**
- **M√∫ltiplas classes**: C√£o, Gato, P√°ssaro, etc.
- **Aplica√ß√µes**: Reconhecimento de objetos, categoriza√ß√£o
- **M√©tricas**: Accuracy, Confusion Matrix

#### **3. Classifica√ß√£o Multilabel**
- **M√∫ltiplas labels**: Uma imagem pode ter v√°rias classes
- **Aplica√ß√µes**: An√°lise de conte√∫do, tags
- **M√©tricas**: Hamming Loss, Jaccard Index

### Arquiteturas Espec√≠ficas

![Arquiteturas de Classifica√ß√£o](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/classificacao_imagens.png)

#### **Modelos Cl√°ssicos:**

| Arquitetura | Caracter√≠sticas | Aplica√ß√£o |
|-------------|-----------------|----------|
| **VGG** | Kernels 3√ó3 uniformes | Classifica√ß√£o geral |
| **ResNet** | Skip connections | Classifica√ß√£o profunda |
| **EfficientNet** | Otimiza√ß√£o de efici√™ncia | Classifica√ß√£o eficiente |
| **DenseNet** | Conex√µes densas | Classifica√ß√£o compacta |

#### **Componentes Essenciais:**
- **Camadas convolucionais**: Extra√ß√£o de caracter√≠sticas
- **Pooling**: Redu√ß√£o de dimensionalidade
- **Fully connected**: Classifica√ß√£o final
- **Softmax**: Probabilidades normalizadas

---

## üîç 5.2 Detec√ß√£o de Objetos

### Conceito Fundamental

**Detec√ß√£o de Objetos** √© a tarefa de localizar e classificar m√∫ltiplos objetos em uma imagem, fornecendo bounding boxes e classes para cada objeto detectado.

![Detec√ß√£o de Objetos](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/deteccao_objetos.png)

### Defini√ß√£o e Caracter√≠sticas

**Defini√ß√£o:**
- **Entrada**: Uma imagem completa
- **Sa√≠da**: Bounding boxes + classes para cada objeto
- **Objetivo**: Determinar "o que" e "onde" est√£o os objetos
- **Granularidade**: N√≠vel de objeto individual

**Caracter√≠sticas Principais:**
- **M√∫ltiplos objetos**: Uma imagem pode conter v√°rios objetos
- **Localiza√ß√£o precisa**: Coordenadas dos bounding boxes
- **Classifica√ß√£o simult√¢nea**: Classe de cada objeto detectado
- **Tamanhos variados**: Objetos de diferentes escalas

### Arquiteturas Espec√≠ficas

#### **1. R-CNN Family**

**R-CNN (2014):**
- **Regi√£o proposta**: Selective Search
- **Classifica√ß√£o**: CNN para cada regi√£o
- **Desvantagem**: Muito lento

**Fast R-CNN (2015):**
- **Melhoria**: ROI Pooling
- **Velocidade**: Mais r√°pido que R-CNN
- **Ainda lento**: Selective Search

**Faster R-CNN (2016):**
- **Inova√ß√£o**: RPN (Region Proposal Network)
- **Velocidade**: Muito mais r√°pido
- **Precis√£o**: Alta precis√£o

#### **2. YOLO Family**

**YOLO (2016):**
- **Abordagem**: Detec√ß√£o em uma passada
- **Velocidade**: Muito r√°pido
- **Precis√£o**: Boa para objetos grandes

**YOLOv2 (2017):**
- **Melhorias**: Batch normalization, anchor boxes
- **Precis√£o**: Melhor que YOLO original

**YOLOv3 (2018):**
- **Inova√ß√µes**: Multi-scale, feature pyramid
- **Performance**: Boa precis√£o e velocidade

**YOLOv4+ (2020+):**
- **Otimiza√ß√µes**: CSP, PAN, SAM
- **Performance**: Estado da arte

#### **3. SSD (Single Shot Detector)**

**Caracter√≠sticas:**
- **Detec√ß√£o em uma passada**: Como YOLO
- **Multi-scale**: Diferentes escalas
- **Velocidade**: R√°pido
- **Precis√£o**: Boa para objetos m√©dios

### M√©tricas de Avalia√ß√£o

#### **mAP (mean Average Precision)**
- **Defini√ß√£o**: M√©dia das APs para cada classe
- **C√°lculo**: AP = √Årea sob curva Precision-Recall
- **Interpreta√ß√£o**: Maior mAP = Melhor performance

#### **IoU (Intersection over Union)**
- **Defini√ß√£o**: Sobreposi√ß√£o entre predi√ß√£o e ground truth
- **C√°lculo**: IoU = Intersec√ß√£o / Uni√£o
- **Threshold**: Geralmente 0.5 para detec√ß√£o

---

## üé® 5.3 Segmenta√ß√£o de Imagens

### Conceito Fundamental

**Segmenta√ß√£o de Imagens** √© a tarefa de dividir uma imagem em regi√µes significativas, atribuindo cada pixel a uma classe espec√≠fica.

![Segmenta√ß√£o de Imagens](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/segmentacao_imagens.png)

### Tipos de Segmenta√ß√£o

#### **1. Segmenta√ß√£o Sem√¢ntica**
- **Objetivo**: Classificar cada pixel
- **Sa√≠da**: Mapa de classes por pixel
- **Aplica√ß√µes**: An√°lise de cenas, medicina
- **Exemplo**: Todos os pixels de "carro" t√™m a mesma classe

#### **2. Segmenta√ß√£o de Inst√¢ncia**
- **Objetivo**: Separar inst√¢ncias individuais
- **Sa√≠da**: Mapa de inst√¢ncias por pixel
- **Aplica√ß√µes**: Contagem de objetos, an√°lise de tr√°fego
- **Exemplo**: Cada carro tem uma inst√¢ncia diferente

#### **3. Segmenta√ß√£o Pan√≥ptica**
- **Objetivo**: Combina√ß√£o de sem√¢ntica e inst√¢ncia
- **Sa√≠da**: Classes + inst√¢ncias por pixel
- **Aplica√ß√µes**: An√°lise completa de cenas
- **Exemplo**: Classes para coisas + inst√¢ncias para objetos

### Arquiteturas Espec√≠ficas

#### **1. U-Net**

**Caracter√≠sticas:**
- **Arquitetura em U**: Encoder-Decoder
- **Skip connections**: Conex√µes diretas
- **Aplica√ß√£o**: Segmenta√ß√£o m√©dica
- **Vantagem**: Funciona bem com poucos dados

**Estrutura:**
```
Encoder: Conv ‚Üí Pool ‚Üí Conv ‚Üí Pool ‚Üí ...
Decoder: Upsample ‚Üí Conv ‚Üí Upsample ‚Üí Conv ‚Üí ...
Skip: Conex√µes diretas entre encoder e decoder
```

#### **2. FCN (Fully Convolutional Networks)**

**Caracter√≠sticas:**
- **Sem camadas FC**: Apenas convolu√ß√µes
- **Upsampling**: Deconvolution para aumentar resolu√ß√£o
- **Aplica√ß√£o**: Segmenta√ß√£o geral
- **Vantagem**: Arquitetura simples

#### **3. DeepLab**

**Caracter√≠sticas:**
- **Atrous Convolution**: Dilated convolutions
- **ASPP**: Atrous Spatial Pyramid Pooling
- **Aplica√ß√£o**: Segmenta√ß√£o de alta resolu√ß√£o
- **Vantagem**: Boa precis√£o em bordas

### M√©tricas de Avalia√ß√£o

#### **Pixel Accuracy**
- **Defini√ß√£o**: Porcentagem de pixels corretos
- **C√°lculo**: Pixels corretos / Total de pixels
- **Limita√ß√£o**: N√£o considera desbalanceamento de classes

#### **Mean IoU**
- **Defini√ß√£o**: M√©dia dos IoUs para cada classe
- **C√°lculo**: IoU = Intersec√ß√£o / Uni√£o por classe
- **Vantagem**: Considera todas as classes igualmente

#### **Dice Coefficient**
- **Defini√ß√£o**: Sobreposi√ß√£o entre predi√ß√£o e ground truth
- **C√°lculo**: Dice = 2 * Intersec√ß√£o / (Predi√ß√£o + Ground Truth)
- **Aplica√ß√£o**: Especialmente √∫til para segmenta√ß√£o m√©dica

---

## üîç 5.4 Demonstra√ß√£o Pr√°tica: Classifica√ß√£o de Imagens

Vamos implementar e visualizar diferentes aspectos da classifica√ß√£o:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision.transforms as transforms
from torchvision import models
import matplotlib.pyplot as plt
import numpy as np
import cv2
from PIL import Image

class ImageClassificationDemo:
    """Demonstra√ß√£o de classifica√ß√£o de imagens"""
    
    def __init__(self):
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
    def create_sample_images(self):
        """Cria imagens de exemplo para demonstra√ß√£o"""
        
        # Criar imagens sint√©ticas representando diferentes classes
        images = {}
        
        # Classe 1: C√≠rculos
        img_circle = np.zeros((224, 224, 3), dtype=np.uint8)
        cv2.circle(img_circle, (112, 112), 50, (255, 0, 0), -1)
        cv2.circle(img_circle, (112, 112), 30, (0, 255, 0), -1)
        images['circle'] = img_circle
        
        # Classe 2: Ret√¢ngulos
        img_rect = np.zeros((224, 224, 3), dtype=np.uint8)
        cv2.rectangle(img_rect, (50, 50), (174, 174), (0, 0, 255), -1)
        cv2.rectangle(img_rect, (80, 80), (144, 144), (255, 255, 0), -1)
        images['rectangle'] = img_rect
        
        # Classe 3: Tri√¢ngulos
        img_triangle = np.zeros((224, 224, 3), dtype=np.uint8)
        pts = np.array([[112, 50], [50, 174], [174, 174]], np.int32)
        cv2.fillPoly(img_triangle, [pts], (255, 0, 255))
        images['triangle'] = img_triangle
        
        # Classe 4: Linhas
        img_lines = np.zeros((224, 224, 3), dtype=np.uint8)
        cv2.line(img_lines, (50, 50), (174, 174), (0, 255, 255), 5)
        cv2.line(img_lines, (174, 50), (50, 174), (255, 255, 0), 5)
        images['lines'] = img_lines
        
        # Classe 5: Ru√≠do
        img_noise = np.random.randint(0, 256, (224, 224, 3), dtype=np.uint8)
        images['noise'] = img_noise
        
        return images
    
    def create_simple_classifier(self, num_classes=5):
        """Cria um classificador simples"""
        
        class SimpleClassifier(nn.Module):
            def __init__(self, num_classes):
                super(SimpleClassifier, self).__init__()
                
                # Camadas convolucionais
                self.conv1 = nn.Conv2d(3, 32, kernel_size=5, stride=2, padding=2)
                self.conv2 = nn.Conv2d(32, 64, kernel_size=5, stride=2, padding=2)
                self.conv3 = nn.Conv2d(64, 128, kernel_size=5, stride=2, padding=2)
                
                # Pooling
                self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
                
                # Fully connected
                self.fc1 = nn.Linear(128 * 3 * 3, 256)
                self.fc2 = nn.Linear(256, num_classes)
                
                # Dropout
                self.dropout = nn.Dropout(0.5)
                
            def forward(self, x):
                # Camadas convolucionais
                x = F.relu(self.conv1(x))
                x = self.pool(x)
                x = F.relu(self.conv2(x))
                x = self.pool(x)
                x = F.relu(self.conv3(x))
                x = self.pool(x)
                
                # Flatten
                x = x.view(-1, 128 * 3 * 3)
                
                # Fully connected
                x = F.relu(self.fc1(x))
                x = self.dropout(x)
                x = self.fc2(x)
                
                return x
        
        return SimpleClassifier(num_classes)
    
    def simulate_classification(self, images, model):
        """Simula classifica√ß√£o das imagens"""
        
        model.eval()
        results = {}
        
        # Definir classes
        classes = ['circle', 'rectangle', 'triangle', 'lines', 'noise']
        
        for class_name, img in images.items():
            # Converter para tensor
            img_tensor = torch.FloatTensor(img).permute(2, 0, 1).unsqueeze(0) / 255.0
            
            # Simular predi√ß√£o
            with torch.no_grad():
                # Criar predi√ß√£o simulada baseada na classe real
                if class_name == 'circle':
                    pred = torch.tensor([[0.8, 0.1, 0.05, 0.03, 0.02]])
                elif class_name == 'rectangle':
                    pred = torch.tensor([[0.1, 0.8, 0.05, 0.03, 0.02]])
                elif class_name == 'triangle':
                    pred = torch.tensor([[0.05, 0.1, 0.8, 0.03, 0.02]])
                elif class_name == 'lines':
                    pred = torch.tensor([[0.03, 0.05, 0.1, 0.8, 0.02]])
                else:  # noise
                    pred = torch.tensor([[0.02, 0.03, 0.05, 0.1, 0.8]])
                
                # Aplicar softmax
                pred = F.softmax(pred, dim=1)
                
                # Obter classe predita
                predicted_class = torch.argmax(pred, dim=1).item()
                confidence = pred[0, predicted_class].item()
                
                results[class_name] = {
                    'image': img,
                    'true_class': class_name,
                    'predicted_class': classes[predicted_class],
                    'confidence': confidence,
                    'probabilities': pred[0].numpy()
                }
        
        return results
    
    def visualize_classification_results(self, results):
        """Visualiza resultados da classifica√ß√£o"""
        
        fig, axes = plt.subplots(2, 5, figsize=(20, 8))
        
        classes = ['circle', 'rectangle', 'triangle', 'lines', 'noise']
        
        for i, class_name in enumerate(classes):
            result = results[class_name]
            
            # Imagem original
            axes[0, i].imshow(cv2.cvtColor(result['image'], cv2.COLOR_BGR2RGB))
            axes[0, i].set_title(f'Classe Real: {result["true_class"]}\nPredi√ß√£o: {result["predicted_class"]}\nConfian√ßa: {result["confidence"]:.3f}')
            axes[0, i].axis('off')
            
            # Probabilidades
            axes[1, i].bar(classes, result['probabilities'], color=['red', 'blue', 'green', 'orange', 'purple'])
            axes[1, i].set_title('Probabilidades por Classe')
            axes[1, i].set_ylabel('Probabilidade')
            axes[1, i].tick_params(axis='x', rotation=45)
            axes[1, i].set_ylim(0, 1)
        
        plt.tight_layout()
        plt.show()
        
        # An√°lise quantitativa
        print("=== AN√ÅLISE QUANTITATIVA DA CLASSIFICA√á√ÉO ===")
        
        correct_predictions = 0
        total_predictions = len(results)
        
        for class_name, result in results.items():
            is_correct = result['true_class'] == result['predicted_class']
            if is_correct:
                correct_predictions += 1
            
            print(f"\n{class_name.upper()}:")
            print(f"  - Classe real: {result['true_class']}")
            print(f"  - Classe predita: {result['predicted_class']}")
            print(f"  - Confian√ßa: {result['confidence']:.3f}")
            print(f"  - Correto: {'Sim' if is_correct else 'N√£o'}")
        
        accuracy = correct_predictions / total_predictions
        print(f"\nACUR√ÅCIA GERAL: {accuracy:.3f} ({correct_predictions}/{total_predictions})")
        
        return results

# Executar demonstra√ß√£o
print("=== DEMONSTRA√á√ÉO: CLASSIFICA√á√ÉO DE IMAGENS ===")
demo = ImageClassificationDemo()
images = demo.create_sample_images()
model = demo.create_simple_classifier()
results = demo.simulate_classification(images, model)
demo.visualize_classification_results(results)

### An√°lise dos Resultados

**Observa√ß√µes Importantes:**

1. **Classifica√ß√£o Bin√°ria**:
   - **Precis√£o**: Alta para classes bem definidas
   - **Confian√ßa**: Alta para padr√µes claros
   - **Aplica√ß√£o**: Detec√ß√£o de spam, diagn√≥stico m√©dico

2. **Classifica√ß√£o Multiclasse**:
   - **Precis√£o**: Boa para classes distintas
   - **Confian√ßa**: Vari√°vel dependendo da complexidade
   - **Aplica√ß√£o**: Reconhecimento de objetos, categoriza√ß√£o

3. **Classifica√ß√£o Multilabel**:
   - **Precis√£o**: Desafiadora para m√∫ltiplas labels
   - **Confian√ßa**: Pode ser baixa para labels raras
   - **Aplica√ß√£o**: An√°lise de conte√∫do, tags

---

## üîç 5.5 Demonstra√ß√£o Pr√°tica: Detec√ß√£o de Objetos

Vamos implementar e visualizar detec√ß√£o de objetos:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import cv2
from matplotlib.patches import Rectangle

class ObjectDetectionDemo:
    """Demonstra√ß√£o de detec√ß√£o de objetos"""
    
    def __init__(self):
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
    def create_sample_scene(self):
        """Cria uma cena de exemplo com m√∫ltiplos objetos"""
        
        # Criar imagem de fundo
        img = np.ones((400, 600, 3), dtype=np.uint8) * 255
        
        # Adicionar objetos
        objects = []
        
        # Objeto 1: C√≠rculo (classe 0)
        cv2.circle(img, (150, 100), 40, (255, 0, 0), -1)
        objects.append({'class': 0, 'bbox': [110, 60, 190, 140], 'name': 'circle'})
        
        # Objeto 2: Ret√¢ngulo (classe 1)
        cv2.rectangle(img, (300, 80), (450, 180), (0, 255, 0), -1)
        objects.append({'class': 1, 'bbox': [300, 80, 450, 180], 'name': 'rectangle'})
        
        # Objeto 3: Tri√¢ngulo (classe 2)
        pts = np.array([[500, 50], [450, 150], [550, 150]], np.int32)
        cv2.fillPoly(img, [pts], (0, 0, 255))
        objects.append({'class': 2, 'bbox': [450, 50, 550, 150], 'name': 'triangle'})
        
        # Objeto 4: C√≠rculo pequeno (classe 0)
        cv2.circle(img, (200, 300), 25, (255, 255, 0), -1)
        objects.append({'class': 0, 'bbox': [175, 275, 225, 325], 'name': 'circle'})
        
        # Objeto 5: Ret√¢ngulo pequeno (classe 1)
        cv2.rectangle(img, (400, 280), (500, 320), (255, 0, 255), -1)
        objects.append({'class': 1, 'bbox': [400, 280, 500, 320], 'name': 'rectangle'})
        
        return img, objects
    
    def simulate_object_detection(self, img, objects):
        """Simula detec√ß√£o de objetos"""
        
        # Simular detec√ß√µes com algumas imprecis√µes
        detections = []
        
        for obj in objects:
            # Adicionar ru√≠do √†s coordenadas
            noise_x = np.random.randint(-10, 11)
            noise_y = np.random.randint(-10, 11)
            noise_w = np.random.randint(-5, 6)
            noise_h = np.random.randint(-5, 6)
            
            # Coordenadas com ru√≠do
            x1 = max(0, obj['bbox'][0] + noise_x)
            y1 = max(0, obj['bbox'][1] + noise_y)
            x2 = min(img.shape[1], obj['bbox'][2] + noise_w)
            y2 = min(img.shape[0], obj['bbox'][3] + noise_h)
            
            # Simular confian√ßa
            confidence = np.random.uniform(0.7, 0.95)
            
            detections.append({
                'class': obj['class'],
                'bbox': [x1, y1, x2, y2],
                'confidence': confidence,
                'name': obj['name']
            })
        
        # Adicionar falsos positivos
        false_positives = 2
        for _ in range(false_positives):
            x1 = np.random.randint(0, img.shape[1] - 50)
            y1 = np.random.randint(0, img.shape[0] - 50)
            x2 = x1 + np.random.randint(20, 80)
            y2 = y1 + np.random.randint(20, 80)
            
            detections.append({
                'class': np.random.randint(0, 3),
                'bbox': [x1, y1, x2, y2],
                'confidence': np.random.uniform(0.3, 0.6),
                'name': 'false_positive'
            })
        
        return detections
    
    def calculate_iou(self, box1, box2):
        """Calcula IoU entre duas caixas"""
        
        # Coordenadas das caixas
        x1_1, y1_1, x2_1, y2_1 = box1
        x1_2, y1_2, x2_2, y2_2 = box2
        
        # Calcular interse√ß√£o
        x1_i = max(x1_1, x1_2)
        y1_i = max(y1_1, y1_2)
        x2_i = min(x2_1, x2_2)
        y2_i = min(y2_1, y2_2)
        
        if x2_i <= x1_i or y2_i <= y1_i:
            return 0.0
        
        intersection = (x2_i - x1_i) * (y2_i - y1_i)
        
        # Calcular uni√£o
        area1 = (x2_1 - x1_1) * (y2_1 - y1_1)
        area2 = (x2_2 - x1_2) * (y2_2 - y1_2)
        union = area1 + area2 - intersection
        
        return intersection / union if union > 0 else 0.0
    
    def visualize_detection_results(self, img, objects, detections):
        """Visualiza resultados da detec√ß√£o"""
        
        fig, axes = plt.subplots(1, 3, figsize=(18, 6))
        
        # Imagem original
        axes[0].imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
        axes[0].set_title('Imagem Original')
        axes[0].axis('off')
        
        # Ground truth
        axes[1].imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
        colors = ['red', 'blue', 'green']
        for obj in objects:
            x1, y1, x2, y2 = obj['bbox']
            rect = Rectangle((x1, y1), x2-x1, y2-y1, linewidth=2, edgecolor=colors[obj['class']], facecolor='none')
            axes[1].add_patch(rect)
            axes[1].text(x1, y1-5, f'{obj["name"]}', fontsize=10, color=colors[obj['class']])
        axes[1].set_title('Ground Truth')
        axes[1].axis('off')
        
        # Detec√ß√µes
        axes[2].imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
        for det in detections:
            x1, y1, x2, y2 = det['bbox']
            color = colors[det['class']] if det['name'] != 'false_positive' else 'orange'
            rect = Rectangle((x1, y1), x2-x1, y2-y1, linewidth=2, edgecolor=color, facecolor='none')
            axes[2].add_patch(rect)
            axes[2].text(x1, y1-5, f'{det["name"]} ({det["confidence"]:.2f})', fontsize=10, color=color)
        axes[2].set_title('Detec√ß√µes')
        axes[2].axis('off')
        
        plt.tight_layout()
        plt.show()
        
        # An√°lise quantitativa
        print("=== AN√ÅLISE QUANTITATIVA DA DETEC√á√ÉO ===")
        
        # Calcular m√©tricas
        true_positives = 0
        false_positives = 0
        false_negatives = 0
        
        # Para cada detec√ß√£o
        for det in detections:
            if det['name'] == 'false_positive':
                false_positives += 1
            else:
                # Verificar se h√° overlap com ground truth
                max_iou = 0
                for obj in objects:
                    if obj['class'] == det['class']:
                        iou = self.calculate_iou(det['bbox'], obj['bbox'])
                        max_iou = max(max_iou, iou)
                
                if max_iou > 0.5:  # Threshold para considerar TP
                    true_positives += 1
                else:
                    false_positives += 1
        
        # Calcular false negatives
        for obj in objects:
            max_iou = 0
            for det in detections:
                if det['name'] != 'false_positive' and det['class'] == obj['class']:
                    iou = self.calculate_iou(det['bbox'], obj['bbox'])
                    max_iou = max(max_iou, iou)
            
            if max_iou < 0.5:
                false_negatives += 1
        
        # Calcular m√©tricas
        precision = true_positives / (true_positives + false_positives) if (true_positives + false_positives) > 0 else 0
        recall = true_positives / (true_positives + false_negatives) if (true_positives + false_negatives) > 0 else 0
        f1_score = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
        
        print(f"\nM√©tricas de Detec√ß√£o:")
        print(f"  - True Positives: {true_positives}")
        print(f"  - False Positives: {false_positives}")
        print(f"  - False Negatives: {false_negatives}")
        print(f"  - Precision: {precision:.3f}")
        print(f"  - Recall: {recall:.3f}")
        print(f"  - F1-Score: {f1_score:.3f}")
        
        return {
            'true_positives': true_positives,
            'false_positives': false_positives,
            'false_negatives': false_negatives,
            'precision': precision,
            'recall': recall,
            'f1_score': f1_score
        }

# Executar demonstra√ß√£o
print("=== DEMONSTRA√á√ÉO: DETEC√á√ÉO DE OBJETOS ===")
detection_demo = ObjectDetectionDemo()
img, objects = detection_demo.create_sample_scene()
detections = detection_demo.simulate_object_detection(img, objects)
metrics = detection_demo.visualize_detection_results(img, objects, detections)

### An√°lise dos Resultados

**Observa√ß√µes Importantes:**

1. **True Positives**:
   - **Detec√ß√µes corretas**: Objetos encontrados com IoU > 0.5
   - **Confian√ßa**: Geralmente alta para detec√ß√µes corretas
   - **Localiza√ß√£o**: Boa precis√£o nas coordenadas

2. **False Positives**:
   - **Detec√ß√µes incorretas**: Objetos que n√£o existem
   - **Confian√ßa**: Geralmente baixa
   - **Causa**: Ru√≠do, padr√µes similares

3. **False Negatives**:
   - **Objetos n√£o detectados**: Objetos que existem mas n√£o foram encontrados
   - **Causa**: Objetos pequenos, oclus√£o, baixa qualidade

---

## üé® 5.6 Demonstra√ß√£o Pr√°tica: Segmenta√ß√£o de Imagens

Vamos implementar e visualizar segmenta√ß√£o de imagens:

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import matplotlib.pyplot as plt
import numpy as np
import cv2
from matplotlib.colors import ListedColormap

class ImageSegmentationDemo:
    """Demonstra√ß√£o de segmenta√ß√£o de imagens"""
    
    def __init__(self):
        self.device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
        
    def create_sample_scene(self):
        """Cria uma cena de exemplo para segmenta√ß√£o"""
        
        # Criar imagem de fundo
        img = np.ones((300, 400, 3), dtype=np.uint8) * 128  # Fundo cinza
        
        # Adicionar objetos com diferentes classes
        
        # Classe 1: C√≠rculo azul (c√©u)
        cv2.circle(img, (200, 80), 60, (255, 200, 100), -1)
        
        # Classe 2: Ret√¢ngulo verde (grama)
        cv2.rectangle(img, (50, 200), (350, 300), (100, 255, 100), -1)
        
        # Classe 3: Tri√¢ngulo marrom (montanha)
        pts = np.array([[100, 150], [50, 200], [150, 200]], np.int32)
        cv2.fillPoly(img, [pts], (150, 100, 50))
        
        # Classe 4: Ret√¢ngulo azul (√°gua)
        cv2.rectangle(img, (200, 220), (350, 280), (100, 150, 255), -1)
        
        # Classe 5: C√≠rculo pequeno amarelo (sol)
        cv2.circle(img, (320, 60), 25, (255, 255, 100), -1)
        
        return img
    
    def create_ground_truth_mask(self, img):
        """Cria m√°scara de ground truth para segmenta√ß√£o"""
        
        # Criar m√°scara baseada na imagem
        mask = np.zeros((img.shape[0], img.shape[1]), dtype=np.uint8)
        
        # Classe 0: Fundo
        mask[:] = 0
        
        # Classe 1: C√©u (c√≠rculo azul)
        cv2.circle(mask, (200, 80), 60, 1, -1)
        
        # Classe 2: Grama (ret√¢ngulo verde)
        cv2.rectangle(mask, (50, 200), (350, 300), 2, -1)
        
        # Classe 3: Montanha (tri√¢ngulo marrom)
        pts = np.array([[100, 150], [50, 200], [150, 200]], np.int32)
        cv2.fillPoly(mask, [pts], 3)
        
        # Classe 4: √Ågua (ret√¢ngulo azul)
        cv2.rectangle(mask, (200, 220), (350, 280), 4, -1)
        
        # Classe 5: Sol (c√≠rculo amarelo)
        cv2.circle(mask, (320, 60), 25, 5, -1)
        
        return mask
    
    def simulate_segmentation(self, img, ground_truth):
        """Simula segmenta√ß√£o com algumas imprecis√µes"""
        
        # Criar predi√ß√£o simulada
        prediction = ground_truth.copy()
        
        # Adicionar ru√≠do
        noise = np.random.randint(0, 6, prediction.shape)
        
        # Aplicar ru√≠do em algumas regi√µes
        for i in range(prediction.shape[0]):
            for j in range(prediction.shape[1]):
                if np.random.random() < 0.1:  # 10% de chance de erro
                    prediction[i, j] = noise[i, j]
        
        # Suavizar bordas
        prediction = cv2.medianBlur(prediction, 3)
        
        return prediction
    
    def calculate_segmentation_metrics(self, ground_truth, prediction):
        """Calcula m√©tricas de segmenta√ß√£o"""
        
        # Pixel Accuracy
        pixel_accuracy = np.mean(ground_truth == prediction)
        
        # Mean IoU
        num_classes = 6  # 0-5
        ious = []
        
        for class_id in range(num_classes):
            gt_mask = (ground_truth == class_id)
            pred_mask = (prediction == class_id)
            
            intersection = np.sum(gt_mask & pred_mask)
            union = np.sum(gt_mask | pred_mask)
            
            if union > 0:
                iou = intersection / union
                ious.append(iou)
            else:
                ious.append(0.0)
        
        mean_iou = np.mean(ious)
        
        # Dice Coefficient
        dice_coeffs = []
        
        for class_id in range(num_classes):
            gt_mask = (ground_truth == class_id)
            pred_mask = (prediction == class_id)
            
            intersection = np.sum(gt_mask & pred_mask)
            total = np.sum(gt_mask) + np.sum(pred_mask)
            
            if total > 0:
                dice = 2 * intersection / total
                dice_coeffs.append(dice)
            else:
                dice_coeffs.append(0.0)
        
        mean_dice = np.mean(dice_coeffs)
        
        return {
            'pixel_accuracy': pixel_accuracy,
            'mean_iou': mean_iou,
            'mean_dice': mean_dice,
            'class_ious': ious,
            'class_dices': dice_coeffs
        }
    
    def visualize_segmentation_results(self, img, ground_truth, prediction, metrics):
        """Visualiza resultados da segmenta√ß√£o"""
        
        fig, axes = plt.subplots(2, 3, figsize=(18, 12))
        
        # Imagem original
        axes[0, 0].imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
        axes[0, 0].set_title('Imagem Original')
        axes[0, 0].axis('off')
        
        # Ground truth
        colors = ['black', 'lightblue', 'green', 'brown', 'blue', 'yellow']
        cmap = ListedColormap(colors)
        axes[0, 1].imshow(ground_truth, cmap=cmap, vmin=0, vmax=5)
        axes[0, 1].set_title('Ground Truth')
        axes[0, 1].axis('off')
        
        # Predi√ß√£o
        axes[0, 2].imshow(prediction, cmap=cmap, vmin=0, vmax=5)
        axes[0, 2].set_title('Predi√ß√£o')
        axes[0, 2].axis('off')
        
        # Diferen√ßas
        diff = np.abs(ground_truth.astype(float) - prediction.astype(float))
        axes[1, 0].imshow(diff, cmap='hot')
        axes[1, 0].set_title('Diferen√ßas (Ground Truth vs Predi√ß√£o)')
        axes[1, 0].axis('off')
        
        # M√©tricas por classe
        class_names = ['Fundo', 'C√©u', 'Grama', 'Montanha', '√Ågua', 'Sol']
        x = np.arange(len(class_names))
        
        axes[1, 1].bar(x, metrics['class_ious'], color=colors, alpha=0.7)
        axes[1, 1].set_title('IoU por Classe')
        axes[1, 1].set_xlabel('Classe')
        axes[1, 1].set_ylabel('IoU')
        axes[1, 1].set_xticks(x)
        axes[1, 1].set_xticklabels(class_names, rotation=45)
        axes[1, 1].set_ylim(0, 1)
        
        # M√©tricas gerais
        metric_names = ['Pixel\nAccuracy', 'Mean\nIoU', 'Mean\nDice']
        metric_values = [metrics['pixel_accuracy'], metrics['mean_iou'], metrics['mean_dice']]
        
        axes[1, 2].bar(metric_names, metric_values, color=['blue', 'green', 'red'], alpha=0.7)
        axes[1, 2].set_title('M√©tricas Gerais')
        axes[1, 2].set_ylabel('Valor')
        axes[1, 2].set_ylim(0, 1)
        
        plt.tight_layout()
        plt.show()
        
        # An√°lise quantitativa
        print("=== AN√ÅLISE QUANTITATIVA DA SEGMENTA√á√ÉO ===")
        
        print(f"\nM√©tricas Gerais:")
        print(f"  - Pixel Accuracy: {metrics['pixel_accuracy']:.3f}")
        print(f"  - Mean IoU: {metrics['mean_iou']:.3f}")
        print(f"  - Mean Dice: {metrics['mean_dice']:.3f}")
        
        print(f"\nM√©tricas por Classe:")
        for i, class_name in enumerate(class_names):
            print(f"  - {class_name}: IoU={metrics['class_ious'][i]:.3f}, Dice={metrics['class_dices'][i]:.3f}")
        
        return metrics

# Executar demonstra√ß√£o
print("=== DEMONSTRA√á√ÉO: SEGMENTA√á√ÉO DE IMAGENS ===")
segmentation_demo = ImageSegmentationDemo()
img = segmentation_demo.create_sample_scene()
ground_truth = segmentation_demo.create_ground_truth_mask(img)
prediction = segmentation_demo.simulate_segmentation(img, ground_truth)
metrics = segmentation_demo.calculate_segmentation_metrics(ground_truth, prediction)
segmentation_demo.visualize_segmentation_results(img, ground_truth, prediction, metrics)

### An√°lise dos Resultados

**Observa√ß√µes Importantes:**

1. **Segmenta√ß√£o Sem√¢ntica**:
   - **Precis√£o**: Boa para classes bem definidas
   - **IoU**: Vari√°vel dependendo da complexidade da classe
   - **Aplica√ß√£o**: An√°lise de cenas, medicina

2. **Segmenta√ß√£o de Inst√¢ncia**:
   - **Precis√£o**: Desafiadora para objetos sobrepostos
   - **IoU**: Pode ser baixa para inst√¢ncias pequenas
   - **Aplica√ß√£o**: Contagem de objetos, an√°lise de tr√°fego

3. **Segmenta√ß√£o Pan√≥ptica**:
   - **Precis√£o**: Combina√ß√£o de sem√¢ntica e inst√¢ncia
   - **IoU**: Balance entre classes e inst√¢ncias
   - **Aplica√ß√£o**: An√°lise completa de cenas

---

## üìù Resumo do M√≥dulo 5

### Principais Conceitos Abordados

1. **Classifica√ß√£o**: Determinar "o que" est√° na imagem
2. **Detec√ß√£o**: Determinar "o que" e "onde" est√£o os objetos
3. **Segmenta√ß√£o**: Determinar "o que" est√° em cada pixel
4. **Arquiteturas**: Espec√≠ficas para cada tarefa
5. **M√©tricas**: Avalia√ß√£o adequada para cada tarefa

### Demonstra√ß√µes Pr√°ticas

**1. Classifica√ß√£o de Imagens:**
   - Implementa√ß√£o de classificador simples
   - An√°lise de probabilidades por classe
   - C√°lculo de acur√°cia

**2. Detec√ß√£o de Objetos:**
   - Simula√ß√£o de detec√ß√£o com bounding boxes
   - C√°lculo de IoU e m√©tricas de detec√ß√£o
   - An√°lise de true/false positives/negatives

**3. Segmenta√ß√£o de Imagens:**
   - Cria√ß√£o de m√°scaras de segmenta√ß√£o
   - C√°lculo de m√©tricas de segmenta√ß√£o
   - An√°lise de performance por classe

### Pr√≥ximos Passos

No **M√≥dulo 6**, aplicaremos essas t√©cnicas em **OCR e Reconhecimento de Texto**, uma aplica√ß√£o espec√≠fica de vis√£o computacional.

### Refer√™ncias Principais

- [ImageNet Classification with Deep Convolutional Neural Networks - Krizhevsky et al.](https://papers.nips.cc/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html)
- [Rich feature hierarchies for accurate object detection and semantic segmentation - Girshick et al.](https://arxiv.org/abs/1311.2524)

---

**Pr√≥ximo M√≥dulo**: OCR e Reconhecimento de Texto

## üéØ Conex√£o com o Pr√≥ximo M√≥dulo

Agora que dominamos as **tarefas fundamentais** de vis√£o computacional, estamos preparados para aplicar essas t√©cnicas em **OCR e Reconhecimento de Texto**.

No **M√≥dulo 6**, veremos como:

### üîó **Conex√µes Diretas:**

1. **Classifica√ß√£o** ‚Üí **Reconhecimento de Caracteres**
   - Classificar cada caractere em uma categoria
   - Aplicar CNNs para reconhecimento de padr√µes

2. **Detec√ß√£o** ‚Üí **Localiza√ß√£o de Texto**
   - Encontrar regi√µes de texto na imagem
   - Usar bounding boxes para delimitar texto

3. **Segmenta√ß√£o** ‚Üí **Separa√ß√£o de Caracteres**
   - Dividir texto em caracteres individuais
   - Criar m√°scaras para cada caractere

4. **M√©tricas** ‚Üí **Avalia√ß√£o de OCR**
   - Adaptar m√©tricas para texto
   - Medir precis√£o de reconhecimento

### üöÄ **Evolu√ß√£o Natural:**

- **Tarefas Gerais** ‚Üí **Aplica√ß√£o Espec√≠fica**
- **Objetos Visuais** ‚Üí **Caracteres de Texto**
- **Classifica√ß√£o Simples** ‚Üí **Reconhecimento Sequencial**
- **M√©tricas Visuais** ‚Üí **M√©tricas de Texto**

Esta transi√ß√£o marca o in√≠cio da **aplica√ß√£o especializada** em reconhecimento de texto!

## üñºÔ∏è Imagens de Refer√™ncia - M√≥dulo 5

![Arquiteturas de Detec√ß√£o](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/arquiteturas_deteccao.png)

![Arquiteturas de Segmenta√ß√£o](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/arquiteturas_segmentacao.png)

![Compara√ß√£o das Tarefas](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/comparacao_tarefas.png)

![Evolu√ß√£o das Tarefas](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/evolucao_tarefas.png)

![M√©tricas de Avalia√ß√£o](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/metricas_avaliacao.png)

