# Módulo 5: Tarefas Fundamentais em Visão Computacional

## 🎯 Objetivos de Aprendizagem

Ao final deste módulo, você será capaz de:

- ✅ Dominar as principais tarefas de visão computacional
- ✅ Compreender diferenças entre classificação, detecção e segmentação
- ✅ Conhecer arquiteturas específicas para cada tarefa
- ✅ Implementar soluções práticas com PyTorch
- ✅ Analisar métricas de avaliação específicas

---

## 🏷️ 5.1 Classificação de Imagens

### Conceito Fundamental

**Classificação de Imagens** é a tarefa de atribuir uma ou mais labels (etiquetas) a uma imagem completa, determinando a categoria ou classe à qual ela pertence.

![Classificação de Imagens](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/classificacao_imagens.png)

### Definição e Características

**Definição:**
- **Entrada**: Uma imagem completa
- **Saída**: Uma ou mais classes/categorias
- **Objetivo**: Determinar "o que" está na imagem
- **Granularidade**: Nível de imagem inteira

### 📚 **Referência Prática: TensorFlow Classification Tutorial**

O [tutorial oficial do TensorFlow](https://www.tensorflow.org/tutorials/images/classification) demonstra classificação de imagens de flores usando `tf.keras.Sequential` e carregamento eficiente de dados com `tf.keras.utils.image_dataset_from_directory`. O tutorial aborda:

- **Carregamento eficiente** de datasets do disco
- **Identificação de overfitting** e técnicas de mitigação
- **Data augmentation** e dropout
- **Workflow completo** de machine learning
- **Conversão para TensorFlow Lite** para dispositivos móveis

Este tutorial é essencial para entender a implementação prática de classificação de imagens.

### Tipos de Classificação

#### **1. Classificação Binária**
- **Duas classes**: Sim/Não, Positivo/Negativo
- **Aplicações**: Detecção de spam, diagnóstico médico
- **Métricas**: Accuracy, Precision, Recall, F1-Score

#### **2. Classificação Multiclasse**
- **Múltiplas classes**: Cão, Gato, Pássaro, etc.
- **Aplicações**: Reconhecimento de objetos, categorização
- **Métricas**: Accuracy, Confusion Matrix

#### **3. Classificação Multilabel**
- **Múltiplas labels**: Uma imagem pode ter várias classes
- **Aplicações**: Análise de conteúdo, tags
- **Métricas**: Hamming Loss, Jaccard Index

### Arquiteturas Específicas

![Arquiteturas de Classificação](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/arquiteturas_classificacao.png)

#### **Modelos Clássicos:**

| Arquitetura | Características | Aplicação |
|-------------|-----------------|----------|
| **VGG** | Kernels 3×3 uniformes | Classificação geral |
| **ResNet** | Skip connections | Classificação profunda |
| **EfficientNet** | Otimização de eficiência | Classificação eficiente |
| **DenseNet** | Conexões densas | Classificação compacta |

#### **Componentes Essenciais:**
- **Camadas convolucionais**: Extração de características
- **Pooling**: Redução de dimensionalidade
- **Fully connected**: Classificação final
- **Softmax**: Probabilidades normalizadas

---

## 🎯 5.2 Detecção de Objetos

### Conceito Fundamental

**Detecção de Objetos** é a tarefa de localizar e classificar múltiplos objetos em uma imagem, fornecendo bounding boxes e classes para cada objeto detectado.

![Detecção de Objetos](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/deteccao_objetos.png)

### Definição e Características

**Definição:**
- **Entrada**: Uma imagem completa
- **Saída**: Bounding boxes + classes para cada objeto
- **Objetivo**: Determinar "o que" e "onde" estão os objetos
- **Granularidade**: Nível de objeto individual

### 📚 **Datasets Práticos para Detecção de Objetos**

#### **1. Coke Can Detection Dataset**

O [dataset de detecção de latas de Coca-Cola](https://universe.roboflow.com/antony-p68kw/coke-can-detection-ttylj/dataset/1) é um exemplo prático de detecção de objetos específicos:

- **Objetivo**: Detectar latas de Coca-Cola em imagens
- **Aplicação**: Sistemas de venda automática, contagem de produtos
- **Formato**: Anotações em formato YOLO
- **Tamanho**: Dataset público disponível no Roboflow Universe

#### **2. Can, Bottle and Pack Detection Dataset**

O [dataset de detecção de latas, garrafas e embalagens](https://universe.roboflow.com/recyclorobloai-intern/can-bottle-and-pack-detection/dataset/1) é ideal para aplicações de reciclagem:

- **Objetivo**: Detectar diferentes tipos de embalagens recicláveis
- **Classes**: Latas, garrafas, embalagens
- **Aplicação**: Sistemas de triagem automática de resíduos
- **Impacto**: Sustentabilidade e economia circular

Estes datasets são excelentes para prática e demonstração de técnicas de detecção de objetos.

### Arquiteturas Específicas

![Arquiteturas de Detecção](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/arquiteturas_deteccao.png)

#### **1. R-CNN Family**

**R-CNN (2014):**
- **Região proposta**: Selective Search
- **Classificação**: CNN para cada região
- **Desvantagem**: Muito lento

**Fast R-CNN (2015):**
- **Melhoria**: ROI Pooling
- **Velocidade**: Mais rápido que R-CNN
- **Ainda lento**: Selective Search

**Faster R-CNN (2016):**
- **Inovação**: RPN (Region Proposal Network)
- **Velocidade**: Muito mais rápido
- **Precisão**: Alta precisão

#### **2. YOLO Family**

**YOLO (2016):**
- **Abordagem**: Detecção em uma passada
- **Velocidade**: Muito rápido
- **Precisão**: Boa para objetos grandes

**YOLOv2 (2017):**
- **Melhorias**: Batch normalization, anchor boxes
- **Precisão**: Melhor que YOLO original

**YOLOv3 (2018):**
- **Inovações**: Multi-scale, feature pyramid
- **Performance**: Boa precisão e velocidade

**YOLOv4+ (2020+):**
- **Otimizações**: CSP, PAN, SAM
- **Performance**: Estado da arte

#### **3. SSD (Single Shot Detector)**

**Características:**
- **Detecção em uma passada**: Como YOLO
- **Multi-scale**: Diferentes escalas
- **Velocidade**: Rápido
- **Precisão**: Boa para objetos médios

### Métricas de Avaliação

![Métricas de Detecção](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/metricas_deteccao.png)

#### **mAP (mean Average Precision)**
- **Definição**: Média das APs para cada classe
- **Cálculo**: AP = Área sob curva Precision-Recall
- **Interpretação**: Maior mAP = Melhor performance

#### **IoU (Intersection over Union)**
- **Definição**: Sobreposição entre predição e ground truth
- **Cálculo**: IoU = Intersecção / União
- **Threshold**: Geralmente 0.5 para detecção

---

## 🎨 5.3 Segmentação de Imagens

### Conceito Fundamental

**Segmentação de Imagens** é a tarefa de dividir uma imagem em regiões significativas, atribuindo cada pixel a uma classe específica.

![Segmentação de Imagens](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/segmentacao_imagens.png)

### 📚 **Referência Prática: Ultralytics YOLO Instance Segmentation**

A [documentação oficial do Ultralytics YOLO](https://docs.ultralytics.com/tasks/segment/#export) define **instance segmentation** como uma técnica que vai além da detecção de objetos, envolvendo a identificação de objetos individuais na imagem e sua segmentação do resto da imagem.

**Características da Instance Segmentation:**
- **Saída**: Conjunto de máscaras ou contornos que delineiam cada objeto
- **Informações**: Labels de classe e scores de confiança para cada objeto
- **Utilidade**: Conhecer não apenas onde estão os objetos, mas também sua forma exata
- **Modelos YOLO11-seg**: Pré-treinados no dataset COCO com sufixo `-seg`

Esta referência é fundamental para entender a implementação prática de segmentação de instâncias.

### Tipos de Segmentação

#### **1. Segmentação Semântica**
- **Objetivo**: Classificar cada pixel
- **Saída**: Mapa de classes por pixel
- **Aplicações**: Análise de cenas, medicina
- **Exemplo**: Todos os pixels de "carro" têm a mesma classe

#### **2. Segmentação de Instância**
- **Objetivo**: Separar instâncias individuais
- **Saída**: Mapa de instâncias por pixel
- **Aplicações**: Contagem de objetos, análise de tráfego
- **Exemplo**: Cada carro tem uma instância diferente

#### **3. Segmentação Panóptica**
- **Objetivo**: Combinação de semântica e instância
- **Saída**: Classes + instâncias por pixel
- **Aplicações**: Análise completa de cenas
- **Exemplo**: Classes para coisas + instâncias para objetos

### Arquiteturas Específicas

![Arquiteturas de Segmentação](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/arquiteturas_segmentacao.png)

#### **1. U-Net**

**Características:**
- **Arquitetura em U**: Encoder-Decoder
- **Skip connections**: Conexões diretas
- **Aplicação**: Segmentação médica
- **Vantagem**: Funciona bem com poucos dados

**Estrutura:**
```
Encoder: Conv → Pool → Conv → Pool → ...
Decoder: Upsample → Conv → Upsample → Conv → ...
Skip: Conexões diretas entre encoder e decoder
```

#### **2. FCN (Fully Convolutional Networks)**

**Características:**
- **Sem camadas FC**: Apenas convoluções
- **Upsampling**: Deconvolution para aumentar resolução
- **Aplicação**: Segmentação geral
- **Vantagem**: Arquitetura simples

#### **3. DeepLab**

**Características:**
- **Atrous Convolution**: Dilated convolutions
- **ASPP**: Atrous Spatial Pyramid Pooling
- **Aplicação**: Segmentação de alta resolução
- **Vantagem**: Boa precisão em bordas

### Métricas de Avaliação

![Métricas de Segmentação](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/metricas_segmentacao.png)

#### **Pixel Accuracy**
- **Definição**: Porcentagem de pixels corretos
- **Cálculo**: Pixels corretos / Total de pixels
- **Limitação**: Não considera desbalanceamento de classes

#### **Mean IoU**
- **Definição**: Média dos IoUs para cada classe
- **Cálculo**: IoU = Intersecção / União por classe
- **Vantagem**: Considera todas as classes igualmente

#### **Dice Coefficient**
- **Definição**: Sobreposição entre predição e ground truth
- **Cálculo**: Dice = 2 * Intersecção / (Predição + Ground Truth)
- **Aplicação**: Especialmente útil para segmentação médica

---

## 🎯 Atividade de Fixação: Classificação de Documentos com RVL-CDIP

### 📋 **Dataset RVL-CDIP (Ryerson Vision Lab Complex Document Information Processing)**

O **RVL-CDIP** é um dataset especializado em classificação de documentos complexos, ideal para aplicar os conceitos de **classificação de imagens** aprendidos neste módulo.

#### **📊 Características do Dataset:**

- **400.000 imagens** em escala de cinza
- **16 classes** de documentos diferentes
- **25.000 imagens** por classe
- **Divisão**: 320.000 treino, 40.000 validação, 40.000 teste
- **Resolução**: Máximo 1000 pixels na maior dimensão

#### **📁 Classes de Documentos (0-15):**

| ID | Classe | Descrição |
|----|--------|-----------|
| 0 | **letter** | Cartas |
| 1 | **form** | Formulários |
| 2 | **email** | E-mails |
| 3 | **handwritten** | Documentos manuscritos |
| 4 | **advertisement** | Anúncios |
| 5 | **scientific report** | Relatórios científicos |
| 6 | **scientific publication** | Publicações científicas |
| 7 | **specification** | Especificações técnicas |
| 8 | **file folder** | Pastas de arquivo |
| 9 | **news article** | Artigos de notícia |
| 10 | **budget** | Orçamentos |
| 11 | **invoice** | Faturas |
| 12 | **presentation** | Apresentações |
| 13 | **questionnaire** | Questionários |
| 14 | **resume** | Currículos |
| 15 | **memo** | Memorandos |

### 🚀 **Exercício Prático:**

#### **Objetivo:**
Implementar um sistema de classificação de documentos usando **Deep Learning** e aplicar as **métricas de avaliação** estudadas neste módulo.

#### **Tarefas:**

1. **📥 Download do Dataset:**
   ```python
   # Dataset disponível em:
   # https://www.kaggle.com/datasets/pdavpoojan/the-rvlcdip-dataset-test
   ```

2. **🔧 Implementação:**
   - Carregar e pré-processar as imagens
   - Implementar uma **CNN** para classificação
   - Aplicar **data augmentation**
   - Treinar o modelo

3. **📊 Avaliação:**
   - Calcular **accuracy**, **precision**, **recall**, **F1-score**
   - Gerar **matriz de confusão**
   - Analisar **classes mais difíceis** de classificar

4. **🎯 Desafios Específicos:**
   - **Documentos manuscritos** vs **impressos**
   - **Formulários** vs **questionários**
   - **Relatórios** vs **publicações científicas**

#### **💡 Dicas de Implementação:**

```python
import torch
import torchvision
from torchvision import transforms
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import classification_report, confusion_matrix

# 1. Carregar dataset
# 2. Definir transformações
# 3. Criar DataLoader
# 4. Implementar CNN
# 5. Treinar modelo
# 6. Avaliar performance
```

#### **📈 Métricas Esperadas:**

- **Accuracy**: > 85% (baseline)
- **F1-Score**: > 0.80 (média)
- **Classes problemáticas**: Identificar e analisar

#### **🔗 Referências:**

- **Harley, A. W., Ufkes, A., Derpanis, K. G.** (2015). "Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval." *ICDAR*.
- **Lewis, D., et al.** (2006). "Building a test collection for complex document information processing." *SIGIR*.
- **Legacy Tobacco Document Library** (LTDL), UCSF, 2007.

### 🎓 **Aplicação dos Conceitos:**

Esta atividade permite aplicar **todos os conceitos** estudados no Módulo 5:

- ✅ **Classificação de Imagens** (tarefa principal)
- ✅ **CNNs** (arquitetura de rede)
- ✅ **Métricas de Avaliação** (accuracy, precision, recall, F1)
- ✅ **Matriz de Confusão** (análise detalhada)
- ✅ **Data Augmentation** (melhoria de performance)
- ✅ **Transfer Learning** (opcional, usando modelos pré-treinados)

### 🚀 **Próximos Passos:**

Após completar esta atividade, você estará preparado para:
- **Módulo 6**: OCR e Reconhecimento de Texto
- **Módulo 7**: GANs e VAEs para Geração Sintética
- **Módulo 8**: Vision Transformers

**Esta atividade consolida todos os conceitos fundamentais de visão computacional!** 🎯

---

## 📝 Resumo do Módulo 5

### Principais Conceitos Abordados

1. **Classificação**: Tarefa de atribuir labels a imagens
2. **Detecção**: Localização e classificação de objetos
3. **Segmentação**: Divisão de imagens em regiões
4. **Arquiteturas**: Específicas para cada tarefa
5. **Métricas**: Avaliação de performance
6. **Aplicação**: Dataset RVL-CDIP para prática

### Próximos Passos

No **Módulo 6**, aplicaremos essas técnicas em **OCR e Reconhecimento de Texto**, uma aplicação prática importante.

### Referências Principais

- [Computer Vision: Algorithms and Applications - Szeliski](https://szeliski.org/Book/)
- [Deep Learning for Computer Vision - Goodfellow et al.](https://www.deeplearningbook.org/)

---

**Próximo Módulo**: OCR e Reconhecimento de Texto