# M√≥dulo 5: Tarefas Fundamentais em Vis√£o Computacional

## üéØ Objetivos de Aprendizagem

Ao final deste m√≥dulo, voc√™ ser√° capaz de:

- ‚úÖ Dominar as principais tarefas de vis√£o computacional
- ‚úÖ Compreender diferen√ßas entre classifica√ß√£o, detec√ß√£o e segmenta√ß√£o
- ‚úÖ Conhecer arquiteturas espec√≠ficas para cada tarefa
- ‚úÖ Implementar solu√ß√µes pr√°ticas com PyTorch
- ‚úÖ Analisar m√©tricas de avalia√ß√£o espec√≠ficas

---

## üè∑Ô∏è 5.1 Classifica√ß√£o de Imagens

### Conceito Fundamental

**Classifica√ß√£o de Imagens** √© a tarefa de atribuir uma ou mais labels (etiquetas) a uma imagem completa, determinando a categoria ou classe √† qual ela pertence.

![Classifica√ß√£o de Imagens](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/classificacao_imagens.png)

### Defini√ß√£o e Caracter√≠sticas

**Defini√ß√£o:**
- **Entrada**: Uma imagem completa
- **Sa√≠da**: Uma ou mais classes/categorias
- **Objetivo**: Determinar "o que" est√° na imagem
- **Granularidade**: N√≠vel de imagem inteira

### üìö **Refer√™ncia Pr√°tica: TensorFlow Classification Tutorial**

O [tutorial oficial do TensorFlow](https://www.tensorflow.org/tutorials/images/classification) demonstra classifica√ß√£o de imagens de flores usando `tf.keras.Sequential` e carregamento eficiente de dados com `tf.keras.utils.image_dataset_from_directory`. O tutorial aborda:

- **Carregamento eficiente** de datasets do disco
- **Identifica√ß√£o de overfitting** e t√©cnicas de mitiga√ß√£o
- **Data augmentation** e dropout
- **Workflow completo** de machine learning
- **Convers√£o para TensorFlow Lite** para dispositivos m√≥veis

Este tutorial √© essencial para entender a implementa√ß√£o pr√°tica de classifica√ß√£o de imagens.

### Tipos de Classifica√ß√£o

#### **1. Classifica√ß√£o Bin√°ria**
- **Duas classes**: Sim/N√£o, Positivo/Negativo
- **Aplica√ß√µes**: Detec√ß√£o de spam, diagn√≥stico m√©dico
- **M√©tricas**: Accuracy, Precision, Recall, F1-Score

#### **2. Classifica√ß√£o Multiclasse**
- **M√∫ltiplas classes**: C√£o, Gato, P√°ssaro, etc.
- **Aplica√ß√µes**: Reconhecimento de objetos, categoriza√ß√£o
- **M√©tricas**: Accuracy, Confusion Matrix

#### **3. Classifica√ß√£o Multilabel**
- **M√∫ltiplas labels**: Uma imagem pode ter v√°rias classes
- **Aplica√ß√µes**: An√°lise de conte√∫do, tags
- **M√©tricas**: Hamming Loss, Jaccard Index

### Arquiteturas Espec√≠ficas

![Arquiteturas de Classifica√ß√£o](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/arquiteturas_classificacao.png)

#### **Modelos Cl√°ssicos:**

| Arquitetura | Caracter√≠sticas | Aplica√ß√£o |
|-------------|-----------------|----------|
| **VGG** | Kernels 3√ó3 uniformes | Classifica√ß√£o geral |
| **ResNet** | Skip connections | Classifica√ß√£o profunda |
| **EfficientNet** | Otimiza√ß√£o de efici√™ncia | Classifica√ß√£o eficiente |
| **DenseNet** | Conex√µes densas | Classifica√ß√£o compacta |

#### **Componentes Essenciais:**
- **Camadas convolucionais**: Extra√ß√£o de caracter√≠sticas
- **Pooling**: Redu√ß√£o de dimensionalidade
- **Fully connected**: Classifica√ß√£o final
- **Softmax**: Probabilidades normalizadas

---

## üéØ 5.2 Detec√ß√£o de Objetos

### Conceito Fundamental

**Detec√ß√£o de Objetos** √© a tarefa de localizar e classificar m√∫ltiplos objetos em uma imagem, fornecendo bounding boxes e classes para cada objeto detectado.

![Detec√ß√£o de Objetos](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/deteccao_objetos.png)

### Defini√ß√£o e Caracter√≠sticas

**Defini√ß√£o:**
- **Entrada**: Uma imagem completa
- **Sa√≠da**: Bounding boxes + classes para cada objeto
- **Objetivo**: Determinar "o que" e "onde" est√£o os objetos
- **Granularidade**: N√≠vel de objeto individual

### üìö **Datasets Pr√°ticos para Detec√ß√£o de Objetos**

#### **1. Coke Can Detection Dataset**

O [dataset de detec√ß√£o de latas de Coca-Cola](https://universe.roboflow.com/antony-p68kw/coke-can-detection-ttylj/dataset/1) √© um exemplo pr√°tico de detec√ß√£o de objetos espec√≠ficos:

- **Objetivo**: Detectar latas de Coca-Cola em imagens
- **Aplica√ß√£o**: Sistemas de venda autom√°tica, contagem de produtos
- **Formato**: Anota√ß√µes em formato YOLO
- **Tamanho**: Dataset p√∫blico dispon√≠vel no Roboflow Universe

#### **2. Can, Bottle and Pack Detection Dataset**

O [dataset de detec√ß√£o de latas, garrafas e embalagens](https://universe.roboflow.com/recyclorobloai-intern/can-bottle-and-pack-detection/dataset/1) √© ideal para aplica√ß√µes de reciclagem:

- **Objetivo**: Detectar diferentes tipos de embalagens recicl√°veis
- **Classes**: Latas, garrafas, embalagens
- **Aplica√ß√£o**: Sistemas de triagem autom√°tica de res√≠duos
- **Impacto**: Sustentabilidade e economia circular

Estes datasets s√£o excelentes para pr√°tica e demonstra√ß√£o de t√©cnicas de detec√ß√£o de objetos.

### Arquiteturas Espec√≠ficas

![Arquiteturas de Detec√ß√£o](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/arquiteturas_deteccao.png)

#### **1. R-CNN Family**

**R-CNN (2014):**
- **Regi√£o proposta**: Selective Search
- **Classifica√ß√£o**: CNN para cada regi√£o
- **Desvantagem**: Muito lento

**Fast R-CNN (2015):**
- **Melhoria**: ROI Pooling
- **Velocidade**: Mais r√°pido que R-CNN
- **Ainda lento**: Selective Search

**Faster R-CNN (2016):**
- **Inova√ß√£o**: RPN (Region Proposal Network)
- **Velocidade**: Muito mais r√°pido
- **Precis√£o**: Alta precis√£o

#### **2. YOLO Family**

**YOLO (2016):**
- **Abordagem**: Detec√ß√£o em uma passada
- **Velocidade**: Muito r√°pido
- **Precis√£o**: Boa para objetos grandes

**YOLOv2 (2017):**
- **Melhorias**: Batch normalization, anchor boxes
- **Precis√£o**: Melhor que YOLO original

**YOLOv3 (2018):**
- **Inova√ß√µes**: Multi-scale, feature pyramid
- **Performance**: Boa precis√£o e velocidade

**YOLOv4+ (2020+):**
- **Otimiza√ß√µes**: CSP, PAN, SAM
- **Performance**: Estado da arte

#### **3. SSD (Single Shot Detector)**

**Caracter√≠sticas:**
- **Detec√ß√£o em uma passada**: Como YOLO
- **Multi-scale**: Diferentes escalas
- **Velocidade**: R√°pido
- **Precis√£o**: Boa para objetos m√©dios

### M√©tricas de Avalia√ß√£o

![M√©tricas de Detec√ß√£o](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/metricas_deteccao.png)

#### **mAP (mean Average Precision)**
- **Defini√ß√£o**: M√©dia das APs para cada classe
- **C√°lculo**: AP = √Årea sob curva Precision-Recall
- **Interpreta√ß√£o**: Maior mAP = Melhor performance

#### **IoU (Intersection over Union)**
- **Defini√ß√£o**: Sobreposi√ß√£o entre predi√ß√£o e ground truth
- **C√°lculo**: IoU = Intersec√ß√£o / Uni√£o
- **Threshold**: Geralmente 0.5 para detec√ß√£o

---

## üé® 5.3 Segmenta√ß√£o de Imagens

### Conceito Fundamental

**Segmenta√ß√£o de Imagens** √© a tarefa de dividir uma imagem em regi√µes significativas, atribuindo cada pixel a uma classe espec√≠fica.

![Segmenta√ß√£o de Imagens](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/segmentacao_imagens.png)

### üìö **Refer√™ncia Pr√°tica: Ultralytics YOLO Instance Segmentation**

A [documenta√ß√£o oficial do Ultralytics YOLO](https://docs.ultralytics.com/tasks/segment/#export) define **instance segmentation** como uma t√©cnica que vai al√©m da detec√ß√£o de objetos, envolvendo a identifica√ß√£o de objetos individuais na imagem e sua segmenta√ß√£o do resto da imagem.

**Caracter√≠sticas da Instance Segmentation:**
- **Sa√≠da**: Conjunto de m√°scaras ou contornos que delineiam cada objeto
- **Informa√ß√µes**: Labels de classe e scores de confian√ßa para cada objeto
- **Utilidade**: Conhecer n√£o apenas onde est√£o os objetos, mas tamb√©m sua forma exata
- **Modelos YOLO11-seg**: Pr√©-treinados no dataset COCO com sufixo `-seg`

Esta refer√™ncia √© fundamental para entender a implementa√ß√£o pr√°tica de segmenta√ß√£o de inst√¢ncias.

### Tipos de Segmenta√ß√£o

#### **1. Segmenta√ß√£o Sem√¢ntica**
- **Objetivo**: Classificar cada pixel
- **Sa√≠da**: Mapa de classes por pixel
- **Aplica√ß√µes**: An√°lise de cenas, medicina
- **Exemplo**: Todos os pixels de "carro" t√™m a mesma classe

#### **2. Segmenta√ß√£o de Inst√¢ncia**
- **Objetivo**: Separar inst√¢ncias individuais
- **Sa√≠da**: Mapa de inst√¢ncias por pixel
- **Aplica√ß√µes**: Contagem de objetos, an√°lise de tr√°fego
- **Exemplo**: Cada carro tem uma inst√¢ncia diferente

#### **3. Segmenta√ß√£o Pan√≥ptica**
- **Objetivo**: Combina√ß√£o de sem√¢ntica e inst√¢ncia
- **Sa√≠da**: Classes + inst√¢ncias por pixel
- **Aplica√ß√µes**: An√°lise completa de cenas
- **Exemplo**: Classes para coisas + inst√¢ncias para objetos

### Arquiteturas Espec√≠ficas

![Arquiteturas de Segmenta√ß√£o](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/arquiteturas_segmentacao.png)

#### **1. U-Net**

**Caracter√≠sticas:**
- **Arquitetura em U**: Encoder-Decoder
- **Skip connections**: Conex√µes diretas
- **Aplica√ß√£o**: Segmenta√ß√£o m√©dica
- **Vantagem**: Funciona bem com poucos dados

**Estrutura:**
```
Encoder: Conv ‚Üí Pool ‚Üí Conv ‚Üí Pool ‚Üí ...
Decoder: Upsample ‚Üí Conv ‚Üí Upsample ‚Üí Conv ‚Üí ...
Skip: Conex√µes diretas entre encoder e decoder
```

#### **2. FCN (Fully Convolutional Networks)**

**Caracter√≠sticas:**
- **Sem camadas FC**: Apenas convolu√ß√µes
- **Upsampling**: Deconvolution para aumentar resolu√ß√£o
- **Aplica√ß√£o**: Segmenta√ß√£o geral
- **Vantagem**: Arquitetura simples

#### **3. DeepLab**

**Caracter√≠sticas:**
- **Atrous Convolution**: Dilated convolutions
- **ASPP**: Atrous Spatial Pyramid Pooling
- **Aplica√ß√£o**: Segmenta√ß√£o de alta resolu√ß√£o
- **Vantagem**: Boa precis√£o em bordas

### M√©tricas de Avalia√ß√£o

![M√©tricas de Segmenta√ß√£o](https://cdn.jsdelivr.net/gh/rfapo/visao-computacional@main/images/modulo5/metricas_segmentacao.png)

#### **Pixel Accuracy**
- **Defini√ß√£o**: Porcentagem de pixels corretos
- **C√°lculo**: Pixels corretos / Total de pixels
- **Limita√ß√£o**: N√£o considera desbalanceamento de classes

#### **Mean IoU**
- **Defini√ß√£o**: M√©dia dos IoUs para cada classe
- **C√°lculo**: IoU = Intersec√ß√£o / Uni√£o por classe
- **Vantagem**: Considera todas as classes igualmente

#### **Dice Coefficient**
- **Defini√ß√£o**: Sobreposi√ß√£o entre predi√ß√£o e ground truth
- **C√°lculo**: Dice = 2 * Intersec√ß√£o / (Predi√ß√£o + Ground Truth)
- **Aplica√ß√£o**: Especialmente √∫til para segmenta√ß√£o m√©dica

---

## üéØ Atividade de Fixa√ß√£o: Classifica√ß√£o de Documentos com RVL-CDIP

### üìã **Dataset RVL-CDIP (Ryerson Vision Lab Complex Document Information Processing)**

O **RVL-CDIP** √© um dataset especializado em classifica√ß√£o de documentos complexos, ideal para aplicar os conceitos de **classifica√ß√£o de imagens** aprendidos neste m√≥dulo.

#### **üìä Caracter√≠sticas do Dataset:**

- **400.000 imagens** em escala de cinza
- **16 classes** de documentos diferentes
- **25.000 imagens** por classe
- **Divis√£o**: 320.000 treino, 40.000 valida√ß√£o, 40.000 teste
- **Resolu√ß√£o**: M√°ximo 1000 pixels na maior dimens√£o

#### **üìÅ Classes de Documentos (0-15):**

| ID | Classe | Descri√ß√£o |
|----|--------|-----------|
| 0 | **letter** | Cartas |
| 1 | **form** | Formul√°rios |
| 2 | **email** | E-mails |
| 3 | **handwritten** | Documentos manuscritos |
| 4 | **advertisement** | An√∫ncios |
| 5 | **scientific report** | Relat√≥rios cient√≠ficos |
| 6 | **scientific publication** | Publica√ß√µes cient√≠ficas |
| 7 | **specification** | Especifica√ß√µes t√©cnicas |
| 8 | **file folder** | Pastas de arquivo |
| 9 | **news article** | Artigos de not√≠cia |
| 10 | **budget** | Or√ßamentos |
| 11 | **invoice** | Faturas |
| 12 | **presentation** | Apresenta√ß√µes |
| 13 | **questionnaire** | Question√°rios |
| 14 | **resume** | Curr√≠culos |
| 15 | **memo** | Memorandos |

### üöÄ **Exerc√≠cio Pr√°tico:**

#### **Objetivo:**
Implementar um sistema de classifica√ß√£o de documentos usando **Deep Learning** e aplicar as **m√©tricas de avalia√ß√£o** estudadas neste m√≥dulo.

#### **Tarefas:**

1. **üì• Download do Dataset:**
   ```python
   # Dataset dispon√≠vel em:
   # https://www.kaggle.com/datasets/pdavpoojan/the-rvlcdip-dataset-test
   ```

2. **üîß Implementa√ß√£o:**
   - Carregar e pr√©-processar as imagens
   - Implementar uma **CNN** para classifica√ß√£o
   - Aplicar **data augmentation**
   - Treinar o modelo

3. **üìä Avalia√ß√£o:**
   - Calcular **accuracy**, **precision**, **recall**, **F1-score**
   - Gerar **matriz de confus√£o**
   - Analisar **classes mais dif√≠ceis** de classificar

4. **üéØ Desafios Espec√≠ficos:**
   - **Documentos manuscritos** vs **impressos**
   - **Formul√°rios** vs **question√°rios**
   - **Relat√≥rios** vs **publica√ß√µes cient√≠ficas**

#### **üí° Dicas de Implementa√ß√£o:**

```python
import torch
import torchvision
from torchvision import transforms
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import classification_report, confusion_matrix

# 1. Carregar dataset
# 2. Definir transforma√ß√µes
# 3. Criar DataLoader
# 4. Implementar CNN
# 5. Treinar modelo
# 6. Avaliar performance
```

#### **üìà M√©tricas Esperadas:**

- **Accuracy**: > 85% (baseline)
- **F1-Score**: > 0.80 (m√©dia)
- **Classes problem√°ticas**: Identificar e analisar

#### **üîó Refer√™ncias:**

- **Harley, A. W., Ufkes, A., Derpanis, K. G.** (2015). "Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval." *ICDAR*.
- **Lewis, D., et al.** (2006). "Building a test collection for complex document information processing." *SIGIR*.
- **Legacy Tobacco Document Library** (LTDL), UCSF, 2007.

### üéì **Aplica√ß√£o dos Conceitos:**

Esta atividade permite aplicar **todos os conceitos** estudados no M√≥dulo 5:

- ‚úÖ **Classifica√ß√£o de Imagens** (tarefa principal)
- ‚úÖ **CNNs** (arquitetura de rede)
- ‚úÖ **M√©tricas de Avalia√ß√£o** (accuracy, precision, recall, F1)
- ‚úÖ **Matriz de Confus√£o** (an√°lise detalhada)
- ‚úÖ **Data Augmentation** (melhoria de performance)
- ‚úÖ **Transfer Learning** (opcional, usando modelos pr√©-treinados)

### üöÄ **Pr√≥ximos Passos:**

Ap√≥s completar esta atividade, voc√™ estar√° preparado para:
- **M√≥dulo 6**: OCR e Reconhecimento de Texto
- **M√≥dulo 7**: GANs e VAEs para Gera√ß√£o Sint√©tica
- **M√≥dulo 8**: Vision Transformers

**Esta atividade consolida todos os conceitos fundamentais de vis√£o computacional!** üéØ

---

## üìù Resumo do M√≥dulo 5

### Principais Conceitos Abordados

1. **Classifica√ß√£o**: Tarefa de atribuir labels a imagens
2. **Detec√ß√£o**: Localiza√ß√£o e classifica√ß√£o de objetos
3. **Segmenta√ß√£o**: Divis√£o de imagens em regi√µes
4. **Arquiteturas**: Espec√≠ficas para cada tarefa
5. **M√©tricas**: Avalia√ß√£o de performance
6. **Aplica√ß√£o**: Dataset RVL-CDIP para pr√°tica

### Pr√≥ximos Passos

No **M√≥dulo 6**, aplicaremos essas t√©cnicas em **OCR e Reconhecimento de Texto**, uma aplica√ß√£o pr√°tica importante.

### Refer√™ncias Principais

- [Computer Vision: Algorithms and Applications - Szeliski](https://szeliski.org/Book/)
- [Deep Learning for Computer Vision - Goodfellow et al.](https://www.deeplearningbook.org/)

---

**Pr√≥ximo M√≥dulo**: OCR e Reconhecimento de Texto