# Lista Teórica 04 - Pipeline de Visão

## 1. Pré-processamento

**1)** Por que é importante identificar e tratar outliers antes de treinar um modelo?

Outliers podem influenciar negativamente o treinamento, levando o
modelo a aprender padrões irrelevantes. Técnicas como remoção, imputação
ou transformação podem ser usadas para lidar com eles.

---

**2)** Em que situações faz sentido converter imagens coloridas para escala de cinza?

Quando a informação de cor não é relevante para a tarefa, como na
análise de imagens médicas, a conversão para escala de cinza pode reduzir a
dimensionalidade sem perda significativa de informação.

---

**3)** Quais técnicas podem ser utilizadas para remover ruídos de imagens?

Filtros como média, mediana e Gaussian Blur são amplamente usados para suavizar ruídos, enquanto preservam bordas importantes na imagem.

---

**4)** Quando a remoção de fundo de uma imagem é necessária? Como ela pode ser feita?

É útil em tarefas onde o objeto de interesse precisa ser isolado, como em detecção de objetos. Técnicas incluem segmentação automática, máscaras manuais ou modelos baseados em aprendizado profundo

---

## 2. Preparação do Dataset

**5)** Qual o propósito e benefícios de realizar aumento de dados?

O aumento de dados é uma técnica usada para aumentar artificialmente o tamanho de um conjunto de dados, criando versões modificadas dos dados existentes. Pode melhorar o desempenho dos modelos de aprendizado de máquina, fornecendo exemplos de treinamento adicionais e reduzindo o overfitting. Também pode tornar o modelo mais robusto a mudanças na distribuição dos dados e melhorar sua capacidade de generalização. O aumento de dados também pode ajudar a mitigar os efeitos da disponibilidade limitada de dados e permitir o uso de modelos maiores e mais complexos.

---

**6)**  Liste e explique pelo menos três técnicas de data augmentation para imagens.

- Rotação: altera a orientação da imagem, ajudando a generalizar o modelo.
- Flip horizontal/vertical: aumenta a diversidade sem alterar a essência visual.
- Alteração de brilho/contraste: simula condições de iluminação variadas.

---

**7)** Como identificar e corrigir problemas de classes desbalanceadas em um dataset?

A análise da distribuição de classes pode ser feita através de histogramas. Correções incluem oversampling de classes minoritárias, undersampling de classes majoritárias ou atribuição de pesos durante o treinamento.

---

**8)** Explique as diferenças entre os conjuntos de treino, validação e teste. Qual a proporção ideal para esses conjuntos?

O conjunto de treino é usado para ajustar os pesos do modelo, o de validação para ajustar hiperparâmetros, e o de teste para avaliar a generalização. Proporções comuns são 70%-80% treino, 10%-15% validação e 10%-15% teste.

----

## 3. Modelagem e Treinamento

**9)** Qual a vantagem das CNNs em comparação com técnicas tradicionais de extração de features?

As CNNs aprendem automaticamente features relevantes diretamente dos dados, reduzindo a necessidade de engenharia manual e sendo mais adaptáveis a diferentes tarefas.

---

**10)** Explique a importância de escolher a learning rate corretamente.

Uma learning rate muito alta pode impedir a convergência, enquanto uma muito baixa torna o treinamento lento. Testes com valores escalonados ajudam a encontrar o valor ideal.

--- 

## 4. Avaliação

**11)** Considere o seguinte cenário: Você treinou um  modelo para classificar três tipos de rochas (arenito, calcário, e shale). Os resultados para um conjunto de teste são os seguintes:

- Arenito: 80 amostras corretas, 10 incorretas.
- Calcário: 70 amostras corretas, 20 incorretas.
- Shale: 60 amostras corretas, 30 incorretas.

Amostras incorretas são atribuídas igualmente às outras classes.

Calcule a acurácia do modelo, e precisão, recall e F1-score para cada classe.

<details>
<summary>Dica:</summary>

- **Acurácia**: $ \dfrac{Acertos}{Total} $
- **Precisão**: $ \dfrac{TP}{TP+FP} $
- **Recall**: $ \dfrac{TP}{TP+FN} $
- **F1-score**: $ 2\times\dfrac{Precisão \times Recall}{Precisão + Recall} $

<details>
<summary>Onde para cada classe:</summary>

- **TP**: Acertos da classe.
- **FP**: Erros atribuídos à classe.
- **FN**: Erros de outras classes que deveriam ser atribuídos à classe.

</details>
</details>

**Acurácia**: 
- 270 Amostras no total
- 210 Amostras corretas
- 210/270 = 77% de acurácia

**Classes**:
- Arenito: TP = 80, FP = 25, FN = 10.
- Calcário: TP = 70, FP = 20, FN = 20.
- Shale: TP = 60, FP = 15, FN = 30.

**Arenito**:
- Precisão: 80/(80+25) = 0.7619
- Recall: 80/(80+10) = 0.8980
- F1-score: 2×0.76x0.89/(0.76+0.89) = 0.82

**Calcário**:
- Precisão: 70/(70+20) = 0.7778
- Recall: 70/(70+20) = 0.7778
- F1-score: 2×0.77x0.77/(0.77+0.77) = 0.77

**Shale**:
- Precisão: 60/(60+15) = 0.8
- Recall: 60/(60+30) = 0.6667
- F1-score: 2×0.8x0.66/(0.8+0.66) = 0.72

---

**12)** Explique por que o F1-score é uma métrica mais informativa do que a acurácia em cenários onde há desbalanceamento de classes.

O F1-score combina precisão e recall, sendo ideal em casos com desbalanceamento de classes. Por exemplo, em geociências, se classes como "falha geológica" são raras, a acurácia pode ser enganosa, enquanto o F1-score capta o desempenho equilibrado.

---

**13)** Dado o seguinte conjunto de predições e rótulos reais para três classes (Arenito, Calcário, Shale):

- Predições: [Arenito, Arenito, Calcário, Shale, Calcário, Shale, Shale, Arenito]
- Rótulos reais: [Arenito, Calcário, Calcário, Shale, Arenito, Shale, Calcário, Arenito]

Construa a matriz de confusão e identifique os padrões de erro.

| Real \ Pred  | Arenito | Calcário | Shale |
|---           |---      |---       |---    |
| **Arenito**  | 2       | 1        | 0     |
| **Calcário** | 1       | 1        | 1     |
| **Shale**    | 0       | 1        | 2     |

---

**14)** A partir da matriz de confusão construída no exercício anterior:

- Qual classe é mais confundida?
- O que isso pode indicar sobre o modelo ou os dados?

A classe "Calcário" é mais confundida, indicando que o modelo tem dificuldade em distinguir essa classe. Isso pode indicar falta de representatividade no dataset ou padrões similares entre "Calcário" e outras classes.

---

**15)** Explique o conceito de validação cruzada k-fold e como ela ajuda a avaliar a robustez do modelo.

A validação cruzada divide os dados em k subsets. Cada subset é usado como conjunto de teste uma vez, e os outros k−1 subsets são usados como treinamento. Isso reduz o overfitting e avalia a robustez do modelo.

---

## Tarefa: Classificação de Minerais em Imagens Geológicas

Você recebeu um conjunto de dados geológicos contendo imagens de amostras de rochas. Sua tarefa é propor um pipeline completo de solução para classificar minerais específicos presentes nas amostras, ou seja, atribuir um único rótulo a cada imagem. O pipeline deve considerar **pré-processamento**, **preparação do dataset**, **treinamento de um modelo**, e **avaliação**.

**Pipeline de Solução Detalhado**

1. **Pré-processamento**
    1. *Entendimento e Preparação Inicial*
        1. *Análise do Dataset*:
            - Verifique o tamanho do dataset e a resolução das imagens.
            - Analise as classes (tipos de minerais) e a quantidade de amostras por classe.
        2. *Formato e Anotações*:
            - Certifique-se de que as imagens estão em formatos suportados (`.png` ou `.jpg`).
            - Verifique se as anotações (rótulos) estão disponíveis em um formato estruturado (como CSV ou JSON).
    2. *Normalização das Imagens*:
        - Redimensione as imagens para, por exemplo, $ 224 \times 224 $ pixels (compatível com CNNs pré-treinadas).
        - Normalize os valores de pixel para a faixa $ [0, 1] $, reduzindo as chances de vanishing/exploding gradiente, e ajudando na convergência.
    3. *Remoção de Ruído*:
        - Use filtros Gaussian Blur ou mediana para remover ruídos de fundo sem comprometer as bordas importantes.
    4. *Equalização de Histograma*:
        - Aplique equalização para melhorar o contraste das imagens, caso haja variação significativa na iluminação.
    5. *Rotulagem Consistente*:
        - Padronize os rótulos para evitar inconsistências (e.g., "Quartz" vs. "quartz").
2. **Preparação do Dataset**
    1. *Divisão do Dataset*:
        - Separe o dataset em 70% para treino, 15% para validação e 15% para teste.
        - Certifique-se de que a divisão seja estratificada, preservando a proporção das classes em cada conjunto.
    2. *Análise de Balanceamento*:
        - Verifique a distribuição de imagens por classe.
    3. *Correção de Desequilíbrio*:
        - Use oversampling nas classes minoritárias com técnicas de data augmentation (explicadas abaixo).
    4. *Data Augmentation*
        1. *Aumentar a Diversidade dos Dados*:
            - Rotação aleatória (até 30°).
            - Flips horizontais e verticais.
            - Alteração de brilho (±20%).
            - Crop aleatório para simular diferentes ângulos de visão.
            - Adição de ruído simulado para testar robustez.
        2. *Validação das Transformações*:
            - Visualize as imagens geradas para garantir que as transformações são realistas.
3. **Treinamento do Modelo**
    1. *Escolha da Arquitetura*:
        - Use uma arquitetura pré-treinada, como ResNet50, para transfer learning.
        - Congele as primeiras camadas e ajuste as camadas finais para a quantidade de classes.
    2. *Função de Perda* e Otimização:
        - Escolha cross-entropy como função de perda.
        - Use Adam ou SGD com uma learning rate inicial de 0.001.
    2. *Configuração do Treinamento*:
        - Configure o treinamento para 50 épocas com early stopping baseado na métrica de validação.
        - Use batches de tamanho 32.
4. **Avaliação**
    1. *Métricas Primárias*:
        - Acurácia, precisão, recall e F1-score por classe.
    2. *Métricas Secundárias*:
        - Matriz de confusão para identificar padrões de erro.
        - Análise de curvas ROC por classe (se houver muitas classes, escolha as mais relevantes).
    3. *Validação Cruzada*:
        - Realize validação cruzada k-fold para avaliar a robustez do modelo.
    4. *Interpretação e Melhorias*
        1. *Análise de Erros*:
            - Inspecione exemplos mal classificados para entender possíveis falhas.
        2. *Explicabilidade do Modelo*:
            - Use técnicas como [Grad-CAM](https://arxiv.org/abs/1610.02391) para visualizar as regiões de interesse do modelo em cada imagem.
        3. *Iteração*:
            - Ajuste hiperparâmetros ou refine o dataset com base na análise de erros.