### 1. Como o UniVAD Funciona: Uma Explicação Detalhada

Pense no UniVAD como um **detetive especialista** que nunca viu a "cena do crime" (a sua caixa de papelão) antes. Para descobrir se algo está errado em uma nova foto, ele só precisa de algumas fotos de referência de como a cena "normalmente" se parece.

Ele não passa por um "treinamento" formal, mas usa sua vasta experiência (modelos pré-treinados) para fazer comparações inteligentes. O trabalho desse detetive é dividido em três módulos principais, que são como três especialistas diferentes em sua equipe:

#### **Módulo 1: O Analista de Cena (Contextual Component Clustering - C³)**

Este é o primeiro especialista a agir. Seu trabalho é **identificar e isolar todos os objetos importantes** na imagem.
*   **Ferramentas:** Ele usa dois modelos poderosos:
    1.  **GroundingDINO:** Pense nele como o especialista em "o quê". Você dá a ele uma descrição em texto (ex: `"cardboard box . packaging"`) e ele encontra onde esses objetos estão na imagem, desenhando "caixas" (bounding boxes) ao redor deles.
    2.  **Segment Anything Model (SAM):** Este é o especialista em "onde exatamente". Ele pega as caixas desenhadas pelo GroundingDINO e cria uma máscara de segmentação pixel a pixel, um contorno perfeito para cada objeto detectado.
*   **Resultado:** No final, este módulo entrega um conjunto de "peças de quebra-cabeça" (máscaras), onde cada peça é um componente da imagem (idealmente, a caixa inteira).

#### **Módulo 2: O Perito Forense (Component-Aware Patch Matching - CAPM)**

Este especialista procura por **anomalias estruturais e de textura** — defeitos físicos como arranhões, manchas, impressão errada, amassados, etc.
*   **Como Funciona:** Ele usa a técnica de "correspondência de patches":
    1.  Pega cada "peça do quebra-cabeça" (componente/máscara) da imagem de teste.
    2.  Divide essa peça em milhares de pequenos "quadrados" (patches).
    3.  Para cada patch, ele o compara com uma biblioteca gigante de patches "normais" que ele extraiu das imagens de referência.
*   **Lógica da Anomalia:** Se um patch da imagem de teste for muito diferente de **todos** os patches normais que ele já viu, ele é considerado suspeito. A pontuação de anomalia do patch é a sua "estranheza" em relação à normalidade.
*   **Ferramentas:** Para fazer essa comparação, ele não compara os pixels diretamente. Ele usa "olhos" sofisticados para extrair a essência de cada patch:
    *   **CLIP (ViT-L):** Excelente em entender o **conteúdo semântico** (o "significado" do que está no patch).
    *   **DINOv2 (ViT-G/L):** Excelente em entender a **estrutura fina, textura e geometria** do patch.
*   **Resultado:** Um "mapa de calor estrutural" que destaca as áreas da imagem com defeitos físicos.

#### **Módulo 3: O Detetive Lógico (Graph-Enhanced Component Modeling - GECM)**

Este especialista procura por **anomalias lógicas** — erros de "regras" ou de montagem, como uma peça faltando, uma peça extra, ou uma peça no lugar errado.
*   **Como Funciona:** Ele não olha para os pequenos patches, mas para as "peças do quebra-cabeça" inteiras.
    1.  Ele analisa as características de cada peça: sua área, cor média, posição na imagem e sua feature de "deep learning" (extraída pelo CLIP/DINOv2).
    2.  Ele modela as relações entre as peças em um "grafo". Por exemplo: "a peça A (logo) está sempre em cima da peça B (aba da caixa)".
*   **Lógica da Anomalia:** Ele compara o conjunto de peças e suas relações na imagem de teste com o que ele aprendeu das imagens de referência. Se a imagem de teste tem uma peça a mais, ou se a relação entre as peças está incorreta, ele atribui um score de anomalia lógica.
*   **Resultado:** Um "mapa de calor lógico" que destaca componentes que estão ausentes, em excesso ou mal posicionados.

#### **O Veredito Final (Agregação)**

No final, o UniVAD combina os mapas de calor do Perito Forense (CAPM) e do Detetive Lógico (GECM) para criar um **mapa de anomalia final** e um **score de anomalia geral**, que nos diz o quão "anormal" a imagem é como um todo.

---

### 2. Resumo do Trabalho Realizado até Agora

Esta é uma lista detalhada e organizada de todo o progresso feito, que é bastante significativo.

**I. Coleta e Preparação do Dataset**
*   **Criação de um Dataset Customizado:** Foram capturadas 554 imagens de alta variedade, cobrindo 43 caixas de papelão distintas (13 normais, 30 anômalas).
*   **Variedade de Condições:** As imagens foram tiradas em múltiplos ambientes (chão e esteira), com múltiplos ângulos (3-4 por caixa) e utilizando duas câmeras de celular diferentes, garantindo robustez e realismo.
*   **Coleta de Vídeos:** Foram gravados vídeos do processo real em três máquinas distintas (cortadora, impressora, coladeira) para futura análise ou expansão do dataset.
*   **Organização Estruturada:** O dataset foi organizado na estrutura de pastas `train/good`, `test/good` e `test/bad`, compatível com os frameworks de detecção de anomalia.

**II. Configuração do Ambiente e Otimização de Performance**
*   **Resolução de Conflitos de Versão:** Foram instaladas versões específicas das bibliotecas `transformers` e `tokenizers` para garantir a compatibilidade com o ambiente de execução (Python 3.12).
*   **Gerenciamento de Memória (VRAM):** O tamanho da imagem de entrada foi padronizado em `224x224` para permitir a execução dos modelos em GPUs com memória limitada.
*   **Redução de Modelos:** Para otimizar o uso de memória, foram testadas versões menores de modelos-chave:
    *   O **Segment Anything Model** foi trocado da versão `SAM-H` (Huge) para a `SAM-B` (Base).
    *   O **DINOv2** foi trocado da versão `ViT-G` (Giant) para a `ViT-L` (Large).
*   **Carregamento Eficiente de Modelos:** O gargalo de performance de ~30s por imagem foi identificado e resolvido. A solução foi refatorar o `component_segmentation.py` para uma classe (`SegmentationHandler`) que carrega os modelos pesados (GroundingDINO, SAM) na VRAM uma única vez no início, em vez de a cada imagem.

**III. Refatoração e Aprimoramento do Pipeline de Software**
*   **Unificação do Fluxo de Trabalho:** O processo foi consolidado em um único script (`test_univad.py`), que realiza segmentação e inferência em sequência para cada imagem. Isso simplificou drasticamente o processo de execução e depuração.
*   **Implementação de Parâmetros de Teste:** O `test_univad.py` foi aprimorado com parâmetros de linha de comando para permitir experimentação flexível:
    *   `--debug`: Ativa o salvamento de mapas de calor e scores intermediários.
    *   `--filter_with_mask`: Habilita a filtragem do score e do heatmap final usando a máscara de segmentação, focando a análise apenas no objeto de interesse.
    *   `--top_k_percent`: Substitui o cálculo de score baseado no `max()` por uma média dos `k%` pixels mais anômalos, tornando a pontuação mais robusta.

**IV. Otimização da Segmentação e Detecção**
*   **Engenharia de Prompts:** Foram realizados testes e melhorias nos prompts de texto (`text_prompt` e `background_prompt`) no arquivo de configuração do GroundingDINO para melhorar a precisão da segmentação, ensinando o modelo a focar na caixa e ignorar a esteira e o fundo.

---
No modo MULTI, que é o único que utiliza o DinoFeaturizer, tinha que carregar esse modelo no init independente dele ser usado apenas no MULTI. Agora, tanto from modules import DinoFeaturizer quanto self.dino_net = DinoFeaturizer() são realizados apenas no caso de ser MULTI.

Limpeza da RAM logo após carregar cada modelo na GPU

.

.

---
### Dúvidas:

- Misturar as imagens das duas câmeras ou usar apenas de uma delas para isolar efeitos que poderiam ter de usar uma imagem de referência da Câmera 1 para avaliar imagens da Câmera 2.

- Usar sub-conjunto do dataset para os testes?

- Usar cross-validation nos testes?

- Os testes propostos fazem sentido? São suficientes?

.

.

---

### Plano de Ação (TO-DO) Detalhado

**FASE 1: Definição da Configuração Base (Performance vs. Acurácia)**

*O objetivo desta fase é encontrar o melhor trade-off entre velocidade e acurácia, escolhendo a combinação de modelos que será usada em todos os testes seguintes.*

*   **[ ] TO-DO 1.1: Avaliação do Prompt de Segmentação**.
    *   **Contexto:** O primeiro passo é garantir que a segmentação seja a melhor possível.
    *   **Execução:**
        1.  Execute o script com o **Prompt A** (ex: `"cardboard box"`).
        2.  Execute o script com o **Prompt B** (ex: `"cardboard box . packaging"`).
        3.  Execute o script com o **Prompt C** (ex: `"the cardboard box on the conveyor"`).
    *   **Análise:** Inspecione visualmente as máscaras de segmentação geradas (arquivos `grounding_mask_color.png`). Conte o número de "falhas graves" (ex: caixa não detectada, detecção grosseiramente errada) para cada prompt.
    *   **Resultado:** Escolha o prompt que produzir o menor número de segmentações ruidosas. **Este prompt será usado para todos os testes subsequentes.**

*   **[ ] TO-DO 1.2: Teste de Tempo de Inferência vs. Acurácia**.
    *   **Contexto:** Usando o melhor prompt da etapa anterior, vamos testar diferentes "motores" para o UniVAD.
    *   **Execução:** Execute o teste completo para cada uma das seguintes configurações de modelo:
        1.  **Config A (Leve):** SAM-B + DINOv2-L (Large)
        2.  **Config B (Pesada):** SAM-B + DINOv2-G (Giant)
        3.  **Config C (Qualidade Máxima / Original):** SAM-H (Huge) + DINOv2-G (Giant)
    *   **Métricas:** Para cada configuração, registre:
        *   **Tempo Médio por Imagem (s)**.
        *   **Acurácia Geral Final (%)**.
    *   **Resultado:** Crie uma tabela comparativa. A decisão aqui será crucial: o ganho (se houver) de acurácia da Config B ou C justifica o tempo extra de processamento em relação à Config A? A configuração escolhida aqui será a **configuração base** para todas as fases seguintes.

**FASE 2: Otimização de Hiperparâmetros de Software**

*O objetivo é ajustar os parâmetros do algoritmo usando a "configuração base" definida na Fase 1.*

*   **[ ] TO-DO 2.1: Testar o Impacto do `--top_k_percent`**.
    *   **Execução:** Usando a configuração base, rode o teste com diferentes valores: `0.0` (equivalente a Max), `0.01` (1%), `0.05` (5%) e `1.0` (equivalente a Mean).
    *   **Métrica:** Comparar a **Acurácia Geral (%)** para cada valor.
    *   **Análise:** Determine qual método de agregação de score (Max, Top 1%, Top 5% ou Mean) produz a melhor acurácia. O valor vencedor será usado nos testes de robustez.

*   **[ ] TO-DO 2.2: Testar o Impacto do `--filter_with_mask`**.
    *   **Execução:** Usando a configuração base e o melhor `top_k_percent` encontrado, execute o teste duas vezes:
        1.  **Sem** a flag `--filter_with_mask`.
        2.  **Com** a flag `--filter_with_mask`.
    *   **Métrica:** Comparar a **Acurácia Geral (%)** entre as duas execuções.
    *   **Pergunta:** Focar a análise de score apenas na área da caixa segmentada melhora a performance da classificação?

**FASE 3: Testes de Robustez e Sensibilidade do Modelo**

*O objetivo é estressar o modelo (com a melhor configuração encontrada até agora) para entender seus limites e capacidades.*

*   **[ ] TO-DO 3.1: Teste de `k-shot` (Número de Imagens de Referência)**.
    *   **Execução:**
        1.  Rode com `--k_shot 1`.
        2.  Rode com `--k_shot 4`, usando 4 imagens de referência da mesma caixa "boa", mas de ângulos diferentes.
    *   **Pergunta:** Usar mais exemplos de referência de diferentes perspectivas torna o modelo mais robusto?

*   **[ ] TO-DO 3.2: Teste de Contexto da Referência (Chão vs. Esteira)**.
    *   **Execução:**
        1.  Rode o teste usando uma imagem de referência de uma caixa no chão.
        2.  Rode o teste usando uma imagem de referência de uma caixa na esteira.
    *   **Pergunta:** O desempenho melhora quando o contexto da referência (esteira) é o mesmo do teste?

*   **[ ] TO-DO 3.3: Teste de Qualidade da Imagem de Referência**.
    *   **Contexto:** Vamos avaliar o impacto de uma referência "ruim" em um conjunto de teste "ruim".
    *   **Execução:** Prepare um pequeno subconjunto de imagens de teste que estejam borradas.
        1.  Execute o teste nesse subconjunto usando uma **referência normal (nítida)**.
        2.  Execute o teste nesse subconjunto usando uma **referência borrada**.
    *   **Pergunta:** Usar uma referência com o mesmo tipo de "defeito" (borrão) ajuda o modelo a ignorá-lo e focar em anomalias reais?

*   **[ ] TO-DO 3.4: Teste de Generalização entre Caixas e Câmeras**.
    *   **Execução:**
        1.  **Variação de Caixa:** Execute o teste usando a Caixa A (boa) como referência. Anote a acurácia. Depois, execute novamente usando a Caixa B (boa, mas de outro modelo) como referência. Anote a acurácia.
        2.  **Variação de Câmera (Cross-Camera Test):**
            *   Execute o teste usando uma imagem de referência da **Câmera 1** e avalie a acurácia **apenas** no subconjunto de imagens da **Câmera 2**.
            *   Execute o teste usando uma imagem de referência da **Câmera 2** e avalie a acurácia **apenas** no subconjunto de imagens da **Câmera 1**.
    *   **Pergunta:** O modelo é sensível a pequenas mudanças no modelo da caixa ou na câmera usada, ou ele consegue generalizar bem?

*   **[ ] TO-DO 3.5: Teste de Detecção de Ângulo**.
    *   **Análise:** Após rodar os testes, pegue uma caixa específica que tenha um defeito claro e que foi fotografada de múltiplos ângulos.
    *   **Verificação:** Olhe os logs e os heatmaps salvos para essa caixa.
    *   **Pergunta:** O modelo foi capaz de detectar o mesmo defeito consistentemente, independentemente do ângulo da foto?

### Links de Referência para o UniVAD
* **Repositório no GitHub:** [https://github.com/FantasticGNU/UniVAD](https://github.com/FantasticGNU/UniVAD)
* **Artigo (Paper):** [https://arxiv.org/pdf/2412.03342](https://arxiv.org/pdf/2412.03342)
* **Site do Projeto:** [https://uni-vad.github.io/](https://uni-vad.github.io/)

In [None]:
!git clone --recurse-submodules https://github.com/MateusPereiraAlves/UniVAD

Cloning into 'UniVAD'...
remote: Enumerating objects: 536, done.[K
remote: Counting objects: 100% (536/536), done.[K
remote: Compressing objects: 100% (387/387), done.[K
remote: Total 536 (delta 153), reused 501 (delta 130), pack-reused 0 (from 0)[K
Receiving objects: 100% (536/536), 7.87 MiB | 29.94 MiB/s, done.
Resolving deltas: 100% (153/153), done.


In [None]:
%cd UniVAD

/content/UniVAD


In [None]:
!pip install -r requirements.txt

Collecting pydensecrf@ git+https://github.com/lucasb-eyer/pydensecrf.git (from -r requirements.txt (line 18))
  Cloning https://github.com/lucasb-eyer/pydensecrf.git to /tmp/pip-install-thdh31lu/pydensecrf_b35f2b13115a4e27887f806b713cf17b
  Running command git clone --filter=blob:none --quiet https://github.com/lucasb-eyer/pydensecrf.git /tmp/pip-install-thdh31lu/pydensecrf_b35f2b13115a4e27887f806b713cf17b
  Resolved https://github.com/lucasb-eyer/pydensecrf.git to commit 2723c7fa4f2ead16ae1ce3d8afe977724bb8f87f
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting ram@ git+https://github.com/xinyu1205/recognize-anything.git (from -r requirements.txt (line 37))
  Cloning https://github.com/xinyu1205/recognize-anything.git to /tmp/pip-install-thdh31lu/ram_4573cacec1e54956bd45b3e284351ac8
  Running command git clone --filter=blob:none --quiet https://github.com/

In [None]:
%cd models/GroundingDINO
!pip install -e .

/content/UniVAD/models/GroundingDINO
Obtaining file:///content/UniVAD/models/GroundingDINO
  Preparing metadata (setup.py) ... [?25l[?25hdone
Installing collected packages: groundingdino
  Running setup.py develop for groundingdino
Successfully installed groundingdino-0.1.0


In [None]:
%cd /content/UniVAD/pretrained_ckpts
!wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_b_01ec64.pth -O ./sam_vit_b.pth
!wget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

/content/UniVAD/pretrained_ckpts
--2025-11-04 12:54:26--  https://dl.fbaipublicfiles.com/segment_anything/sam_vit_b_01ec64.pth
Resolving dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)... 13.35.37.84, 13.35.37.111, 13.35.37.90, ...
Connecting to dl.fbaipublicfiles.com (dl.fbaipublicfiles.com)|13.35.37.84|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 375042383 (358M) [binary/octet-stream]
Saving to: ‘./sam_vit_b.pth’


2025-11-04 12:54:29 (168 MB/s) - ‘./sam_vit_b.pth’ saved [375042383/375042383]

--2025-11-04 12:54:29--  https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth
Resolving github.com (github.com)... 20.205.243.166
Connecting to github.com (github.com)|20.205.243.166|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://release-assets.githubusercontent.com/github-production-release-asset/611591640/f221e500-c2fc-4fd3-b84e-8ad92a6923f3?sp=r&sv=2018-11-09&sr=b&spr=htt

In [None]:
# %cd /content/UniVAD/pretrained_ckpts
# !wget https://huggingface.co/lkeab/hq-sam/resolve/main/sam_hq_vit_h.pth
# !wget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

/content/UniVAD/pretrained_ckpts
--2025-11-03 12:36:40--  https://huggingface.co/lkeab/hq-sam/resolve/main/sam_hq_vit_h.pth
Resolving huggingface.co (huggingface.co)... 18.161.6.107, 18.161.6.46, 18.161.6.94, ...
Connecting to huggingface.co (huggingface.co)|18.161.6.107|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://cas-bridge.xethub.hf.co/xet-bridge-us/6486dc523457cf1120c70b8b/3cf6fbc02437cad20d8f50b8623c6b942d7f6570f82db01027cc10734c4e25a8?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=cas%2F20251103%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20251103T123640Z&X-Amz-Expires=3600&X-Amz-Signature=b34ee193110359f70f14ba71d220e7e4932fdb795c82e85f53b09f711f5977dd&X-Amz-SignedHeaders=host&X-Xet-Cas-Uid=public&response-content-disposition=inline%3B+filename*%3DUTF-8%27%27sam_hq_vit_h.pth%3B+filename%3D%22sam_hq_vit_h.pth%22%3B&x-id=GetObject&Expires=1762177000&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRl

In [None]:
%cd /content/UniVAD

/content/UniVAD


In [None]:
# Para usar segment_components.py

!pip install --upgrade pip setuptools wheel

# Forçar versão do transformers compatível
!pip install transformers==4.44.2 --upgrade --quiet

# Instala tokenizers que tem wheel para Python 3.12
!pip install tokenizers==0.19.1 --upgrade --quiet

Collecting pip
  Downloading pip-25.3-py3-none-any.whl.metadata (4.7 kB)
Collecting setuptools
  Using cached setuptools-80.9.0-py3-none-any.whl.metadata (6.6 kB)
Downloading pip-25.3-py3-none-any.whl (1.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m85.5 MB/s[0m eta [36m0:00:00[0m
[?25hUsing cached setuptools-80.9.0-py3-none-any.whl (1.2 MB)
Installing collected packages: setuptools, pip
  Attempting uninstall: setuptools
    Found existing installation: setuptools 75.2.0
    Uninstalling setuptools-75.2.0:
      Successfully uninstalled setuptools-75.2.0
  Attempting uninstall: pip
    Found existing installation: pip 24.1.2
    Uninstalling pip-24.1.2:
      Successfully uninstalled pip-24.1.2
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
thinc 8.3.6 requires numpy<3.0.0,>=2.0.0, but you have numpy 1.26.4 w

In [None]:
import os
import shutil
import re
from google.colab import drive
from tqdm import tqdm

# ==============================================================================
# ======================== PAINEL DE CONTROLE DO DATASET =======================
# ==============================================================================
# Altere apenas os parâmetros nesta seção para configurar seu dataset.

# --- 1. Seleção da Câmera ---
# Escolha de qual câmera processar as imagens.
# Opções: 'cam1', 'cam2', 'both'
SELECT_CAMERA = 'both'

# --- 2. Definição das Amostras "Boas" (Normais) ---
# Coloque aqui os NÚMEROS das caixas que são consideradas "boas".
# Qualquer caixa com um número fora desta lista será considerada "ruim" (anômala).
GOOD_BOX_NUMBERS = {14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 32, 33}

# --- 3. Seleção das Amostras de TREINO ---
# Todas as imagens de treino devem pertencer às classes "boas".
# O script irá verificar isso e emitir um aviso se você tentar usar uma amostra "ruim" para treino.

# Abordagem A: Por NÚMERO da caixa.
# Todas as imagens das caixas com estes números serão movidas para 'train/good'.
# TRAIN_BOX_NUMBERS = {15, 19}
TRAIN_BOX_NUMBERS = {}

# Abordagem B: Por NOME DE ARQUIVO específico.
# Útil para selecionar manualmente algumas imagens de caixas que também irão para teste.
# INCLUA O PREFIXO DA CÂMERA (cam1_ ou cam2_) no nome do arquivo. ---
# IMPORTANTE: Use o formato do nome com underscores '_', não pontos '.'.
TRAIN_SPECIFIC_FILENAMES = {
    'cam1_board15_1.jpg',
    # Exemplo para Câmera 2: 'cam2_board19_2.jpg',
    # Adicione outros nomes de arquivo específicos aqui se desejar.
}

# --- 4. Filtro de Localização da Câmera ---
# Escolha quais tipos de imagem incluir no dataset.
# Opções disponíveis: 'chao', 'esteira1', 'esteira2'.
# Você pode incluir uma, duas ou todas as três.
INCLUDE_LOCATIONS = {'chao', 'esteira1', 'esteira2'}

# --- 5. Exclusão de Amostras ---
# Coloque aqui os NÚMEROS das caixas que você quer IGNORAR completamente.
# Elas não serão incluídas nem no treino, nem no teste.
EXCLUDE_BOX_NUMBERS = {
    9, 10, 11
}

# --- 6. Caminhos de Origem e Destino ---
# Caminho da pasta no seu Google Drive com as imagens originais.
# ESTA VARIÁVEL SERÁ AJUSTADA AUTOMATICAMENTE PELA SELEÇÃO DA CÂMERA.
SOURCE_DIR_CAM1 = '/content/drive/MyDrive/TCC_Dataset/Câmera1'
SOURCE_DIR_CAM2 = '/content/drive/MyDrive/TCC_Dataset/Câmera2'

# Caminho base de destino no Colab para o dataset estruturado.
DEST_BASE_DIR = '/content/UniVAD/data/CardboardBox'

# ==============================================================================
# ======================== FIM DO PAINEL DE CONTROLE ===========================
# ==============================================================================


# --- Lógica do Script (não precisa alterar daqui para baixo) ---

def get_location(filename: str) -> str:
    """Identifica a localização da imagem com base no nome do arquivo."""
    fn_lower = filename.lower()
    if '.b2.jpg' in fn_lower: # Mais robusto que endswith
        return 'esteira2'
    elif '.b.jpg' in fn_lower: # Mais robusto que endswith
        return 'esteira1'
    else:
        return 'chao'

print("Montando Google Drive...")
drive.mount('/content/drive')

# --- Lógica para selecionar o diretório de origem ---
source_dirs_to_process = []
if SELECT_CAMERA == 'cam1':
    source_dirs_to_process.append((SOURCE_DIR_CAM1, 'cam1'))
elif SELECT_CAMERA == 'cam2':
    source_dirs_to_process.append((SOURCE_DIR_CAM2, 'cam2'))
elif SELECT_CAMERA == 'both':
    source_dirs_to_process.append((SOURCE_DIR_CAM1, 'cam1'))
    source_dirs_to_process.append((SOURCE_DIR_CAM2, 'cam2'))
else:
    raise ValueError("SELECT_CAMERA deve ser 'cam1', 'cam2' ou 'both'.")

# --- Preparação de Pastas ---
dest_class_dir = os.path.join(DEST_BASE_DIR, 'cardboard_box')
train_good_dir = os.path.join(dest_class_dir, 'train', 'good')
test_good_dir = os.path.join(dest_class_dir, 'test', 'good')
test_bad_dir = os.path.join(dest_class_dir, 'test', 'bad')

if os.path.exists(dest_class_dir):
    print(f"Limpando diretório de destino antigo: {dest_class_dir}")
    shutil.rmtree(dest_class_dir)

print("Criando nova estrutura de pastas de destino...")
os.makedirs(train_good_dir, exist_ok=True)
os.makedirs(test_good_dir, exist_ok=True)
os.makedirs(test_bad_dir, exist_ok=True)

# Regex para extrair o número principal da caixa (ex: 'board14' -> 14)
filename_pattern = re.compile(r'board(\d+)', re.IGNORECASE)

# --- Contadores para o Relatório Final ---
counters = {
    'train_good': 0, 'test_good': 0, 'test_bad': 0,
    'skipped_excluded': 0, 'skipped_location': 0,
    'skipped_pattern': 0, 'skipped_other': 0,
    'warn_bad_in_train': 0
}
total_files_in_sources = 0

print("\nIniciando a organização do dataset...")
for source_dir, camera_prefix in source_dirs_to_process:
    print(f"\nProcessando diretório: {source_dir} (prefixo: '{camera_prefix}')")
    if not os.path.exists(source_dir):
        print(f"AVISO: Diretório de origem não encontrado: {source_dir}. Pulando.")
        continue

    source_files = os.listdir(source_dir)
    total_files_in_sources += len(source_files)

    for filename in tqdm(source_files, desc=f"Processando {camera_prefix}"):
        if not filename.lower().endswith(('.jpg', '.jpeg')):
            counters['skipped_other'] += 1
            continue

        source_path = os.path.join(source_dir, filename)
        match = filename_pattern.match(filename)

        if not match:
            counters['skipped_pattern'] += 1
            continue

        sample_num = int(match.group(1))

        # 1. FILTRO DE EXCLUSÃO
        if sample_num in EXCLUDE_BOX_NUMBERS:
            counters['skipped_excluded'] += 1
            continue

        # --- Correção da ordem do nome do arquivo para Câmera 2 ---
        corrected_filename = filename
        if camera_prefix == 'cam2':
            match_fix = re.match(r'(.*)\.(b2?)\.(\d+)\.jpg', filename, re.IGNORECASE)
            if match_fix:
                base, esteira_id, num = match_fix.groups()
                corrected_filename = f"{base}.{num}.{esteira_id}.jpg"

        # 2. FILTRO DE LOCALIZAÇÃO (usa o nome corrigido para consistência)
        location = get_location(corrected_filename)
        if location not in INCLUDE_LOCATIONS:
            counters['skipped_location'] += 1
            continue

        # --- Renomeia o arquivo (troca '.' por '_') e adiciona prefixo ---
        base_name, extension = os.path.splitext(corrected_filename)
        new_base_name = base_name.replace('.', '_')
        new_filename_with_prefix = f"{camera_prefix}_{new_base_name}{extension}"

        # 3. CLASSIFICAÇÃO (GOOD vs BAD)
        is_good_class = sample_num in GOOD_BOX_NUMBERS

        # 4. DIVISÃO (TRAIN vs TEST)
        # --- NOVA ALTERAÇÃO: Verifica o nome COM prefixo na lista de treino ---
        is_for_training = (sample_num in TRAIN_BOX_NUMBERS) or (new_filename_with_prefix in TRAIN_SPECIFIC_FILENAMES)

        dest_sub_dir = None
        if is_for_training:
            if is_good_class:
                dest_sub_dir = train_good_dir
                counters['train_good'] += 1
            else:
                print(f"AVISO: Tentativa de adicionar amostra 'bad' ({filename}) ao conjunto de treino. Pulando.")
                counters['warn_bad_in_train'] += 1
                continue
        else:
            if is_good_class:
                dest_sub_dir = test_good_dir
                counters['test_good'] += 1
            else:
                dest_sub_dir = test_bad_dir
                counters['test_bad'] += 1

        # Copia o arquivo para o destino correto
        dest_path = os.path.join(dest_sub_dir, new_filename_with_prefix)
        try:
            shutil.copy2(source_path, dest_path)
        except Exception as e:
            print(f"ERRO ao copiar {filename}: {e}")
            if dest_sub_dir == train_good_dir: counters['train_good'] -= 1
            elif dest_sub_dir == test_good_dir: counters['test_good'] -= 1
            elif dest_sub_dir == test_bad_dir: counters['test_bad'] -= 1
            counters['skipped_other'] += 1

# --- Relatório Final ---
total_copied = counters['train_good'] + counters['test_good'] + counters['test_bad']
total_skipped = total_files_in_sources - total_copied - counters['warn_bad_in_train']

print("\n" + "="*50)
print("Organização Concluída!")
print("="*50)
print("\n--- Resumo da Geração do Dataset ---")
print(f"Imagens copiadas para 'train/good': {counters['train_good']}")
print(f"Imagens copiadas para 'test/good':  {counters['test_good']}")
print(f"Imagens copiadas para 'test/bad':   {counters['test_bad']}")
print(f"-------------------------------------------")
print(f"Total de imagens no novo dataset: {total_copied}")

print("\n--- Resumo das Imagens Ignoradas ---")
print(f"Puladas por estarem na lista de exclusão: {counters['skipped_excluded']}")
print(f"Puladas por filtro de localização:        {counters['skipped_location']}")
print(f"Puladas por não corresponder ao padrão:   {counters['skipped_pattern']}")
print(f"Avisos de amostras 'bad' em treino:       {counters['warn_bad_in_train']}")
print(f"Outros arquivos ignorados (não-jpg):    {counters['skipped_other']}")
print(f"-------------------------------------------")
print(f"Total de arquivos ignorados: {total_skipped + counters['warn_bad_in_train']}")

print("\n" + "="*50)
print(f"Total de arquivos nos diretórios de origem: {total_files_in_sources}")
print("="*50)

Montando Google Drive...
Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Limpando diretório de destino antigo: /content/UniVAD/data/CardboardBox/cardboard_box
Criando nova estrutura de pastas de destino...

Iniciando a organização do dataset...

Processando diretório: /content/drive/MyDrive/TCC_Dataset/Câmera1 (prefixo: 'cam1')


Processando cam1: 100%|██████████| 282/282 [00:07<00:00, 35.83it/s]



Processando diretório: /content/drive/MyDrive/TCC_Dataset/Câmera2 (prefixo: 'cam2')


Processando cam2: 100%|██████████| 274/274 [00:07<00:00, 36.01it/s]


Organização Concluída!

--- Resumo da Geração do Dataset ---
Imagens copiadas para 'train/good': 1
Imagens copiadas para 'test/good':  152
Imagens copiadas para 'test/bad':   356
-------------------------------------------
Total de imagens no novo dataset: 509

--- Resumo das Imagens Ignoradas ---
Puladas por estarem na lista de exclusão: 44
Puladas por filtro de localização:        0
Puladas por não corresponder ao padrão:   0
Avisos de amostras 'bad' em treino:       0
Outros arquivos ignorados (não-jpg):    3
-------------------------------------------
Total de arquivos ignorados: 47

Total de arquivos nos diretórios de origem: 556





In [None]:
# print("Baixando o dataset VisA e a ferramenta de preparação...")

# # Baixa o dataset para o diretório atual (/content/UniVAD)
# !wget -O VisA.tar "https://amazon-visual-anomaly.s3.us-west-2.amazonaws.com/VisA_20220922.tar"

# # Cria a pasta de dados brutos FORA da pasta do projeto e extrai os arquivos para lá
# !mkdir -p /content/visa_raw
# !tar -xf VisA.tar -C /content/visa_raw
# print("Dataset extraído em /content/visa_raw")

# # Clona a ferramenta de preparação FORA da pasta do projeto
# !git clone https://github.com/amazon-science/spot-diff.git /content/spot-diff-tool
# print("Ferramenta de preparação clonada em /content/spot-diff-tool")

Baixando o dataset VisA e a ferramenta de preparação...
--2025-10-29 12:49:10--  https://amazon-visual-anomaly.s3.us-west-2.amazonaws.com/VisA_20220922.tar
Resolving amazon-visual-anomaly.s3.us-west-2.amazonaws.com (amazon-visual-anomaly.s3.us-west-2.amazonaws.com)... 3.5.77.104, 52.92.195.138, 52.92.187.82, ...
Connecting to amazon-visual-anomaly.s3.us-west-2.amazonaws.com (amazon-visual-anomaly.s3.us-west-2.amazonaws.com)|3.5.77.104|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1929840640 (1.8G) [application/x-tar]
Saving to: ‘VisA.tar’


2025-10-29 12:49:37 (68.5 MB/s) - ‘VisA.tar’ saved [1929840640/1929840640]

Dataset extraído em /content/visa_raw
Cloning into '/content/spot-diff-tool'...
remote: Enumerating objects: 65, done.[K
remote: Counting objects: 100% (65/65), done.[K
remote: Compressing objects: 100% (47/47), done.[K
remote: Total 65 (delta 31), reused 47 (delta 17), pack-reused 0 (from 0)[K
Receiving objects: 100% (65/65), 2.42 MiB | 7.52 

In [None]:
# print("\nReorganizando o dataset para o formato do UniVAD...")
# !python /content/spot-diff-tool/utils/prepare_data.py \
#     --split-type 1cls \
#     --data-folder /content/visa_raw \
#     --save-folder /content/UniVAD/data/VisA_pytorch \
#     --split-file /content/spot-diff-tool/split_csv/1cls.csv
# print("Dataset reorganizado com sucesso em ./data/VisA_pytorch")


Reorganizando o dataset para o formato do UniVAD...
Dataset reorganizado com sucesso em ./data/VisA_pytorch


In [None]:
# !python test_univad.py --dataset visa --data_path ./data/VisA_pytorch/1cls --round 0 --image_size 224 --k_shot 1 --class_name chewinggum

In [None]:
!python test_univad.py --dataset cardboard_box --data_path ./data/CardboardBox --k_shot 1 --round 0 --image_size 224 --filter_with_mask --anomaly_threshold 0.68 --class_name cardboard_box --debug

2025-11-04 13:20:21.235865: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1762262421.272486   10707 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1762262421.284435   10707 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
W0000 00:00:1762262421.321440   10707 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.
W0000 00:00:1762262421.321490   10707 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.
W0000 00:00:1762262421.321497   10707 computation_placer.cc:177] computation placer alr

In [None]:
# !python test_univad.py --dataset cardboard_box --data_path ./data/CardboardBox --k_shot 1 --round 0 --image_size 224 --filter_with_mask --anomaly_threshold 0.68 --top_k_percent 0.01 --use_all_clip_layers --class_name cardboard_box --debug

In [None]:
# Salvar um .zip da pasta de resultados
!zip -r /content/results.zip /content/UniVAD/results

In [None]:
# Salvar um .zip da pasta de máscaras
!zip -r /content/results.zip /content/UniVAD/masks

In [None]:
# Limpar as pastas de testes anteriores

! rm -rf /content/UniVAD/results
! rm -rf /content/UniVAD/masks
! rm -rf /content/UniVAD/heat_masks