# Exemplo de Segmentação utilizando Grounding Dino e Segment Anything Model

[Grounding Dino](https://github.com/IDEA-Research/GroundingDINO) -> efetua deteções de forma automática com base em prompts (palavras chave/frases)

[Segment Anything Model](https://github.com/facebookresearch/segment-anything) -> efetua segmentações de forma automática, neste caso, com base em bounding boxes

Efetuar o download de ambos os repositórios e colocar no Google Drive.

## Instalar Grounding Dino

In [None]:
# clonar o repositório -> isto gera uma diretoria chamada "GroundingDino"
!git clone https://github.com/IDEA-Research/GroundingDINO.git

# entrar na diretoria
%cd /content/GroundingDINO/

# instalar dependências
!pip install -e .

## Instalar Segment Anything Model (SAM)

In [None]:
# voltar à diretoria inicial
%cd /content/

# colar o repositório -> isto gera uma diretoria chamada "segment-anything"
!git clone https://github.com/facebookresearch/segment-anything.git

# entrar na diretoria
%cd /content/segment-anything/

# instalar dependências
!pip install -e .

## Efetuar download dos pesos do Grounding Dino


In [None]:
%cd /content/

# criar uma nova diretoria
!mkdir grounding_dino_weights

# entrar na nova diretoria
%cd grounding_dino_weights

# efetuar o download dos pesos
!wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

# voltar à diretoria inicial

%cd /content/

# **Importante**

Depois de instalar os dois repositórios, fazer o seguinte:

- Selecionar "Tempo de execução", que fica abaixo do título do notebook;
- Selecionar "Reiniciar sessão";
- Avançar para as próximas células.

## Bibliotecas do Grounding Dino

In [None]:
from groundingdino.util.inference import load_model, load_image, predict, annotate
from groundingdino.util import box_ops
from PIL import Image # ler imagens

from google.colab.patches import cv2_imshow # visualização de imagens

import locale # evitar erros
locale.getpreferredencoding = lambda: "UTF-8"

## Utilização do modelo Grounding Dino

## **Carregar o modelo Grounding Dino**

In [None]:
# Carregar o modeo do Grounding Dino e os pesos
modelo_gd = load_model("/content/GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py", "/content/grounding_dino_weights/groundingdino_swint_ogc.pth")

### **Parâmetros do Grounding Dino**

O text prompt pode constituída por palavras ou frases.

In [None]:
text_prompt = "" # prompt que vai ser utilizado para efetuar as deteções -> "." indica a procura dos diferentes objetos de forma individual
box_threshold = 0.35 # número mínimo de similaridade entre as bounding boxes
text_threshold = 0.25 # número mínimo de similaridade entre as bounding boxes

In [None]:
img = "/content/matricula.png"

# aplicação do modelo
imagem_source, imagem = load_image(img)

# a predição retorna todas as bounding boxes, logits (confiança) e a palavra/frase que deu origem à deteção
boxes, logits, phrases = predict(
    model = modelo_gd,
    image = imagem,
    caption = text_prompt,
    box_threshold = box_threshold,
    text_threshold = text_threshold
)

## Resultados da deteção

### Imagem original

In [None]:
Image.fromarray(imagem_source)

### Imagem com deteções

In [None]:
annotated_frame = annotate(image_source = imagem_source, boxes = boxes, logits = logits, phrases = phrases)

Image.fromarray(annotated_frame)

## Utilização do SAM

## Bibliotecas do SAM

In [None]:
# Geral
import argparse
import os
import copy
import supervision as sv
from PIL import Image, ImageDraw, ImageFont
import torch
from imutils import contours # para ordenar contornos

# segment anything
from segment_anything import build_sam, SamPredictor
import cv2
import numpy as np

## Download do modelo SAM

In [None]:
# carregar checkpoint do modelo SAM
! wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth

## Inicialização do modelo SAM

In [None]:
sam_checkpoint = 'sam_vit_h_4b8939.pth' # pesos
sam = build_sam(checkpoint = sam_checkpoint)
sam.to(device = "cuda")
sam_predictor = SamPredictor(sam)

## Utilização do modelo SAM

In [None]:
# Correr Segment Anything Model sobre a imagem
sam_predictor.set_image(imagem_source)

In [None]:
# normalizar as bounding boxes obtidas pelo Grounding Dino
H, W, _ = imagem_source.shape
boxes_xyxy = box_ops.box_cxcywh_to_xyxy(boxes) * torch.Tensor([W, H, W, H])

In [None]:
# obter máscaras com base nas bounding boxes
transformed_boxes = sam_predictor.transform.apply_boxes_torch(boxes_xyxy, imagem_source.shape[:2]).to("cuda")

masks, _, _ = sam_predictor.predict_torch(
            point_coords = None,
            point_labels = None,
            boxes = transformed_boxes,
            multimask_output = False,
        )

In [None]:
# Obter apenas as máscaras (preto e branco)
def get_just_mask(mask):

    color = np.array([255/255, 255/255, 255/255, 1]) # cor da máscara -> branca

    tensor = torch.Tensor.cpu(mask)

    h, w = mask.shape[-2:]

    mask_image = tensor.reshape(h, w, 1) * color.reshape(1, 1, -1)

    just_mask = Image.fromarray((mask_image.cpu().numpy() * 255).astype(np.uint8)).convert("L")

    return just_mask

## **Criar uma máscara com todas as máscaras**


In [None]:
mascaras = []
mascara_resultados = np.zeros([imagem_source.shape[0], imagem_source.shape[1]], dtype=np.uint8) # gerar a máscara

for item in masks:

  temp = get_just_mask(item)
  temp = np.array((temp))

  mascaras.append(temp)

# adicionar máscara geradas pelo SAM à máscara
for i in range(0, len(mascaras)):

  if boxes_xyxy[i][2].detach().numpy() - boxes_xyxy[i][0].detach().numpy() < 100:

    mascara_resultados = cv2.add(mascara_resultados, mascaras[i])


cv2_imshow(mascara_resultados)

### **Obter os contornos presentes na máscara**

In [None]:
contornos, _ = cv2.findContours(mascara_resultados.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE) # obter os contrornos da imagem

## **Ordenar os contornos da esquerda para a direita**

In [None]:
(contornos, _) = contours.sort_contours(contornos, method = "left-to-right")

## **Extrair contornos**

In [None]:
ep = 3 # padding

crop_num = 0

for contorno in contornos:

  x, y, w, h = cv2.boundingRect(contorno) # obter a bounding box do contorno

  if w < 60: # se a largura for menor do que 60, recortar o contorno

    crop = mascara_resultados[y - ep : y + h + ep, x - ep : x + w + ep] # recortar contorno

    resized_crop = cv2.resize(crop, (20, 20)) # redimensionar a imagem recortada


    # guardar a imagem recortada

    caminho = "/content/" # caminho onde serão guardadas as imagens

    cv2.imwrite(os.path.join(caminho, f'crop{crop_num}.png'), resized_crop)

    crop_num = crop_num + 1

# **Classificação dos caracteres**

## **Bibliotecas**

In [None]:
from tensorflow import keras
from tensorflow.keras import layers
import tensorflow as tf

## **Carregar o modelo de classificação**

In [None]:
input_shape = (20, 20, 3) # input que o modelo aceita
num_classes = 34 # número de classes
classes = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'A', 'B', 'C', 'D', 'E',
              'F', 'G', 'H', 'J', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T',
              'U', 'V', 'W', 'X', 'Y', 'Z'] # nomes das classes -> não existe classe para a letra "O" e a letra "I"

modelo = keras.Sequential(
    [
        layers.Dense(32, input_shape =input_shape),
        layers.Dense(64, activation = 'relu'),
        layers.Flatten(),
        layers.Dense(num_classes, activation = 'softmax'),
    ]
)

In [None]:
modelo.summary()

## **Carregar pesos pré-treinados**

In [None]:
caminho_pesos = "/content/best_weights.h5"
modelo.load_weights(caminho_pesos)

## **Classificar os caracteres**

In [None]:
imagem = cv2.imread('/content/crop0.png')

cv2_imshow(imagem)

imagem = np.expand_dims(imagem, axis = 0) # para garantir que as dimensões são as corretas

previsao = modelo.predict(imagem) # classificação por parte do modelo

classe = classes[np.argmax(previsao)] # classe prevista

print("Classe previsa:", classe)

# **Guardar resultados**
Exemplo de como guardar texto num ficheiro.

In [None]:
caminho_ficheiro_resultados = "/content/resultados.txt" # caminho onde será guardado o ficheiro

resultados_f = open(caminho_ficheiro_resultados, "a") # gera o ficheiro caso não exista

# adicionar resultado ao ficheiro dos resultados
resultados_f.write("22XV69" + '\n') # \n adiciona um parágrafo