# Objetos em Imagens

Existem dois problemas principais que moldam todo o pensamento sobre objetos em imagens: classificação de imagens e detecção de objetos. Eles são muito mais complexos do que problemas como a detecção de contornos. Portanto, são necessários modelos mais sofisticados para lidar com esses problemas, que podem ser desafiadores até mesmo para os olhos humanos. Para o problema de classificação de imagens, usamos uma rede neural convolucional para extrair padrões de uma imagem. No caso da detecção de objetos, usamos uma CNN Recursiva, que pode ajudar a encontrar as localizações de objetos de um conjunto de classes na imagem. Esses dois modelos serão apresentados em detalhes nas seções seguintes.

## Classificação de Imagens

A classificação de imagens é uma tarefa na qual decidimos a que classe pertence uma imagem de tamanho fixo. Métodos tradicionais convertem imagens em escala de cinza ou RGB em uma lista de números que representam a intensidade de cada pixel e, em seguida, realizam a classificação com base nesse procedimento. Atualmente, uma das técnicas mais populares para melhorar a precisão dos métodos tradicionais de classificação de imagens são as Redes Neurais Convolucionais (CNNs), que são mais semelhantes ao princípio da visão humana.

As CNNs são diferentes de outras redes neurais porque possuem uma camada de convolução no início. Em vez de converter a imagem em uma matriz de números, a imagem é dividida em várias seções pelo kernel de convolução, e a máquina tenta prever o que há em cada seção. Finalmente, o computador tenta prever o que está na imagem com base nos votos de todas as seções.

Uma CNN clássica teria a seguinte arquitetura:

$$Input ->Convolution ->ReLU ->Convolution ->ReLU ->Pooling -> ... -> Fully Connected$$

As CNNs possuem uma camada de entrada, uma camada de saída e também camadas ocultas. As camadas ocultas geralmente consistem em camadas de convolução, camadas ReLU, camadas de pooling e camadas totalmente conectadas. Suas funcionalidades podem ser brevemente descritas como:

- **Camadas de convolução**: aplicam uma operação de convolução ao dado de entrada. Essa camada extrai as características de uma imagem que serão usadas para processamento ou classificação.
- **Camadas de pooling**: combinam as saídas de grupos de neurônios em um único neurônio na próxima camada.
- **Camadas totalmente conectadas**: conectam todos os neurônios de uma camada a todos os neurônios da camada seguinte.
- **Camadas ReLU**: aplicam uma função de ativação elemento a elemento, como a função limite \( \text{max}(0, x) \) no zero.

Para um guia mais detalhado, consulte as [notas do curso](http://cs231n.github.io/convolutional-networks/) de Stanford.

### Implementação

Implementamos uma CNN simples usando o pacote Keras, que é uma API de alto nível do TensorFlow. Para um guia mais detalhado, consulte nossos notebooks anteriores ou o [guia oficial](https://keras.io/). O código-fonte pode ser visualizado importando os pacotes necessários e executando o seguinte bloco:

In [3]:
import os, sys
sys.path = [os.path.abspath("../../")] + sys.path
from perception4e import *
from notebook4e import *

2024-12-09 21:45:04.625260: I tensorflow/core/util/port.cc:113] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-12-09 21:45:04.658365: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [5]:
psource(simple_convnet)

A função `simple_convnet` recebe dois parâmetros de entrada e retorna um modelo `Sequential` do Keras. Os atributos de entrada são o número de camadas ocultas e o número de classes de saída. Uma camada oculta é definida como um par de camada de convolução e camada de max-pooling:

In [None]:
model.add(Conv2D(32, (2, 2), padding='same', kernel_initializer='random_uniform'))
model.add(MaxPooling2D(padding='same'))

O tamanho do kernel de convolução que usamos é de 2x2 e foi inicializado aplicando uma distribuição uniforme aleatória. Também implementamos uma função auxiliar de demonstração chamada `train_model`, que mostra como a rede convolucional se comporta em um determinado conjunto de dados. Essa função recebe apenas um modelo de CNN como entrada e alimenta-o com o conjunto de dados MNIST. O conjunto de dados MNIST é dividido em conjuntos de treinamento, validação e teste, com tamanhos de 1000, 100 e 100, respectivamente.

### Exemplo

Agora vamos experimentar a CNN simples no conjunto de dados MNIST. No conjunto de dados MNIST, existem um total de 10 classes: de 0 a 9. Portanto, iremos construir uma CNN com 10 classes de previsão:

In [18]:
cnn_model = simple_convnet(size=3, num_classes=10)



None


A descrição resumida da arquitetura da CNN foi apresentada acima. Vale lembrar que cada camada possui um número de parâmetros que precisam ser treinados. Mais parâmetros significam mais tempo necessário para treinar a rede em um conjunto de dados. No total, temos 3 camadas de convolução e 3 camadas de max-pooling, resultando em mais de 10.000 parâmetros para treinar.

Agora, vamos treinar o modelo por 5 épocas usando os seguintes parâmetros de treinamento predefinidos: `epochs=5` e `batch_size=32`.

In [25]:
train_model(cnn_model)

Epoch 1/5
32/32 - 0s - 3ms/step - accuracy: 0.8680 - loss: 0.4242 - val_accuracy: 0.7600 - val_loss: 0.8721
Epoch 2/5
32/32 - 0s - 2ms/step - accuracy: 0.8760 - loss: 0.3878 - val_accuracy: 0.7900 - val_loss: 0.7742
Epoch 3/5
32/32 - 0s - 2ms/step - accuracy: 0.9000 - loss: 0.3577 - val_accuracy: 0.8400 - val_loss: 0.6906
Epoch 4/5
32/32 - 0s - 3ms/step - accuracy: 0.9030 - loss: 0.3298 - val_accuracy: 0.8200 - val_loss: 0.7636
Epoch 5/5
32/32 - 0s - 2ms/step - accuracy: 0.9070 - loss: 0.3067 - val_accuracy: 0.8400 - val_loss: 0.6583
[1m4/4[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2ms/step - accuracy: 0.8129 - loss: 72.4561 
[86.15572357177734, 0.7900000214576721]


<Sequential name=sequential, built=True>

Em 5 épocas de treinamento, a precisão (accuracy) do modelo no conjunto foi em torno de 86% para 90% (pode alterar devido execução), enquanto a precisão na validação aumentou para 79%. Isso ainda é relativamente bom. Para melhorar ainda mais a precisão, você pode tentar adicionar mais exemplos ao conjunto de dados, como usar 20.000 exemplos de treinamento, e treinar por mais épocas.

## Detecção de Objetos

Um programa de detecção de objetos deve identificar as localizações de cada objeto de um conjunto conhecido de classes nas imagens de teste. A detecção de objetos é desafiadora por diversos motivos: os objetos podem ter diferentes formas e, às vezes, podem estar deformados ou indistintos. Eles podem aparecer em qualquer posição na imagem e frequentemente estão misturados com objetos ou cenas ruidosas.

Muitos detectores de objetos são construídos a partir de classificadores de imagens. Além do classificador, há uma tarefa adicional necessária para a detecção de objetos: selecionar objetos a serem classificados usando janelas e informar suas localizações precisas. Normalmente, essas janelas são chamadas de caixas delimitadoras (*bounding boxes*), e há várias maneiras de criá-las. O procedimento mais simples para escolher janelas é usar todas as janelas em uma grade predefinida. Aqui, apresentaremos dois procedimentos principais para encontrar uma caixa delimitadora.

### Pesquisa Seletiva (*Selective Search*)

O procedimento mais simples para construir caixas delimitadoras é deslizar uma janela sobre a imagem. Isso produz um grande número de caixas, que ignoram evidências importantes da imagem, mas são projetadas para serem rápidas.

A Pesquisa Seletiva começa segmentando excessivamente a imagem com base na intensidade dos pixels usando um método de segmentação baseado em grafos. O algoritmo de Pesquisa Seletiva utiliza esses segmentos como entrada inicial e, em seguida, adiciona todas as caixas delimitadoras correspondentes às partes segmentadas à lista de propostas regionais. Depois, o algoritmo agrupa segmentos adjacentes com base na similaridade e continua repetindo as etapas anteriores.

#### Implementação

Aqui usamos o método de Pesquisa Seletiva fornecido pelo pacote `opencv-python`. Para utilizá-lo, certifique-se de que a versão adicional `opencv-contrib-python` também esteja instalada. Você pode criar uma pesquisa seletiva com a seguinte linha de código:

In [33]:
ss = cv2.ximgproc.segmentation.createSelectiveSearchSegmentation()

Em seguida, é necessário definir a imagem de entrada e o modo de pesquisa seletiva. Depois disso, o modelo estará pronto para ser treinado:

In [None]:
#Exemplo de codigo - Nao executar
ss.setBaseImage(im)
ss.switchToSelectiveSearchQuality()
rects = ss.process()

As coordenadas dos cantos das caixas delimitadoras serão retornadas na variável `rects`. 

#### Exemplo

Aqui, fornecemos o método `selective_search` para demonstrar o resultado da pesquisa seletiva. O método recebe um caminho para a imagem como entrada. Para executar a demonstração, use a seguinte linha de código:

In [None]:
image_path = "./images/stapler.png"
selective_search(image_path)

[ 49 179 191 141]
[  5   0 283 351]
[784   0   1 590]
[777   0   2 157]
[776 161   4 429]
[571 121  88  32]
[412  56 310 194]
[776 161   1 225]
[  6   0 278 343]
[  4 352   1 238]
[493  94 222  54]
[  2 354   1 236]
[664 142  41  53]
[780 157   3 433]
[776 161   3 429]
[406 173 316 101]
[782 160   1 430]
[326   0  12 133]
[  4 354   1 236]
[327   0   1 128]
[286   0  19 144]
[336   0   1 128]
[  1   0   1 354]
[337   0   1 128]
[583 228 103  26]
[541  93  98  34]
[  0   0   5 590]
[321   0   1 132]
[10 30 14 30]
[  6   0 278 334]
[283   0   3 144]
[  5   0  53 351]
[341   0   1 131]
[341   0  55 131]
[340   0   1 131]
[600 154  39  11]
[326   0  13 133]
[  4   0   1 352]
[782 160   2 430]
[716 155  64 435]
[663 139  45  67]
[354   0 422 157]
[339   0 113 136]
[446 214   9  29]
[338   0   1 132]
[340   0   1 132]
[284   0   1 144]
[780   0   3 590]
[  3   0   1 354]
[305   0  33 144]
[340   0   2 132]
[635 246  45   5]
[  3 354   1 236]
[780   0   1 158]
[571  90  87  32]
[777 161   2 4

QObject::moveToThread: Current thread (0x854b880) is not the object's thread (0x8f85da0).
Cannot move to target thread (0x854b880)

QObject::moveToThread: Current thread (0x854b880) is not the object's thread (0x8f85da0).
Cannot move to target thread (0x854b880)

QObject::moveToThread: Current thread (0x854b880) is not the object's thread (0x8f85da0).
Cannot move to target thread (0x854b880)

QObject::moveToThread: Current thread (0x854b880) is not the object's thread (0x8f85da0).
Cannot move to target thread (0x854b880)

QObject::moveToThread: Current thread (0x854b880) is not the object's thread (0x8f85da0).
Cannot move to target thread (0x854b880)

QObject::moveToThread: Current thread (0x854b880) is not the object's thread (0x8f85da0).
Cannot move to target thread (0x854b880)

QObject::moveToThread: Current thread (0x854b880) is not the object's thread (0x8f85da0).
Cannot move to target thread (0x854b880)

QObject::moveToThread: Current thread (0x854b880) is not the object's thread

As caixas delimitadoras são desenhadas na imagem original, conforme mostrado a seguir:
<img src="images/stapler_bbox.png" width="500"/>

Algumas das caixas delimitadoras realmente contêm o grampeador ou, pelo menos, a maior parte dele dentro da caixa, o que pode ajudar no processo de classificação.

### R-CNN and Faster R-CNN

[Ross Girshick et al.](https://arxiv.org/pdf/1311.2524.pdf) propuseram um método em que usam a pesquisa seletiva para extrair apenas 2000 regiões (Sigla **Region**) de uma imagem. Em seguida, as regiões dentro das caixas delimitadoras são alimentadas em uma rede neural convolucional para realizar a classificação. A arquitetura resumida pode ser representada da seguinte forma:

<img src="images/RCNN.png" width="500"/>

O problema com o R-CNN é que cada caixa delimitadora deve ser passada independentemente por um classificador de imagens, o que consome uma enorme quantidade de tempo para treinar a rede. Além disso, a pesquisa seletiva não é muito estável e, às vezes, pode gerar exemplos ruins.

O Faster R-CNN resolveu essas limitações aplicando um algoritmo mais rápido de detecção de objetos. Em vez de alimentar as propostas de regiões na CNN, alimentamos a imagem de entrada diretamente na CNN para gerar um mapa de características convolucional. Em seguida, identificamos as regiões de interesse no mapa de características e as redimensionamos para um tamanho fixo usando uma camada de *ROI Pooling*, para que possam ser processadas por outro classificador.

Esse algoritmo é mais rápido que o R-CNN, pois a imagem não precisa ser alimentada repetidamente na CNN para a extração de mapas de características.

#### Implementação

Para a camada de *ROI Pooling*, implementamos uma demonstração simples chamada `pool_rois`. Podemos criar um mapa de características simples usando o `numpy`:

In [None]:
import numpy as np

feature_maps_shape = (200, 100, 1)
feature_map = np.ones(feature_maps_shape, dtype='float32')
feature_map[200 - 1, 100 - 3, 0] = 50

Observe que o mapa de características simulado possui todos os valores iguais a 1, exceto por um ponto com valor 50. Agora, vamos gerar algumas regiões de interesse (*regions of interest* - ROIs):

In [None]:
roiss = np.asarray([[0.5, 0.2, 0.7, 0.4], [0.0, 0.0, 1.0, 1.0]])

Aqui, criamos duas regiões de interesse fictícias. A primeira recorta uma parte da imagem onde todos os pixels têm valor '1', abrangendo de 0,5 a 0,7 do comprimento da borda horizontal e de 0,2 a 0,4 da borda vertical. A segunda região corresponde à imagem inteira.

Agora, vamos aplicar um *pooling* em uma área de 3x7 para cada região de interesse.

In [14]:
pool_rois(feature_map, roiss, 3, 7)

[array([[1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1.]], dtype=float32),
 array([[ 1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.,  1.,  1., 50.]], dtype=float32)]

O que esperamos é que a segunda região após o *pooling* seja diferente da primeira, já que há uma característica artificial — o valor '50' — presente na sua entrada. O resultado impresso é exatamente o que esperávamos.

Para experimentar todo o algoritmo do Faster R-CNN, você pode consultar [este repositório no GitHub](https://github.com/endernewton/tf-faster-rcnn) para obter um guia mais detalhado.

In [None]:
# Faster R-CNN Implementation in Python

## Import Required Libraries
import tensorflow as tf
from tensorflow.keras import layers, models
import numpy as np
import cv2

## Load the Dataset
# For demonstration purposes, we use a dataset like COCO or Pascal VOC
from tensorflow.keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()

# Preprocess the data (resize to fit the Faster R-CNN input)
def preprocess_images(images):
    return tf.image.resize(images, [224, 224]) / 255.0

x_train = preprocess_images(x_train)
x_test = preprocess_images(x_test)

## Define Backbone Network
# The backbone is typically a pre-trained CNN (e.g., ResNet or VGG)
backbone = tf.keras.applications.ResNet50(
    include_top=False, input_shape=(224, 224, 3), weights='imagenet'
)

## Generate Feature Maps
def extract_feature_maps(images):
    return backbone(images)

# Test feature extraction
sample_features = extract_feature_maps(x_train[:10])
print(f"Feature Map Shape: {sample_features.shape}")

## Region Proposal Network (RPN)
def build_rpn():
    inputs = layers.Input(shape=sample_features.shape[1:])
    x = layers.Conv2D(256, (3, 3), activation="relu", padding="same")(inputs)
    objectness = layers.Conv2D(9, (1, 1), activation="sigmoid", name="objectness")(x)
    bbox_deltas = layers.Conv2D(36, (1, 1), activation="linear", name="bbox_deltas")(x)
    return models.Model(inputs, [objectness, bbox_deltas], name="rpn")

rpn = build_rpn()
rpn.summary()

## Region of Interest (ROI) Pooling
def roi_pooling(feature_maps, rois, pool_size=(7, 7)):
    pooled_rois = []
    for roi in rois:
        x1, y1, x2, y2 = roi
        cropped = tf.image.crop_to_bounding_box(feature_maps, y1, x1, y2-y1, x2-x1)
        resized = tf.image.resize(cropped, pool_size)
        pooled_rois.append(resized)
    return tf.stack(pooled_rois)

## Classifier Head
def build_classifier():
    inputs = layers.Input(shape=(7, 7, 256))
    x = layers.Flatten()(inputs)
    x = layers.Dense(1024, activation="relu")(x)
    x = layers.Dense(1024, activation="relu")(x)
    class_logits = layers.Dense(20, activation="softmax", name="class_logits")(x)  # For 20 classes
    bbox_regress = layers.Dense(80, activation="linear", name="bbox_regress")(x)  # 4 coordinates per class
    return models.Model(inputs, [class_logits, bbox_regress], name="classifier")

classifier = build_classifier()
classifier.summary()

## Compile the Faster R-CNN
class FasterRCNN(models.Model):
    def __init__(self, backbone, rpn, classifier, **kwargs):
        supElton@1986er(FasterRCNN, self).__init__(**kwargs)
        self.backbone = backbone
        self.rpn = rpn
        self.classifier = classifier

    def call(self, inputs):
        feature_maps = self.backbone(inputs)
        rpn_output = self.rpn(feature_maps)
        rois = self.select_rois(rpn_output)
        pooled_rois = roi_pooling(feature_maps, rois)
        classifier_output = self.classifier(pooled_rois)
        return classifier_output

    def select_rois(self, rpn_output):
        # Here, apply non-max suppression to select ROIs
        return np.array([[50, 50, 150, 150]])  # Placeholder

faster_rcnn = FasterRCNN(backbone, rpn, classifier)

## Train the Model
faster_rcnn.compile(
    optimizer=tf.keras.optimizers.Adam(learning_rate=1e-4),
    loss={
        "objectness": "binary_crossentropy",
        "bbox_deltas": "mse",
        "class_logits": "categorical_crossentropy",
        "bbox_regress": "mse",
    },
)

# Prepare Dummy Data
dummy_images = tf.random.normal((32, 224, 224, 3))
dummy_labels = {
    "objectness": tf.random.uniform((32, 14, 14, 9)),
    "bbox_deltas": tf.random.normal((32, 14, 14, 36)),
    "class_logits": tf.one_hot(np.random.randint(0, 20, (32,)), 20),
    "bbox_regress": tf.random.normal((32, 80)),
}

# Train for 1 epoch as demonstration
faster_rcnn.fit(dummy_images, dummy_labels, epochs=1)
print("OK")