Object Detection: consiste nell'individuare e localizzare oggetti al'interno di un'immagine/video.<br>
In questo paper viene implementato una modalità "base" di object detection, avvalendoci di un pre-trained image classifier (ResNet50 CNN pre-trainied su ImageNet dataset) e utilizzando "imege pyramids", "sliding windows" e "non-maxima suppression" per implementare un object detector "base".

Un object detector deve fornire sia "qual'è" il contenuto dell'immagine che "dov'è" all'interno dell'immagine, utilizzando un bounding box.

Un object detection algorithm avrà quindi il seguente pattern:

- riceve una immagine in input
- fornisce i seguenti risultati:
        - una lista di bounding boxes (x,y coordinates) relativi alla posizione dell'oggetto individuato
        - la label associata a ciascun bounding box
        - la probabilità associata a ciascun bounding box/label
        
Vedi articolo https://www.pyimagesearch.com/2020/06/22/turning-any-cnn-image-classifier-into-an-object-detector-with-keras-tensorflow-and-opencv/


In [15]:
import numpy as np
import cv2
import sys

### Image Pyramid

Attraverso "Image pyramid" si ottiene una rappresentazione multi-scala di una immagine che viene utilizzata al fine di trovare gli oggetti di differenti dimensioni all'interno dell'immagine stessa.<br>
L'immagine originale viene ridimensionata progessivamente fino al raggiungimento della dimensione minima prevista.<br>
La funzione è implementata come un "python generator" che, partendo dall'immagine iniziale, restituisce la stessa immagine a dimensioni differenti.

Riceve come parametri:
- l'immagine di input
- la scala, che controlla di quanto l'immagine viene ridotta ad ogni iterazione (un valore basso comporta comporta un numero maggiore di iterazioni e quindi più layer da analizzare successivamente)
- dimensione minima dell'immagine restituita, serve per interromere il ciclo

In [16]:
def image_pyramid(image, scale=1.5, minSize=(224, 224)):
    # yield the original image
    yield image
    # keep looping over the image pyramid
    while True:
        # compute the dimensions of the next image in the pyramid
        w = int(image.shape[1] / scale)
        image = resize(image, width=w)
        # if the resized image does not meet the supplied minimum
        # size, then stop constructing the pyramid
        if image.shape[0] < minSize[1] or image.shape[1] < minSize[0]:
            break
        # yield the next image in the pyramid
        yield image

### Sliding Windows

Attraverso questa tecnica, una "finestra" di dimensione fissa è fatta passare da sinista a destra e dall'altro al basso sull'immagine di input. Serve per individuare esattamente dove si trova l'oggetto all'interno dell'immagine.<br>
Per ogni immagine estratta si procede con:
- estrazione del ROI (Region of Interest)
- image classification (ad esempio utilizzando un CNN pre-trained)
- ottenimento della prediction

Combinando "image pyramid" e "sliding windows" è possibile localizzare oggetti in diverse posizioni e a diverse scale all'interno dell'immagine di input. <br>
La funzione è implementata come un "python generatore" che riceve :
- l'immagine di input 
- lo step size, che è il numero di pixel da saltare (meno sono, maggiore è la complessità computazionale in quanto vengono generate più finestre)
- la dimensione della finestra che andremo ad estrarre 

e restituisce la finestra corrente

In [3]:
def sliding_window(image, step, ws):
    # slide a window across the image
    
    # Per ogni riga (range di y values)
    for y in range(0, image.shape[0] - ws[1], step):
        # Per ogni colonna (range di x values)
        for x in range(0, image.shape[1] - ws[0], step):
            # yield the current window
            yield (x, y, image[y:y + ws[1], x:x + ws[0]])

Funzione di utility per ridimensionare un'immagine di input alle dimensioni fornite da parametro e mantenendo la il rapporto altezza/larghezza iniziale

In [17]:
def resize(image, width=None, height=None, inter=cv2.INTER_AREA):
    # initialize the dimensions of the image to be resized and
    # grab the image size
    dim = None
    (h, w) = image.shape[:2]

    # if both the width and height are None, then return the
    # original image
    if width is None and height is None:
        return image

    # check to see if the width is None
    if width is None:
        # calculate the ratio of the height and construct the
        # dimensions
        r = height / float(h)
        dim = (int(w * r), height)

    # otherwise, the height is None
    else:
        # calculate the ratio of the width and construct the
        # dimensions
        r = width / float(w)
        dim = (width, int(h * r))

    # resize the image
    resized = cv2.resize(image, dim, interpolation=inter)

    # return the resized image
    return resized

### NMS (Non Maxima Suppression)

Dopo l'appliacazione della tecnica delle sliding windows è normale ottenere più bounding boxes intorno all'immagine in quanto, man mano che si avvicina al centro dell'immagine, il classificatore produce probabilità sempre più alte.<br>
Per ridurre il numero di bounding boxes è necessario applicare l'algoritmo di NMS (Non Maxima Suppression) per ridurre i bouding box sovrapposti con minor probabilità.<br>
L'obiettivo è quello di ottenere un solo "bounding box" per ciascun oggetto presente nell'immagine iniziale.

In [18]:
def non_max_suppression(boxes, probs=None, overlapThresh=0.3):
    
    # if there are no boxes, return an empty list
    if len(boxes) == 0:
        return []

    # if the bounding boxes are integers, convert them to floats -- this
    # is important since we'll be doing a bunch of divisions
    if boxes.dtype.kind == "i":
        boxes = boxes.astype("float")

    # initialize the list of picked indexes
    pick = []

    # grab the coordinates of the bounding boxes
    x1 = boxes[:, 0]
    y1 = boxes[:, 1]
    x2 = boxes[:, 2]
    y2 = boxes[:, 3]

    # compute the area of the bounding boxes and grab the indexes to sort
    # (in the case that no probabilities are provided, simply sort on the
    # bottom-left y-coordinate)
    area = (x2 - x1 + 1) * (y2 - y1 + 1)
    idxs = y2

    # if probabilities are provided, sort on them instead
    if probs is not None:
        idxs = probs

    # sort the indexes
    idxs = np.argsort(idxs)

    # keep looping while some indexes still remain in the indexes list
    while len(idxs) > 0:
        # grab the last index in the indexes list and add the index value
        # to the list of picked indexes
        last = len(idxs) - 1
        i = idxs[last]
        pick.append(i)

        # find the largest (x, y) coordinates for the start of the bounding
        # box and the smallest (x, y) coordinates for the end of the bounding
        # box
        xx1 = np.maximum(x1[i], x1[idxs[:last]])
        yy1 = np.maximum(y1[i], y1[idxs[:last]])
        xx2 = np.minimum(x2[i], x2[idxs[:last]])
        yy2 = np.minimum(y2[i], y2[idxs[:last]])

        # compute the width and height of the bounding box
        w = np.maximum(0, xx2 - xx1 + 1)
        h = np.maximum(0, yy2 - yy1 + 1)

        # compute the ratio of overlap
        overlap = (w * h) / area[idxs[:last]]

        # delete all indexes from the index list that have overlap greater
        # than the provided overlap threshold
        idxs = np.delete(idxs, np.concatenate(([last],
            np.where(overlap > overlapThresh)[0])))

    # return only the bounding boxes that were picked
    return boxes[pick].astype("int")

Di seguito gli step necessari per conventire un image classifier in object detector
![immagine.png](attachment:immagine.png)

In [19]:
from tensorflow.keras.applications import ResNet50
from tensorflow.keras.applications.resnet import preprocess_input
from tensorflow.keras.preprocessing.image import img_to_array
from tensorflow.keras.applications import imagenet_utils

import argparse
import time


In [20]:
# initialize variables used for the object detection procedure

IMMAGINE='data/stingray.jpg'
#IMMAGINE='data/trattore.jpg'
#IMMAGINE='data/AIRPLANE_BIG.jpg'
WIDTH = 600   # Dal momento che l'immagine di input può avere diverse dimensioni, 
              # fisso una dimensione fissa per controllare dimensione sullo schermo
PYR_SCALE = 1.5  # fattore di scala che controlla quanto l'immagine viene ridotta x ogni 
                # layer dell'image pyramid 
WIN_STEP = 16   # step size della sliding windows (quanti pixel salta)
ROI_SIZE = (200,150)   # dimensione della finestra ROI in pixel
#ROI_SIZE = (224,224)   # dimensione della finestra ROI in pixel
INPUT_SIZE = (224, 224) # Dipende dal CNN utilizzato. In questo caso è la dimensione richiesta da ResNet50

MIN_CONF =  0.95 # probabilità minima per filtrare probabilità "deboli"
VISUALIZE = False


E' necessario :
- caricare il modello di CNN Classifier (ResNe50) pretrained con ImageNet dataset<br>
- importare l'immagine su cui effettuare l'object detection ed effettuare il resize

In [21]:
# load our network weights from disk
print("[INFO] loading network...")
model = ResNet50(weights="imagenet", include_top=True)
print("[INFO] loaded")

# load the input image from disk, resize it such that it has the
# has the supplied width, and then grab its dimensions
#orig = cv2.imread(args["image"])
orig = cv2.imread(IMMAGINE)
orig = resize(orig, width=WIDTH)
(H, W) = orig.shape[:2]


[INFO] loading network...
[INFO] loaded


Step successivo è inizializzare l'image pyramid generator per estrarre le diverse immagini da cui successivamente estrarre i ROI attraverso le sliding windows

In [22]:
# initialize the image pyramid
pyramid = image_pyramid(orig, scale=PYR_SCALE, minSize=ROI_SIZE)

# initialize two lists, one to hold the ROIs generated from the image
# pyramid and sliding window, and another list used to store the
# (x, y)-coordinates of where the ROI was in the original image
rois = []
locs = []
# time how long it takes to loop over the image pyramid layers and
# sliding window locations
start = time.time()

Utilizzando il generatore (Image Pyramid), viene fatto un loop sui diversi layer (immagini di diverse dimensioni) che lo compongono 

In [23]:
# loop over the image pyramid
for image in pyramid:
    # determine the scale factor between the *original* image
    # dimensions ("W") and the *current* layer of the pyramid ("image.shape[1]")
    # E' necessario per successivamente scalare i bounding box
    scale = W / float(image.shape[1])
    
    # for each layer of the image pyramid, loop over the sliding window locations
    for (x, y, roiOrig) in sliding_window(image, WIN_STEP, ROI_SIZE):
        
        # scale the (x, y)-coordinates of the ROI with respect to the *original* image dimensions
        x = int(x * scale)
        y = int(y * scale)
        w = int(ROI_SIZE[0] * scale)
        h = int(ROI_SIZE[1] * scale)
        
        # take the ROI and preprocess it so we can later classify the region using Keras/TensorFlow
        roi = cv2.resize(roiOrig, INPUT_SIZE)
        roi = img_to_array(roi)
        roi = preprocess_input(roi)   # Applica l'image preprocessing per ResNet50
        
        # update our list of ROIs and associated coordinates
        rois.append(roi)
        locs.append((x, y, x + w, y + h))

        
# check to see if we are visualizing each of the sliding windows in the image pyramid
        if VISUALIZE > 0:
            # clone the original image and then draw a bounding box
            # surrounding the current region
            clone = orig.copy()
            cv2.rectangle(clone, (x, y), (x + w, y + h),(0, 255, 0), 2)
            # show the visualization and current ROI
            cv2.imshow("Visualization", clone)
            cv2.imshow("ROI", roiOrig)
            cv2.waitKey(0)        
# show how long it took to loop over the image pyramid layers and sliding window locations

end = time.time()
print("[INFO] looping over pyramid/windows took {:.5f} seconds".format(end - start))

[INFO] looping over pyramid/windows took 147.97984 seconds


Dopo aver ottenuto la lista dei ROI, si può procedere con la classificazione degli stessi utilizzando il modello di CNN precedentemente caricato

In [24]:
# convert the ROIs to a NumPy array
rois = np.array(rois, dtype="float32")
# classify each of the proposal ROIs using ResNet and then show how
# long the classifications took
print("[INFO] classifying ROIs...")
start = time.time()
preds = model.predict(rois)
end = time.time()
print("[INFO] classifying ROIs took {:.5f} seconds".format(end - start))

# decode the predictions and initialize a dictionary which maps class
# labels (keys) to any ROIs associated with that label (values)
preds = imagenet_utils.decode_predictions(preds, top=1)
labels = {}

[INFO] classifying ROIs...
[INFO] classifying ROIs took 15.77794 seconds


In [25]:
# loop over the predictions
for (i, p) in enumerate(preds):
    # grab the prediction information for the current ROI
    (imagenetID, label, prob) = p[0]
    # filter out weak detections by ensuring the predicted probability is greater than the minimum probability
    if prob >= MIN_CONF:
        # grab the bounding box associated with the prediction and convert the coordinates
        box = locs[i]
        # grab the list of predictions for the label and add the
        # bounding box and probability to the list
        L = labels.get(label, [])
        L.append((box, prob))
        labels[label] = L

In [26]:
labels

{'stingray': [((288, 128, 488, 278), 0.9540817),
  ((304, 128, 504, 278), 0.9632943),
  ((224, 144, 424, 294), 0.95643336),
  ((144, 0, 444, 225), 0.9724927),
  ((192, 0, 492, 225), 0.98630893)]}

Una volta ottenuta la lista con:
- le labels degli oggetti identificati nell'immagine
- la lista dei bounding box con le relative probabilità

è possibile iterare su tutte le labels e applicare l'algoritmo NMS su tutti i relativi box, in modo da ottenere il bounding box da proporre come scelta finale per l'oggetto

In [27]:
# loop over the labels for each of detected objects in the image
for label in labels.keys():
    # clone the original image so that we can draw on it
    print("[INFO] showing results for '{}'".format(label))
    clone = orig.copy()
    # loop over all bounding boxes for the current label
    for (box, prob) in labels[label]:
        # draw the bounding box on the image
        (startX, startY, endX, endY) = box
        cv2.rectangle(clone, (startX, startY), (endX, endY),(0, 255, 0), 2)
    # show the results *before* applying non-maxima suppression, then
    # clone the image again so we can display the results *after*
    # applying non-maxima suppression
    cv2.imshow("Before", clone)
    clone = orig.copy()
# extract the bounding boxes and associated prediction
#   probabilities, then apply non-maxima suppression
    boxes = np.array([p[0] for p in labels[label]])
    proba = np.array([p[1] for p in labels[label]])
    boxes = non_max_suppression(boxes, proba)
    # loop over all bounding boxes that were kept after applying non-maxima suppression
    for (startX, startY, endX, endY) in boxes:
        # draw the bounding box and label on the image
        cv2.rectangle(clone, (startX, startY), (endX, endY),(0, 255, 0), 2)
        y = startY - 10 if startY - 10 > 10 else startY + 10
        cv2.putText(clone, label, (startX, y), cv2.FONT_HERSHEY_SIMPLEX, 0.45, (0, 255, 0), 2)
    # show the output after apply non-maxima suppression
    cv2.imshow("After", clone)
    cv2.waitKey(0)    

[INFO] showing results for 'stingray'


I punti deboli di questo object detector sono:
- lentezza
- non accuratezza dei bounding box (dipende fortemente dai parametri utilizzati come la scala dell'image pyramid, delle sliding windows e dalla dimensione del ROI)
- non è possibile fare il trainig end to end (diversamente da altri modelli di Oject detection come Faster R-CNN, SSDs, YOLO. Facendo training end to end del modello è possibile correggere eventuali errori utilizzando il meccanismo della backpropagation dell'errore.