## Détection d'objet avec YOLO v3 sur les images personnalisées

YOLO signifie "You Only Look Once" autrement dit qu'un seul réseau est appliqué une seule fois à l'image entière. YOLO est un algorithme de détection d'objets en utlisant des CNNs. Le récent YOLOv3 est plus puissant que le YOLO et le YOLOv2 de base et plus rapide que les algorithmes précédents comme R-CNN et plus précis aussi. D'abord YOLO divise l'image en régions, prédit les cadres de délimitation et les probabilités pour chacune de ces régions. YOLO prédit également la confiance pour chaque boîte englobante  qui contient réellement un objet et la probabilité de la classe de l'objet. Pour ce faire il scanne l'image (ou la trame) une seule fois pour faire une prédiction par rapport à un autre algorithme qui nécessite plusieurs analyses.

Ensuite, les boîtes englobantes sont filtrées avec une technique appelée "non-maximum suppression" qui en exclut certaines si la confiance est faible ou s'il existe une autre boîte englobante pour cette région avec une confiance plus élevée.



In [1]:
# Importons les bibliothèques nécessaires
import numpy as np
import cv2
import time

In [2]:
cv2.__version__

'3.4.2'

### Chargeons et lisaons l'image via la méthode  cv2.imread
cv2.imread est une méthode charge une image à partir du fichier spécifié
attention , si on ulise un window le chemin d'accès au fichier sera: 'images\woman-working-in-the-office.jpg'


In [3]:
image_BGR = cv2.imread('images/yolo_image.jpeg', cv2.IMREAD_UNCHANGED)
#image_BGR = cv2.imread('images/woman-working-in-the-office.jpg', cv2.IMREAD_UNCHANGED)

#Pour afficher l'image, utilisez le code suivant,
cv2.imshow("image originale", image_BGR)
cv2.waitKey(0)
cv2.destroyAllWindows()

### Redimensionner la taille de l'image
Cette partie suivante premet de rediminsionner un image lorsqu'on suppose que la taille est très grande. Si vous décidez de redimensionner il faut tenir compte dans le reste du notebook. Cette partie est optionnelle

In [3]:
print('Original Dimensions : ',image_BGR.shape)
 
scale_percent = 60 # percent of original size
width = int(image_BGR.shape[1] * scale_percent / 100)
height = int(image_BGR.shape[0] * scale_percent / 100)
dim = (width, height)
  
# redimensionner l'image pour reuire la taille de l'image
resized = cv2.resize(image_BGR, dim, interpolation = cv2.INTER_AREA)
 
print('redimensionnellement: ',resized.shape)

#Pour afficher l'image, utilisez le code suivant,
 
#cv2.imshow("image redimensionnee", resized)
#cv2.waitKey(0)
#cv2.destroyAllWindows()

Original Dimensions :  (667, 1000, 3)
redimensionnellement:  (400, 600, 3)


L'image ci dessus est notre image originale à partir de laquelle on veut détecter autant d'objets que possible. Mais on ne peut pas donner cette image directement à l'algorithme, on doit donc effectuer une conversion à partir de cette image originale. C'est ce qu'on appelle la conversion d'objets blob, qui consiste essentiellement à extraire des fonctionnalités de l'image c'est une manière de prétraitement de l'image.

L'entrée du réseau est ce que l'on appelle un objet blob . La fonction transforme l'image en un blob via **cv2.dnn.blobFromImage**.  Il a les paramètres suivants:
- l' image à transformer
- le facteur d' échelle (1/255 pour mettre à l'échelle les valeurs de pixel à [0..1])
- la taille , ici une image carrée $416\times416$
- la valeur moyenne (par défaut = 0)
- l'option swapBR = True (car OpenCV utilise BGR)

la définition de l' indicateur True signifie que nous inverserons le bleu avec le rouge car OpenCV utilise BGR par contre on a des canaux dans l'image en RGB.


In [4]:
blob = cv2.dnn.blobFromImage(image_BGR, 1 / 255.0, (416, 416),swapRB=True, crop=False)
                             

Visualisons ce que ressemble les 3 objets blob différents en utilisant le code suivant. On n'observe pas beaucoup de différence mais c'est ce qu'on va donner à l'algorithme YOLO.

In [4]:
for b in blob:
    for n,img_blob in enumerate(b):
        cv2.imshow(str(n),img_blob)
        cv2.waitKey(0)
        cv2.destroyAllWindows()

In [5]:
blob.shape

(1, 3, 416, 416)

### Charger l'architecture Darknet 

Chargeons l'algorithme yolo v3 en utilisant **cv2.dnn.readNetFromDarknet**, cela revient à charger des poids et un fichier cfg. Ensuite, nous chargerons les 80 labels des classes dans un tableau en utilisant le fichier coco.names.


In [8]:
%time

with open('yolo-coco-data/coco.names') as f:
    labels = [line.strip() for line in f]
#Chargement du détecteur d'objets YOLO v3 entraîné 
network = cv2.dnn.readNetFromDarknet('yolo-coco-data/yolov3.cfg',
                                     'yolo-coco-data/yolov3.weights')

print("label des classes de coco",labels)
# Obtenir la liste des noms de toutes les couches du réseau YOLO v3 
layers_names_all = network.getLayerNames()
# Obtenir uniquement les noms de couche de sortie dont on a besoin pour l'algo YOLO
layers_names_output = [layers_names_all[i[0] - 1] for i in network.getUnconnectedOutLayers()]
#affichage des couches de sorties
print(layers_names_output)  # ['yolo_82', 'yolo_94', 'yolo_106']


# la probabilité minimale pour éliminer les prédictions 
probability_minimum = 0.5
#seuil lors de l'application de la technique non-maximum suppression
threshold = 0.3


#les couleurs pour représenter chaque objet détecté
colours = np.random.randint(0, 255, size=(len(labels), 3), dtype='uint8')
h, w = image_BGR.shape[:2]
print('Image height={0} and width={1}'.format(h, w))  


# verification
print(type(colours))  # <class 'numpy.ndarray'>
print(colours.shape)  # (80, 3)
print(colours[0])  # [172  10 127]

CPU times: user 4 µs, sys: 1e+03 ns, total: 5 µs
Wall time: 9.06 µs
label des classes de coco ['person', 'bicycle', 'car', 'motorbike', 'aeroplane', 'bus', 'train', 'truck', 'boat', 'traffic light', 'fire hydrant', 'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse', 'sheep', 'cow', 'elephant', 'bear', 'zebra', 'giraffe', 'backpack', 'umbrella', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis', 'snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove', 'skateboard', 'surfboard', 'tennis racket', 'bottle', 'wine glass', 'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple', 'sandwich', 'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut', 'cake', 'chair', 'sofa', 'pottedplant', 'bed', 'diningtable', 'toilet', 'tvmonitor', 'laptop', 'mouse', 'remote', 'keyboard', 'cell phone', 'microwave', 'oven', 'toaster', 'sink', 'refrigerator', 'book', 'clock', 'vase', 'scissors', 'teddy bear', 'hair drier', 'toothbrush']
['yolo_82', 'yolo_94', 'yolo_106']
Image

Pour Transmettre l'objet **blob** au réseau, on utilise la fonction **net.setInput (blob)** , puis aux couches de sorties. Ici, tous les objets détectés et à la sortie contiennent toutes les informations dont nous avons besoin pour extraire la position de l'objet comme les positions en haut, à gauche, à droite, en bas, le nom de la classe.

In [7]:
network.setInput(blob)  
start = time.time()
output_from_network = network.forward(layers_names_output)
end = time.time()

# le temps nécessaire pour la Pass en avant
print('Objects Detection took {:.5f} seconds'.format(end - start))


Objects Detection took 2.10118 seconds


### Prédiction du modèle YOLO v3
Ici, la confiance signifie à quel point l'algorithme est certain lorsqu'il prévoit un objet. Pour cela, on fera une boucle sur les **output_from_network**, pour avoir la confiance, class_numbers et bounding_boxes. Ensuite on récupère le class_numbers qui a la confiance la plus élevé parmi eux.

Le seuil confiance minimum est à 0,5, alors toute confiance supérieur à 0,5 signifierait un objet détecté, ou soit aussi center_x, center_y, w (largeur), h (hauteur) de l'objet détecté. 
En outre , on dessinera un rectangle autour de l'objet détecté en utilisant center_x, center_y, w, h . 


In [8]:
# Preparation des listes pour les boites de delimitation, 
#les cofiances obtenues et numero de classe

bounding_boxes = []
confidences = []
class_numbers = []


# Passage par toutes les couches de sortie après le forward pass
for result in output_from_network:
    # Passage par de toutes les détections de la couche de sortie courante
    for detected_objects in result:
        #  obtenir les 80 classes de proba pour les objets détectés 
        scores = detected_objects[5:]
        # Obtenir l'indexe de la classe majoritaire
        class_current = np.argmax(scores)
        # Obtenir la valeur de proba  de cette classe
        confidence_current = scores[class_current]

        # Elimination des faibles prédictions 
        if confidence_current > probability_minimum:
            # Le format de données YOLO conserve 
            #les coordonnées du centre du rectangle de délimitation ainsi 
            #que sa largeur et sa hauteur actuelles. C'est pourquoi on dois
            #les multiplier par la largeur et la hauteur de l'image originale 
            #et obtenir ainsi les coordonnées du centre du rectangle 
            #de délimitation, sa largeur et sa hauteur pour l'image originale.
            box_current = detected_objects[0:4] * np.array([w, h, w, h])

           
            x_center, y_center, box_width, box_height = box_current
            #cv2.circle(image_BGR,(x_center, y_center),10,(0,255,0),2)
            x_min = int(x_center - (box_width / 2))
            y_min = int(y_center - (box_height / 2))

            # ajouter aux listes
            bounding_boxes.append([x_min, y_min, int(box_width), int(box_height)])
            confidences.append(float(confidence_current))
            class_numbers.append(class_current)


In [9]:
results = cv2.dnn.NMSBoxes(bounding_boxes, confidences,probability_minimum, threshold)
                           


In [10]:
# un compteur pour les objets détecter
counter = 1

# Verifie s'il y a un objet détecté après le non-maximum suppression
if len(results) > 0:
    # Passage par les indexes des resultats
    for i in results.flatten():
        # le label de l'object détecté
        print('Object {0}: {1}'.format(counter, labels[int(class_numbers[i])]))

        # Incréménter le compteur
        counter += 1

        # Obtenir les coordonnées de la boite,
     
        x_min, y_min = bounding_boxes[i][0], bounding_boxes[i][1]
        box_width, box_height = bounding_boxes[i][2], bounding_boxes[i][3]

        # la couleur de la boite actuelle
        #conversion d'un tableau numpy à une liste
        colour_box_current = colours[class_numbers[i]].tolist()

        
        # Dessiner la boite de délimitation sur l'image originale
        cv2.rectangle(image_BGR, (x_min, y_min),(x_min + box_width, y_min + box_height),
                      colour_box_current, 2)

        # Le texte pour le label et la confiance de la boite actuelle
        text_box_current = '{}: {:.4f}'.format(labels[int(class_numbers[i])],
                                               confidences[i])

        # Mettre ce texte sur l'image originale
        cv2.putText(image_BGR, text_box_current, (x_min, y_min - 5),
                    cv2.FONT_HERSHEY_COMPLEX, 0.7, colour_box_current, 2)


# Le nombre d'objets qui ont été détecté avant et après la technique
print()
print("Le total d'object detectés =", len(bounding_boxes))
print("Nombre d'objets restants après une non maximum suppression ", counter - 1)


# affichage des objets détectés dans l'image
cv2.namedWindow('Detections', cv2.WINDOW_NORMAL)
cv2.imshow('Detections', image_BGR)
cv2.waitKey(0)
cv2.destroyWindow('Detections')


Object 1: person
Object 2: person
Object 3: laptop
Object 4: chair

Total objects been detected: 4
Number of objects left after non-maximum suppression: 4


In [1]:
cv2 .__ version__

SyntaxError: invalid syntax (<ipython-input-1-dcc379e8c4d3>, line 1)