# L'Apprentissage en profondeur avec OpenCV DNN

À l'aide de réseaux de neurones et apprentissage en profondeur, nous avons atteint un stade où les ordinateurs peuvent commencer à réellement comprendre et reconnaître un objet avec une précision élevée, dépassant même les humains dans de nombreux cas. Et pour en savoir sur les réseaux de neurones et apprentissage en profondeur avec la vision par ordinateur, l'utilisation du module DNN d'OpenCV est un excellent endroit pour commencer. 

OpenCV dispose de nombreuses fonctionnalités qui permet l'exécution de l'apprentissage en profondeur. il prend en charge plusieurs algrithmes prétrainés sous differents cadres (Tensorflow, Pytorch, Caffe..).

### Téléchargement du modèle prétrainé

Nous allons utiliser MobileNet SSD , qui a été entrainé avec la base de donnée de reconnaissance d'objets libre COCO. Cette base de données comprend des centaines de milliers d'images avec des millions d'objets déjà étiquetés pour l'apprentissage. SSD modèles sont généralement plus rapide par rapport à d'autres modèles. Donc, c'est un bon modèle pour commencer à apprendre à propos de la détection d'objet avec OpenCV DNN.  

vous devez telecharger les fichiers suivants : 
config : https://github.com/Qengineering/MobileNet_SSD_OpenCV_TensorFlow/blob/master/ssd_mobilenet_v2_coco_2018_03_29.pbtxt
model : https://drive.google.com/file/d/1EU6tVcDNLNwv-pbJUXL7wYUchFHxr5fw/view
labels : https://github.com/Qengineering/MobileNet_SSD_OpenCV_TensorFlow/blob/master/COCO_labels.txt
ils doivent etre dans le meme dossier où votre notebook jupyter est en cours d'exécution.

### Détection des objets dans les images

In [1]:
import cv2
import numpy as np

In [2]:
# load the COCO class names
with open('COCO_labels.txt', 'r') as f:
    class_names = f.read().split('\n')
# get a different color array for each of the classes
COLORS = np.random.uniform(0, 255, size=(len(class_names), 3))

FileNotFoundError: [Errno 2] No such file or directory: 'COCO_labels.txt'

In [36]:
class_names

['unlabeled',
 'person',
 'bicycle',
 'car',
 'motorcycle',
 'airplane',
 'bus',
 'train',
 'truck',
 'boat',
 'trafficlight',
 'firehydrant',
 'streetsign',
 'stopsign',
 'parkingmeter',
 'bench',
 'bird',
 'cat',
 'dog',
 'horse',
 'sheep',
 'cow',
 'elephant',
 'bear',
 'zebra',
 'giraffe',
 'hat',
 'backpack',
 'umbrella',
 'shoe',
 'eyeglasses',
 'handbag',
 'tie',
 'suitcase',
 'frisbee',
 'skis',
 'snowboard',
 'sportsball',
 'kite',
 'baseballbat',
 'baseballglove',
 'skateboard',
 'surfboard',
 'tennisracket',
 'bottle',
 'plate',
 'wineglass',
 'cup',
 'fork',
 'knife',
 'spoon',
 'bowl',
 'banana',
 'apple',
 'sandwich',
 'orange',
 'broccoli',
 'carrot',
 'hotdog',
 'pizza',
 'donut',
 'cake',
 'chair',
 'couch',
 'pottedplant',
 'bed',
 'mirror',
 'diningtable',
 'window',
 'desk',
 'toilet',
 'door',
 'tv',
 'laptop',
 'mouse',
 'remote',
 'keyboard',
 'cellphone',
 'microwave',
 'oven',
 'toaster',
 'sink',
 'refrigerator',
 'blender',
 'book',
 'clock',
 'vase',
 'sciss

In [37]:
#Nous allons charger le MobileNet modèle SSD à l'aide de la fonction readNet() 
model = cv2.dnn.readNet(model='frozen_inference_graph_V2.pb',
                        config='ssd_mobilenet_v2_coco_2018_03_29.pbtxt.txt',
                        framework='TensorFlow')

In [3]:
#Ensuite, nous allons lire l'image à partir du disque et de préparer l'entrée de fichier blob(pretraitement).
# read the image from disk
image = cv2.imread('detectimage.jpg')
image_height, image_width, _ = image.shape
# create blob from image
# We specify the size to be 300×300 as this the input size that SSD models generally expect in almost all frameworks. 
# We are using the swapRB because the models generally expect the input to be in RGB format.
blob = cv2.dnn.blobFromImage(image=image, size=(300, 300), mean=(104, 117, 123), swapRB=True)
# set the input to the pre-trained deep learning network and obtain
# the output predicted probabilities for label
# classes
model.setInput(blob)
output = model.forward()

AttributeError: 'NoneType' object has no attribute 'shape'

In [44]:
output

array([[[[ 0.00000000e+00,  1.00000000e+00,  9.54738975e-01,
           2.52229124e-02,  1.14912421e-01,  2.62741446e-01,
           6.19844437e-01],
         [ 0.00000000e+00,  1.00000000e+00,  9.23418701e-01,
           2.45576024e-01,  1.87537223e-01,  4.08683181e-01,
           7.40061760e-01],
         [ 0.00000000e+00,  2.00000000e+00,  9.17092681e-01,
           1.02286935e-02,  3.70547235e-01,  3.16856384e-01,
           9.84396756e-01],
         [ 0.00000000e+00,  4.00000000e+00,  8.57105494e-01,
           4.09271240e-01,  3.97336811e-01,  8.77957106e-01,
           9.93673205e-01],
         [ 0.00000000e+00,  1.00000000e+00,  8.55911076e-01,
           4.78691220e-01,  1.77895933e-01,  8.15799356e-01,
           9.14314389e-01],
         [ 0.00000000e+00,  1.00000000e+00,  7.68901944e-01,
           6.64110899e-01,  1.33332789e-01,  9.19065475e-01,
           5.09495497e-01],
         [ 0.00000000e+00,  2.00000000e+00,  6.46279454e-01,
           7.62073874e-01,  3.92196953e

- Ici, la position d'indice 1 contient la classe de l'étiquette, qui peut être de 1 à 80.
- La position d'indice 2 contient le score de confiance du modèle que l'objet appartenant à la classe qu'il a détecté.
- les dernieres quatres valeurs, les coordonnées du rectangle qui englobe l'objet detecté (bounding box) 

In [1]:
# loop over each of the detection
for detection in output[0, 0, :, :]:
    # extract the confidence of the detection
    confidence = detection[2]
    # draw bounding boxes only if the detection confidence is above a certain threshold, else skip
    if confidence > .4 :
        # get the class id
        class_id = detection[1]
        # map the class id to the class
        class_name = class_names[int(class_id)-1]
        color = COLORS[int(class_id)]
        # get the bounding box coordinates
        box_x = detection[3] * image_width
        box_y = detection[4] * image_height
        # get the bounding box width and height
        box_width = detection[5] * image_width
        box_height = detection[6] * image_height
        # draw a rectangle around each detected object
        cv2.rectangle(image, (int(box_x), int(box_y)), (int(box_width), int(box_height)), color, thickness=2)
        # put the FPS text on top of the frame
        cv2.putText(image, class_name, (int(box_x), int(box_y - 5)), cv2.FONT_HERSHEY_SIMPLEX, 1, color, 2)
cv2.imshow('image', image)
cv2.imwrite('image_result.jpg', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

NameError: name 'output' is not defined

In [None]:
### Détection des objets dans les vidéos / webcam

In [6]:
import cv2
import time
import numpy as np

# load the COCO class names
with open('COCO_labels.txt', 'r') as f:
    class_names = f.read().split('\n')

# get a different color array for each of the classes
COLORS = np.random.uniform(0, 255, size=(len(class_names), 3))

# load the DNN model
model = cv2.dnn.readNet(model='frozen_inference_graph_V2.pb',
                        config='ssd_mobilenet_v2_coco_2018_03_29.pbtxt.txt', 
                        framework='TensorFlow')

# capture the video
cap = cv2.VideoCapture('video_1.mp4')
# get the video frames' width and height for proper saving of videos
frame_width = int(cap.get(3))
frame_height = int(cap.get(4))
# create the `VideoWriter()` object
out = cv2.VideoWriter('../../outputs/video_result.mp4', cv2.VideoWriter_fourcc(*'mp4v'), 30, 
                      (frame_width, frame_height))

# detect objects in each frame of the video
while cap.isOpened():
    ret, frame = cap.read()
    if ret:
        image = frame
        image_height, image_width, _ = image.shape
        # create blob from image
        blob = cv2.dnn.blobFromImage(image=image, size=(300, 300), mean=(104, 117, 123), 
                                     swapRB=True)
        # start time to calculate FPS
        start = time.time()
        model.setInput(blob)
        output = model.forward()        
        # end time after detection
        end = time.time()
        # calculate the FPS for current frame detection
        fps = 1 / (end-start)
        # loop over each of the detections
        for detection in output[0, 0, :, :]:
            # extract the confidence of the detection
            confidence = detection[2]
            # draw bounding boxes only if the detection confidence is above...
            # ... a certain threshold, else skip 
            if confidence > .4:
                # get the class id
                class_id = detection[1]
                # map the class id to the class 
                class_name = class_names[int(class_id)-1]
                color = COLORS[int(class_id)]
                # get the bounding box coordinates
                box_x = detection[3] * image_width
                box_y = detection[4] * image_height
                # get the bounding box width and height
                box_width = detection[5] * image_width
                box_height = detection[6] * image_height
                # draw a rectangle around each detected object
                cv2.rectangle(image, (int(box_x), int(box_y)), (int(box_width), int(box_height)), color, thickness=2)
                # put the class name text on the detected object
                cv2.putText(image, class_name, (int(box_x), int(box_y - 5)), cv2.FONT_HERSHEY_SIMPLEX, 1, color, 2)
                # put the FPS text on top of the frame
                cv2.putText(image, f"{fps:.2f} FPS", (20, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2) 
        
        cv2.imshow('image', image)
        out.write(image)
        if cv2.waitKey(10) & 0xFF == ord('q'):
            break
    else:
        break

cap.release()
cv2.destroyAllWindows()
