In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from tensorflow import keras
import cv2

%matplotlib inline
plt.rcParams['figure.figsize'] = 12, 8
%config InlineBackend.figure_format = 'retina'

In [2]:
from keras.applications import VGG16
from keras.models import Sequential, load_model
from keras.layers import Input, Flatten, Dense, Dropout

vgg = VGG16(include_top=False, weights="imagenet")
vgg.trainable = False

dense = load_model("modele-VGG16") # ou 'modele-VGG16.h5'
modele = Sequential([
    Input((227, 227, 3)),
    vgg,
    dense
], name="complet")



In [3]:
from os.path import join
NOM = "BowlPlace1Subject1"
VIDEO = join("VIDEOS", NOM + ".mp4")
BOITE = join("GT", NOM + "_2_bboxes.txt")

## Lecture des boites fournies
Lit le fichier contenant les informations de reconnaissance d'objets pour avoir un point de départ.

In [4]:
from os.path import exists, join
from typing import List, Tuple
import csv

def lecture_information_boite_englobante(nom: str) -> List[List[Tuple[int, int, int, int]]]:
    """ Lit les boites englobante fournies pour l'exemple. """
    resultats = list()
    
    with open(join("GT", nom + "_2_bboxes.txt"), "r") as fichier:
        lecteur = csv.reader(fichier, delimiter=" ")

        for ligne in lecteur:
            frame_nb = int(ligne[0])
            boite_nb = int(ligne[1])
            boites = list()
            for i in range(boite_nb):
                boite = (int(ligne[i * 4 + 2]), int(ligne[i * 4 + 3]), int(ligne[i * 4 + 4]), int(ligne[i * 4 + 5]))
                boites.append(boite)
            resultats.append(boites)
    
    return resultats

boites_englobantes = lecture_information_boite_englobante(NOM)

## Recherche de l'objet sur la prochaine image
À partir de la zone désignée dans l'image précédante, tente de retrouver l'objet dans la nouvelle image.

In [5]:
from PIL import Image

def evaluation_boite(image: Image, boites: list) -> np.array:
    """ Évalue les boites englobantes.
    Passer plusieurs boites englobantes en même temps permet d'accélérer le calcul.
    """
    print(f"evaluation de {len(boites)} boites")
    extraits = list(np.asarray(image\
        .resize((227, 227), box=((boite[0], boite[1], boite[0] + boite[2], boite[1] + boite[3]))))
        for boite in boites)
    return modele.predict(np.array(extraits))

def tracking_move_box(image: Image.Image, boite_pre: (int, int, int, int), categorie: int) -> (int, int, int, int):
    """Calcul le mouvement de la boite.
    @param image: image courante
    @param boite_pre: ancienne boite englobante
    @return la nouvelle position de la boite englobante
    """
    assert(isinstance(boite_pre, tuple))
    
    valeurs = evaluation_boite(image, (boite_pre,))
    evaluations = {boite_pre: valeurs[0][categorie]}  # categorie
    meilleur_pos = boite_pre
    #print(meilleur_pos, valeur[categorie])
    #print(boite_cible, valeurs[1][categorie])

    # Modifications légères de la boite en maximisant la correspondance à la catégorie.
    # la déplacer un peu et réessayer
    # Méthode diamand sur 4D (x, y, w, h) ou (x, y, ratio, zoom)
    pas = 16
    while pas >= 8:
        # Liste des positions évaluées mais pas leurs voisins
        exploration = [meilleur_pos]
        # Liste des positions évaluées et aussi leurs voisins
        explores = set()

        while len(exploration) > 0 and (len(explores) < 4 or \
            max(explores, key=evaluations.__getitem__) < max(exploration, key=evaluations.__getitem__)):
            # Une position plus favorable nécessite d'étudier ses voisins
            pos = max(exploration, key=evaluations.__getitem__)
            exploration.remove(pos)

            # propositions de nouvelles boites englobantes
            propositions = list(boite_v
                for boite_v in boites_voisines(pos, image.size, pas=pas)
                    if boite_v not in evaluations.keys())
            propositions = list(boite_v for boite_v in propositions if boite_v not in evaluations)

            # évalue toutes les boites proposées
            valeurs = evaluation_boite(image, propositions)
            for i, boite_v in enumerate(propositions):
                # note pour la catégorie considérée
                evaluations[boite_v] = valeurs[i][categorie]

            exploration.extend(propositions)
            explores.add(pos)

        meilleur_pos = max(explores, key=evaluations.__getitem__)
        print("meilleur", meilleur_pos, evaluations[meilleur_pos])
        pas /= 2
    return meilleur_pos

In [6]:
def tracking_leger(image: Image.Image, boite_pre: (int, int, int, int), categorie: int) -> (int, int, int, int):
    pas = 2
    demi_taille = 5
    positions = list()
    evaluations = {}
    positions.append(boite_pre)
    for dx in range(-demi_taille, demi_taille, pas):
        for dy in range(-demi_taille, demi_taille, pas):
            positions.append((boite_pre[0] + dx, boite_pre[1] + dy, boite_pre[2], boite_pre[3]))
    valeurs = evaluation_boite(image, positions)
    for i, boite_v in enumerate(positions):
        evaluations[boite_v] = valeurs[i][categorie]
    return max(positions, key=evaluations.__getitem__)


In [7]:
from utils.evaluateBBox import *

assert exists(VIDEO), "le fichier vidéo n'existe pas"

frame = 0
video = cv2.VideoCapture(VIDEO)
tracking = False
categorie = 0
sequence = list()

while video.isOpened():
    # print(f"* frame {frame}")
    ret, f = video.read()
    if ret == False:
        print("erreur")
        break

    f = cv2.cvtColor(f, cv2.COLOR_BGR2RGB)
    image = Image.fromarray(f)
        
    # découper une boite
    if not tracking and len(boites_englobantes[frame]) > 0:
        tracking = True
        sequence.append(boites_englobantes[frame][0])
        valeurs = evaluation_boite(image, (sequence[-1],))
        categorie = np.argmax(valeurs[0])
        print("tracking pour la catégorie", categorie)
        
    elif tracking:
        boite_pre = sequence[-1]
        print(f"boite_pre {boite_pre}")
        boite_cible = boites_englobantes[frame][0]
        
        meilleur_pos = tracking_move_box(image, boite_pre, categorie)
        # meilleur_pos = tracking_leger(image, boite_pre, categorie)

        print(f"ajustement de {boite_pre} à {meilleur_pos}")
        print(f"score: {IoU(boite_cible, meilleur_pos)}")
        sequence.append(meilleur_pos)
        x, y, w, h = meilleur_pos

        ff = f.copy()
        cv2.rectangle(ff, (x, y), (x+w, y+h), (0, 255, 0), 2) 
        cv2.imshow("frame "+str(frame), ff)
        cv2.waitKey(0)
        
    else:
        sequence.append(None)
    frame += 1

print("out")
video.release()

* frame 0
* frame 1
* frame 2
* frame 3
* frame 4
* frame 5
* frame 6
* frame 7
* frame 8
* frame 9
* frame 10
* frame 11
* frame 12
* frame 13
* frame 14
* frame 15
* frame 16
* frame 17
* frame 18
* frame 19
* frame 20
* frame 21
* frame 22
* frame 23
* frame 24
* frame 25
* frame 26
* frame 27
* frame 28
* frame 29
* frame 30
* frame 31
* frame 32
* frame 33
* frame 34
* frame 35
* frame 36
* frame 37
* frame 38
* frame 39
* frame 40
* frame 41
* frame 42
* frame 43
* frame 44
* frame 45
* frame 46
* frame 47
* frame 48
* frame 49
* frame 50
* frame 51
* frame 52
* frame 53
* frame 54
* frame 55
* frame 56
* frame 57
* frame 58
* frame 59
* frame 60
* frame 61
* frame 62
* frame 63
* frame 64
* frame 65
* frame 66
* frame 67
* frame 68
* frame 69
* frame 70
* frame 71
* frame 72
* frame 73
* frame 74
* frame 75
* frame 76
* frame 77
* frame 78
* frame 79
* frame 80
* frame 81
* frame 82
* frame 83
* frame 84
* frame 85
* frame 86
* frame 87
* frame 88
* frame 89
* frame 90
* frame 9