# Biblio sur la façon de faire passer une fenêtre glissante sur une grande image pour détecter un objet #

Ici, je vais regrouper l'ensemble des documents qui donnent des informations sur la détection d'objets.

## Cours de Jen-Philippe Tarel sur l'introduction d'objets dans les images ##

Dans ce cours, les différentes méthodes pour la détection d'un objet dans les images sont présentées. On retrouve parmi elles des méthodes basique de traîtement d'image (corrélation, détection de contours) jusqu'à des méthodes d'apprentissage sur image plus complexes (ACP, SVD, SVM).

Lien du cours : http://elynxsdk.free.fr/ext-docs/Demosaicing/more/news1/fvo_jpt.pdf

## Papier sur la détection d'objets en utilisant un CNN avec scale dependant pooling et le cascaded rejection classifiers ##

Le scale-dependant pooling augmente la précision de la détection surtout sur les petits objets tandis que le cascaded rejecction classifiers augmente la vitesse de détection des objets. 

Scale dependant pooling : on prend en sortie les box qui ont été proposées par le réseau Fast RCNN. Chacune de ces régions est divisée en une grille de taille 7x7 ou 6x6 et les caractéristiques sont regroupées en utilisant un max pooling sur chacune des grilles. La méthode SDP examine la hauteur de chacune des box proposées et regroupes ses caractéristiques avec une couche de convolution en fonction de la hauteur de la box.

Cascaded Rejection Classifiers : L'objectif est de réduire le temps de calcul afin de réduire rapidement le nombre de propositions de régions afin de ne garder que les régions qui ont de grandes chances de contenir un objet pour effectuer sur elles les opérations de calcul complexes et chronophages. Contrairement aux méthodes classiques, il n'y a pas d'autres couches qui sont rajoutées eu réseau afin de pré-traiter les données mais les régions négatives sont éliminées au fur et à mesure des convolutions. 

Lien de l'article : https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Yang_Exploit_All_the_CVPR_2016_paper.pdf

## Papier sur le réseau HyperNet ##

Problème de l'état de l'art : détection des objets de petite taille avec une localisation précise. 

Architecture du réseau : 
- Prend une image en entrée ;
- Calcule la représentation en Hyper Feature (informations grossières combinées à des informations précises) ;
- Génère 100 propositions de régions avec des bounding boxes ;
- Classifie et ajuste chacune des régions.

Lien de l'article : https://arxiv.org/pdf/1604.00600.pdf

## Fast R-CNN ##

Combinaison des réseaux de neurones convolutifs et de Selective Search pour faire de la reconnaissance d'objets. Ce réseau a été mis en place car les SVMs utilisés précédemment pour la reconnaissance d'objets à la fin du selective search étaient longs à entraîner. 

Architecture du réseau : 
- En entrée on prend l'image et les propositions d'objets (appelées régions d'intérêt, RoI) ;
- Toutes ces informations sont envoyées à un réseau de neurones convolutif ;
- chaque RoI est mise en commun avec une feature map de taille fixe et ensuite cartographié dans un vecteur de caratéristiques avec une couche fully connected ;
- Le réseau a deux sorties par RoI : les proba ressorties avec une fonction softmax et et la regression de la correction des bounding boxes. 

Lien article : https://arxiv.org/pdf/1504.08083.pdf

Lien autre article : http://openaccess.thecvf.com/content_cvpr_2017/papers/Wang_A-Fast-RCNN_Hard_Positive_CVPR_2017_paper.pdf

## Faster R-CNN ##

Composé de deux modules : le premier est un réseau de neurones convolutif profond qui propose des régions et le deuxième est un détecteur Fast R-CNN qui utilise les régions proposées afin de procéder à la classification et à la régression des bounding boxes.

## Mask R-CNN ##

Problèmes avec les Fast R-CNN :
- l'apprentissage est couteux en espace et en temps
- La détection d'objet est lente

L'objectif est de savoir si chacun des pixels appartient à l'objet au lieu de proposer une bounding box qui le contient. 

Architecture du réseau :
- En entrée prend une image ;
- Réalise la CNN feature map de cette image ;
- Les couches de convolution vont analyser l'image pixel par pixel et en sortie on obtient une matrice de la taille de la région proposée qui contient 1 si le pixel appartient à l'objet et 0 sinon. 

C'est une extension du réseau faster R-CNN qui ajoute une branche pour prédire le masque de l'objet en parallèle avec la prédiction de la bounding box. 

Lien article : https://arxiv.org/pdf/1703.06870.pdf%20http://arxiv.org/abs/1703.06870.pdf
https://medium.com/@umerfarooq_26378/from-r-cnn-to-mask-r-cnn-d6367b196cfd

## RetinaNet ##

Réseaux de détections classiques fonctionnent en deux étapes : la première étape consiste à proposer des régions et la deuxième étape à évaluer ces régions pour ne retenir que les plus pertinentes. RetinaNet est composé d'un backbone network (qui est un Feature Pyramid Network, généralement ResNet50 ou ResNet101) et de deux task-specific network (un qui sert à classifier objet/non objet les sorties du backbone et le deuxième qui fait de la régression sur les bounding boxes retenues). 

Lien article : https://arxiv.org/pdf/1708.02002.pdf

## Feature Pyramid Network ##

Cet architecture a été proposée afin de rendre plus rapide les R-CNN. 
Dans les RPN classiques, la segmentation se fait sur la carte des caractéristiques de convolution finale et le principe du Pyramidal Network est de faire cette segmentation sur toutes les cartes des caractéristiques de convolution. En effet, les cartes de caractéristiques de convolution intermédiaire ayant des tailles différentes, ceci s'apparente à une architecture pyramidale. Ajout du focal loss qui permet d'ajouter beaucoup de poids aux exemples mal classifiés et peu de poids aux exemples bien classifiés, le focal loss de chacun des anchors est calculé. 

Lien article : https://arxiv.org/pdf/1612.03144.pdf

## SSD : Single Shot MultiBox Detector ##

Explication du nom de cette architecture :
- Single Shot : la localisation et la classification on été faites en un seul passage du réseau ;
- MultiBox : le nom de la technique de la regression des bounding boxes ;
- Detector : détecte les objets et les classifie.

Architecture :
- L'image est passée en entrée d'un réseau basé sur l'architecture de VGG16 (bonne performance sur les images de haute qualité) à laquelle on a enlevé les couches fully connected pour y mettre des couches de convolution ;
- Ensuite, il y a une regression de bounding box à l'aide de la méthode MultiBox (réseau de neurones convolutif)

Algorithme rapide mais qui est aussi précis que les algorithmes de détection tels que Faster R-CNN. L'amélioration de la vitesse vient surtout de l'élimination des propositions de bounding boxes. 

En résumé : SSD est plus rapide que les single shot detectors de l'état de l'art (YOLO) et plus précis mais aussi précis que les techniques de détection plus lentes telles que Faster R-CNN. 

Lien de l'article : https://arxiv.org/pdf/1512.02325.pdf
https://towardsdatascience.com/understanding-ssd-multibox-real-time-object-detection-in-deep-learning-495ef744fab

## YOLO ##

Comparé à l'état de l'art, le réseau YOLO fait plus d'erreurs de localisation mais est moins enclin à prédire des faux positifs dans l'arrière plan. Réseau extrêmement rapide (45 frames traitées par seconde).

Fonctionnement de l'algorithme :
- Redimensionnement de l'image en taille 448x448 ;
- Traitement de l'image redimensionnée avec un réseau de neurones convolutif ;
- Seuillage des résultats de détection.

YOLO, contraîrement à la technique de la fenêtre glissante ou des méthodes de proposition de région voit l'image en entier durant la phase d'apprentissage et de test, ce qui lui permet d'associer des informations contextuelles aux classes prédites. 

La précision de détection (surtout pour les petits objets) est en-dessous de l'état de l'art mais la vitesse de détection est bien supérieure aux systèmes déjà existants.

Le système divise une image en une grille de taille SxS. Si le centre d'un objet est dans une cellule de la grillen cette cellule est responsable de la détection de cet objet. Chacune de cellules de la grille prédit B bouding boxes et un score de confiance pour chacune de ces bounding boxes. Ces scores indiquent la probabilité que la box contienne un objet et si elle est à la bonne taille (Pr(Objet) + IoU). Enfin, pour chacune des cellules, une proba d'appartenance à une classe en admettant qu'elle contienne un objet est calculée. En conbinant cette carte de calcul de proba aux bouding boxes prédites, on obtient les détections finales. 

Lien article : https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Redmon_You_Only_Look_CVPR_2016_paper.pdf


## Selective search ##

3 façons de reconnaître des régions : 
- La recherche exhaustive qui a pour but de trouver une bounding box pour chacun des objets d'une image pour cela on utilise des fenêtres de différentes échelles et les font glisser sur l'ensemble de l'image ;
- La segmentation renvoie chaque pixel à une classe donnée et les pixels appartenant à la même classe constituent un objet ;
- La recherche sélective est un mélange de la recherche exhaustive et de la segmentation en segmentant l'image au préalable afin de définir des régions sur lesquelles il faut se concentrer pour prédire des box. Elle augmente le temps de détection des objets et permet de faire de la détection d'objet en temps réel. Elle est utilisé dans les Fast-RCNN par exemple.

Fonctionnement de l'algorithme :
- On initialise des box ;
- Les box sont fusionnées avec le voisin duquel elles sont le plus similaires jusqu'à obtenir une box contenant toute l'image;
- Lorsque l'on conserve toutes les box que l'on a créé, on peut détecter des objets de toutes les échelles ;
- Afin d'éviter de privilégier les box les plus grandes, l'index des box (1 pour la plus récente) est multiplié par un nombre aléatoire entre 0 et 1. 

Afin d'améliorer la robustesse de la recherche, les auteurs utilisent trois stratégies différentes :
- Recherche dans différents espaces de couleur (RBG, Echelle de gris, Lab (une valeur pour la luminosité, une pour le vert-rouge et une pour je jaune-bleu), HSV, etc. ;
- Différentes initialisations de la taille des régions de départ ;
- Différentes mesures de similarité (mesure de la similarité de couleur, mesure de la similarité de texture, la similarité de taille des box (éviter le déséquilibre entre les tailles des box finales), la caractéristique de fitness (permet de fusionner 2 box qui se chevauchent assez tôt dans l'algorithme. 

Une fois les bounding boxes trouvées, elles sont combinées à des SVMs afin qu'elles puissent avoir une application en reconnaissance d'image.

Lien article : http://www.huppelen.nl/publications/selectiveSearchDraft.pdf

## PointNet ##

Classification et segmentation d'un nuage de points 3D. 

Problématique : données 3D converties dans un format qui les rend trop volumineuses. 

Réseaux existants pour traiter données 3D :
- Volumetric CNNs : pionier dans le traîtemant d'information 3D, mais contrainte de résolution de l'objet (FPNN et Vote3D) et ne peuvent pas traiter de gros nuages de points ;
- Les Multiview CNNs ont transformé des données 3D en données 2D afin de pouvoir les traiter mais il y a une perte d'information donc ne peuvent être utilisé pour la classification 3D et la reconstruction de silhouette 3D ;
- Spectral CNNs : peu efficaces sur les objets tels que les meubles ;
- Feature based DNNs : Les caractéristiques 3D sont présentées sous forme de vecteur, il y a donc une perte d'information.

Donnée 3D représentée par ses coordonnées (x,y,z). 

Architecture du réseau :
- n points passés en entrée ;
- application de l'input transformation et de la feature transformation ;
- couche de maxpooling pour regrouper les caractéristiques de l'objet ;
- sortie des scores de classification pour k classes ;
- multi-layer-perceptron pour la segmentation qui est une extension de la classification.



Lien article : https://arxiv.org/pdf/1612.00593.pdf

## Frustum PointNet ##

Problème de l'état de l'art : beaucoup de réseaux pour la détection d'objets 2D (masque et bounding box) mais peu pour la détection d'objet 3D. Frustum PointNet va servir à la détection d'objets 3D. 

Capable de classifier un nuage de points 3D ou encore d'associer chaque point d'un nuage de points 3D à une classe. 

Fonctionnement : 
- Extraction du tronc de cône contenant l'objet 3D (frustum) ;
- Détection du masque 3D de l'objet à l'aide d'un réseau de segmentation ;
- Création de la bounding box 3D de l'objet à l'aide d'un réseau de régression ;

Lien article : https://arxiv.org/pdf/1711.08488.pdf

## NASNet ##

I.A créée par Google à partir d'AutoML (IA qui a pour but de générer d'autres IA).

Objectif : Pouvoir reconnaître en temps réel par le biais de la vidéo beaucoup d'objets (voitures, personnes, signalisation routière, sac à dos, etc.) Ses performances sont améliorées par AutoML et tente ensuite de les améliorer. Aujourd'hui a surpassé n'importe quelle autre IA en matière de détection au sein d'une image. 

Lien article : https://arxiv.org/pdf/1707.07012.pdf
https://ai.googleblog.com/2017/11/automl-for-large-scale-image.html

## DSSD ##

Plus précis que SSD tout en maintenant la même vitesse de détection.

Lien vers l'article : https://arxiv.org/pdf/1701.06659.pdf

## BD pour la détection d'objets ##

### CIFAR 10 & CIFAR 100 ###

CIFAR 10 : 60 000 images couleur (50 000 train et 10 000 test) 32x32 appartenant à 10 classes.

CIFAR 100 : 60 000 images couleur 32x32 appartenant à 100 classes et regroupées en 20 super classes. Chaque classe contient 600 images. 

Bases utilisées pour la classification d'objet.

Informations sur les bases : https://www.cs.toronto.edu/~kriz/cifar.html

### COCO (Comon Object in COntext) ###

Plus de 120 000 images multilabels contenant plus de 880 000 objets étiquetés en 91 classes et une classe non étiquetée (afin de regrouper le reste de l'image non étiqueté). Utilisée pour la détection, la segmentation et la classification d'objets.

Informations sur la base : http://cocodataset.org/#explore

### Pascal VOC (Visual Object Classes) ###



Informations sur la base : http://host.robots.ox.ac.uk/pascal/VOC/

### KITTI ##

BD sur scènes routières utilisant des images RBG, NB un GPS et un Lidar. Pour plus d'info voir Le notebook jupyter qui correspond.

Lien vers site de la BD : http://www.cvlibs.net/datasets/kitti/

### CEREMA AWP ###

Détection de piétons en conditions météorologiques dégradées. 3 types de conditions : brouillard, pluie ou dégagé de jour comme de nuit. Les images ont été simulées dans un tunnel capable de reproduire ces conditions météorologiques artificiellement. 

Lien vers site de la BD : 

### UA Detrac ###

Détection de véhicules dans différentes conditions météorologiques et d'éclaircissement (nuageux, dégagé, pluie et nuit). 

Lien vers site de la BD : https://detrac-db.rit.albany.edu

## Vocabulaire ##

RoI : Region of Interest
IoU : Intersection over Union (area of overlap / area of union)
Voxel : Volumetric Pixel, pixel en 3D utilisé pour la représentation 3D dans l'espace (utilisé surtout en imagerie médicale).