# TP 4 - Analyse d'images et de vidéos

Dans ce TP, nous allons analyser et caractériser des images et vidéos.

Ce TP est **noté**. Vous pouvez rendre votre code en m'envoyant le fichier Jupyter (format `ipynb`) par mail à `florent.grelard [at] u-bordeaux.fr`.

Vous répondrez aux questions "ouvertes" ("Que constatez-vous...?", "Pourquoi...?", etc.) dans le TP par des commentaires dans votre code Python. Toutes tentatives et justifications pertinentes seront valorisées.

Vous pouvez vous aider de toutes les fonctions numpy/skimage existantes. Si vous êtes bloqués à une question, vous pouvez utiliser les fonctions de ces bibliothèques pour passer aux questions suivantes.

## 1. Détection d'objets

Dans cet exercice, nous cherchons à détecter et isoler des objets. 

Nous allons extraire les **composantes connexes** de l'image afin d'extraire des mesures indépendamment pour chaque objet. Nous rappelons qu'une composante connexe est obtenue par **étiquetage** des pixels (*labelling* en anglais). Le principe est d'effectuer un **parcours en largeur** à partir d'un pixel objet (=255). Chaque pixel objet dans l'image est parcouru jusqu'à ce qu'ils soient tous étiquetés.

Deux solutions pour le parcours en largeur:
* Utilisation de la récursivité
* Utilisation d'une pile

<table>
    <tr>
    <td>
        <img src="data/obj_cc.png" width="700" /> 
        <figcaption style="text-align:center;"> De gauche à droite: (a) Image originale, (b) Image de labels (chaque couleur correspond à un label différent) </figcaption>
    </td>
    </tr>
</table>

**Exercice**: Compléter le code suivant:
1. Compléter la fonction `eight_neighbours` qui extrait les coordonnées des 8-voisins d'un pixel.
2. Compléter les fonctions `assign_label`, qui effectue le parcours en largeur et étiquète à partir d'**un pixel**, et  `connected_components`, qui étiquète l'**ensemble de l'image**. À l'issue du calcul, chaque composante connexe doit avoir un label différent.
3. Les ballons possèdent un trou avec des pixels noirs. Quelle solution vue en cours pourrait être utilisée pour le combler?
4. Une autre approche est d'utiliser `assign_label` en partant d'un pixel localisé dans un trou. Compléter la fonction `fill_holes`. Les coordonnées des pixels dans chaque trou sont données dans la variable `coords`. Appeler la fonction `fill_holes` **avant** d'effectuer l'étiquetage.
5. (Facultatif) En cas de doute ou de difficulté, on pourra utiliser les fonctions `skimage.measure.label` (composantes connexes) et `scipy.ndimage.binary_fill_holes`.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from skimage import io
from skimage import color
from skimage import morphology
from skimage import draw
from skimage import transform

def eight_neighbours(image, x, y):
    """
    Coordonnées (x,y) pour le huit-voisinage
    autour de x, y

    Returns
    -------
    region: list
        Coordonnées (x, y) des 8 voisins du pixel
        Longueur = 8
    """
    pass


def assign_label(image, labelled_image, current_label, x, y):
    """
    Parcours en largeur et etiquetage des
    pixels objets

    Parameters
    ----------
    image: np.ndarray
        image
    labelled_image: np.ndarray
        image de labels
    current_label: int
        label courant
    x: int
        coordonnée x
    y: int
        coordonnée y

    """
    pass


def connected_components(image):
    """
    Extrait l'ensemble des composantes
    connexes dans une image

    Returns
    -------
    labelled_image: np.ndarray
        image de labels
    """
    pass


def fill_holes(image, coords):
    """
    Comble les trous dans une image
    à partir des coordonnées passées en paramètres

    Parameters
    ----------

    """
    pass



img_birds_rgb = io.imread("data/birds_sky.jpg")
img_birds = (color.rgb2gray(img_birds_rgb)*255).astype(np.uint8)

img_threshold = np.where(img_birds < 30, 255, 0)

coords = np.array([[254, 274], [206, 324], [106, 402]])

fig, ax = plt.subplots(1, 2)
ax[0].imshow(img_birds_rgb)
[axi.set_axis_off() for axi in ax]

## 2. Caractérisation quantitative

À ce stade, nous avons extrait et séparé les différents objets. Deux types d'objets sont toutefois présents dans l'image: des oiseaux et des ballons. Nous cherchons des mesures permettant de les discriminer.

<table>
    <tr>
    <td>
        <img src="data/obj_mesure.png" width="700" /> 
        <figcaption style="text-align:center;"> Classification des objets par des mesures: (a) Image des ballons, (b) Image des oiseaux </figcaption>
    </td>
    </tr>
</table>

Voici quelques mesures qui peuvent être pertinentes:
* L'aire : nombre de pixels dans la composante

* Le périmètre : peut être (mal) estimé par le nombre de pixels dans le contour de la composante

* La compacité: $C = \dfrac{4 \pi \text{Aire}}{\text{Périmètre}^2}$

* La circularité $C_{box} = \dfrac{4 \pi \text{Aire}}{\text{Périmètre boite}^2}$

* L'élongation : $E = \dfrac{\text{Longueur boite}}{\text{Largeur boite}}$.

$\text{boite}$ : boîte englobante = le rectangle qui contient l'ensemble de l'objet.

**Exercice**: Compléter le code suivant:
1. Pourquoi le nombre total de pixels dans le contour est-il un mauvais estimateur du "vrai" périmètre? **NB.** Il existe de meilleurs estimateurs mais nous allons nous contenter de celui-ci pour ce TP.
2. Compléter la fonction `bounding_box` qui calcule la boîte englobante autour d'un objet.
3. Calculer les mesures qui vous semblent pertinentes pour discriminer les objets
4. Classez les objets en générant deux images pour chaque type d'objet: oiseaux et ballons.

In [None]:
def bounding_box(image, label):
    """
    Calcule la boîte englobante d'un objet
    défini par son label

    Parameters
    ----------
    image: np.ndarray
        image
    label: int
        le label de l'objet

    Returns
    -------
    rect: np.ndarray
        le coin inférieur gauche et supérieur droit du rectangle
    """
    pass

fig, ax = plt.subplots(1, 2)
[axi.set_axis_off() for axi in ax]

## 3. Interaction avec une vidéo et soustraction de fond

Dans cet exercice, vous allez interagir avec le flux vidéo de votre webcam, et manipuler la bibliothèque OpenCV.

L'objectif principal est d'effectuer une **suppression de fond**. On rappelle que la suppression est faite par différence avec une image statique d'où les objets mouvants sont absents. Après seuillage, on peut remplacer les pixels de fond par ceux d'une image quelconque.

<table>
    <tr>
    <td>
        <img src="data/suppression_fond_1.png" width="350" /> 
        <figcaption> Image d'arrière-plan </figcaption>
    </td>
    <td>
        <img src="data/suppression_fond_vert.png" width="350" /> 
        <figcaption> Vidéo avec soustraction de fond </figcaption>
    </td>
    </tr>
</table>

**Points pratiques**:
* Les images couleur en OpenCV sont encodées dans l'ordre **BGR**... Prudence!
* Pour quitter la vidéo, appuyer sur la touche Q.
* Pour les personnes ne disposant pas de webcam, il est possible d'utiliser la vidéo `data/extrait_voyage_occident.mp4`.


**Exercice**: Compléter le code suivant:
1. Capturer une image sans objet mouvant. Cette capture peut être effectuée par un clic ou une entrée clavier quelconque.
2. Compléter la fonction `background_subtraction` pour effectuer la suppression et le remplacement de fond. Attention au type (`uint8`) des images!
3. (Facultatif) Détecter les visages dans le flux vidéo, en vous aidant de la documentation OpenCV. Les cascades de Haar (fichiers au format `xml`) sont stockées dans le répertoire `data`.

In [None]:
import cv2
import time


def background_subtraction(frame_after, frame_before, background, threshold):
    """
    Suppression et remplacement
    de fond

    Parameters
    ----------
    frame_after: np.ndarray
        image courante du flux vidéo
    frame_before: np.ndarray
        image de référence sans objet mouvant
    background: np.ndarray
        image par laquelle remplacer les pixels statiques
    threshold: int
        seuil pour obtenir une image binaire fond/objet mouvant

    Returns
    -------
    frame: np.ndarray
        image avec suppression de fond
    """
    pass

def detect_faces(frame, face_cascade):
    """
    Detection de visages
    par les cascades de Haar
    """
    pass

#Pour webcam:
# vid = cv2.VideoCapture(0) ou vid = cv2.VideoCapture(-1)

vid = cv2.VideoCapture("data/extrait_voyage_occident.mp4")
FPS = 30

montagne = cv2.imread("data/montagne.jpg")

ret, first_image = vid.read()

#Pour webcam:
#while(True):

while(vid.isOpened()):
    # Capture the video frame by frame
    ret, frame = vid.read()
    if ret == False:
        break

    # Display the resulting frame
    cv2.imshow('frame', frame)
    time.sleep(1/FPS)
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

vid.release()
cv2.destroyAllWindows()

## 4. Bonus - Transformée de Hough

Nous souhaitons connaître l'équation des droites associées aux ficelles du ballon, afin d'extraire la longueur précise de chaque ficelle.

Nous allons utiliser la **transformée de Hough** pour détecter les lignes. La transformée de Hough détecte les lignes dans un espace de paramètre $(\rho, \theta)$. 

Une droite a pour équation:
\begin{equation}
    \rho = x \cos \theta + y \sin \theta
\end{equation}

Une ligne dans l'espace image devient un point dans l'espace de paramètre $(\rho, \theta)$. 

Un point dans l'espace image devient une sinusoïde dans l'espace de paramètre $(\rho, \theta)$. 

La transformée de Hough fonctionne par un système de **vote**, ou d'accumulation. On parcourt chaque pixel contour, et on trace sa sinusoïde dans $(\rho, \theta)$. A chaque passage par un pixel dans l'espace $(\rho, \theta)$, on incrémente sa valeur de 1.

<table>
    <tr>
    <td>
        <img src="data/obj_hough.png" width="700" /> 
        <figcaption style="text-align:center;"> De gauche à droite: (a) Image binaire, (b) Droites détectées par la transformée de Hough (en rouge) </figcaption>
    </td>
    </tr>
</table>

**Exercice**: Compléter le code suivant:
1. Compléter la fonction `hough_lines` qui calcule la transformée de Hough. Cette fonction retourne l'image d'accumulation dans l'espace $(\rho, \theta)$. L'axe $\theta$ va de $0$ à $\pi$ (subdivisions en 180 intervalles), et l'axe $\rho$ de $0$ à $\sqrt{L^2 + H^2}$ où $L$ et $H$ sont la largeur et la hauteur de l'image, respectivement.
2. Filtrer l'image d'accumulation pour isoler les points majoritaires. Ces points correspondent aux lignes dans l'espace $(x, y)$.
3. Utiliser la fonction `plt.axline` pour tracer les droites. Calculer les coordonées d'un point de départ avec les équations :$x_0 = \rho * \cos \theta$ et $y_0 = \rho \sin \theta$. La pente est donnée par $\tan(-\theta)$.
4. Proposer une solution pour supprimer les droites redondantes.
5. Grâce à l'équation des droites, calculer la longueur de chaque segment.
6. (Facultatif) Comparer vos résultats avec les fonctions implémentées dans le module `skimage` pour la transformée de Hough.

In [None]:
def hough_lines(image):
    """
    Détection des lignes par la transformée de Hough
    """
    pass

def filter_hough(x_start, y_start, theta, dist):
    """
    Filtrage de la transformée de Hough pour qu'il y ait un
    espace minimal entre chaque ligne
    """
    pass


img_threshold2 = np.where((img_birds > 50) & (img_birds < 52), 255, 0)

fig, ax = plt.subplots(1, 2)
ax[0].imshow(img_threshold2)
[axi.set_axis_off() for axi in ax]