# TP4 - Flux optiques - visualisation et classification

Dans ce TP nous travaillerons avec un sous-ensemble de vidéos du corpus `UCF Sports` que vous pouvez télécharger depuis la page Moodle du cours.

Le fichier videos_samples.txt contient la liste des vidéos du corpus, ainsi que l'étiquette correspondante à chaque vidéo.

Ci-dessous vous pouvez trouver quelques fonctions utiles pour la suite du TP.

In [8]:
import sys
import cv2
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from descriptors import color_histogram

def bgr2grayscale_numpy(img):
    return .0722*img[:,:,0] + .7152*img[:,:,1] + .2126*img[:,:,2]
    
def read_file_list(input_file):
    frame_list, label_list = [], []
    folder = "/".join(input_file.split("/")[:-1]) + "/"
    with open(input_file) as f:
        for l in f:
            l = l.strip().split(' ')
            frame_list.append(folder + l[0])
            label_list.append(l[1])
    return np.array(frame_list), np.array(label_list)

def read_video(video_file):
    capture = cv2.VideoCapture(video_file)
    frames = []
    ok, frame = capture.read()
    if not(ok):
        print("empty file "+video_file)
    while ok:
        frames.append(frame[...,::-1]) # let's convert frames to RGB directly
        ok, frame = capture.read()
    return np.array(frames)

def optical_flow_farneback(previous_frame, next_frame):
    return cv2.calcOpticalFlowFarneback(previous_frame, next_frame, None, 0.5, 3, 15, 3, 5, 1.2, 0)

## Caractérisation d'une vidéo au moyen des descripteurs extraits depuis chaque image de celle-ci

Nous pouvons traiter une vidéo comme une séquence d'images et, par conséquent, nous pouvons voir la description de la vidéo comme étant constituée des descripteurs extraits à partir des images la composant.

Dans la suite, nous nous intéressons aux descripteurs globaux tels que les histogrammes.

**Q1/** Ecrire un script python qui calcule les histogrammes couleur pour chaque image d'une vidéo.

In [9]:
videos_path, labels = read_file_list("../data/ucf_sports_subset5/videos.files")

videos = []
for path in videos_path:
    videos.append(read_video(path))

In [10]:
def hist_video(video):
    hists = []
    for frame in video:
        hist = color_histogram(frame)
        hists.append(hist)
    return np.vstack(hists)

In [11]:
hist_video(videos[0]).shape

(55, 512)

**Q2/** Ecrire un script python qui calcule un histogramme moyen pour une vidéo, à partir des histogrammes couleur de chaque image la composant.

In [12]:
def mean_hist(video):
    hists = hist_video(video)
    return np.mean(hists, axis=0)

mean_hist(videos[0]).shape

(512,)

**Q3/** Si l'on considère l'histogramme moyen comme un descripteur pour une vidéo, mettez en place un protocole de classification sur les vidéos de la base `UCF Sports`. L'évaluation se fera en utilisant un processus de cross validation en 4 folds et un classifier de votre choix.

Veuillez utiliser les configurations suivantes :

a) utilisez que les données des classes `Diving-Side` / `Golf-Swing-Front`

b) utilisez que les données des classes `Kicking-Front` / `Golf-Swing-Front`

c) utilisez toutes les classes 

Reporter et discuter les résultats obtenus.

In [13]:
mean = []
for video in videos:
    mean.append(mean_hist(video))
mean = np.array(mean)

In [14]:
import numpy as np
from sklearn.model_selection import StratifiedKFold
from sklearn.linear_model import LogisticRegression

from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

def cross_val(desc, labels, label_use, n_folds=4):
    idx = np.where(np.isin(labels, label_use))[0]
    
    X = desc[idx]
    y = labels[idx]
    
    # 2. Encodage des labels (0..C-1)
    label_map = {lab: i for i, lab in enumerate(np.unique(y))}
    y_enc = np.array([label_map[l] for l in y])

    # 3. Cross-validation stratifiée
    skf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=42)
    accs = []

    for fold, (train_idx, test_idx) in enumerate(skf.split(X, y_enc)):
        X_train, X_test = X[train_idx], X[test_idx]
        y_train, y_test = y_enc[train_idx], y_enc[test_idx]

        # 4. Classifieur
        #clf = SVC(kernel="linear", C=1)
        clf = LogisticRegression(max_iter=1000, solver="lbfgs")
        clf.fit(X_train, y_train)

        # 5. Évaluation
        y_pred = clf.predict(X_test)
        acc = accuracy_score(y_test, y_pred)
        accs.append(acc)
    return accs


### Diving-Side, Golf-Swing-Front

In [15]:
accs = cross_val(mean, labels, ["Diving-Side", "Golf-Swing-Front"])
for fold, acc in enumerate(accs):
    print(f"Fold {fold+1} accuracy = {acc:.3f}")

print(f"\nAccuracy moyenne = {np.mean(accs):.3f} ± {np.std(accs):.3f}")

Fold 1 accuracy = 0.333
Fold 2 accuracy = 0.333
Fold 3 accuracy = 1.000
Fold 4 accuracy = 1.000

Accuracy moyenne = 0.667 ± 0.333


### Kicking-Front, Golf-Swing-Front

In [16]:
accs = cross_val(mean, labels, ["Kicking-Front", "Golf-Swing-Front"])
for fold, acc in enumerate(accs):
    print(f"Fold {fold+1} accuracy = {acc:.3f}")

print(f"\nAccuracy moyenne = {np.mean(accs):.3f} ± {np.std(accs):.3f}")

Fold 1 accuracy = 0.333
Fold 2 accuracy = 0.333
Fold 3 accuracy = 0.500
Fold 4 accuracy = 0.500

Accuracy moyenne = 0.417 ± 0.083


### Tout les labels

In [17]:
accs = cross_val(mean, labels, np.unique(labels))
for fold, acc in enumerate(accs):
    print(f"Fold {fold+1} accuracy = {acc:.3f}")

print(f"\nAccuracy moyenne = {np.mean(accs):.3f} ± {np.std(accs):.3f}")

Fold 1 accuracy = 0.353
Fold 2 accuracy = 0.500
Fold 3 accuracy = 0.312
Fold 4 accuracy = 0.438

Accuracy moyenne = 0.401 ± 0.073


**Q4/** Maintenant, nous allons considérer que chaque vidéo est constitués des quatres parties distinctes. Chaque partie contient un quart des images comme suit : `partie1=video[:n/4], partie2=video[n/4+1:n/2], partie3=video[2*n/4+1:3*n/4], partie4=video[3*n/4+1:]`. Désormais, nous souhaitons que le descripteur d'une vidéo soit composé de 4 histogrammes (un pour chaque partie de la vidéo). Ecrire un script python qui calcule ce nouveau descripteur.

In [29]:
def split(video):
    _ , h, w, _ = video.shape
    return [
        video[:, :h , :w, :],
        video[:, h: , :w, :],
        video[:, :h , w:, :],
        video[:, h: , w:, :],
        
    ]
def descriptor_part(video):
    parts = split(video)
    desc = []
    for part in parts:
        desc.append(mea(part))
    return np.concatenate(desc)


In [31]:
descriptor_part(videos[0])

NameError: name 'mean_hist_part' is not defined

**Q5/** Reprendre le protocole de la **Q3** mettez en place un protocole de classification sur les vidéos de la base `UCF Sports`. L'évaluation se fera en utilisant un processus de cross validation en 4 folds et un classifier de votre choix.

Veuillez reutiliser les mêmes configurations qu'en **Q3**. Reporter et discuter les résultats obtenus en insistant sur les avantages/désavantages rapportés par ce découpage de la vidéo. 

## Visualiser les flux optiques (en tant qu'images RGB)

Le flux optique permet de rendre compte du mouvement perçu dans la vidéo.

Afin de s'affranchir de la spécificité de la texture/couleur des objets en mouvement, il est intéressant d'utiliser directement l'information de mouvement. Un objet rouge et un objet vert se déplaçant de la même manière, auront des histogrammes de couleurs différentes mais partagerons les mêmes propriétés de mouvement.

En partant de cette observation, nous essayerons d'exploiter l'information du mouvement dans le cadre de la classification d'actions, en nous appuyant cette fois-ci sur l'information de mouvement.

**Q6/** Ecrire un script python qui calcule les flux optiques entre chaque deux images successives pour une vidéo.

Vous pouvez utiliser la fonction `calcOpticalFlowFarneback` avec les paramètres ci-dessous:
```
cv2.calcOpticalFlowFarneback(previous_frame, next_frame, None, 0.5, 3, 15, 3, 5, 1.2, 0)
```

N'oubliez pas que vous devez procéder à une conversion des images en niveaux de gris à priori. Vous pouvez utiliser la fonction `cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) ` pour cela.

**Q7/** Pour visualiser les flux optiques, nous passons par une transformation des valeurs (dx,dy) associées à un pixel à une représentation HSV où :
    * le canal `H` à la direction du flux `atan2(dy,dx)` et
    * le canal `V` correspond à la magnitude du flux (`la norme 2 du vecteur (dx,dy)`) normée elle-même sur l'intervalle `[0..1]`
    

```
flow_hsv[...,0] = np.arctan2(flow[...,1], flow[...,0])/np.pi*180. + 180.
flow_hsv[...,1] = 1
flow_hsv[...,2] = np.linalg.norm(flow, axis=2, ord=2)
flow_hsv[...,2] = (flow_hsv[...,2] - np.min(flow_hsv[...,2])) / (np.max(flow_hsv[...,2]) - np.min(flow_hsv[...,2]))
```

Selon que vous traitez l’ensemble des trames de flux d’une vidéo ou une trame de flux à la fois, vous devez créer le tensor `flow_hsv` de manière convenable au préalable :

```
#une trame à la fois
flow_hsv = np.empty((flow.shape[0],flow.shape[1],3), float32)

#les trames d’une video à la fois 
flows_hsv = np.empty((flow.shape[0],flow.shape[1],flow.shape[2],3), float32)
#dans ce cas, vous devez aussi remplacer axis=2, par axis=3 lors du calcul des normes
```

L’intérêt de transformer l’ensemble des trames à la fois et d’obtenir une normalisation des flux qui tient compte de l’étendue complète des magnitudes observées sur l’intégralité de la vidéo. Sans cela, les faibles magnitudes présentes sur les trames comportant peu de mouvements seront perçues comme fortes lors de la visualisation. 

Nous procédons ensuite à une conversion de `HSV` vers `RGB` pour visualiser les flux ainsi obtenus. La conversion en `RGB` va générer des intensités comprises entre `[0..1]` sur chaque canal.

Ecrivez une fonction qui permet de générer et sauvegarder les flux optiques sous formes d’images `RGB` pour une vidéo. Lors de la sauvegarde des images `RGB` pensez à multiplier par 255 (car valeurs comprises entre `[0..1]`) et de convertir en entiers (`int`) les valeurs contenues dans les tenseurs. Vous pouvez utiliser la fonction `np.astype` pour convertir tous les tenseurs en entiers.

Pensez à utiliser le dossier `/local` pour réaliser les sauvegardes de vos données.

## Vidéos - flux optiques comme orientations et magnitudes

Nous pouvons aussi exploiter les flux optiques directement sans passer par une représentation `RGB` de ceux-ci.

Nous considérons chaque point du flux comme un vecteur défini par son orientation et sa magnitude.

L'espace de représentation des orientations est borné et s'étale entre `0°` et `359°`.

En revanche, les magnitudes peuvent avoir des plages de représentation très larges, de part la vitesse de réalisation des actions, ou de part, les erreurs de mesure.

Afin de pouvoir construire des histogrammes qui traitent de l'orientation et de la magnitude conjointement, nous pouvons nous appuyer sur les valeurs min et max des magnitudes observées au sein du corpus de données.

**Q8/** Ecrivez une fonction qui transforme un flux optique `(dx,dy)` dans sa représentation ``orientation, magnitude)` en vous servant des règles suivantes:
```
flow_mo[...,0] = (np.arctan2(flow[...,1], flow[...,0])/np.pi*180. + 180.).astype(int)
flow_mo[...,1] = np.linalg.norm(flow, axis=2, ord=2).astype(int)
```
Nous employons ici une conversion vers des `np.array` avec `dtype=int` afin de faciliter la construction d’histogrammes par la suite.

**Q9/** Ecrivez une fonction qui extrait l'ensemble de magnitudes observées sur la première vidéo de chaque classe de mouvement et sauvegardez-les dans un fichier.

**Q10/** 
**a)** Ecrivez une fonction qui calcule un histogramme à 32 bins de ces magnitudes et visualisez-le afin d'identifier un seuil raisonnable pour les magnitudes apparaissant très rarement afin d'éliminer autant que possible les outliers. Les outliers corresponds souvent à des mesures abérantes causées par les erreurs se glissant lorsque les hypothèse de calcul de flux ne sont pas respectées. Ces magnitudes apparaîssent peu de fois par rapport aux magnitudes cohérentes.

Vous pourriez itérer plusieurs fois en construisant des histogramme à 32 bins sur des plages de moins en moins étendue, car il se peut que lors de la première itération la plage de magnitudes soit très large pour analyser convenablement la distribution des magnitudes coherentes. 

**b)** Vous pourriez ensuite essayer de filtrer également les magnitudes trop petites, ne correspondant à des véritables mouvements. En construisant un  histogramme sur une plage proche de basses magnitudes (comprise en 0 et 4, par exemple), vous pourriez également essayer d'identifier à partir de quel moment il devient intéressant de considérer les flux optiques comme signifiant un véritable mouvement. Parfois, des nombreux points ne bougent pas dans l'image, mais à cause des erreurs de mesure (ouverture, discontinuités), on leur attribue des magnitudes supérieurs à zéro.

**Q11/** Ecrivez une fonction qui filtre un flux optique en mettant à zéro les points dont la magnitude est inférieure au seuil minimal et supérieure au seuil maximal identifiés en **10**.

**Q12/** Ecrivez une fonction qui calcule un histogramme de flux optique en partant de la représentation `(orientation, magnitude)` en ignorant les points ayant une `magnitude==0`.

Pour cela vous devrez fragmenter l’espace `(orientation, magnitude)`. Si vous souhaitez disposer de `o_bins` pour fragmenter l’orientation et de `m_bins` pour fragmenter la magnitude, vous allez construire un vecteur disposant de `o_bins*m_bins` cases.

L’étendue d’une cellule sera de `o_bin_etendue = 360/o_bins` degrés pour les orientations et de `m_bin_etendue = max_mag/m_bins` pour les magnitudes.
Vous pourrez ensuite adapter la fonction color_histogram (fournie en *TP2*) pour remplir l’histogramme. 

Vous pouvez aussi choisir une implémentation moins efficace en parcourant les points composants le flux optiques et en incrémentant la case correspondante `bin_o*m_bins+bin_m`, où :
* `bin_o` correspond au bin d’orientation où le point `(o,m)` devra se trouver (`=o/o_bin_etendue`) et 
* `bin_m` correspond au bin de magnitude où le point `(o,m)` devra se trouver (`=m/m_bin_etendue`).  

**Q13/** Calculez un histogramme moyen pour une vidéo en partant des histogramme de flux optique calculés entre deux images successives et filtré comme indiqué en **Q11**.

**Q14/** Réappliquer les protocoles de classification de la **Q3 et Q5** sur ces nouveaux histogrammes moyens. Reporter et discuter les résultats.

**Q15/** Réappliquer le protocole de classification de la **Q3 et Q5** en considérant cette fois-ci uniquement des histogrammes d'orientation (en ignorant les magnitudes des flux) et en laissant également de côté les flux ayant une `magnitude == 0`. Reporter et discuter les résultats.

**Q16/** Faites varier les seuils de filtrage obtenus en **Q10** et refaites les experimentations de la **Q14** (au minium 2 autres valeurs pour le seuil haut et 2 autres valeurs pour le seuil bas). Reporter et discuter les résultats.

## Vidéos - flux optiques comme images RGB (optionnel)

**Q17/** A partir des images `RGB` illustrant les flux (voir **Q7**), vous pouvez réappliquer la même méthodologie décrite en **Q1**-**Q2** afin de calculer un descripteur global de la vidéo.

**Q18/** Ecrire une fonction qui calcule un histogramme moyen pour une vidéo, à partir des histogrammes couleur de chaque image `RGB` illustrant le flux optique entre deux images successives.

**Q19/** Si l'on considère l'histogramme moyen des images RGB des flux comme un descripteur pour une vidéo, mettez en place les protocoles de classification décrites dans les **Q3 et Q5**.

Reporter et discuter les résultats.