# **01.2 - Préparation des données pour l’étape 3 (Super-Images)**

Ce notebook prépare les données nécessaires à l’étape 3, qui consiste à construire des super-images 3×3 à partir de 9 frames par vidéo.

Objectifs :

- Extraire 9 frames uniformément espacées pour chaque vidéo.

- Nettoyer ces frames (floues / doublons).

- Générer des splits 5-fold multi-label adaptés au dataset `9_forstep3`

L’ensemble des scripts utilisés se trouve dans src/preprocess/.

## 1 - Vérification des scripts nécessaires

Les scripts suivants doivent être présents dans `src/preprocessing/`:

- `extract_9frames_uniform.py`
- `clean_frames_9.py`
- `make_splits_5fold_9frames.py`


In [5]:
os.listdir("src/preprocessing")

['clean_frames_5.py',
 'clean_frames_9.py',
 'extract_5frames_uniform.py',
 'extract_9frames_uniform.py',
 'extract_9_frames.py',
 'make_splits_5fold.py',
 'make_splits_5fold_9frames.py',
 '__init__.py']

## 2 - Extraction de 9 frames uniformes par vidéo

Pour la construction des super-images, chaque vidéo sera représentée par 9 frames régulièrement espacées entre le début et la fin.

Les frames extraites seront placées dans :

```text
data/frames/9_forstep3/
    videoid_f00.jpg
    videoid_f01.jpg
    ...
    videoid_f08.jpg

L’extraction est assurée par : src/preprocessing/extract_9frames_uniform.py


In [7]:
RUN_EXTRACTION_9 = True  # Set to False if already done

if RUN_EXTRACTION_9:
    import subprocess, sys

    print(">> Extracting 9 frames per video for Step 3...")
    result = subprocess.run(
        [sys.executable, "-m", "src.preprocessing.extract_9frames_uniform"],
        capture_output=True,
        text=True,
    )
    print(result.stdout)
    print(result.stderr)
else:
    print("Extraction (9 frames) skipped.")

>> Extracting 9 frames per video for Step 3...


Exception in thread Thread-6 (_readerthread):
Traceback (most recent call last):
  File "C:\Users\Simon VANDERCOILDEN\AppData\Local\Programs\Python\Python312\Lib\threading.py", line 1075, in _bootstrap_inner
    self.run()
  File "C:\Users\Simon VANDERCOILDEN\AppData\Local\Programs\Python\Python312\Lib\threading.py", line 1012, in run
    self._target(*self._args, **self._kwargs)
  File "C:\Users\Simon VANDERCOILDEN\AppData\Local\Programs\Python\Python312\Lib\subprocess.py", line 1599, in _readerthread
    buffer.append(fh.read())
                  ^^^^^^^^^
  File "C:\Users\Simon VANDERCOILDEN\AppData\Local\Programs\Python\Python312\Lib\encodings\cp1252.py", line 23, in decode
    return codecs.charmap_decode(input,self.errors,decoding_table)[0]
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
UnicodeDecodeError: 'charmap' codec can't decode byte 0x8f in position 21130: character maps to <undefined>


Nombre de vidÃ©os trouvÃ©es : 19202
Extraction de 9 frames par vidÃ©o.
Sortie : C:\Users\Simon VANDERCOILDEN\Desktop\Scolaire\UTC\IM05\TX01\qv-pipe-classifier\data\frames\9_forstep3
Extraction terminÃ©e.

None


## 3 - Nettoyage des frames extraites

Les frames extraites peuvent contenir :

- des images floues,

- des images doublons.

Ce nettoyage est important pour éviter d’utiliser des frames inutiles lors de la construction des super-images.

Les frames rejetées seront déplacées dans :

```text
data/frames/9_forstep3_removed/
    blurred/
    duplicates/
```

Le nettoyage est assuré par: src/preprocessing/clean_frames_9.py.


In [10]:
RUN_CLEANING_9 = True  # Mettre sur False si déjà fait

if RUN_CLEANING_9:
    import subprocess, sys

    print(">> Nettoyage des frames (floues + doublons)...")
    result = subprocess.run(
        [sys.executable, "-m", "src.preprocessing.clean_frames_9"],
        capture_output=True,
        text=True,
    )
    print(result.stdout)
    print(result.stderr)
else:
    print("Nettoyage ignoré.")


>> Nettoyage des frames (floues + doublons)...


Exception in thread Thread-12 (_readerthread):
Traceback (most recent call last):
  File "C:\Users\Simon VANDERCOILDEN\AppData\Local\Programs\Python\Python312\Lib\threading.py", line 1075, in _bootstrap_inner
    self.run()
  File "C:\Users\Simon VANDERCOILDEN\AppData\Local\Programs\Python\Python312\Lib\threading.py", line 1012, in run
    self._target(*self._args, **self._kwargs)
  File "C:\Users\Simon VANDERCOILDEN\AppData\Local\Programs\Python\Python312\Lib\subprocess.py", line 1599, in _readerthread
    buffer.append(fh.read())
                  ^^^^^^^^^
  File "C:\Users\Simon VANDERCOILDEN\AppData\Local\Programs\Python\Python312\Lib\encodings\cp1252.py", line 23, in decode
    return codecs.charmap_decode(input,self.errors,decoding_table)[0]
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
UnicodeDecodeError: 'charmap' codec can't decode byte 0x8f in position 44371: character maps to <undefined>


Nombre d'images dÃ©tectÃ©es : 86409
Seuil flou utilisÃ© : 100.0
Images nettes conservÃ©es aprÃ¨s filtre flou : 52333
   âœ” NETTOYAGE TERMINÃ‰ (9 frames/vidÃ©o)
Images floues dÃ©placÃ©es  : 34076
Images doublons dÃ©placÃ©es : 2119
Images finales conservÃ©es  : 50214
Dossier final :  C:\Users\Simon VANDERCOILDEN\Desktop\Scolaire\UTC\IM05\TX01\qv-pipe-classifier\data\frames\9_forstep3

None


### Repartition pour construction superimages

In [11]:
import subprocess, sys

print(">> Calcul de la répartition des frames par vidéo...")
result = subprocess.run(
    [sys.executable, "-m", "src.preprocessing.repartition_superimage"],
    capture_output=True,
    text=True
)

print(result.stdout)
print(result.stderr)


>> Calcul de la répartition des frames par vidéo...
Fichier sauvegardÃ© dans : C:\Users\Simon VANDERCOILDEN\Desktop\Scolaire\UTC\IM05\TX01\qv-pipe-classifier\reports\tables\repartition_superimage.csv

RÃ©partition des vidÃ©os par nombre de duplications nÃ©cessaires :
duplications_needed
0    1136
1    1152
2    1211
3    1203
4    1210
5    1093
6     946
7     707
8     405
Name: count, dtype: int64




## 1 - Vérification des scripts nécessaires

Les scripts suivants doivent être présents dans `src/preprocessing/`:

- `extract_9frames_uniform.py`
- `clean_frames_9.py`
- `make_splits_5fold_9frames.py`


## 4 - Génération des splits 5-fold (pour 9_forstep3)

Pour entraîner les modèles super-image en cross-validation, on génère un split 5-fold stratifié pour un problème multi-label.

Cette étape :

1. charge le JSON des labels : `data/labels/track1-qv_pipe_train.json`

2. crée les folds multi-label stratifiés

3. applique ces folds aux frames du dossier `9_forstep3`

4. génère les fichiers suivants :

 - `data/splits/video_folds_5fold.csv`
 - `data/splits/frames_9_forstep3_folds.csv`
 - `reports/tables/preprocessing/class_distribution_per_fold_step3.csv`


In [None]:
RUN_SPLITS_9 = True  # Mettre sur False si les splits existent déjà

if RUN_SPLITS_9:
    import subprocess, sys

    print(">> Génération des splits 5-fold pour 9_forstep3...")
    result = subprocess.run(
        [sys.executable, "-m", "src.preprocessing.make_splits_5fold_9frames"],
        capture_output=True,
        text=True,
    )
    print(result.stdout)
    print(result.stderr)
else:
    print("Génération des splits ignorée.")


>> Génération des splits 5-fold pour 9_forstep3...

c:\Users\Simon VANDERCOILDEN\Desktop\Scolaire\UTC\IM05\TX01\qv-pipe-classifier\.venv\Scripts\python.exe: Error while finding module specification for 'src.preprocess.make_splits_5fold_9frames' (ModuleNotFoundError: No module named 'src.preprocess')



## 5 - Construction des superimages 3x3

## 6 - Vérifications rapides

On vérifie que :

- les fichiers CSV existent,

- les folds sont bien remplis,

- les chemins de frames sont corrects.

In [None]:
from pathlib import Path
import pandas as pd

frames9_csv = Path("data/splits/frames_9_forstep3_folds.csv")
video_csv   = Path("data/splits/video_folds_5fold.csv")

print("CSV frames 9_forstep3 présent :", frames9_csv.exists())
print("CSV vidéo (folds) présent     :", video_csv.exists())

if frames9_csv.exists():
    df_frames9 = pd.read_csv(frames9_csv)
    print("\nAperçu du CSV (frames 9_forstep3) :")
    display(df_frames9.head())

    print("\nNombre de frames par fold :")
    print(df_frames9["fold"].value_counts().sort_index())

if video_csv.exists():
    df_videos = pd.read_csv(video_csv)
    print("\nNombre de vidéos par fold :")
    print(df_videos["fold"].value_counts().sort_index())


In [None]:
!ls /content
