# GTI771 - Apprentissage machine avancé
## Département de génie logiciel et des technologies de l’information (LogTI)

## Laboratoire 1 - Préparation des données
<font color=white> Version 1.0 - Janvier 2023 </font><br>
<font color=white> Version 2.0 - Septembre 2024 </font><br>
<font color=black> Version 2.1 - Septembre 2024 </font><br>
<font color=black> Version 3.0 - Septembre 2025 </font>

##### Prof. Alessandro L. Koerich

| NOMS                  | CODE PERMANENT                                   |
|-----------------------|--------------------------------------------------|
| Étudiant1             | Code1                                            |
| Étudiant2             | Code2                                            |
| Étudiant3             | Code3                                            |

# Introduction

Ce premier laboratoire vous propose de plonger dans le monde de la préparation de données pour l'apprentissage machine. Nous allons nous intéresser à un problème de classification d'images particulièrement pertinent : la reconnaissance d'émotions faciales [Facial Expression Recognition (FER)](https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge/data). L'objectif est de développer un modèle capable de classer des visages humains dans l'une des sept (7) émotions de base.

Le jeu de données que nous utiliserons présente des défis intéressants. Les images sont souvent bruitées, contiennent des artefacts ou des éléments perturbateurs, ce qui reflète les conditions réelles d'acquisition d'images faciales. Ces difficultés sont courantes dans les problèmes d'apprentissage machine modernes et nécessitent une préparation minutieuse des données.

![RAF-DB](http://www.whdeng.cn/RAF/RAF-DB.png)

Votre mission consiste à :

1. Analyser la distribution des données : Comprendre la répartition des classes, identifier les déséquilibres éventuels et les caractéristiques spécifiques de l'ensemble de données.
2. Nettoyer les données : Supprimer les données aberrantes, les valeurs manquantes et appliquer des techniques de correction pour améliorer la qualité des données.
3. Prétraiter les images : Réduire la variabilité intra-classe en appliquant des techniques de prétraitement adaptées (normalisation, etc.).
4. Gérer le déséquilibre des classes : Mettre en œuvre des stratégies pour équilibrer les classes et améliorer les performances du modèle sur les classes minoritaires (suréchantillonnage, sous-échantillonnage, augmentation de données, etc.).

L'évaluation de votre travail sera basée sur :

- La pertinence des méthodes utilisées: Choix judicieux des algorithmes et des techniques de prétraitement.
- La qualité de votre code: Clarté, organisation, utilisation de commentaires explicites.
- La qualité de votre analyse: Capacité à interpréter les résultats et à justifier vos choix.

Ce laboratoire vous permettra de maîtriser les étapes clés de la préparation de données pour l'apprentissage machine et de développer votre intuition sur les défis liés à la reconnaissance d'images.

# Partie 1 - Analyse exploratoire des données

On va commencer en regardant les données.

Pour ce lab, nous allons utiliser le Real-world Affective Faces Database (RAF-DB)

L'ensemble de données est disponible dans Moodle et il contient 15,339 images de visages avec differentes résolutions, en niveau de gris et couleur.

Les partitions développement (train) et test sont déjà préétablies.
- 12,271 échantillons de développement (avec étiquettes) 
- 3,068 échantillons pour l'évaluation final (sans étiquettes) 

Les images sont nommées au format "train_XXXXX.jpg" / "test_XXXX.jpg".
    
Fichier d'étiquettes:
- emotion: integer [1, 7], où:
  - 1 : Surprise
  - 2 : Peur (Fear)
  - 3 : Dégoût (Disgust)
  - 4 : Joie (Happiness)
  - 5 : Tristesse (Sadness)
  - 6 : Colère (Anger)
  - 7 : Neutre (Neutral)

## <font color=black> 1a: Visualisation des images de visages </font>

###  <font color=blue> À faire: </font>

1. Générer une grille de 7 lignes et $n$ colonnes. Chaque ligne correspond à une émotion différente. Pour chaque ligne, sélectionner aléatoirement $n$ images de l'ensemble de développement appartenant à l'émotion associée et les afficher dans la grille.

Vous pouvez visualiser les images en utilisant `plt.imshow`.


#### Code

In [None]:
# Votre code ici
< REMPLIR >

## 1b: Distribuition des données

L'ensemble de données est-il équilibré ? Autrement dit, chaque classe contient-elle un nombre similaire d'exemples ?

###  <font color=blue> À faire: </font>

1. Représentez graphiquement la distribution des classes pour le ensemble de développement à l'aide d'histogrammes.

#### Code

In [None]:
# Votre code ici
< REMPLIR >

#### Commentaires

# Partie 2 - Pré-traitement des données

Dans quelle mesure la qualité des images influe-t-elle sur la précision des modèles de classification ? Afin d'apporter une réponse à cette question, nous allons expérimenter différentes méthodes de prétraitement des images.

## 2a: Nettoyage de données

Entrées: *data-original* <br>
Sorties: *data-cleaned*

Avant de poursuivre l'entrainement d'un modèle d'apprentissage machine, il est crucial d'assurer la qualité de vos données. Une étape de nettoyage rigoureuse est indispensable pour détecter et corriger les éventuelles anomalies, telles que :

- Valeurs aberrantes: Données s'écartant significativement des autres valeurs.
- Valeurs manquantes: Données non renseignées.
- Valeurs incohérentes: Données ne respectant pas les contraintes définies (e.g., dates invalides, valeurs en dehors d'un intervalle).
- etc.


###  <font color=blue> À faire: </font>

1. Conception d'un pipeline de nettoyage:
   - Détection: Mettre en place des méthodes statistiques et des règles métier pour identifier les anomalies.
   - Correction: Implémenter des stratégies de correction adaptées (e.g., imputation pour les valeurs manquantes, suppression des outliers extrêmes).
2. Application au ensemble de développement
3. Traitement de l'ensemble de test:
   - Utiliser les paramètres de normalisation déterminés sur l'ensemble de développement pour normaliser l'ensemble de test. Éviter d'introduire de nouvelles informations de l'ensemble de test dans le processus de nettoyage afin de préserver son caractère "inconnu".
4. Générez un nouveau jeu de données (dossier data-cleaned) avec les images obtenues (traités). Vous n'avez pas besoin de remettre ce jeu de données, mais il vous sera demandé de l'utiliser plus tard.
5. Documentation du processus:
   - Décrire en détail les étapes de nettoyage, les méthodes utilisées et les raisons de chaque choix.
   - Quantifier les problèmes
   - Décrire et quantifier les problèmes trouvés (par ex., bonnes images, images corrompues, etc.) dans l'ensemble de données par votre pipeline.
   - Cette documentation est essentielle pour la reproductibilité et la compréhension future du processus.

#### Code

In [None]:
# Votre code ici
< REMPLIR >

#### Description

## 2b: Prétraitement des images

Entrées: *data-original* et *data-cleaned*<br>
Sorties: *data-original-pre* et *data-cleaned-pre*

Il y a différents types de prétraitement que nous pouvons appliquer à des images dans les ensembles de données pour réduire la variabilité, réduire des bruits, etc.

En particulier, pour les images de visage, quelques prétraitements peuvent se montrer utiles, comme: 
- Localization/recadrage du visage?
- Localisation des eux?
- Lissage du visage?
- Normalization du contraste?
- Normalization de la résolution (W x L pixels)
- Etc.

###  <font color=blue> À faire: </font>

1. Appliquez au moins un prétraitement sur les images de visages. Vous pouvez choisir différents algorithmes de prétraitement d’images dans [scikit-image](https://scikit-image.org/docs/stable/api/api.html). Vous pouvez aussi trouver d’autres types de prétraitement qui sont plus généraux dans [scikit-learn](https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing).
2. Appliquez sur le ensemble de développement. Attention! Étant donné que les données de l'ensemble de test sont considérées "inconnues" préalablement, il faut bien réfléchir quoi faire avec ces données.
3. Générez des nouveaux jeux de données (dossiers data-original-pre et data-cleaned-pre) avec les images obtenues après le prétraitement. Vous n'avez pas besoin de remettre ce jeu de données, mais il vous sera demandé de l'utiliser plus tard.
4. Expliquez et justifiez le prétraitement utilisé.


#### Description

#### Code

In [None]:
# Votre code ici
< REMPLIR >

# Partie 3 - Rééquilibrage des données

Entrées: *data-original*, *data-cleaned*, *data-original-pre* et *data-cleaned-pre*<br> 
Sorties: *data-original-reeq*, *data-cleaned-reeq*, *data-original-pre-reeq* et *data-cleaned-pre-reeq*

Le déséquilibre des classes est un problème courant en apprentissage machine, particulièrement dans les problèmes de classification. Il survient lorsque certaines classes sont beaucoup plus représentées que d'autres dans un jeu de données. Cela peut conduire à ce que les modèles soient biaisés vers la classe majoritaire et aient des performances médiocres sur la classe minoritaire.

**Stratégies pour équilibrer les classes**

Il existe differentes méthodes pour gérer ce déséquilibre au niveau des données (data-level):
  - Sous-échantillonnage de la classe majoritaire (Undersampling):
    - Random Undersampling: On supprime aléatoirement des instances de la classe majoritaire.
    - Cluster Centroids: On regroupe les instances de la classe majoritaire en clusters et on ne garde qu'un représentant par cluster.
  - Sur-échantillonnage de la classe minoritaire (Oversampling):
    - Random Oversampling: On réplique aléatoirement des instances de la classe minoritaire.
    - SMOTE (Synthetic Minority Over-sampling Technique): On crée de nouvelles instances synthétiques pour la classe minoritaire en interpolant entre les instances existantes.
    - ADASYN (Adaptive Synthetic Sampling): Une variante de SMOTE qui génère un nombre variable d'instances synthétiques en fonction de la densité des données.

Scikit-learn a plusieurs méthodes pour gérer le déséquilibre. Soyez prudent si vous décidez d'utiliser une méthode, car certaines d'entre elles ne sont pas adaptées aux images.

###  <font color=blue> À faire: </font>
1. Choix de la méthode : Sélectionnez une méthode d'équilibrage adaptée à votre jeu de données (sous-échantillonnage, sur-échantillonnage, SMOTE, etc.). Justifiez ce choix en fonction des caractéristiques de vos données et de l'objectif de votre étude.
2.  Appliquez la méthode choisie uniquement au ensemble d'apprentissage. Il est impératif de ne pas modifier l'ensemble de test, car il doit rester indépendant pour une évaluation objective d'un modèle.
3. Générez des fichiers suivants en ajoutant le suffixe "-ree" (pour "rééquilibré") à leur nom d'origine : *data-original-reeq*, *data-cleaned-reeq*, *data-original-pre-reeq* et *data-cleaned-pre-reeq*
4. Décrivez la méthode d'équilibrage utilisée (ex : "Nous avons opté pour le sur-échantillonnage..."), expliquez pourquoi cette méthode a été privilégiée par rapport à d'autres (ex : "Le SMOTE a été choisi car...") et discutez de l'impact attendu de cette technique sur les performances du modèle (ex : "Nous nous attendons à ce que l'équilibrage des classes améliore...").

#### Code

In [None]:
# Votre code ici
< REMPLIR >

#### Description

Votre commentaire ici
< REMPLIR >

# Conclusion

Rédigez un paragraphe synthétique résumant les principales compétences et connaissances acquises au cours de ce premier laboratoire d'apprentissage machine. Mettez l'accent sur les techniques, outils et concepts maîtrisés.

# Fin