# **Pre-processing des images**

Dans cette partie nous allons nous concentrer sur le pre-traitement des images. 

Nous essairons :  

### **1️ Normalisation & Standardisation**  
- [ ] **Redimensionnement** : S'assurer que toutes les images ont la même taille (ex. 224×224 ou 512×512 selon le modèle).

- [ ] **Mise à l'échelle des pixels** : Normaliser les valeurs de pixels dans une plage de **[0,1]** ou **[-1,1]**.  
- [ ] **Égalisation d'histogramme / CLAHE** : Améliore le contraste des images pour mieux distinguer les structures internes.  
- [ ] **Filtrage du bruit** : Appliquer un filtre gaussien ou un filtre médian pour réduire le bruit dans les images.  



### **2️ Gestion du déséquilibre des classes (âge, sexe, position d'imagerie)**  
- [ ] **Sur-échantillonnage** : Dupliquer les images des groupes sous-représentés (ex. jeunes, images d'épaule).  

- [ ] **Sous-échantillonnage** : Réduire le nombre d'images dans les groupes sur-représentés.  
- [ ] **Pondération des classes** : Ajuster la fonction de perte pour donner plus d'importance aux classes minoritaires.  



### **3️ Augmentation des données** *(surtout pour les images d'épaule, qui sont sous-représentées)*  
- [ ] **Rotations** : Tourner légèrement les images (ex. ±15°).  

- [ ] **Translation** : Déplacer l'image légèrement dans différentes directions.  
- [ ] **Zoom & Crop** : Simuler différentes prises de vue en zoomant légèrement.  
- [ ] **Modification du contraste & de la luminosité** : Simuler les différences entre machines d'imagerie.  



### **4️ Vérification des métadonnées & fuites de données**  
- [ ] **S'assurer que les labels sont corrects** et qu'il n'y a pas d'incohérences.  

- [ ] **Vérifier si certaines métadonnées (ex. sexe, âge) influencent trop les prédictions** → Risque de biais !  
- [ ] **Supprimer les doublons** (même patient, même image plusieurs fois).  



### **5️ Conversion & Optimisation**  
- [ ] **Convertir en format optimal** (ex. PNG → JPEG si nécessaire pour réduire la taille des fichiers).

- [ ] **Compression sans perte** pour accélérer l'entraînement sans perdre d'information.  

In [2]:
import image_transformation as it

In [15]:
#######
# 1️ Normalisation & Standardisation
# - Égalisation d'histogramme / CLAHE : Améliore le contraste des images pour mieux distinguer les structures internes.  
#######

In [4]:
from PIL import Image, ImageEnhance, ImageFilter
import numpy as np

In [None]:
# applay equilization to all dataset
# add_new_image(image_path: str, csv_path: str, rotation: int = 0, brightness: float = 1.0, noise: float = 0.0, blur: float = 0.0, equalize: bool = False) -> None
it.add_new_image(
    image_path='DATASET/train/malade',
    csv_path='dataset/labels.csv',
    rotation=0,
    brightness=1.0,
    noise=0.0,
    blur=0.0,
    equalize=True
)
