# **Pre-processing des images**

Dans cette partie nous allons nous concentrer sur le pre-traitement des images. 

Nous essairons :  

### **1️ Normalisation & Standardisation**  
- [ ] **Redimensionnement** : S'assurer que toutes les images ont la même taille (ex. 224×224 ou 512×512 selon le modèle).

- [ ] **Mise à l'échelle des pixels** : Normaliser les valeurs de pixels dans une plage de **[0,1]** ou **[-1,1]**.  
- [ ] **Égalisation d'histogramme / CLAHE** : Améliore le contraste des images pour mieux distinguer les structures internes.  
- [ ] **Filtrage du bruit** : Appliquer un filtre gaussien ou un filtre médian pour réduire le bruit dans les images.  



### **2️ Gestion du déséquilibre des classes (âge, sexe, position d'imagerie)**  
- [ ] **Sur-échantillonnage** : Dupliquer les images des groupes sous-représentés (ex. jeunes, images d'épaule).  

- [ ] **Sous-échantillonnage** : Réduire le nombre d'images dans les groupes sur-représentés.  
- [ ] **Pondération des classes** : Ajuster la fonction de perte pour donner plus d'importance aux classes minoritaires.  



### **3️ Augmentation des données** *(surtout pour les images d'épaule, qui sont sous-représentées)*  
- [ ] **Rotations** : Tourner légèrement les images (ex. ±15°).  

- [ ] **Translation** : Déplacer l'image légèrement dans différentes directions.  
- [ ] **Zoom & Crop** : Simuler différentes prises de vue en zoomant légèrement.  
- [ ] **Modification du contraste & de la luminosité** : Simuler les différences entre machines d'imagerie.  



### **4️ Vérification des métadonnées & fuites de données**  
- [ ] **S'assurer que les labels sont corrects** et qu'il n'y a pas d'incohérences.  

- [ ] **Vérifier si certaines métadonnées (ex. sexe, âge) influencent trop les prédictions** → Risque de biais !  
- [ ] **Supprimer les doublons** (même patient, même image plusieurs fois).  



### **5️ Conversion & Optimisation**  
- [ ] **Convertir en format optimal** (ex. PNG → JPEG si nécessaire pour réduire la taille des fichiers).

- [ ] **Compression sans perte** pour accélérer l'entraînement sans perdre d'information.  

In [None]:
#######
# 1️ Normalisation & Standardisation
# - Égalisation d'histogramme / CLAHE : Améliore le contraste des images pour mieux distinguer les structures internes.  
#######

## **Les problèmes rencontrés**

- Les poumons peuvent prendre de differente pourcentage de place sur l'image.
- position du corps: sur l'épaule ou sur le dos
- présence de cables pour transfusion, difference physiologique entre homme/femme, vetement 
- certaines images sont plus floues que d'autres
- présence de spéciales caractères/mots sur le coin de certaines images


In [1]:
import image_transformation as it

In [4]:
import os

In [2]:
paths = ['train/malade', "train/sain", 'valid/malade', "valid/sain"]

In [5]:
sum(len(os.listdir("DATASET/"+path)) for path in paths) # 2000 images

4956

In [None]:
# applay equilization to all dataset
paths = ['train/malade', "train/sain", 'valid/malade', "valid/sain"]

for p in paths:
    path = f"DATASET/{p}"
    for filename in os.listdir(path):
        image_path = f"{path}/{filename}"
        new_image_path = f"1_{image_path[:-4]}.png"

        it.add_new_image(
            from_image_path=image_path,
            to_image_path=new_image_path,
            from_csv_path="DATASET/metadata.csv",
            to_csv_path="1_DATASET/metadata.csv",
            equalize=True
        )



transformed_image_path: 00019484_007_transformed.png
transformed_image_path: 00002926_000_transformed.png
transformed_image_path: 00002036_000_transformed.png
transformed_image_path: 00007451_007_transformed.png
transformed_image_path: 00003649_005_transformed.png
transformed_image_path: 00029464_005_transformed.png
transformed_image_path: 00003989_012_transformed.png
transformed_image_path: 00019535_003_transformed.png
transformed_image_path: 00000491_006_transformed.png
transformed_image_path: 00006529_001_transformed.png
transformed_image_path: 00018284_001_transformed.png
transformed_image_path: 00011282_005_transformed.png
transformed_image_path: 00002622_000_transformed.png
transformed_image_path: 00016964_005_transformed.png
transformed_image_path: 00016732_021_transformed.png
transformed_image_path: 00010535_012_transformed.png
transformed_image_path: 00025769_015_transformed.png
transformed_image_path: 00021734_003_transformed.png
transformed_image_path: 00007864_001_transform

KeyboardInterrupt: 

In [None]:
ls = [1, 2, 3, 4, 5]

a, b = ls[:-1], ls[-1]
a, b

In [None]:
it.remove_transformed_data("1_DATASET/metadata.csv")