# **Pre-processing des images**

Dans cette partie nous allons nous concentrer sur le pre-traitement des images. 

Nous essairons :  

### **1️ Normalisation & Standardisation**  
- [ ] **Redimensionnement** : S'assurer que toutes les images ont la même taille (ex. 224×224 ou 512×512 selon le modèle).

- [ ] **Mise à l'échelle des pixels** : Normaliser les valeurs de pixels dans une plage de **[0,1]** ou **[-1,1]**.  
- [ ] **Égalisation d'histogramme / CLAHE** : Améliore le contraste des images pour mieux distinguer les structures internes.  
- [ ] **Filtrage du bruit** : Appliquer un filtre gaussien ou un filtre médian pour réduire le bruit dans les images.  



### **2️ Gestion du déséquilibre des classes (âge, sexe, position d'imagerie)**  
- [ ] **Sur-échantillonnage** : Dupliquer les images des groupes sous-représentés (ex. jeunes, images d'épaule).  

- [ ] **Sous-échantillonnage** : Réduire le nombre d'images dans les groupes sur-représentés.  
- [ ] **Pondération des classes** : Ajuster la fonction de perte pour donner plus d'importance aux classes minoritaires.  



### **3️ Augmentation des données** *(surtout pour les images d'épaule, qui sont sous-représentées)*  
- [ ] **Rotations** : Tourner légèrement les images (ex. ±15°).  

- [ ] **Translation** : Déplacer l'image légèrement dans différentes directions.  
- [ ] **Zoom & Crop** : Simuler différentes prises de vue en zoomant légèrement.  
- [ ] **Modification du contraste & de la luminosité** : Simuler les différences entre machines d'imagerie.  



### **4️ Vérification des métadonnées & fuites de données**  
- [ ] **S'assurer que les labels sont corrects** et qu'il n'y a pas d'incohérences.  

- [ ] **Vérifier si certaines métadonnées (ex. sexe, âge) influencent trop les prédictions** → Risque de biais !  
- [ ] **Supprimer les doublons** (même patient, même image plusieurs fois).  



### **5️ Conversion & Optimisation**  
- [ ] **Convertir en format optimal** (ex. PNG → JPEG si nécessaire pour réduire la taille des fichiers).

- [ ] **Compression sans perte** pour accélérer l'entraînement sans perdre d'information.  

In [2]:
import image_transformation as it

In [15]:
#######
# 1️ Normalisation & Standardisation
# - Égalisation d'histogramme / CLAHE : Améliore le contraste des images pour mieux distinguer les structures internes.  
#######

## **Les problèmes rencontrés**

- Les poumons peuvent prendre de differente pourcentage de place sur l'image.
- position du corps: sur l'épaule ou sur le dos
- présence de cables pour transfusion, difference physiologique entre homme/femme, vetement 
- certaines images sont plus floues que d'autres
- présence de spéciales caractères/mots sur le coin de certaines images


In [18]:
from PIL import Image, ImageEnhance, ImageFilter
import numpy as np
import os

In [20]:
paths = ['train/malade', 'train/sain' 'valid/sain', 'valid/malade']
path_tmp = "DATASET/"+paths[0]
for filename in os.listdir(path_tmp):
    image_path = os.path.join(path_tmp, filename)
    print(image_path)
    new_image_path = os.path.join(path_tmp, 'new_' + filename)
    print(new_image_path)


DATASET/train/malade/00019484_007.png
DATASET/train/malade/new_00019484_007.png
DATASET/train/malade/00002926_000.png
DATASET/train/malade/new_00002926_000.png
DATASET/train/malade/00002036_000.png
DATASET/train/malade/new_00002036_000.png
DATASET/train/malade/00007451_007.png
DATASET/train/malade/new_00007451_007.png
DATASET/train/malade/00003649_005.png
DATASET/train/malade/new_00003649_005.png
DATASET/train/malade/00029464_005.png
DATASET/train/malade/new_00029464_005.png
DATASET/train/malade/00003989_012.png
DATASET/train/malade/new_00003989_012.png
DATASET/train/malade/00019535_003.png
DATASET/train/malade/new_00019535_003.png
DATASET/train/malade/00000491_006.png
DATASET/train/malade/new_00000491_006.png
DATASET/train/malade/00006529_001.png
DATASET/train/malade/new_00006529_001.png
DATASET/train/malade/00018284_001.png
DATASET/train/malade/new_00018284_001.png
DATASET/train/malade/00011282_005.png
DATASET/train/malade/new_00011282_005.png
DATASET/train/malade/00002622_000.png
DA