## üß© Importation des biblioth√®ques principales

Cette premi√®re cellule regroupe l‚Äôensemble des **modules n√©cessaires** pour la cr√©ation et la gestion du dataset.  
Chaque biblioth√®que joue un r√¥le pr√©cis :

- **os** ‚Üí gestion des fichiers et dossiers  
- **cv2 (OpenCV)** ‚Üí traitement et transformation des images  
- **numpy (np)** ‚Üí manipulation de tableaux et op√©rations matricielles  
- **pandas (pd)** ‚Üí cr√©ation et gestion des DataFrames (donn√©es tabulaires)  
- **itertools.product** ‚Üí parcourir efficacement toutes les tailles d‚Äôimages sans multiplier les boucles.  
- **tqdm** ‚Üí affichage de barres de progression dans les boucles

> ‚öôÔ∏è Cette √©tape initialise l‚Äôenvironnement Python n√©cessaire avant le chargement et le traitement des images.


In [15]:
import os
import cv2
import numpy as np
import pandas as pd
from itertools import product
from tqdm import tqdm

## üèóÔ∏è G√©n√©ration du Dataset √† diff√©rentes tailles d‚Äôimages

Dans cette √©tape, nous allons **construire le dataset complet** √† partir des images brutes des quatre classes disponibles.  
L‚Äôobjectif est de cr√©er plusieurs versions du dataset selon diff√©rentes **tailles d‚Äôimages** (64√ó64, 128√ó128, etc.) pour comparer les performances des mod√®les en fonction de la r√©solution.

---

### ‚öôÔ∏è √âtapes du traitement

1. **Initialisation des structures de stockage**
   - `X_dict` : contient les *features* (les images transform√©es et aplaties)
   - `y_dict` : contient les *labels* (la classe associ√©e √† chaque image)
   - `df_dict` : contiendra les DataFrames finaux avant la sauvegarde

2. **D√©finition des classes et √©quilibre**
   - Les cat√©gories utilis√©es sont :  
     - `0 ‚Üí Normal`  
     - `1 ‚Üí COVID`  
     - `2 ‚Üí Autres pathologies (Lung Opacity et Viral Pneumonia)`  
   - Pour √©viter tout **d√©s√©quilibre entre les classes** :  
     - On choisit **le m√™me nombre d‚Äôimages pour Normal et COVID**.  
     - Les images de Lung Opacity et Viral Pneumonia sont regroup√©es dans la classe `2`, avec un nombre d‚Äôimages total √©quivalent aux autres classes.  
   - R√©sultat : **toutes les classes ont le m√™me nombre d‚Äôimages**, garantissant un dataset √©quilibr√©.
     

3. **Pr√©paration et allocation m√©moire**
   - Allocation de tableaux `NumPy` adapt√©s √† la taille d‚Äôimage et au nombre total d‚Äô√©chantillons.
   - Permet d‚Äô√©viter les ralentissements dus √† la cr√©ation dynamique de tableaux pendant la boucle.

4. **Boucle principale**
   - Pour chaque **taille d‚Äôimage** :  
     - Lecture et redimensionnement des images et masques (`cv2.resize`)  
     - Application d‚Äôun **masquage** (`cv2.bitwise_and`) pour ne conserver que la zone utile  
     - Aplatissement des images pour les stocker sous forme de vecteurs  
     - Enregistrement des labels correspondants

5. **Cr√©ation du DataFrame final**
   - Conversion des tableaux `X` et `y` en un `DataFrame Pandas`  
   - M√©lange al√©atoire des lignes (`sample(frac=1)`) pour √©viter tout biais d‚Äôordre  
   - Sauvegarde du dataset en **format HDF5** (`to_hdf`) pour une lecture rapide et efficace lors de l‚Äôentra√Ænement

---

### üíæ Sorties g√©n√©r√©es

Pour chaque taille d‚Äôimage, un fichier est produit, avec **un nombre √©quilibr√© d‚Äôimages par classe**.  
Cela garantit que les mod√®les ne seront pas influenc√©s par une sur-repr√©sentation d‚Äôune classe particuli√®re, ce qui est essentiel pour un apprentissage fiable et repr√©sentatif.


In [17]:
# === Initialisation ===
X_dict = {}   # Dictionnaire qui contiendra les images (features)
y_dict = {}   # Dictionnaire qui contiendra les labels
df_dict = {}  # Dictionnaire pour stocker les DataFrames finaux




# Nous allons generer les datasets du jeu avec les diff√©rentes tailles
# === Remarque ===
# Nous allons garder des images pour le test via Streamlit 
# qui n'ont pas √©t√© vues par le mod√®le.
# R√©servation : 
# - 6 images pour les classes Normal et COVID
# - 3 images pour les classes Lung_Opacity et Viral Pneumonia
classes = {
          0: ["Normal/images", "Normal/masks",3610,0],
          1: ["COVID/images", "COVID/masks",3610,1],
          2: ["Lung_Opacity/images", "Lung_Opacity/masks",2268,2],
          3: ["Viral Pneumonia/images", "Viral Pneumonia/masks",1342,2],
}

Nb=10830 # Nombre total d'images (somme des sous-ensembles)
tailles = [64,128,176,224,299]  # Diff√©rentes tailles √† g√©n√©rer

# Pr√©-allocation m√©moire
X_dict[Nb]={}
y_dict[Nb]={}
df_dict[Nb]={}


for size in tailles:
    X_dict[Nb][size] = np.zeros((Nb, size * size), dtype=np.uint8)
    y_dict[Nb][size] = np.zeros((Nb,), dtype=np.uint8)

	
for lot, taille in product([10830], tailles):
    index_global = 0
    print(f"\n=== Traitement des images pour taille {taille}x{taille} ===")
    
    for indice ,(img,mask,num,classe) in classes.items():
        contenu_image=os.listdir(img)
        contenu_mask=os.listdir(mask)
        for i,(imag,masks) in tqdm(enumerate(zip(contenu_image[:num],contenu_mask[:num]))):
            # Lecture et redimension
            img_covid4=cv2.imread(os.path.join(img,imag),cv2.IMREAD_GRAYSCALE)
            mask_covid4=cv2.imread(os.path.join(mask,masks),cv2.IMREAD_GRAYSCALE)
            
            if img_covid4 is None or mask_covid4 is None:
                continue  # s√©curit√© en cas d‚Äôimage corrompue
                
            img_resize=cv2.resize(img_covid4,dsize=(taille,taille))
            mask_resize=cv2.resize(mask_covid4,dsize=(taille,taille))
         
            # Fusion image + masque
            melange_covid4=cv2.bitwise_and(img_resize,mask_resize)
            
            
            # Donn√©es avec les images aplatie dans X et cible dans y
            X_dict[lot][taille][index_global,:] = melange_covid4.reshape(-1)
            y_dict[lot][taille][index_global]=classe
            index_global += 1
                
    # Cr√©ation DataFrame final
    df=pd.DataFrame(X_dict[lot][taille])
    df["Cible"]=y_dict[lot][taille]
    df.columns =df.columns.map(str)
    
    
    # M√©lange al√©atoire
    df=df.sample(frac=1,random_state=42).reset_index(drop=True)
    
    
    # Sauvegarde en HDF5
    filename = f"dataset_{taille}_{Nb}.h5"
    df.to_hdf(filename, key=f"df_{taille}_{Nb}", mode="w", format="fixed")




=== Traitement des images pour taille 64x64 ===


3610it [00:14, 249.87it/s]
3610it [00:13, 268.12it/s]
2268it [00:08, 275.39it/s]
1342it [00:05, 242.71it/s]



=== Traitement des images pour taille 128x128 ===


3610it [00:13, 264.24it/s]
3610it [00:13, 271.90it/s]
2268it [00:07, 291.85it/s]
1342it [00:05, 264.50it/s]



=== Traitement des images pour taille 176x176 ===


3610it [00:13, 267.17it/s]
3610it [00:13, 261.19it/s]
2268it [00:08, 267.24it/s]
1342it [00:05, 254.81it/s]



=== Traitement des images pour taille 224x224 ===


3610it [00:15, 240.17it/s]
3610it [00:15, 238.76it/s]
2268it [00:09, 251.83it/s]
1342it [00:06, 202.53it/s]



=== Traitement des images pour taille 299x299 ===


3610it [00:15, 238.28it/s]
3610it [00:15, 225.87it/s]
2268it [00:09, 231.72it/s]
1342it [00:06, 223.04it/s]


## üìÇ Chargement et v√©rification des datasets HDF5

Une fois les diff√©rents datasets cr√©√©s et sauvegard√©s au format **HDF5**, nous les rechargeons ici pour v√©rifier leur **int√©grit√©** et **√©quilibre des classes**.

---

### ‚öôÔ∏è √âtapes effectu√©es

1. **Chargement des fichiers**
   - Pour chaque taille d‚Äôimage (64√ó64, 128√ó128, 176√ó176, 224√ó224, 299√ó299), le fichier correspondant est charg√© depuis le disque :
     ```
     dataset_<taille>_10830.h5
     ```
   - Le contenu est lu via la cl√© :
     ```
     df_<taille>_10830
     ```
   - Chaque DataFrame est stock√© dans le dictionnaire `dfs` pour un acc√®s facile selon la taille.

2. **V√©rification de la r√©partition des classes**
   - Pour chaque DataFrame, la distribution de la colonne **`Cible`** (les labels de classes) est affich√©e.
   - Cela permet de confirmer :
     - qu‚Äôaucune image n‚Äôa √©t√© perdue pendant la g√©n√©ration,
     - que les classes sont bien √©quilibr√©es (ou de rep√©rer un √©ventuel d√©s√©quilibre).

---

### üßæ Exemple de sortie attendue



In [32]:
# === Lecture du Dataframe depuis HDF5 ===
dfs={}
tailles = [64,128,176,224,299]
for t in tailles:
    filename=f"dataset_{t}_10830.h5"
    key=f"df_{t}_10830"
    dfs[t]=pd.read_hdf(filename,key=key)
    
for t in tailles:
    print(f"====v√©rification de l'equilibre des classes pour la taille {t}x{t}:")
    print(dfs[t]["Cible"].value_counts())


====v√©rification de l'equilibre des classes pour la taille 64x64:
Cible
0    3610
2    3610
1    3610
Name: count, dtype: int64
====v√©rification de l'equilibre des classes pour la taille 128x128:
Cible
0    3610
2    3610
1    3610
Name: count, dtype: int64
====v√©rification de l'equilibre des classes pour la taille 176x176:
Cible
0    3610
2    3610
1    3610
Name: count, dtype: int64
====v√©rification de l'equilibre des classes pour la taille 224x224:
Cible
0    3610
2    3610
1    3610
Name: count, dtype: int64
====v√©rification de l'equilibre des classes pour la taille 299x299:
Cible
0    3610
2    3610
1    3610
Name: count, dtype: int64


## üßÆ V√©rification des dimensions des DataFrames

Apr√®s avoir confirm√© l‚Äô√©quilibre des classes, il est essentiel de v√©rifier la **structure** de chaque DataFrame pour s‚Äôassurer que :

- le **nombre total de lignes** correspond bien au total d‚Äôimages attendu,  
- le **nombre de colonnes** (features extraites + colonne cible) est coh√©rent entre les diff√©rentes tailles d‚Äôimages.

---

### ‚öôÔ∏è √âtapes effectu√©es

Pour chaque taille d‚Äôimage (`64x64`, `128x128`, `176x176`, `224x224`, `299x299`) :
- On affiche le r√©sultat de la m√©thode `shape`, qui retourne :


In [36]:
for t in tailles:
    print(f"====v√©rification des lignes et colonnes pour chaques classes pour la taille {t}x{t}:")
    print(dfs[t].shape)
    

====v√©rification des lignes et colonnes pour chaques classes pour la taille 64x64:
(10830, 4097)
====v√©rification des lignes et colonnes pour chaques classes pour la taille 128x128:
(10830, 16385)
====v√©rification des lignes et colonnes pour chaques classes pour la taille 176x176:
(10830, 30977)
====v√©rification des lignes et colonnes pour chaques classes pour la taille 224x224:
(10830, 50177)
====v√©rification des lignes et colonnes pour chaques classes pour la taille 299x299:
(10830, 89402)


## ‚úÖ Conclusion : Validation des jeux de donn√©es

Les diff√©rents datasets g√©n√©r√©s pr√©sentent les caract√©ristiques suivantes :

- **Coh√©rence structurelle :**  
  Chaque DataFrame poss√®de le bon nombre de lignes et de colonnes selon la taille d‚Äôimage choisie.

- **√âquilibre des classes :**  
  Les classes sont r√©parties de mani√®re homog√®ne, garantissant une bonne repr√©sentativit√© lors de l‚Äôentra√Ænement.

- **Disponibilit√© multi-tailles :**  
  Les jeux de donn√©es sont disponibles pour plusieurs r√©solutions (`64x64`, `128x128`, `176x176`, `224x224`, `299x299`), ce qui permettra de comparer les performances des mod√®les selon la taille des images.

---

üí° **Conclusion finale :**  
Ces datasets sont **coh√©rents**, **√©quilibr√©s** et **pr√™ts pour le pr√©traitement** ainsi que pour **l‚Äôapprentissage des mod√®les**.  
Si un ralentissement se fait sentir, nous pourrons **r√©duire le nombre d‚Äôimages** utilis√©es pour acc√©l√©rer les exp√©rimentations sans compromettre la validit√© des r√©sultats.
