In [3]:
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras import layers, models
from tensorflow.keras.applications import VGG16
from sklearn.metrics import confusion_matrix, classification_report, roc_curve, auc
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras.models import load_model
import tensorflow as tf
import os
from tensorflow.keras.preprocessing.image import load_img, img_to_array
import random
import pandas as pd
import seaborn as sns
import re

In [None]:
train_dir = '../../T_DEV_810/chest_xray/train'
val_dir = '../../T_DEV_810/chest_xray/val'
test_dir = '../../T_DEV_810/chest_xray/test'

train_datagen = ImageDataGenerator(
    rescale=1./255,
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True)

val_datagen = ImageDataGenerator(rescale=1./255)
test_datagen = ImageDataGenerator(rescale=1./255)

train_generator = train_datagen.flow_from_directory(
    train_dir,
    target_size=(150, 150),
    batch_size=32,
    class_mode='binary')

val_generator = val_datagen.flow_from_directory(
    val_dir,
    target_size=(150, 150),
    batch_size=32,
    class_mode='binary')

test_generator = test_datagen.flow_from_directory(
    test_dir,
    target_size=(150, 150),
    batch_size=32,
    class_mode='binary')

Found 4684 images belonging to 2 classes.
Found 585 images belonging to 2 classes.
Found 587 images belonging to 2 classes.


## 2. Configuration des Données et Préparation

### 📁 Définition de l'architecture des dossiers

Cette structure organise le dataset en trois ensembles distincts :
- **`train`** : Données d'entraînement pour l'apprentissage du modèle
- **`val`** : Données de validation pour ajuster les hyperparamètres  
- **`test`** : Données de test pour l'évaluation finale non biaisée

### 🔄 Configuration des générateurs d'images

#### Générateur d'entraînement avec augmentation de données

L'augmentation de données permet de :
- ✅ Augmenter artificiellement la taille du dataset
- ✅ Améliorer la robustesse du modèle aux variations naturelles
- ✅ Réduire le surapprentissage (overfitting)

**Paramètres d'augmentation :**
- `rescale=1./255` : Normalisation des pixels [0-255] → [0-1]
- `rotation_range=40` : Rotation aléatoire jusqu'à 40°
- `width_shift_range=0.2` : Décalage horizontal jusqu'à 20%
- `height_shift_range=0.2` : Décalage vertical jusqu'à 20%
- `shear_range=0.2` : Cisaillement jusqu'à 20%
- `zoom_range=0.2` : Zoom aléatoire jusqu'à 20%
- `horizontal_flip=True` : Retournement horizontal aléatoire

#### Générateurs de validation et test

⚠️ **Important** : Seule la normalisation est appliquée pour maintenir la cohérence d'évaluation.

### ⚙️ Création des flux de données

**Configuration commune :**
- `target_size=(150, 150)` : Redimensionnement à 150×150 pixels
- `batch_size=32` : Traitement par lots de 32 images
- `class_mode='binary'` : Classification binaire (pneumonie vs normal)

**Avantages des générateurs :**
- 💾 Charger les images à la demande (économie mémoire)
- ⚡ Appliquer les transformations en temps réel
- 🗂️ Organiser automatiquement les classes selon la structure des dossiers

### 📂 Structure attendue des données

```
chest_xray/
├── train/
│   ├── NORMAL/
│   └── PNEUMONIA/
├── val/
│   ├── NORMAL/
│   └── PNEUMONIA/
└── test/
    ├── NORMAL/
    └── PNEUMONIA/
```

> 💡 **Note** : Cette configuration prépare un pipeline de données efficace pour l'entraînement d'un modèle de classification d'images médicales.