## Objectif
Ce notebook a pour objectif d'explorer les techniques d'augmentation de données d'images en utilisant le zoom, le flip (inverser une image par rapport à un axe vertical) et la rotation pour améliorer la performance d'un modèle de classification des pneumonies à partir d'images de rayons X. Les étapes clés incluent l'augmentation des données, l'entraînement d'un modèle CNN et l'évaluation des performances du modèle.

## Étapes de Démarche

1. **Vérification de la Disponibilité du GPU**
2. **Chargement et Préparation des Données**
   - Chargement, redimensionnement, conversion en niveaux de gris, normalisation et restructuration des images.
3. **Visualisation des Données**
4. **Augmentation des Données**
5. **Définition et Entraînement du Modèle CNN**
6. **Évaluation du Modèle**
7. **Visualisation des Performances**
   - Matrice de confusion, rapport de classification et courbe ROC.
8. **Heatmaps des Activations**

## Interprétation et Résultats
- **Courbes d'Apprentissage** : convergence du modèle et relation entre la perte et l'exactitude.
- **Matrice de Confusion** : répartition des erreurs de classification.
- **Rapport de Classification** : mesures détaillées comme la précision, le rappel et le score F1.
- **Courbe ROC** : capacité du modèle à distinguer les classes à différents seuils.
- **Heatmaps des Activations** : caractéristiques extraites par les couches du modèle.ion des données d'entrée.

In [3]:
import numpy as np
import matplotlib.pyplot as plt
import cv2
import os
import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.callbacks import ReduceLROnPlateau, EarlyStopping
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc
import seaborn as sns

In [None]:
Vérifie si des GPUs sont disponibles parce que si ils le sont alors ça accélère les calculs lors de l'entraînement du modèle, donc ça réduit le temps d'entaînement

In [5]:
print("Nb de GPU Disponible: ", len(tf.config.experimental.list_physical_devices('GPU')))

Nb de GPU Disponible:  0


Définition des constantes

In [8]:
img_size = 150
data_dir1 = '../../../chest_xray/train/PNEUMONIA'
data_dir2 = '../../../chest_xray/train/NORMAL'

In [None]:
def load_data(data_dir1, data_dir2):
    data = [] # initialisation d'une liste qui va stocker les imgs et les étiquettes (PNEUMONIA ou NORMAL)
    labels = ['PNEUMONIA', 'NORMAL'] # liste des labels possibles
    for dir in [data_dir1, data_dir2]:
        path = os.path.join(dir) # consutruction de la path
        # on verifie si le chemin existe
        if(not (os.path.exists(path))):
            print(f"Le répertoire n'existe pas")
            continue
        label = os.path.basename(dir) # pour avoir le nom du répertoire qui correspond à l'étiquette
        class_num = labels.index(label) 