In [2]:
import numpy as np
import matplotlib.pyplot as plt
import cv2
import os
import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.callbacks import ReduceLROnPlateau, EarlyStopping
from tensorflow.keras.applications import VGG16
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import classification_report, confusion_matrix, roc_curve, auc
import seaborn as sns
from sklearn.base import BaseEstimator, ClassifierMixin

In [8]:
# Paramètres
img_size = 64
batch_size = 32
epochs_list = [7, 10, 13]
data_dir1 = '../../../chest_xray/train/PNEUMONIA'
data_dir2 = '../../../chest_xray/train/NORMAL'
test_data_dir = '../../../chest_xray/test'
validation_data_dir = '../../../chest_xray/val'

In [12]:
# Fonction pour charger et prétraiter les données
def load_and_preprocess_data(data_dir1, data_dir2, img_size, limit=None):
    print("Chargement et prétraitement des données...")
    data = []
    labels = ['PNEUMONIA', 'NORMAL']
    for dir in [data_dir1, data_dir2]:
        path = os.path.join(dir)
        label = os.path.basename(dir)
        class_num = labels.index(label)
        for i, img in enumerate(os.listdir(path)):
            if limit and i >= limit:
                break
            try:
                img_arr = cv2.imread(os.path.join(path, img), cv2.IMREAD_GRAYSCALE)
                if img_arr is None:
                    continue
                resized_arr = cv2.resize(img_arr, (img_size, img_size))
                data.append([resized_arr, class_num])
            except Exception as e:
                print(e)
    data = np.array(data, dtype=object)
    print("loaded and preprocessed data")
    return data

# Appel de la fonction load_and_preprocess_data
train_data = load_and_preprocess_data(data_dir1, data_dir2, img_size, limit=500)

Chargement et prétraitement des données...
loaded and preprocessed data


In [14]:
# Fonction pour séparer les caractéristiques et les labels
def separate_features_labels(data):
    print("Séparation des caractéristiques et des labels...")
    features = []
    labels = []
    for img, label in data:
        features.append(img)
        labels.append(label)
    print("Séparation terminée.")
    return np.array(features), np.array(labels)

# Appel de la fonction separate_features_labels
x_data, y_data = separate_features_labels(train_data)

# Fonction pour prétraiter les données (normalisation)
def preprocess_data(data):
    print("Prétraitement des données...")
    processed_data = []
    for img, label in data:
        img = cv2.normalize(img.astype('float32'), None, 0.0, 1.0, cv2.NORM_MINMAX)
        img = np.expand_dims(img, axis=-1)
        img = np.repeat(img, 3, axis=-1)  # Convertir en 3 canaux
        processed_data.append([img, label])
    return np.array(processed_data, dtype=object)

# Appel de la fonction preprocess_data
train_data = preprocess_data(train_data)
x_data, y_data = separate_features_labels(train_data)

Séparation des caractéristiques et des labels...
Séparation terminée.
Prétraitement des données...
Séparation des caractéristiques et des labels...
Séparation terminée.


In [16]:
# Fonction pour créer le générateur d'images augmentées
def create_data_generators(x_data, y_data, img_size, batch_size):
    print("Création des générateurs de données...")
    datagen = ImageDataGenerator(
        rotation_range=30,
        width_shift_range=0.2,
        height_shift_range=0.2,
        shear_range=0.2,
        zoom_range=0.2,
        horizontal_flip=True,
        fill_mode='nearest'
    )
    datagen.fit(x_data)
    return datagen

# Appel de la fonction create_data_generators
datagen = create_data_generators(x_data, y_data, img_size, batch_size)

Création des générateurs de données...


In [18]:
# Fonction pour créer le modèle CNN
def create_model():
    print("Création du modèle CNN...")
    model = Sequential([
        Conv2D(32, (3, 3), activation='relu', input_shape=(img_size, img_size, 3)),
        MaxPooling2D((2, 2)),
        Conv2D(64, (3, 3), activation='relu'),
        MaxPooling2D((2, 2)),
        Conv2D(128, (3, 3), activation='relu'),
        MaxPooling2D((2, 2)),
        Flatten(),
        Dense(128, activation='relu'),
        Dropout(0.5),
        Dense(1, activation='sigmoid')
    ])
    model.compile(optimizer='adam',
                  loss='binary_crossentropy',
                  metrics=['accuracy', 'AUC'])
    print("Modèle CNN créé et compilé.")
    return model

# Appel de la fonction create_model
model = create_model()

Création du modèle CNN...


  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


Modèle CNN créé et compilé.


In [20]:

# Fonction pour évaluer le modèle avec un certain nombre d'époques
def evaluate_model_with_epochs(epochs, x_train, y_train, x_val, y_val, datagen):
    print(f"Évaluation du modèle avec {epochs} époques...")
    model = create_model()
    history = model.fit(datagen.flow(x_train, y_train, batch_size=batch_size),
                        epochs=epochs,
                        validation_data=(x_val, y_val),
                        callbacks=[ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=3, min_lr=0.0001),
                                   EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)],
                        verbose=0)
    return history

# Fonction pour faire une validation croisée et choisir le meilleur nombre d'époques
def optimize_epochs(x_data, y_data, epochs_list, batch_size):
    print("Optimisation du nombre d'époques...")
    x_train, x_val, y_train, y_val = train_test_split(x_data, y_data, test_size=0.2, random_state=42)
    best_accuracy = 0
    best_epochs = 0
    best_history = None

    for epochs in epochs_list:
        print(f"\nTesting {epochs} epochs...")
        history = evaluate_model_with_epochs(epochs, x_train, y_train, x_val, y_val, datagen)
        val_accuracy = history.history['val_accuracy'][-1]
        if val_accuracy > best_accuracy:
            best_accuracy = val_accuracy
            best_epochs = epochs
            best_history = history

    print(f"Le meilleur nombre d'époques est {best_epochs} avec une précision de validation de {best_accuracy:.2f}.")
    return best_epochs, best_history

# Appel de la fonction optimize_epochs
best_epochs, best_history = optimize_epochs(x_data, y_data, epochs_list, batch_size)

Optimisation du nombre d'époques...

Testing 7 epochs...
Évaluation du modèle avec 7 époques...
Création du modèle CNN...
Modèle CNN créé et compilé.


  self._warn_if_super_not_called()



Testing 10 epochs...
Évaluation du modèle avec 10 époques...
Création du modèle CNN...
Modèle CNN créé et compilé.

Testing 13 epochs...
Évaluation du modèle avec 13 époques...
Création du modèle CNN...
Modèle CNN créé et compilé.
Le meilleur nombre d'époques est 13 avec une précision de validation de 0.81.


In [21]:
# Fonction pour évaluer les performances du modèle
def evaluate_final_model(model, x_test, y_test):
    print("Évaluation du modèle final...")
    scores = model.evaluate(x_test, y_test, verbose=0)
    print(f"Précision de test : {scores[1]*100:.2f}%")
    print(f"Perte de test : {scores[0]:.4f}")

    # Matrice de confusion
    y_pred = (model.predict(x_test) > 0.5).astype("int32")
    cm = confusion_matrix(y_test, y_pred)
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['PNEUMONIA', 'NORMAL'], yticklabels=['PNEUMONIA', 'NORMAL'])
    plt.ylabel('Réel')
    plt.xlabel('Prédiction')
    plt.title('Matrice de Confusion')
    plt.show()

    # Rapport de classification
    cr = classification_report(y_test, y_pred, target_names=['PNEUMONIA', 'NORMAL'])
    print("Rapport de Classification:\n", cr)

    # Courbe ROC
    fpr, tpr, _ = roc_curve(y_test, y_pred)
    roc_auc = auc(fpr, tpr)
    plt.figure()
    plt.plot(fpr, tpr, color='darkorange', lw=2, label='Courbe ROC (aire = %0.2f)' % roc_auc)
    plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.05])
    plt.xlabel('Taux de Faux Positifs')
    plt.ylabel('Taux de Vrais Positifs')
    plt.title('Caractéristique de Performance du Modèle')
    plt.legend(loc="lower right")
    plt.show()

In [22]:
# Fonction pour afficher les courbes d'apprentissage
def plot_learning_curves(history):
    print("Affichage des courbes d'apprentissage...")
    plt.figure(figsize=(12, 4))
    plt.subplot(1, 2, 1)
    plt.plot(history.history['accuracy'])
    plt.plot(history.history['val_accuracy'])
    plt.title('Courbe de Précision')
    plt.xlabel('Époques')
    plt.ylabel('Précision')
    plt.legend(['Entraînement', 'Validation'])

    plt.subplot(1, 2, 2)
    plt.plot(history.history['loss'])
    plt.plot(history.history['val_loss'])
    plt.title('Courbe de Perte')
    plt.xlabel('Époques')
    plt.ylabel('Perte')
    plt.legend(['Entraînement', 'Validation'])

    plt.tight_layout()
    plt.show()


In [23]:
# Fonction pour l'entraînement final du modèle
def train_final_model(x_train, y_train, x_val, y_val, epochs):
    print(f"Entraînement du modèle final avec {epochs} époques...")
    model = create_model()
    history = model.fit(datagen.flow(x_train, y_train, batch_size=batch_size),
                        epochs=epochs,
                        validation_data=(x_val, y_val),
                        callbacks=[ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=3, min_lr=0.0001),
                                   EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)])
    return model, history

# Appel de la fonction train_final_model
x_train, x_val, y_train, y_val = train_test_split(x_data, y_data, test_size=0.2, random_state=42)
final_model, final_history = train_final_model(x_train, y_train, x_val, y_val, best_epochs)


Entraînement du modèle final avec 13 époques...
Création du modèle CNN...
Modèle CNN créé et compilé.
Epoch 1/13
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m12s[0m 156ms/step - AUC: 0.4645 - accuracy: 0.4750 - loss: 0.7172 - val_AUC: 0.7219 - val_accuracy: 0.6300 - val_loss: 0.6913 - learning_rate: 0.0010
Epoch 2/13
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 121ms/step - AUC: 0.5540 - accuracy: 0.5321 - loss: 0.6905 - val_AUC: 0.7302 - val_accuracy: 0.5200 - val_loss: 0.6808 - learning_rate: 0.0010
Epoch 3/13
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 120ms/step - AUC: 0.6393 - accuracy: 0.5677 - loss: 0.6835 - val_AUC: 0.7499 - val_accuracy: 0.5200 - val_loss: 0.6719 - learning_rate: 0.0010
Epoch 4/13
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 122ms/step - AUC: 0.6611 - accuracy: 0.6014 - loss: 0.6611 - val_AUC: 0.6957 - val_accuracy: 0.5550 - val_loss: 0.6801 - learning_rate: 0.0010
Epoch 5/13
[1m25/25[0m 

In [24]:
# Fonction pour sauvegarder le modèle
def save_model(model, filename):
    print(f"Enregistrement du modèle sous '{filename}'...")
    model.save(filename)
    print(f"Modèle sauvegardé sous '{filename}'.")

# Appel de la fonction save_model
save_model(final_model, 'final_cnn_model.h5')




Enregistrement du modèle sous 'final_cnn_model.h5'...
Modèle sauvegardé sous 'final_cnn_model.h5'.
