# Détection des mélanomes par apprentissage machine

## Introduction
Ce notebook présente le développement d’un modèle d’apprentissage machine pour classifier les lésions cutanées en `bénignes` ou `maligne`. Le dataset utilisé provient de l’ISIC (International Skin Imaging Collaboration). Le projet s’appuie sur le transfer learning avec le modèle EfficientNet. Les étapes incluent le prétraitement des données, l’implémentation du modèle, l’entraînement et l’évaluation.

## Importation des bibliothèques
Nous commençons par installer et importer les bibliothèques nécessaires pour notre projet. Ces bibliothèques permettent de manipuler les données, d’afficher des visualisations et de créer le modèle d’apprentissage. Les principales bibliothèques utilisées sont :
- `numpy` et `pandas` pour la manipulation des données,
- `tensorflow.keras` pour la construction du modèle,
- d’autres modules spécifiques pour le prétraitement et la visualisation.

In [None]:
%pip install tensorflow
%pip install matplotlib
%pip install numpy
%pip install pandas
%pip install pydot
%pip install pydot graphviz
%pip install scikit-learn

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf
import os
from tensorflow.keras import Input
from tensorflow.keras.applications import EfficientNetB0 # type: ignore #ingore the warning
from tensorflow.keras.layers import Concatenate, Input, Dense, Dropout, Flatten, GlobalAveragePooling2D # type: ignore #ingore the warning
from tensorflow.keras.models import Model, Sequential # type: ignore #ingore the warning
from tensorflow.keras.optimizers import Adam # type: ignore #ingore the warning
from tensorflow.keras.utils import plot_model # type: ignore #ingore the warning
from tensorflow.keras.preprocessing.image import load_img, img_to_array # type: ignore #ingore the warning
from tensorflow.keras.applications.efficientnet import preprocess_input # type: ignore #ingore the warning
from tensorflow.keras.callbacks import TensorBoard # type: ignore #ingore the warning
from sklearn.model_selection import train_test_split

## Détection du matériel (TPU, GPU, CPU)

Cette cellule détecte le matériel disponible (TPU, GPU ou CPU) et configure une stratégie adaptée pour optimiser l'entraînement :

1. **Priorité** : TPU > GPU > CPU.
2. **Stratégie de distribution des calculs** :
   - TPU : Utilisation de `TPUStrategy` pour exécutions distribuées.
   - GPU : Utilisation de `MirroredStrategy` pour un ou plusieurs GPU.
   - CPU : Stratégie par défaut si pas de TPU ou GPU disponible.
3. **Ressources synchronisées** : Le nombre de répliques (`strategy.num_replicas_in_sync`) sera utilisé pour ajuster dynamiquement la taille globale du batch.

Cette configuration optimise l'utilisation des ressources matérielles (en puissance de calcul) disponibles.

In [None]:
# Detect hardware
try:
  tpu = tf.distribute.cluster_resolver.TPUClusterResolver() # TPU detection
except ValueError:
  tpu = None
#If TPU not found try with GPUs
  gpus = tf.config.experimental.list_logical_devices("GPU")
    
# Select appropriate distribution strategy for hardware
if tpu:
  tf.config.experimental_connect_to_cluster(tpu)
  tf.tpu.experimental.initialize_tpu_system(tpu)
  strategy = tf.distribute.experimental.TPUStrategy(tpu)
  print('Running on TPU ', tpu.master())  
elif len(gpus) > 0:
  strategy = tf.distribute.MirroredStrategy(gpus) # this works for 1 to multiple GPUs
  print('Running on ', len(gpus), ' GPU(s) ')
else:
  strategy = tf.distribute.get_strategy()
  print('Running on CPU')

# How many accelerators do we have ?
print("Number of accelerators: ", strategy.num_replicas_in_sync)

## Chargement des données
Les données, composées d’images et de métadonnées, sont chargées depuis un fichier CSV contenant les informations associées. Ces métadonnées incluent notamment :
- le label `benign_malignant` (notre variable cible),
- des informations sur le patient et la lésion.

L’affichage des premières lignes du fichier nous permet de vérifier sa structure et son contenu avant toute manipulation.

In [None]:
# Charger le fichier CSV
metadata = pd.read_csv("./images/combined_metadata.csv")
# Ajouter le chemin complet des images
metadata['image_path'] = metadata['isic_id'].apply(lambda x: f"./images/{x}.jpg")

# Encoder les labels (0 = benign, 1 = malignant)
metadata['label'] = metadata['benign_malignant'].map({'benign': 0, 'malignant': 1})

metadata = metadata.dropna(subset=['label'])
metadata = metadata[['image_path', 'label', 'age_approx','sex']]
print(metadata.head())

### Définition des paramètres globaux pour l'entrainement du modèle

In [None]:
# Chemins vers les fichiers TFRecord (désactivé dans cet exemple)
# TRAINING_FILENAMES = tf.io.gfile.glob(GCS_DS_PATH + '/tfrecords/train*')
# TEST_FILENAMES = tf.io.gfile.glob(GCS_DS_PATH + '/tfrecords/test*')

# Taille des lots adaptée au nombre de répliques (dispositifs GPU/TPU) disponibles

##################################
# rajout conidtion si GPU ou TPU #
##################################
BATCH_SIZE = 10 * strategy.num_replicas_in_sync  # Par exemple, 10 images par réplique

# Taille des images à utiliser (100x100 pixels)
IMAGE_SIZE = [100, 100]  # Taille utilisée pour le redimensionnement des images
imSize = 100             # Taille utilisée pour redimensionner les images dans les pipelines

# Optimisation automatique pour le préchargement des données
AUTO = tf.data.experimental.AUTOTUNE

# Nombre d'époques (itérations sur l'ensemble d'entraînement)
EPOCHS = 20  # Peut être ajusté en fonction des performances et de la convergence

# Définir l'entrée du modèle (couche d'entrée pour TensorFlow/Keras)
input_layer = Input(shape=(imSize, imSize, 3))  # Entrée avec une image RGB (3 canaux)

## Filtrage des données avec labels valides
Pour garantir que seules les données pertinentes sont utilisées, nous filtrons les entrées pour ne conserver que les images ayant un label valide (`benign` ou `malignant`). Ce nettoyage est essentiel pour éviter les erreurs dans les étapes ultérieures.

In [None]:
# Chargement du fichier CSV contenant les métadonnées
metadata = pd.read_csv("./images/combined_metadata.csv")
if metadata.isnull().any().any():
    print("Des valeurs manquantes ont été détectées.")
    
# Ajouter les chemins complets des images
metadata['image_path'] = metadata['isic_id'].apply(lambda x: f"./images/{x}.jpg")

metadata['label'] = metadata['benign_malignant'].map({'benign': 0, 'malignant': 1})
#metadata['label'] = metadata['benign_malignant']

# Supprimer les lignes avec des valeurs manquantes
metadata = metadata.dropna(subset=['label'])

print(f"Nombre total d'images disponibles : {len(metadata)}")
print(metadata['benign_malignant'].isnull().sum())
print(metadata['benign_malignant'].unique())
print(f"Total rows in original CSV: {metadata.shape[0]}")

In [None]:
# Affiche le nombre  d'images par classe
print(metadata['label'].value_counts())

## Division des données
### Stratification et séparation
Les données sont divisées en trois ensembles :
- un ensemble d’**entraînement** (70%) pour ajuster les paramètres du modèle,
- un ensemble de **validation** (20%) pour évaluer les performances durant la phase d'entrainement,
- un ensemble de **test** (10%) pour mesurer la performance finale.

Une stratification est appliquée pour préserver la distribution des classes dans chaque ensemble, ce qui est crucial pour une classification équilibrée et pour éviter les déséquilibres susceptibles de biaiser l'entrainement du modèle.

In [None]:
# Division des ensembles en entraînement (70%), validation (20%), et test (10%)
train_metadata, temp_metadata = train_test_split(
    metadata, 
    test_size=0.3,  # 30 % seront partagés entre validation et test
    stratify=metadata['label'],  # Assurer un équilibre des classes
    random_state=42
)

val_metadata, test_metadata = train_test_split(
    temp_metadata, 
    test_size=0.33,  # 1/3 des 30 % pour test, soit ~10 % au total
    stratify=temp_metadata['label'], 
    random_state=42
)

print(f"Entraînement : {train_metadata.shape[0]} exemples")
print(f"Validation : {val_metadata.shape[0]} exemples")
print(f"Test : {test_metadata.shape[0]} exemples")

### Vérifications des datasets

Cette étape on vérifie la cohérence après la division des données :

1. **Distribution des classes** : Vérification que les proportions de classes (`benign`/`malignant`) sont respectées dans chaque ensemble.
2. **Taille totale** : Validation que la somme des échantillons des trois ensembles correspond au dataset initial.
3. **Absence de chevauchements** : Contrôle qu’aucun échantillon ne se trouve dans plusieurs ensembles, évitant les problèmes de fuite de données (`data leakage`).

Toute incohérence déclenche une erreur pour correction.

In [None]:
print("Class distribution in training set:")
print(train_metadata['label'].value_counts(normalize=True))
print("Class distribution in validation set:")
print(val_metadata['label'].value_counts(normalize=True))
print("Class distribution in test set:")
print(test_metadata['label'].value_counts(normalize=True))

total_samples = train_metadata.shape[0] + val_metadata.shape[0] + test_metadata.shape[0]
print(f"Total samples: {total_samples} (original: {metadata.shape[0]})")

# Check pour des overlaps entre les sets de données (data leakage), retourne une erreur si overlap
assert len(set(train_metadata.index) & set(val_metadata.index)) == 0, "Overlap between train and validation sets!"
assert len(set(val_metadata.index) & set(test_metadata.index)) == 0, "Overlap between validation and test sets!"

### Définition des fonctions pour charger et prétraiter les données
À cette étape, le code prépare un pipeline de traitement des images pour l'entraînement du modèle. Les images sont chargées à partir de leurs chemins, redimensionnées à une taille standard de 100x100 pixels, normalisées (valeurs entre 0 et 1), et associées à leurs étiquettes (labels). Ces transformations sont encapsulées dans une fonction `load_image_and_label`, appliquée via `tf.data.Dataset` pour créer un ensemble de données TensorFlow optimisé. Enfin, les données sont divisées en lots et préchargées pour accélérer l'entraînement.

In [None]:
# Fonction pour charger et prétraiter une image
def load_image_and_label(image_path, label):
    """
    Charge une image depuis son chemin, applique des prétraitements
    (normalisation, redimensionnement), et retourne l'image et son étiquette.
    """
    # Charger l'image depuis son chemin
    image = tf.io.read_file(image_path)
    image = tf.image.decode_jpeg(image, channels=3)  # Décode une image JPEG en RGB
    
    # Normaliser les valeurs des pixels (entre 0 et 1)
    image = tf.cast(image, tf.float32) / 255.0
    
    # Redimensionner l'image à une taille standard
    image = tf.image.resize(image, [imSize, imSize])
    
    return image, label

# Fonction pour convertir un DataFrame Pandas en dataset TensorFlow
def create_tf_dataset(metadata_df, batch_size):
    """
    Convertit un DataFrame contenant les chemins des images et les labels 
    en un dataset TensorFlow optimisé pour l'entraînement.
    """
    # Extraction des colonnes nécessaires depuis le DataFrame
    image_paths = metadata_df['image_path'].values
    labels = metadata_df['label'].values
    
    # Créer un dataset TensorFlow à partir des chemins et des étiquettes
    dataset = tf.data.Dataset.from_tensor_slices((image_paths, labels))
    
    # Appliquer la fonction de chargement et de prétraitement à chaque image du dataset
    dataset = dataset.map(load_image_and_label, num_parallel_calls=AUTO)
    
    # Diviser en lots et activer le préchargement pour optimiser les performances
    dataset = dataset.batch(batch_size).prefetch(AUTO)
    
    return dataset

#### Test d'affichage de quelques images du dataset (depuis le pipeline TensorFlow)
Cette étape permet de vérifier si les images ont été correctement redimensionnées en prenant aléatoirement 5 images.

In [None]:
# Visualiser 5 images aléatoires depuis le pipeline TensorFlow
for image, label in create_tf_dataset(metadata.sample(frac=1).reset_index(drop=True), batch_size=1).take(5):
    # Convertir le tenseur en tableau NumPy pour l'affichage
    img_resized = image[0].numpy()
    plt.imshow(img_resized)
    # Afficher le label avec le mapping 0 -> Benign, 1 -> Malignant
    plt.title(f"{'Benign' if label.numpy() == 0 else 'Malignant'}")
    plt.axis('off')  # Supprimer les axes pour une meilleure visualisation
    plt.show()

## Construction du modèle
### Chargement du modèle pré-entraîné
Nous utilisons `EfficientNetB0`, un modèle convolutionnel pré-entraîné sur ImageNet. Les couches internes, qui extraient les caractéristiques générales des images, sont gelées, tandis que la dernière couche de classification est remplacée pour s’adapter à notre tâche.

In [None]:
# Charger le modèle EfficientNetB0 préentraîné sans la couche de classification finale
with strategy.scope():
    base_model = tf.keras.Sequential([
        EfficientNetB0(
            input_shape=(imSize, imSize, 3),
            weights='imagenet',
            include_top=False
        )
    ])

# Geler les couches du modèle de base pour conserver les poids préentraînés
base_model.trainable = False

In [None]:
# Passer l'entrée à travers le modèle de base
x = base_model(input_layer, training=False)  # `input_layer` 
x = Flatten()(x)  # Aplatir les caractéristiques extraites

# Ajout de couches fully connected pour la classification
x = Dense(128, activation="relu")(x)  # Couche dense
x = Dropout(0.5)(x)  # Dropout pour régularisation
output = Dense(1, activation="sigmoid")(x)  # Sigmoid pour une classification binaire

# Définir le modèle final avec une seule entrée (image)
model = Model(inputs=input_layer, outputs=output)

### Compilation du modèle

Cette étape configure le modèle pour l’entraînement en définissant l’optimiseur, la fonction de perte et les métriques à suivre. Après la compilation, un résumé du modèle est affiché pour vérifier la structure des couches, le nombre de paramètres et la compatibilité des dimensions.

In [None]:
model.compile(
    optimizer='adam',           # Optimiseur Adam
    loss="binary_crossentropy", # Fonction de perte pour la classification binaire
    metrics=["accuracy"]        # Suivi de la précision
)
# Résumé du modèle
model.summary()

In [None]:
# Visualisation de l'architecture du modèle
plot_model(model, show_shapes=True, to_file="efficientnetb0_model.png")

### Création des datasets optimisés pour TensorFlow
Cette étape transforme les sous-ensembles (entraînement, validation et test) en pipelines optimisés pour TensorFlow à l'aide de `create_tf_dataset`. Chaque dataset contient des images prétraitées (chargées, redimensionnées, et normalisées) associées à leurs labels, regroupées en lots de taille spécifiée (`BATCH_SIZE`). Ces datasets sont utilisés directement par le modèle lors de l'entraînement ou de l'évaluation pour assurer une gestion efficace des données.

In [None]:
# Définition de la taille des batchs d'images
BATCH_SIZE = max(1, len(train_metadata) // 10)
print(f"BATCH_SIZE : {BATCH_SIZE} batches")

# Créer les datasets
training_dataset = create_tf_dataset(train_metadata, batch_size=BATCH_SIZE)
validation_dataset = create_tf_dataset(val_metadata, batch_size=BATCH_SIZE)
test_dataset = create_tf_dataset(test_metadata, batch_size=BATCH_SIZE)

print(f"Training dataset : {len(training_dataset)} batches")
print(f"Validation dataset : {len(validation_dataset)} batches")
print(f"Test dataset : {len(test_dataset)} batches")

## Entraînement du modèle
### Paramètres de l'entraînement
Les paramètres `STEPS_PER_EPOCH` et `VALIDATION_STEPS` déterminent le nombre de lots nécessaires pour parcourir une fois l'ensemble des données d'entraînement ou de validation. Ils sont calculés en divisant la taille totale des données par `BATCH_SIZE` pour garantir que le modèle traite toutes les données à chaque époque, tout en optimisant l'utilisation des ressources.

In [None]:
# Calcul des paramètres pour l'entraînement
STEPS_PER_EPOCH = len(train_metadata) // BATCH_SIZE
VALIDATION_STEPS = len(val_metadata) // BATCH_SIZE

print(f"Nombre total de lots pour l'entraînement : {STEPS_PER_EPOCH}")
print(f"Nombre total de lots pour la validation : {VALIDATION_STEPS}")

In [None]:
# à supprimer
print(f"Training samples: {len(train_metadata)}")
print(f"Validation samples: {len(val_metadata)}")
print(f"Batch size: {BATCH_SIZE}")

print(f"Total training batches: {len(list(training_dataset))}")
print(f"Total validation batches: {len(list(validation_dataset))}")

### Scheduler pour le Learning Rate
Le modèle est entraîné sur l’ensemble d’entraînement, avec un suivi sur l’ensemble de validation. Un learning rate dynamique est utilisé, évoluant selon les phases suivantes :
1. Augmentation progressive jusqu’à un seuil maximal.
2. Stabilisation au maximum pendant une durée définie.
3. Réduction exponentielle jusqu’à un seuil minimal.

Ce mécanisme permet une convergence optimale et une meilleure généralisation.

In [None]:
def learning_rate_function(epoch):
    LR_START = 0.00001 # Taux d'apprentissage initial
    LR_MAX = 0.00005 * strategy.num_replicas_in_sync # Taux d'apprentissage maximal
    LR_MIN = 0.00001 # Taux d'apprentissage minimal
    LR_RAMPUP_EPOCHS = 5 # nombre d'époques pendant lesquelles le taux d'apprentissage augmente linéairement.
    LR_SUSTAIN_EPOCHS = 0 # nombre d'époques où le taux reste maximal
    LR_EXP_DECAY = .8 # taux de décroissance exponentielle du taux d'apprentissage après les périodes de "ramp-up" et de "soutien"

    # Augmentation (pour les premières LR_RAMPUP_EPOCHS époques) : le taux d'apprentissage commence à LR_START et monte linéairement jusqu'à LR_MAX
    if epoch < LR_RAMPUP_EPOCHS: 
        lr = (LR_MAX - LR_START) / LR_RAMPUP_EPOCHS * epoch + LR_START

    # Soutien (pour les LR_SUSTAIN_EPOCHS suivantes) : le taux d'apprentissage reste constant à LR_MAX
    elif epoch < LR_RAMPUP_EPOCHS + LR_SUSTAIN_EPOCHS:
        lr = LR_MAX
    # Décroissance (pour les époques restantes) : le taux d'apprentissage diminue exponentiellement
    else:
        lr = (LR_MAX - LR_MIN) * LR_EXP_DECAY**(epoch - LR_RAMPUP_EPOCHS - LR_SUSTAIN_EPOCHS) + LR_MIN
    return lr

lr_schedule = tf.keras.callbacks.LearningRateScheduler(learning_rate_function, verbose=1)

## Enregistrement des logs avec TensorBoard et entraînement du modèle
Le modèle est entraîné tout en enregistrant les métriques dans TensorBoard pour un suivi en temps réel. On note les particularités suivantes:
- pour **TensorBoard** : Les logs sont enregistrés dans `logs/fit/model_name`, avec les histogrammes des poids activés (`histogram_freq=1`),
- pour l'**entraînement** : Le modèle utilise les ensembles d’entraînement et de validation, avec les callbacks suivants :
  - `lr_schedule` pour ajuster dynamiquement le learning rate.
  - `tensorboard_callback` pour visualiser les métriques dans TensorBoard.

In [None]:
log_dir = os.path.join("logs", "fit", "model_name")
tensorboard_callback = TensorBoard(log_dir=log_dir, histogram_freq=1)

history = model.fit(training_dataset, steps_per_epoch=STEPS_PER_EPOCH, epochs=EPOCHS,
                    validation_data=validation_dataset,callbacks=[lr_schedule,tensorboard_callback],)

## Évaluation et analyse des performances

### Affichage des courbes d'entraînement et de validation
Cette section génère et affiche les courbes d'évolution des métriques (`accuracy` et `loss`) au fil des époques pour évaluer les performances du modèle. Cela nous permet d’analyser :
- La convergence du modèle sur les données d'entraînement.
- La généralisation sur les données de validation

In [None]:
def display_training_curves(training, validation, title, subplot):
    """
    Cette fonction trace les courbes d'entraînement et de validation pour une métrique donnée (par exemple, précision, perte) au fil des époques.
    Elle configure les sous-graphiques, personnalise l'apparence et ajoute des légendes et des étiquettes pour une meilleure visualisation.

    Arguments:
        training (liste ou tableau): Les points de données d'entraînement à tracer.
        validation (liste ou tableau): Les points de données de validation à tracer.
        title (str): Le titre du graphique, généralement le nom de la métrique tracée.
        subplot (int): L'index du sous-graphe à utiliser pour le graphique actuel (1 ou 2).
    """
    if subplot == 1:  # set up the subplots on the first call
        plt.subplots(figsize=(10, 10), facecolor='#F0F0F0')
        plt.tight_layout()
    plt.subplot(2, 1, subplot)  # S'assurer d'avoir un bon placement dans la grille (2x1)
    plt.gca().set_facecolor('#F8F8F8')  # change the background color
    plt.plot(training)
    plt.plot(validation)
    plt.title('model ' + title)
    plt.ylabel(title)
    plt.xlabel('epoch')
    plt.legend(['train', 'valid.'])

In [None]:
# Plot accuracy
plt.figure(figsize=(8, 4))
plt.plot(history.history['accuracy'], label='Train Accuracy')
plt.plot(history.history['val_accuracy'], label='Validation Accuracy')
plt.title('Model Accuracy')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend(loc='lower right')
plt.grid(True)
plt.show()

# Plot loss
plt.figure(figsize=(8, 4))
plt.plot(history.history['loss'], label='Train Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Model Loss')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend(loc='upper right')
plt.grid(True)
plt.show()

## Prédiction sur de nouvelles données

Cette section utilise le modèle entraîné pour prédire la classe (`benign` ou `malignant`) d'une image donnée. L'image est prétraitée pour correspondre au format attendu par le modèle, et la classe prédite est accompagnée d'une probabilité de confiance.

In [None]:
# Fonction de prédiction
def predict_skin_cancer(file_path):
    """
    Prédire à partir des matrices Y, Cb, Cr chargées depuis un fichier.
    """
    # Charger les matrices Y, Cb, Cr à partir du fichier
    y, cb, cr = load_ycbcr_from_file(file_path)

    # Préparer l'entrée pour le modèle
    ycbcr_input = prepare_ycbcr_input(y, cb, cr)


    # Prédiction
    prediction = model.predict(ycbcr_input)

    # Interprétation
    if prediction[0] > 0.5:
        return f"Maligne (probabilité {prediction[0][0]:.2f})"
    else:
        return f"Bénigne (probabilité {1 - prediction[0][0]:.2f})"

# Exemple d'utilisation
file_path = "./DataBase/Matrices/ISIC_0001120_matrices.txt"
result = predict_skin_cancer(file_path)
print(result)