# Notebook 3 : Modélisation

Ce notebook a pour objectif de développer et comparer différents modèles de segmentation d'images pour identifier les objets présents dans des scènes de rue. Nous utiliserons le dataset Cityscapes, qui contient des images de haute qualité avec des annotations précises pour différents objets (voitures, piétons, bâtiments, etc.).
Nous avons précédemment explorer les données (notebook 1), puis effectuer un prétraitement (notebook 2).


## Objectifs

* Implémenter et comparer différents modèles de segmentation d'images (UNet, SegNet, etc.)
* Tester différentes fonctions de perte :
  - Entropie croisée (categorical cross-entropy)
  - Dice loss
  - Compromis entre les deux loss
* Évaluer les performances des modèles avec différentes métriques
    - Dice coefficient
    - Intersection over Union (IoU)
* Expérimenter avec l'augmentation de données pour améliorer la robustesse des modèles
* Utiliser MLflow pour le suivi des expériences et la comparaison des résultats

## Données

Le dataset Cityscapes est utilisé pour ce projet. Il contient des images de scènes de rue avec des annotations pour 8 classes d'objets :
- route (flat)
- humain (human)
- véhicule (vehicle)
- bâtiment (construction)
- objets (object)
- nature (nature)
- ciel (sky)
- vide (void)
  
## Librairies

* TensorFlow et Keras pour la construction et l'entraînement des modèles
* MLflow pour le suivi des expériences
* OpenCV pour le traitement des images
* NumPy pour les opérations numériques
* Matplotlib pour la visualisation des résultats

## Partie 1 : Configuration de l'environnement et des paramètres

In [1]:
import os
import glob

import cv2
import numpy as np
import matplotlib.pyplot as plt

import tensorflow as tf
from tensorflow import keras

from sklearn.model_selection import train_test_split

import mlflow
import mlflow.tensorflow


# Configuration des chemins
DATA_DIR = "../data/processed"
TRAIN_DIR = os.path.join(DATA_DIR, "train")
VAL_DIR = os.path.join(DATA_DIR, "val")
TEST_DIR = os.path.join(DATA_DIR, "test")

# Paramètres d'entraînement
NUM_CLASSES = 8
BATCH_SIZE = 4
EPOCHS = 3

## Tailles des images redimensionnées (identique au notebook 2)
IMG_HEIGHT = 128
IMG_WIDTH = 256

# Configuration de MLflow
mlflow.set_tracking_uri("file:./mlruns")
mlflow.set_experiment("segmentation_images_cityscapes")

2025-03-02 17:08:13.968666: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2025-03-02 17:08:13.972622: I external/local_xla/xla/tsl/cuda/cudart_stub.cc:32] Could not find cuda drivers on your machine, GPU will not be used.
2025-03-02 17:08:13.984788: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1740931694.005103   31084 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1740931694.011115   31084 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2025-03-02 17:08:14.033045: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU ins

<Experiment: artifact_location='file:///home/mehdi/Documents/OC/OC8/notebooks/mlruns/846683678405741605', creation_time=1740849750954, experiment_id='846683678405741605', last_update_time=1740849750954, lifecycle_stage='active', name='segmentation_images_cityscapes', tags={}>

## Partie 2 : Chargement et préparation des données

In [2]:
# Chargement et préparation des données

SAMPLE_SIZE = 50  # Nombre d'échantillons à utiliser pour l'entraînement et la validation

def load_data(data_dir):
    images = sorted(glob.glob(os.path.join(data_dir, "*", "*_image.png")))
    masks = sorted(glob.glob(os.path.join(data_dir, "*", "*_mask.png")))
    return images, masks


    
## chargement des données preprocésées
train_images, train_masks = load_data(TRAIN_DIR)
val_images, val_masks = load_data(VAL_DIR)
test_images, test_masks = load_data(TEST_DIR)

## on ne garde qu'un échantillon limité à SAMLE_SIZE maximum pour les données
train_images = train_images[:SAMPLE_SIZE]
train_masks = train_masks[:SAMPLE_SIZE]
val_images = val_images[:SAMPLE_SIZE]
val_masks = val_masks[:SAMPLE_SIZE]

def data_generator(images, masks, batch_size, num_classes):
    """
    Transforme un générateur de données (images et masques) en un tf.data.Dataset.
    """

    def generator():
        """Générateur pour le tf.data.Dataset."""
        for i in range(0, len(images)):
            # Chargement de l'image
            image = cv2.imread(images[i])
            image = image / 255.0

            # Chargement du masque en grayscale
            mask = cv2.imread(masks[i], cv2.IMREAD_GRAYSCALE)
            mask = keras.utils.to_categorical(mask, num_classes=num_classes)

            yield image, mask

    # Définir les types de données de sortie
    output_types = (tf.float32, tf.float32)

    # Définir les formes des données de sortie (None pour les dimensions variables)
    # Ici, on suppose que toutes les images ont la même taille
    # Si les images ont des tailles variables, il faudra adapter cette partie
    image_shape = cv2.imread(images[0]).shape
    mask_shape = (image_shape[0], image_shape[1], num_classes)

    output_shapes = (tf.TensorShape(image_shape), tf.TensorShape(mask_shape))

    # Créer le tf.data.Dataset à partir du générateur
    dataset = tf.data.Dataset.from_generator(
        generator,
        output_types=output_types,
        output_shapes=output_shapes
    )

    # Batching
    dataset = dataset.batch(batch_size)

    return dataset



## Partie 3 : Définition des modèles

In [3]:
def build_unet(img_height, img_width, num_classes):
    """
    Définition du modèle UNET spécifique à la segmentation d'images.
    U-Net : https://fr.wikipedia.org/wiki/U-Net
    """

    ## Entrée
    inputs = keras.layers.Input(shape=(img_height, img_width, 3))

    ## Bloc 1
    conv1 = keras.layers.Conv2D(64, (3, 3), activation='relu', padding='same')(inputs)
    pool1 = keras.layers.MaxPooling2D((2, 2))(conv1)

    ## Bloc 2
    conv2 = keras.layers.Conv2D(128, (3, 3), activation='relu', padding='same')(pool1)
    pool2 = keras.layers.MaxPooling2D((2, 2))(conv2)

    ## Bloc 3
    conv3 = keras.layers.Conv2D(256, (3, 3), activation='relu', padding='same')(pool2)

    ## Bloc 4
    up4 = keras.layers.UpSampling2D((2, 2))(conv3)
    merge4 = keras.layers.concatenate([conv2, up4], axis=-1)
    conv4 = keras.layers.Conv2D(128, (3, 3), activation='relu', padding='same')(merge4)

    ## Bloc 5
    up5 = keras.layers.UpSampling2D((2, 2))(conv4)
    merge5 = keras.layers.concatenate([conv1, up5], axis=-1)
    conv5 = keras.layers.Conv2D(64, (3, 3), activation='relu', padding='same')(merge5)

    ## Couche de sortie
    outputs = keras.layers.Conv2D(num_classes, (1, 1), activation='softmax')(conv5)
    model = keras.models.Model(inputs=inputs, outputs=outputs)
    return model


def build_unet_mini(img_height, img_width, num_classes):
    inputs = keras.layers.Input(shape=(img_height, img_width, 3))
    
    # Downsampling
    conv1 = keras.layers.Conv2D(16, (3, 3), activation='relu', padding='same')(inputs)
    pool1 = keras.layers.MaxPooling2D((2, 2))(conv1)
    
    conv2 = keras.layers.Conv2D(32, (3, 3), activation='relu', padding='same')(pool1)
    pool2 = keras.layers.MaxPooling2D((2, 2))(conv2)
    
    # Bottleneck
    conv3 = keras.layers.Conv2D(64, (3, 3), activation='relu', padding='same')(pool2)
    
    # Upsampling
    up4 = keras.layers.UpSampling2D((2, 2))(conv3)
    merge4 = keras.layers.concatenate([conv2, up4], axis=-1)
    conv4 = keras.layers.Conv2D(32, (3, 3), activation='relu', padding='same')(merge4)
    
    up5 = keras.layers.UpSampling2D((2, 2))(conv4)
    merge5 = keras.layers.concatenate([conv1, up5], axis=-1)
    conv5 = keras.layers.Conv2D(16, (3, 3), activation='relu', padding='same')(merge5)
    
    # Output
    outputs = keras.layers.Conv2D(num_classes, (1, 1), activation='softmax')(conv5)
    
    model = keras.models.Model(inputs=inputs, outputs=outputs)
    return model


def build_vgg16_unet(img_height, img_width, num_classes):
    vgg16 = keras.applications.VGG16(input_shape=(img_height, img_width, 3), include_top=False, weights='imagenet')
    
    # Encoder (VGG16)
    vgg16_output = vgg16.output
    
    # Decoder (UNet-like)
    up1 = keras.layers.Conv2DTranspose(256, (3, 3), strides=(2, 2), padding='same')(vgg16_output)
    merge1 = keras.layers.concatenate([vgg16.get_layer('block5_conv3').output, up1], axis=-1)
    conv1 = keras.layers.Conv2D(256, (3, 3), activation='relu', padding='same')(merge1)
    
    up2 = keras.layers.Conv2DTranspose(128, (3, 3), strides=(2, 2), padding='same')(conv1)
    merge2 = keras.layers.concatenate([vgg16.get_layer('block4_conv3').output, up2], axis=-1)
    conv2 = keras.layers.Conv2D(128, (3, 3), activation='relu', padding='same')(merge2)
    
    up3 = keras.layers.Conv2DTranspose(64, (3, 3), strides=(2, 2), padding='same')(conv2)
    merge3 = keras.layers.concatenate([vgg16.get_layer('block3_conv3').output, up3], axis=-1)
    conv3 = keras.layers.Conv2D(64, (3, 3), activation='relu', padding='same')(merge3)
    
    # Output
    outputs = keras.layers.Conv2D(num_classes, (1, 1), activation='softmax')(conv3)
    
    model = keras.models.Model(inputs=vgg16.input, outputs=outputs)
    return model

## Partie 4 : Définition des fonctions de perte et des métriques

In [4]:

## (1) Métriques

def dice_coefficient(y_true, y_pred, smooth=1e-6):
    """
    Métrique proche du F1-score
    """
    y_true_f = keras.backend.flatten(tf.cast(y_true, tf.float32)) # Conversion de y_true en float32
    y_pred_f = keras.backend.flatten(y_pred)
    intersection = keras.backend.sum(y_true_f * y_pred_f)
    return (2. * intersection + smooth) / (keras.backend.sum(y_true_f) + keras.backend.sum(y_pred_f) + smooth)

def iou_metric(y_true, y_pred, smooth=1e-6):
    y_true_f = keras.backend.flatten(tf.cast(y_true, tf.float32)) # Conversion de y_true en float32
    y_pred_f = keras.backend.flatten(y_pred)
    intersection = keras.backend.sum(y_true_f * y_pred_f)
    union = keras.backend.sum(y_true_f) + keras.backend.sum(y_pred_f) - intersection
    return (intersection + smooth) / (union + smooth)


## (2) Fonctions de perte

def dice_loss(y_true, y_pred):
    return 1 - dice_coefficient(y_true, y_pred)

### les autres fonctions de perte seront définis à même le modèle 


## Partie 5 : Augmentation des données (Data Augmentation)

On génère des données "augmentées", à savoir en faisant des modifications légères (retournement, rotation, zoom...)

In [5]:
data_augmentation = keras.Sequential([
    keras.layers.RandomFlip("horizontal"),
    keras.layers.RandomRotation(0.1),
    keras.layers.RandomZoom(0.1)
])

def augmented_data_generator(images, masks, batch_size, img_height, img_width, num_classes):
    for batch_images, batch_masks in data_generator(images, masks, batch_size, img_height, img_width, num_classes):
        augmented_images = data_augmentation(batch_images)
        yield augmented_images, batch_masks




2025-03-02 17:08:18.960625: E external/local_xla/xla/stream_executor/cuda/cuda_driver.cc:152] failed call to cuInit: INTERNAL: CUDA error: Failed call to cuInit: UNKNOWN ERROR (303)


## Partie 6 : Entraînement des modèles

### Configuration des modèles

In [6]:
models = {
    "UNet_base": build_unet(IMG_HEIGHT, IMG_WIDTH, NUM_CLASSES),
    "UNet_mini": build_unet_mini(IMG_HEIGHT, IMG_WIDTH, NUM_CLASSES),
    "VGG16_UNet": build_vgg16_unet(IMG_HEIGHT, IMG_WIDTH, NUM_CLASSES),
    #"MobileNetV2_pretrained": keras.applications.MobileNetV2(input_shape=(IMG_HEIGHT, IMG_WIDTH, 3), include_top=False, weights='imagenet')
}


### Configuration des loss (fonctions de perte)

In [7]:

losses = {
    "categorical_crossentropy": keras.losses.CategoricalCrossentropy(),
    "dice_loss": dice_loss,
    "mixed_loss": lambda y_true, y_pred: 0.5 * keras.losses.CategoricalCrossentropy()(y_true, y_pred) + 0.5 * dice_loss(y_true, y_pred)
}

### Entraînement des modèles

- Sans data augmentation

- Avec data augmentation

In [None]:
import math


# Calculer steps_per_epoch
steps_per_epoch = math.ceil(len(train_images) / BATCH_SIZE)

# Calculer validation_steps
validation_steps = math.ceil(len(val_images) / BATCH_SIZE)


## On itère sur les modèles
for model_name, model in models.items():
    ## On itère (2e boucle) sur les loss
    for loss_name, loss in losses.items():
        ## on sauve les résultats dans MFlow (model + loss)
        with mlflow.start_run(run_name=f"{model_name}_{loss_name}"):

            
            ## génération des données d'entraînement
            train_generator = data_generator(train_images,
                                 train_masks,
                                 BATCH_SIZE,
                                 NUM_CLASSES)

            ## génération des données de validation
            val_generator = data_generator(val_images,
                               val_masks,
                               BATCH_SIZE,
                               NUM_CLASSES)

            ## fine-tuning du modèle préentraîné 
            if "pretrained" in model_name:
                x = model.output
                
                ## ajout d'un décodeur pour la segmentation
                x = keras.layers.Conv2DTranspose(256, 3, strides=2, padding='same')(x)
                x = keras.layers.Conv2DTranspose(128, 3, strides=2, padding='same')(x)
                outputs = keras.layers.Conv2D(NUM_CLASSES, 1, activation='softmax')(x)
                model = keras.Model(inputs=model.input, outputs=outputs)
            model.compile(optimizer='adam', loss=loss, metrics=[iou_metric])
            mlflow.tensorflow.autolog()

            print(f"fitting {model_name}_{loss_name}")
            model.fit(train_generator,
                      validation_data=val_generator,
                      epochs=EPOCHS,
                     steps_per_epoch=steps_per_epoch,
                     validation_steps = validation_steps)

# Entraînement avec augmentation de données
for model_name, model in models.items():
    for loss_name, loss in losses.items():
        with mlflow.start_run(run_name=f"{model_name}_{loss_name}_augmented"):

            ## génération des données d'entraînement augmentées
            augmented_train_generator = augmented_data_generator(train_images,
                                                     train_masks,
                                                     BATCH_SIZE,
                                                     IMG_HEIGHT,
                                                     IMG_WIDTH,
                                                     NUM_CLASSES)
            ## génération des données de validation
            val_generator = data_generator(val_images,
                               val_masks,
                               BATCH_SIZE,
                               NUM_CLASSES)

            
            if "pretrained" in model_name:
                
                ## ajout d'un décodeur pour la segmentation
                x = model.output
                x = keras.layers.Conv2DTranspose(256, 3, strides=2, padding='same')(x)
                x = keras.layers.Conv2DTranspose(128, 3, strides=2, padding='same')(x)
                outputs = keras.layers.Conv2D(NUM_CLASSES, 1, activation='softmax')(x)
                model = keras.Model(inputs=model.input, outputs=outputs)
            model.compile(optimizer='adam', loss=loss, metrics=[iou_metric])
            mlflow.tensorflow.autolog()

            print(f"fitting {model_name}_{loss_name}_augmented")
            model.fit(augmented_train_generator,
                      validation_data=val_generator,
                      epochs=EPOCHS,
                     steps_per_epoch=steps_per_epoch,
                     validation_steps = validation_steps)



fitting UNet_base_categorical_crossentropy


2025-03-02 17:08:20.371201: I tensorflow/core/framework/local_rendezvous.cc:405] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence
2025-03-02 17:08:20.693094: I tensorflow/core/framework/local_rendezvous.cc:405] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence


Epoch 1/3


2025-03-02 17:08:24.675873: W external/local_xla/xla/tsl/framework/cpu_allocator_impl.cc:83] Allocation of 226492416 exceeds 10% of free system memory.
2025-03-02 17:08:24.677830: W external/local_xla/xla/tsl/framework/cpu_allocator_impl.cc:83] Allocation of 226492416 exceeds 10% of free system memory.


      1/Unknown [1m7s[0m 7s/step - iou_metric: 0.0669 - loss: 2.0767

2025-03-02 17:08:28.461496: W external/local_xla/xla/tsl/framework/cpu_allocator_impl.cc:83] Allocation of 226492416 exceeds 10% of free system memory.
2025-03-02 17:08:28.463489: W external/local_xla/xla/tsl/framework/cpu_allocator_impl.cc:83] Allocation of 226492416 exceeds 10% of free system memory.


      2/Unknown [1m10s[0m 3s/step - iou_metric: 0.0689 - loss: 2.0521

2025-03-02 17:08:32.074827: W external/local_xla/xla/tsl/framework/cpu_allocator_impl.cc:83] Allocation of 226492416 exceeds 10% of free system memory.


     13/Unknown [1m42s[0m 3s/step - iou_metric: 0.0980 - loss: 1.9046

2025-03-02 17:09:16.493263: I tensorflow/core/framework/local_rendezvous.cc:405] Local rendezvous is aborting with status: OUT_OF_RANGE: End of sequence
	 [[{{node IteratorGetNext}}]]


[1m13/13[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m56s[0m 4s/step - iou_metric: 0.0984 - loss: 1.8997 - val_iou_metric: 0.1425 - val_loss: 1.7680
Epoch 2/3
[1m13/13[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3s/step - iou_metric: 0.1402 - loss: 1.6457   



[1m13/13[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m78s[0m 4s/step - iou_metric: 0.1398 - loss: 1.6456 - val_iou_metric: 0.1613 - val_loss: 1.6024
Epoch 3/3


## Partie 7 : Évaluation des modèles

In [None]:
# Évaluation des modèles entraînés
for model_name, model in models.items():
    for loss_name, loss in losses.items():


        ## génération des données de test
        test_generator = data_generator(test_images,test_masks,
                                                     BATCH_SIZE,
                                                     IMG_HEIGHT,
                                                     IMG_WIDTH,
                                                     NUM_CLASSES)
        # Chargement du modèle entraîné
        model_path = f"mlruns/0/{mlflow.search_runs(filter_string=f'tags.mlflow.runName = \'{model_name}_{loss_name}\'').iloc[0].run_id}/artifacts/model/data/model.keras"
        loaded_model = keras.models.load_model(model_path, custom_objects={'iou_metric': iou_metric, 'dice_loss': dice_loss})

        # Évaluation du modèle sur l'ensemble de test
        loss, iou = loaded_model.evaluate(test_generator)
        print(f"Modèle {model_name} avec perte {loss_name} : Loss = {loss}, IoU = {iou}")

# Évaluation des modèles entraînés avec augmentation de données
for model_name, model in models.items():
    for loss_name, loss in losses.items():

        ## génération des données de test
        test_generator = data_generator(test_images,test_masks,
                                                     BATCH_SIZE,
                                                     IMG_HEIGHT,
                                                     IMG_WIDTH,
                                                     NUM_CLASSES)
        
        # Chargement du modèle entraîné
        model_path = f"mlruns/0/{mlflow.search_runs(filter_string=f'tags.mlflow.runName = \'{model_name}_{loss_name}_augmented\'').iloc[0].run_id}/artifacts/model/data/model.keras"
        loaded_model = keras.models.load_model(model_path, custom_objects={'iou_metric': iou_metric, 'dice_loss': dice_loss})

        # Évaluation du modèle sur l'ensemble de test
        loss, iou = loaded_model.evaluate(test_generator)
        print(f"Modèle {model_name} avec perte {loss_name} et augmentation : Loss = {loss}, IoU = {iou}")


## Conclusion

Ce notebook a exploré différentes approches pour la segmentation d'images de scènes de rue. Les résultats montrent que l'augmentation de données peut améliorer les performances des modèles. 

### Améliorations possibles

* Tester d'autres modèles de segmentation, tels que SegNet ou DeepLabv3.
* Expérimenter avec différentes fonctions de perte et métriques.
* Utiliser des techniques d'augmentation de données plus avancées.
* Optimiser les hyperparamètres des modèles.