# Livrable 2 : Auto-Encodeur

#### Date : 18/10/2023

#### Auteurs :
- Colin Hamerel
- Louis Brasseur
- Sofian Benazouzi
- Kevin Friedrich

## Sommaire : 

1. Auto-encodeur
    * Définition & cas d'utilisation
    * Attentes du projet
1. Application dans notre cas
    * Description du processus & Mise en application
    * Maintenance
1. Résultats 
1. Conclusion

## Auto-encodeur
#### Définition & cas d’utilisation
Un auto-encodeur est un type de réseau de neurones artificiels utilisé en apprentissage automatique et en intelligence artificielle. Il fait partie de la famille des réseaux de neurones dits "non supervisés" car il n'a pas besoin d'étiquettes de sortie pour apprendre à partir des données. Son objectif principal est de compresser et de représenter efficacement les données en entrée, puis de les reconstruire avec une précision aussi proche que possible de l'original. Les auto-encodeurs sont composés de deux parties principales : l'encodeur et le décodeur. 
Un auto-encodeur est un outil puissant pour la compression des données et peut être utilisé pour débruiter des données en apprenant à représenter les données d'origine de manière compacte et en utilisant cette représentation pour restaurer les données bruitées. C'est un exemple d'application utile de l'apprentissage non supervisé en intelligence artificielle.

#### Attentes du projet
L’objectif de ce livrable est d’ajouter une étape de nettoyage supplémentaire des données, en effet durant le passage en pipeline certaines de nos images seront probablement bruitées et donc détériorées. 
On va utiliser nos images propres et les bruiter pour entrainer notre auto-encodeur au débruitage.
Comme expliqué précédemment l’application de ce livrable se composera de plusieurs parties : Données d’entrée, Encodeur, Espace latent, Décodeur et finalement Données de sortie.

![dae.png](attachment:dae.png)

## Application dans notre cas

### Pré-traitrement pour bon fonctionnement du notebook (important)

Afin de bien faire fonctionner le notebook il est impératif de respecter les choses suivantes : 

- Nommage des dossiers sources et des dossiers modèles/scripts : 
Il est impératif de modifier au pré-alable le contenu du fichier .env afin de faire pointer les bonnes variables de paths au bon endroits

- Création des dossiers de poids afin de garantir la sauvegarde des poids (étape après l'entrainement) il faut impérativement créer le dossier avant de sauvegarder le fichier

#### Descrpition du processus & mise en application

Dans notre cas, un dataset de données "noisy" nous a été fourni et comme énoncé précédement, nous devons donc augmenter la qualité de l'image.

Nous allons dans un premier temps charger nos librairies et déclarer nos variables : 

In [None]:
%load_ext autoreload
%autoreload 2

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.utils import image_dataset_from_directory
import numpy as np
import sys
import matplotlib.pyplot as plt
from tensorflow import keras
from keras_cv.layers import RandomGaussianBlur
from random import randint, seed

tf.keras.backend.clear_session()

# Configurations principales de nos modèles
IMG_SIZE          = 224             # taille coté final d'une image en pixel (ici 224x224)
NB_EPOCHS_DENOISE = 40               # nombre epoch alogithme debruiter
BATCH_SIZE        = 8            # taille batch de traitement
SAVE_MODEL_DENOISE = "denoiser.h5"     # sauvegarde du modele de debruitage

def process(image):
    image = tf.cast(image/255. ,tf.float32)
    return image

# Import du .env
import dotenv
import os

# Chargement du .env !!!!!!!!!!!! CHANGER LE PATH !!!!!!!!!!!!!!
# Renvoie true si le .env est chargé
dotenv.load_dotenv('/tf/science-de-la-donnee/.env.local')

# Import des variables d'environnement
models_path = os.environ.get('MODELS_PATH_LIVRABLE2')
script_path = os.environ.get('SCRIPT_PATH_LIVRABLE2')
WEIGHT_PATH_LIVRABLE2 = os.environ.get('WEIGHT_PATH_LIVRABLE2')
SOURCE_LIVRABLE2_PATH = os.getenv("SOURCE_LIVRABLE2_PATH")

# Ajout des paths au sys.path
sys.path.insert(0, models_path)
sys.path.insert(0, script_path)

# Import des modèles
import homemade
import test2
import internet3

# Import des scripts
import processImage
import displayImage

On sépare notre jeu de données en 2 jeux différents

In [None]:
# Définition du train et test set
x_train, x_test = image_dataset_from_directory(
    SOURCE_LIVRABLE2_PATH,
    image_size=(IMG_SIZE, IMG_SIZE),
    batch_size=BATCH_SIZE,
    label_mode="categorical",
    # label_mode=None,
    shuffle=False,
    validation_split=0.2,
    subset="both",
    seed=123,
    color_mode="rgb"
)

AUTOTUNE = tf.data.experimental.AUTOTUNE

# On map les images pour les normaliser
x_train = x_train.map(lambda x,y: (x/255,y))
x_test = x_test.map(lambda x,y: (x/255,y))

On redéfini ainsi 2 autres jeux de données qui vont être nos images, cette fois ci ce seront les images qui seront "bruitées"

In [None]:
x_train_noisy = x_train.map(lambda x,y: (processImage.add_noise(x, 35, 1.5)))
x_test_noisy = x_test.map(lambda x,y: (processImage.add_noise(x, 35, 1.5)))

On peut ensuite visualiser l'image "originelle" ainsi que l'image **bruitée**

In [None]:
displayImage.display_images(list(x_train_noisy.take(1).as_numpy_iterator())[0][0], n=1)
displayImage.display_images(list(x_train.take(1).as_numpy_iterator())[0][0], n=1)

Attaquons à présent l'autoencoder en lui même

Nous allons ici choisir le type d'autoencoder pour la suite du processus

In [None]:
MODEL_CHOSEN = "test2"

def load_model(model_choosen):
    match(model_choosen):
        case 'homemade':
            model = homemade.build(IMG_SIZE)
        case 'test2':
            model = test2.build(IMG_SIZE)
        case 'internet3':
            model = internet3.build(IMG_SIZE)
    return model
autoencoder = load_model(MODEL_CHOSEN)
autoencoder.summary()

Ensuite on entraine notre modèle d'autoencodeur

In [None]:
history = autoencoder.fit(
    x_train_noisy,
    epochs=5 ,
    shuffle=True,
    validation_data=x_test_noisy
)

On enregistre les poids de notre modèle

In [None]:
model_weight_path = WEIGHT_PATH_LIVRABLE2 + 'resnet/weights.h5' 
print(model_weight_path)

autoencoder.save_weights(model_weight_path)

On peut aussi charger des poids même si cette étape est facultative

In [None]:
autoencoder.load_weights(WEIGHT_PATH_LIVRABLE2 + 'internet/weights.h5')

On fait ensuite les prédictions sur notre jeu de test à partir de notre modèle

In [None]:
pred = autoencoder.predict(x_test_noisy) 

On affiche ensuite notre image bruitée et celle débruitée grâce à notre modèle.

In [None]:
displayImage.display_images(list(x_test_noisy.take(1).as_numpy_iterator())[0][0][3:], n=1)
displayImage.display_images(pred[3:], n=1)

displayImage.display_images(list(x_test_noisy.take(1).as_numpy_iterator())[0][0][4:], n=1)
displayImage.display_images(pred[4:], n=1)

displayImage.display_images(list(x_test_noisy.take(1).as_numpy_iterator())[0][0][5:], n=1)
displayImage.display_images(pred[5:], n=1)

displayImage.display_images(list(x_test_noisy.take(1).as_numpy_iterator())[0][0][3:], n=3)
displayImage.display_images(pred[3:], n=3)

#### Maintenance

Afin de bien maintenir ce notebook et permettre une maintenance facile ainsi qu'une manipulation simple nous avons décidé d'avoir un système de "séléction" du modèle avant de procéder au traîtement, cela nous a permis de lancer et comparer tous nos modèles sans besoin de modifications lourdes. En plus de cela l'organisation actuelle est assez proche d'une partie de la pipeline que nous devrons fournir pour la fin du projet, on pourra ainsi fusioner nos étapes en regroupant à l'initialisation le choix des modèles et autres paramètres initiaux.

## Résultats

#### Modèle homemade

Nous avons dans un premier temps pris un modèle que nous avons fait nous même à partir du workshop sur l'autoencodeur. Pour ce faire, nous avons donc exécuté la pipeline et voici les résultas obtenus avec un bruitage de 35 et un floutage de 1.5 :

Image bruitée / Image débruitée :

![homemade_noised.png](attachment:homemade_noised.png) ![homemade_denoised.png](attachment:homemade_denoised.png)

Image bruitée / Image débruitée :

![homemade_noised-multi.png](attachment:homemade_noised-multi.png)

![homemade_denoised-multi.png](attachment:homemade_denoised-multi.png)

#### Modèle internet

Nous avons dans un second temps pris un modèle que nous avons trouvé sur : https://paperswithcode.com/ nous avons donc exécuté la pipeline et voici les résultas obtenus avec un bruitage de 35 et un floutage de 1.5 :

Image bruitée / Image débruitée :

![internet_noised.png](attachment:internet_noised.png) ![internet_denoised.png](attachment:internet_denoised.png)

Image bruitée / Image débruitée :

![internet_noised-multi.png](attachment:internet_noised-multi.png)

![internet_denoised-multi.png](attachment:internet_denoised-multi.png)

#### Modèle internet V2

Nous avons ensuite pris un modèle que nous avons trouvé sur : https://learnopencv.com/autoencoder-in-tensorflow-2-beginners-guide/ nous avons donc exécuté la pipeline et voici les résultas obtenus avec un bruitage de 35 et un floutage de 1.5 :

Image bruitée / Image débruitée :

![internet3_noised.png](attachment:internet3_noised.png)  ![internet3_desoined.png](attachment:internet3_desoined.png)

Image bruitée / Image débruitée :

![internet3_noised-multi.png](attachment:internet3_noised-multi.png)

![internet3_denoised-multi.png](attachment:internet3_denoised-multi.png)

### Comparaison

Afin de choisir un très bon modèle nous allons comparer ceux que l'on a séléctionné grâce à leur accuracy et à leur loss, on pourra ensuite visualiser nos différents résultats à l'aide d'un graphique.

Mais avant ça, on peut voir que le modèle "internet" à de très bon résultats visuellement parlant comparés aux autres modèles. Ce modèle est très bon dans le "dé-floutage" et le débruitage.

Voici donc un graphique représentant les résultats obetnus en ayant fait tourner chaque modèles à 5 epochs, en premier lieu sur la loss fonction : 

![LOssFunction.PNG](attachment:LOssFunction.PNG)

Et ensuite sur l'accuracy du modèle : 

![Accuracy.PNG](attachment:Accuracy.PNG)

Et on peut généraliser avec la moyennes des valeurs, voici donc les résultats :

![Total.PNG](attachment:Total.PNG)

On peut donc appercevoir que le mpdèle (Internet) se dégage par rapport aux autres modèles tant par son accuracy que sa loss.

Accuracy : 0.7565

Loss : 0.0037

## Conclusion

Pour conclure, après avoir recherché, testé et enfin comparé les modèles pouvant correspondre à notre problème de denoising d'images, nous avons pu analyser les résultats dans le texte précédent.  

Cette étape de denoising et de défloutage nous permettra d'améliorer significativement les résultats futurs d'étiquetage, en effet sans cette étape de nettoyage le modèle obtiendrait de moins bons résultats pour l'étiquetage final.  

En contrepartie on perd évidemment une partie de l'information et de la précision sur la totalité de nos données mais c'est peu impactant sur le résultat final.  

Le meilleur modèle est donc celui qui a été trouvé sur internet et que nous avons peaufiné afin de pouvoir bien débruitée un grand nombres d'images floutées et bruitées