# Projet encadré : les auto-encodeurs

## Introduction

Les auto-encodeurs sont une famille de réseaux de neurones particuliers qui ont pour premier objectif de réduire la dimension de l'espace des données qui nous intéressent. Il se décomposent en deux parties :

*   Un encodeur qui doit apprendre la représantation des données d'entrée qui permet de passer de la dimension initiale à la dimension réduite.
*   Un décodeur qui doit reproduire l'entrée le plus fidèlement possible à partir de la représentation que donne l'encodeur.

On retrouve donc un structure caractéristique en "goulot d'étranglement" où les couches aux extrémités sont de la même dimension que la taille des données à caractériser et où la couche centrale est de la dimension de reduction souhaitée qui contiendra la représentation des entrées.

![](https://www.researchgate.net/publication/318204554/figure/fig1/AS:512595149770752@1499223615487/Autoencoder-architecture.png)

Pour entrainer ce réseau, on va seulement utilisée les données d'entrées : pas besoin donc de labéliser les données, on laisse la descente de gradient faire tout le travail : il s'agit d'un apprentissage non-supervisé.

## Prérequis

Sauf si vous utilisez Colab, il faudra importer les bibliothèques `numpy`, `tensorflow`, `keras` et `scikit-learn`

# Première application : génération de nouvelles images

Dans un premier temps on va essayer de générer des 5 à partir des données du MNIST. On va donc apprendre à notre réseau la représentation d'un 5 puis utiliser le décodeur pour fabriquer de nouveaux 5.

## Création du réseau

On va utiliser ce réseau sur le dataset MNIST (60000 chiffres en nuances de gris en 28x28). On règle la taille de l'espace latent (couche du milieu) avec la variable `latent_space_size` : plus la taille de cette couche est grande moins la réduction sera grande mais meuilleur sera la restitution de l'image par le décodeur.

On créer d'abord l'auto-encodeur (encodeur + décodeur).

In [0]:
from keras.models import Sequential
from keras.layers import Dense


# La dimension de l'image une fois compressée
latent_space_size = 10

# On définit les 2 couches de notre réseau (en plus de la couche d'entrée)
encoder_layer = Dense(latent_space_size, activation='relu', input_dim=784)
decoder_layer = Dense(784, activation='sigmoid', input_dim=latent_space_size)

# On crée notre autoencoder
autoencoder = Sequential()
autoencoder.add(encoder_layer)
autoencoder.add(decoder_layer)



On créé ensuite l'encodeur et le décodeur a partir des couches de l'auto-encodeur que l'on à définit précédément.

In [0]:
# L'encoder est composé seulement des 2 premieres couches
encoder = Sequential()
encoder.add(encoder_layer)

# Le decoder est composé seulement des 2 dernières couches
decoder = Sequential()
decoder.add(decoder_layer)

On va maintenant charger le dataset MNIST et seulement récuperer les 5. On normalise aussi les données : les nuances de gris des images du MNIST sont codées de 0 à 255 (0 pour le noir et 255 pour le blanc) que l'on va ramener sur l'intervalle [0;1]. Les réseaux de neurones "classiques" prennent en entrée des vecteurs, on va également convertir les images de 28x28 en vecteurs de taille 784.

In [0]:
from keras.datasets import mnist

import numpy as np


# Le chiffre qu'on va utiliser pour l'entrainement de l'autoencoder
digit = 7

# On charge le dataset
(complete_train_x, complete_train_y), (complete_test_x, complete_test_y) = mnist.load_data()


# On récupere seulement les chiffres qui nous interessent
digit_train_matrices = []
digit_test_matrices = []

for k in range(complete_train_y.shape[0]):
    if complete_train_y[k] == digit:
        digit_train_matrices.append(complete_train_x[k])

for k in range(complete_test_y.shape[0]):
    if complete_test_y[k] == digit:
        digit_test_matrices.append(complete_test_x[k])

restricted_train = np.zeros((len(digit_train_matrices), complete_train_x.shape[1], complete_train_x.shape[2]), dtype=float)
restricted_test = np.zeros((len(digit_test_matrices), complete_test_x.shape[1], complete_test_x.shape[2]), dtype=float)

# On normalise les données (les valeurs vont de 0 à 255, on les ramènes entre 0 et 1)
for k in range(len(digit_train_matrices)):
    restricted_train[k, :, :] = digit_train_matrices[k] / 255.0

for k in range(len(digit_test_matrices)):
    restricted_test[k, :, :] = digit_test_matrices[k] / 255.0

# On change la dimension des images pour avoir un vecteur : 28*28 => 784
restricted_train = restricted_train.reshape((restricted_train.shape[0], restricted_train.shape[1] * restricted_train.shape[2]))
restricted_test = restricted_test.reshape((restricted_test.shape[0], restricted_test.shape[1] * restricted_test.shape[2]))
    
print("Dimension des données d'entrainement:", restricted_train.shape)
print("Dimension des données de test:", restricted_test.shape)

On donc 5421 images de 5 destinées a l'entrainement et 892 pour le test.

On va à présent entrainer notre auto-encodeur pour qu'il fasse correspondre la sortie a l'entrée qu'on lui donne.

In [0]:
# On entraine le réseau avec pour une entrée donnée, une sortie identique attendue
autoencoder.compile(optimizer='rmsprop', loss='binary_crossentropy')
autoencoder.fit(restricted_train, restricted_train, epochs=200, batch_size=250, shuffle=True, validation_data=(restricted_test, restricted_test))

Une fois l'entrainement effectué, on va testé la qualité de l'auto-encodeur en vérifiant que les entrées ne sont pas trop déformées après sont passage dans le réseau.

In [0]:
# On décode puis réencode les images de test pour verifier l'efficacité de l'autoencoder
encoded_images = encoder.predict(restricted_test)
decoded_images = decoder.predict(encoded_images)


import matplotlib.pyplot as plt
import random


# Fonction pour l'affichage : la premiere ligne avec les données réelles et la seconde après un passage dans le réseau
n = 10
plt.figure(figsize=(20, 4))

for i in range(n):
  display = random.randint(0, len(restricted_test))

  ax = plt.subplot(2, n, i + 1)
  
  plt.imshow(restricted_test[display].reshape(28, 28))
  plt.gray()
  
  ax.get_xaxis().set_visible(False)
  ax.get_yaxis().set_visible(False)

  ax = plt.subplot(2, n, i + 1 + n)
  
  plt.imshow(decoded_images[display].reshape(28, 28))
  plt.gray()
  
  ax.get_xaxis().set_visible(False)
  ax.get_yaxis().set_visible(False)

plt.show()


## Génération de nouvelles images

A présent on va récuperer le décodeur et à partir d'un vecteur de taille 25, générer une image de 5 en 28x28.
En première approche, on peut essayer de passer des vecteurs aléatoires dans notre décodeur et espérer que l'image qui sorte ressemble à un 5.

In [0]:
n = 10
plt.figure(figsize=(20, 4))

# On génère des vecteurs aléatoires avec des valeurs entre 0 et 5 (arbitraire)
random_vectors = (np.random.rand(n, latent_space_size)) * 5
decoded_random_images = decoder.predict(random_vectors)

# Affichage
for i in range(n):
  ax = plt.subplot(1, n, i + 1)
  
  plt.imshow(decoded_random_images[i].reshape(28, 28))
  plt.gray()
  
  ax.get_xaxis().set_visible(False)
  ax.get_yaxis().set_visible(False)

plt.show()

Pas terrible... on peut deviner des formes de 5 aléatoires dans les images, mais ce n'est vraiment pas convainquant. En réalité les 25 coordonées du vecteur de l'espace latent sont corrélées, on ne peut donc pas mettre des valeurs complétement aléatoires. On va utiliser un algorithme linéaire afin de décorreler les variables de notre espace latent afin de s'assurer de générer des 5 qui sont "dans la moyenne"; il s'agit de l'algorithme PCA (analyse en composante principale, pour les matheux c'est pas très compliqué et on peut l'implémenter soit même, voir sur [wikipédia](https://fr.wikipedia.org/wiki/Analyse_en_composantes_principales)).

La bibliothèque scikit-learn fourni déjà cette fonction. Cette algorithme nécéssite de connaitre les données à décoreler, on va donc passer toutes nos données d'entrées au travers de l'encodeur et voir comment les variables sont correlées entre elles.

In [0]:
from sklearn.decomposition import PCA


# On créé des exemples qui vont êtres utilisés par le PCA
samples_pca = encoder.predict(restricted_train)

# On applique le PCA sur les données (pas de réduction de taille d'espace)
pca = PCA(n_components=latent_space_size)
pca.fit(samples_pca)

n = 10
plt.figure(figsize=(20, 4))

# On génère des vecteurs aléatoires entre -2 et 2 (par rapport à l'ecart type)
random_vectors = (np.random.rand(n, latent_space_size) - 0.5) * 15

# On transforme les vecteurs en vecteurs valables pour l'espace latent
random_vectors = pca.inverse_transform(random_vectors)
decoded_random_images = decoder.predict(random_vectors)

# Affichage
for i in range(n):
  ax = plt.subplot(1, n, i + 1)
  
  plt.imshow(decoded_random_images[i].reshape(28, 28))
  plt.gray()
  
  ax.get_xaxis().set_visible(False)
  ax.get_yaxis().set_visible(False)

plt.show()


## Deuxième application : débruitage d'une image

Une des application des application des auto-encodeurs est de supprimer le bruit sur les images.

Voici quelques resultats auxquels on peut s'attendre (en haut l'image originale, au milieu, l'image bruitée et en bas l'image retrouvée par le réseau) :
![](https://i.goopics.net/jXxOv.png)

On va utiliser un réseau plus compliqué avec plusieurs couches de convolution (très efficace pour le traitement d'image) et des couches de pooling / up sampling au lieu des couches dense classique.

In [0]:
from keras.layers import Conv2D, MaxPooling2D, UpSampling2D


# On définit la partie encoder de notre réseau
encoder_layers = [
    Conv2D(32, (3, 3), activation='relu', padding='same', input_shape=(28, 28, 1)),
    MaxPooling2D((2, 2), padding='same'),
    Conv2D(32, (3, 3), activation='relu', padding='same'),
    MaxPooling2D((2, 2), padding='same')
]

# On définit la partie decoder de notre réseau
decoder_layers = [
    Conv2D(32, (3, 3), activation='relu', padding='same', input_shape=(7, 7, 32)),
    UpSampling2D((2, 2)),
    Conv2D(32, (3, 3), activation='relu', padding='same'),
    UpSampling2D((2, 2)),
    Conv2D(1, (3, 3), activation='sigmoid', padding='same')
]


    
# On crée notre autoencoder
autoencoder = Sequential()

for k in range(len(encoder_layers)): 
  autoencoder.add(encoder_layers[k]) 
  
for k in range(len(decoder_layers)): 
  autoencoder.add(decoder_layers[k])

# On définit l'encoder
encoder = Sequential()

for k in range(len(encoder_layers)): 
  encoder.add(encoder_layers[k]) 

# On définit le decoder
decoder = Sequential()

for k in range(len(decoder_layers)): 
  decoder.add(decoder_layers[k])

Cette fois on va utiliser le MNIST complet. Pour entrainer notre autoencodeur on va cette fois lui donner une image bruitée aléatoirment en entrée et lui de mander de sortir l'image non bruitée en sortie

In [0]:
# Chargement du MNIST complet
(complete_train_x, _), (complete_test_x, _) = mnist.load_data()

complete_train_x = complete_train_x.astype('float32') / 255.0
complete_train_x = np.reshape(complete_train_x, (len(complete_train_x), 28, 28, 1))

complete_test_x = complete_test_x.astype('float32') / 255.0
complete_test_x = np.reshape(complete_test_x, (len(complete_test_x), 28, 28, 1))

# On ajoute du bruit sur l'image
noise_factor = 0.5

noise_train_set = complete_train_x + noise_factor * np.random.normal(loc=0.0, scale=1.0, size=complete_train_x.shape)
noise_train_set = np.clip(noise_train_set, 0.0, 1.0)

noise_test_set = complete_test_x + noise_factor * np.random.normal(loc=0.0, scale=1.0, size=complete_test_x.shape)
noise_test_set = np.clip(noise_test_set, 0.0, 1.0)

On peut changer la quantité de bruit sur l'image en changeant noise factor. Le réseau sera encore capable de fournir des resultats satisfaisant pour noise factor allant jusqu'a 0.9.

Conseil : pour entrainer ce reseau la, il vaut mieux reprendre le code en local si vous ne voulez pas attendre 4h (ou diminuez le nombre d'epochs mais les resultats seront moins bon)

In [0]:
autoencoder.compile(optimizer='adadelta', loss='binary_crossentropy')
autoencoder.fit(noise_train_set, complete_train_x, epochs=100, batch_size=128, shuffle=True, validation_data=(noise_test_set, complete_test_x))

Maintenant, il suffit de montrer une image de chiffre bruitée au réseau pour qu'il retire le bruit sans trop deformer l'image originale.

In [0]:
# On passe notre image bruitée dans l'autoencoder
denoised_images = autoencoder.predict(noise_test_set)

# Fonction pour l'affichage : la premiere ligne avec les données réelles et la seconde après un passage dans le réseau
n = 10
plt.figure(figsize=(20, 4))

for i in range(n):
  display = random.randint(0, len(complete_test_x))
  
  ax = plt.subplot(3, n, i + 1)
  
  plt.imshow(complete_test_x[display].reshape(28, 28))
  plt.gray()
  
  ax.get_xaxis().set_visible(False)
  ax.get_yaxis().set_visible(False)

  ax = plt.subplot(3, n, i + 1 + n)
  
  plt.imshow(noise_test_set[display].reshape(28, 28))
  plt.gray()
  
  ax.get_xaxis().set_visible(False)
  ax.get_yaxis().set_visible(False)

  ax = plt.subplot(3, n, i + 1 + 2 * n)
  
  plt.imshow(denoised_images[display].reshape(28, 28))
  plt.gray()
  
  ax.get_xaxis().set_visible(False)
  ax.get_yaxis().set_visible(False)

plt.show()


# Partie pratique, a vous de jouer !!


 Maintenant que l'on a fait mumuse avec des chiffres manuscrits, il est temps pour vous de manipuler ! Pour cela voici un nouveau dataset contenant des vetements: le fashion_mnist !
 
La classification est :

* 0 T-shirts
* 1 Pantalongs
* 2 Pulls
* 3 Robes
* 4 Manteaux
* 5 Sandalles
* 6 Chemises
* 7 Sneakers
* 8 Sacs
* 9 Chassures à talons

A vous de retravailler l'exemple précédent avec ces nouvelles données pour générer des chassures de tout type (sneaker, sandalles, talons), et pouvoir les débruiter !

Pour cela, ne prenez pas les chiffres de l'exemple pour aquis ! C'est un nouveau problème et il vous incombe de créer et modifier votre Auto-Encoder de manière a ce que cela fonctionne !

Have fun !



In [0]:
from keras.datasets import fashion_mnist

# Charge le dataset fashion_mnist
(complete_train_x, complete_train_y), (complete_test_x, complete_test_y) = fashion_mnist.load_data()