# Projet Data Science - Livrable 1
## Code du programme
Avant toute chose, il est nécessaire d'importer les différentes bibliothèques qui seront utilisées par le programme.

In [3]:
import scipy
from scipy import ndimage
import numpy as np
import imageio
import matplotlib.pyplot as plt
import cv2 as cv
import os

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.models import Sequential

Suite à cela, on procède à la création des datasets depuis les fichiers. Les paramètres choisies pour les datasets sont les suivants:
- Des images de dimensions 96px
- Des batches de taille 50

Ces valeurs ont été choisies à la fois de manière empirique, en constatant qu'elles permettaient d'obtenir de bons résultats, mais aussi car d'après nos recherches il s'agit de valeurs classiques pour ce cas de figure (les tailles d'image étant souvent de 32/96/128px et les batches de 32/64/100). Le dataset d'entrainement, quant à lui, représente 80% des données disponibles.

In [None]:
main_path = "dataset livrable 2/"

validation_split= 0.2
labels = 'inferred'
label_mode = 'int'
seed = 42
img_height = 96
img_width = 96
batch_size = 50

train_ds = tf.keras.preprocessing.image_dataset_from_directory(
    main_path,
    validation_split=validation_split,
    subset="training",
    seed=seed,
    image_size=(img_height, img_width),
    batch_size=batch_size)

val_ds = tf.keras.preprocessing.image_dataset_from_directory(
    main_path,
    validation_split=validation_split,
    subset="validation",
    seed=seed,
    image_size=(img_height, img_width),
    batch_size=batch_size)

On peut ensuite définir le modèle du réseau de neurones:

In [None]:
num_classes = 5

data_augmentation = keras.Sequential(
  [
    layers.experimental.preprocessing.RandomFlip('horizontal', input_shape=(img_height, img_width, 3)),
    layers.experimental.preprocessing.RandomRotation(0.1),
    layers.experimental.preprocessing.RandomZoom(0.1),
  ]
)

def create_model():
    model = Sequential([
        #data_augmentation,
        layers.experimental.preprocessing.Rescaling(1./255, input_shape=(img_height, img_width, 3)),
        layers.Conv2D(16, 3, padding='same', activation='relu'),
        layers.MaxPooling2D(),
        layers.Conv2D(32, 3, padding='same', activation='relu'),
        layers.MaxPooling2D(),
        layers.Conv2D(64, 3, padding='same', activation='relu'),
        layers.MaxPooling2D(),
        layers.Dropout(0.6),
        layers.Flatten(),
        layers.Dense(128, activation='relu'),
        layers.Dense(num_classes)
    ])

    model.compile(optimizer='adam',
                  loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
                  metrics=['accuracy'])
    
    return model
    
model = create_model()

Ce réseau de neurones est ainsi composé de 11 couches, dont 3 couches de convolution. Une couche de dropout est également présente avant l'applanissement, afin de réduire le sur-apprentissage du réseau. Une couche d'augmentation des données a été testée puis abandonnée, pour des raisons qui seront explicitées plus bas.

Pour ce qui est de l'optimisation et de la fonction de perte, nous avons choisi les standards que sont Adam et Sparse Categorical Cross Entropy. Quelques essais avec d'autres algorithmes d'optimisation (Nadam, Adagrad, ...) nous ont montrés que si les calculs pouvaient éventuellement être plus rapides, les performances du réseau étaient négativement affectées (perte de précision de 5 à 10%).<br/>
Nous avons donc choisi de rester avec cette optimisation et cette fonction de perte, afin de nous consacrer davantage à l'affinage des paramètres.

Le réseau peut être représenté ainsi:

# SCHEMA

Puis on peut entrainer le réseau (sur 10 epochs, afin de prévenir l'overfitting grâce à une stratégie d'early-stopping, ce qui sera expliqué plus en profondeur ci-dessous):

In [None]:
epochs=10
history = model.fit(
  train_ds,
  validation_data=val_ds,
  epochs=epochs
)

Afin de ne pas gaspiller le temps mis à calculer les poids, il est intéressant de sauvegarder et de pouvoir restaurer le modèle suite à l'entrainement:

In [4]:
# Enregistrement du modèle
model.save_weights('saved models/dropout0.6-96-50+20e+5layers')

NameError: name 'model' is not defined

In [None]:
# Restauration du modèle
model = create_model()
model.load_weights('saved models/dropout0.6-96-50+10e')

Les résultats de l'entrainement peuvent être affichés en exécutant le code suivant:

In [None]:
acc = history.history['accuracy']
val_acc = history.history['val_accuracy']

loss = history.history['loss']
val_loss = history.history['val_loss']

epochs_range = range(epochs)

plt.figure(figsize=(8, 8))
plt.subplot(1, 2, 1)
plt.plot(epochs_range, acc, label='Training Accuracy')
plt.plot(epochs_range, val_acc, label='Validation Accuracy')
plt.legend(loc='lower right')
plt.title('Training and Validation Accuracy')

plt.subplot(1, 2, 2)
plt.plot(epochs_range, loss, label='Training Loss')
plt.plot(epochs_range, val_loss, label='Validation Loss')
plt.legend(loc='upper right')
plt.title('Training and Validation Loss')
plt.show()

Pour tester l'efficacité du réseau, on peut alors effectuer des prédictions soit sur le dataset de validation, soit sur des images stockées sur le disque:

In [None]:
class_names = train_ds.class_names

plt.figure(figsize=(10, 10))
for images, labels in val_ds.take(1):
  for i in range(9):
    img_array = keras.preprocessing.image.img_to_array(images[i])
    img_array = tf.expand_dims(img_array, 0) # Create a batch

    predictions = model.predict(img_array)
    score = tf.nn.softmax(predictions[0])
    
    ax = plt.subplot(3, 3, i + 1)
    plt.imshow(images[i].numpy().astype("uint8"))
    plt.title(class_names[labels[i]] + " ({} {:.2f})".format(class_names[np.argmax(score)], 100 * np.max(score)))
    plt.axis("off")

In [None]:
test_path = "C:/Jupyter/validation/jean-francois-millet.-les-glaneuses-1857-.jpg"

img = keras.preprocessing.image.load_img(
    test_path, target_size=(img_height, img_width)
)
img_array = keras.preprocessing.image.img_to_array(img)
img_array = tf.expand_dims(img_array, 0) # Create a batch

predictions = model.predict(img_array)
score = tf.nn.softmax(predictions[0])

print(
    "This image most likely belongs to {} with a {:.2f} percent confidence."
    .format(class_names[np.argmax(score)], 100 * np.max(score))
)

plt.imshow(img)
plt.axis('off')

## Analyse des résultats

Ci-dessous, le graphique de résultat de l'entrainement du réseau de neurones avec les paramètres ci-dessus:
![image.png](attachment:image.png)
Comme on peut le voir sur le graphique, les paramètres choisis permettent d’obtenir un modèle qui ne souffre pas de sur-apprentissage. Le nombre relativement faible d’époques peut toutefois faire craindre un sous-apprentissage. Néanmoins, ce nombre faible a été choisi à dessein, puisqu’il est issu d’une stratégie d’early stopping. En effet, voici les résultats d’un entrainement avec les mêmes paramètres, mais 30 époques :

![image-2.png](attachment:image-2.png)
 
On peut ici clairement voir que le modèle souffre de sur-apprentissage, malgré la présence d’un dropout important. Le sur-apprentissage commence à se manifester clairement à partir de 10 époques, alors que le modèle à déjà atteint une précision quasi-maximale. Nous avons donc choisi de stopper le modèle à 10 époques, puisque cela représentait le meilleur compromis entre le biais et la variance.

Afin d’améliorer le modèle, nous avons expérimenté des techniques d’augmentation de données, cependant il nous a fallu remarquer qu’utiliser ces techniques ne faisaient que diminuer la qualité des résultats obtenus. Exemple ici avec deux modèles avec un dropout à 0.2, des images de 64px et des batches de 100, mais une augmentation que dans le second modèle :

<table height="50%">
    <tr>
        <td text-align="center">Sans augmentation</td>
        <td text-align="center">Avec augmentation</td>
    </tr>
    <tr>
        <td>
            <img src="attachment:image-4.png"/>
        </td>
        <td>
            <img src="attachment:image-3.png"/>
        </td>
    </tr>
</table>

On constate ainsi que l’augmentation, au-delà de rajouter du bruit dans les résultats, a également diminué les valeurs atteintes précédemment.