# Instructions

Travail individuel à réaliser par chaque étudiant. Chaque fichier devra ensuite être rassemblé par groupe dans le premier dépôt Git de l'année universitaire, dans un nouveau dossier nommé <code>Computer Vision</code>.

Le nom du fichier doit être le prénom de l'étudiant écrit en minuscules. Par exemple, si l'étudiant s'appelle BOB Toto, le fichier doit être nommé toto.ipynb.

# Détails de l'étudiant
### Nom(s)  : RAZANAJATOVO ANDRIANIMERINA
### Prénom(s) : Kinasaela
### Classe : ESIIA 4

# Vision par Ordinateur avec Keras/TensorFlow : Un Notebook Pratique et Conceptuel

Ce notebook a pour objectif de vous guider pas à pas dans la création et l'analyse d'un modèle de réseau de neurones convolutif (CNN) appliqué au jeu de données CIFAR-10. Chaque étape est accompagnée d'explications pratiques ainsi que de questions conceptuelles pour renforcer votre compréhension des enjeux théoriques et pratiques de la vision par ordinateur.

## Étape 1 : Introduction et Configuration de l'Environnement

Dans cette étape, nous allons configurer notre environnement de travail et importer les bibliothèques indispensables pour le deep learning et la manipulation de données. Nous vérifions également la version de TensorFlow pour nous assurer que tout fonctionne correctement.

### Explication Pratique
La bonne configuration de l'environnement est cruciale pour garantir la reproductibilité et la stabilité de vos expériences. En particulier, les versions des bibliothèques peuvent influencer le comportement du modèle et sa performance, d'où l'importance de vérifier et documenter ces versions dès le début.

In [None]:
# Importer les bibliothèques nécessaires
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models
import numpy as np
import matplotlib.pyplot as plt

print('Version de TensorFlow :', tf.__version__)

Version de TensorFlow : 2.18.0


### Question  1

**Q1 :** Pourquoi est-il essentiel de vérifier la configuration de l'environnement (versions des bibliothèques, dépendances, etc.) avant de développer un modèle de deep learning ?

_Répondez dans une nouvelle cellule Markdown._

Vérifier la configuration de l’environnement, c’est super important pour la reproductibilité. Si on utilise exactement les mêmes versions des bibliothèques, on est sûr d’obtenir les mêmes résultats, que ce soit sur notre machine ou sur une autre. Sinon, un même code peut donner des résultats complètement différents.

Toutes les versions des bibliothèques ne sont pas toujours compatibles entre elles. Par exemple, une nouvelle version de TensorFlow peut ne plus être compatible avec certaines fonctions de Keras. Si on ne fait pas attention, on peut se retrouver avec des erreurs difficiles à comprendre.

La stabilité et la performance du modèle peuvent aussi dépendre des versions utilisées. Parfois, une mise à jour améliore les performances, mais elle peut aussi introduire des bugs. C’est pour ça qu’il vaut mieux s’assurer que tout fonctionne bien avant de commencer.

Enfin, certaines bibliothèques ont des dépendances très spécifiques. Si on entraîne un modèle avec une version précise de TensorFlow, il se peut qu’il ne fonctionne plus correctement avec une version plus récente ou plus ancienne. Vérifier les versions permet donc d’éviter de mauvaises surprises.

## Étape 2 : Chargement et Prétraitement des Données

Nous allons charger le jeu de données CIFAR-10, composé de 60 000 images couleur réparties en 10 classes. Dans cette étape, nous normalisons les valeurs des pixels afin qu'elles soient comprises entre 0 et 1, et nous transformons les étiquettes en format one-hot pour faciliter le processus de classification.

### Explication Pratique
La normalisation aide à stabiliser et accélérer l'entraînement du modèle en assurant que les valeurs d'entrée ont une échelle comparable. Le one-hot encoding évite que le modèle interprète les étiquettes comme des valeurs numériques ordonnées, ce qui est essentiel pour les problèmes de classification multi-classes.

In [None]:
# Charger le jeu de données CIFAR-10
(x_train, y_train), (x_test, y_test) = keras.datasets.cifar10.load_data()

# Normaliser les valeurs des pixels (entre 0 et 1)
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0

# Convertir les vecteurs de classes en matrices binaires (one-hot encoding)
num_classes = 10
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

print("Forme des données d'entrainement :", x_train.shape)
print("Forme des étiquettes d'entraînement :", y_train.shape)

### Question 2

**Q2 :** Expliquez comment la normalisation des pixels et le one-hot encoding des étiquettes contribuent chacun à la stabilité et à l'efficacité de l'entraînement d'un modèle de deep learning.

_Répondez dans une nouvelle cellule Markdown._

La normalisation des pixels et le one-hot encoding des étiquettes sont super importants pour que l'entraînement du modèle soit stable et efficace.  

D’abord, la **normalisation des pixels** (diviser les valeurs par 255 pour les ramener entre 0 et 1) permet d’avoir des entrées sur une échelle cohérente. Si les valeurs des pixels allaient de 0 à 255, les poids du réseau devraient gérer des écarts trop grands, ce qui pourrait rendre l'entraînement instable et plus lent. En normalisant, on aide le modèle à converger plus rapidement et de manière plus fluide.  

Ensuite, le **one-hot encoding** est utilisé pour éviter que le modèle interprète les classes comme des valeurs numériques continues. Par exemple, sans one-hot encoding, une classe "3" pourrait être vue comme plus proche de "2" que de "7", alors que ce ne sont que des catégories indépendantes. Avec cette technique, chaque classe est représentée par un vecteur binaire, ce qui facilite l’apprentissage et améliore les performances du modèle, surtout pour les problèmes de classification multi-classes comme CIFAR-10.

## Étape 3 : Exploration et Visualisation des Données

Avant de construire le modèle, il est important d'explorer et de visualiser les données. Nous affichons ainsi un échantillon d'images du jeu de données pour mieux comprendre leur contenu et la distribution des classes.

### Explication Pratique
La visualisation des données permet d'identifier d'éventuelles anomalies, comme des classes sous-représentées ou des images bruitées, et de décider si des techniques d'augmentation de données ou de prétraitement supplémentaires sont nécessaires.

In [None]:
# Afficher quelques images du jeu de données d'entraînement
noms_classes = ['avion', 'automobile', 'oiseau', 'chat', 'cerf',
               'chien', 'grenouille', 'cheval', 'navire', 'camion']

plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(x_train[i])
    plt.xlabel(noms_classes[y_train[i].argmax()])
plt.show()

### Question 3

**Q3 :** D'après la visualisation, discutez de l'impact potentiel d'une distribution inégale des classes ou de la présence d'images de mauvaise qualité sur la performance d'un modèle de classification. Quelles stratégies pourraient être mises en place pour pallier ces problèmes ?

_Répondez dans une nouvelle cellule Markdown._

Si la distribution des classes dans le jeu de données est inégale, le modèle risque d’être biaisé. Par exemple, s’il y a beaucoup plus d’images d’"automobiles" et de "camions" que d’"oiseaux" ou de "cerfs", il apprendra mieux à reconnaître les classes majoritaires et ignorera les classes sous-représentées, ce qui entraînera une mauvaise généralisation. De plus, la présence d’images de mauvaise qualité, comme des images floues, mal cadrées ou bruitées, peut perturber l’apprentissage et réduire la capacité du modèle à bien classifier les nouvelles images. Pour pallier ces problèmes, plusieurs stratégies peuvent être mises en place.  

Tout d’abord, il est possible de rééquilibrer les classes en augmentant artificiellement le nombre d’images sous-représentées grâce à l’augmentation de données, qui consiste à appliquer des transformations comme la rotation, le zoom ou le flip. On peut aussi réduire le nombre d’images des classes majoritaires ou encore utiliser des poids de classe lors de l’entraînement pour que le modèle prenne mieux en compte les classes rares. Ensuite, il est important de filtrer et améliorer les données en supprimant ou corrigeant les images de mauvaise qualité et en appliquant des techniques de prétraitement, comme le lissage ou la réduction du bruit. Enfin, une autre solution consiste à collecter plus de données afin d’équilibrer les classes et d’améliorer la diversité des exemples. En mettant en place ces stratégies, on s’assure que le modèle apprend de manière plus équitable et généralisera mieux sur de nouvelles données.

## Étape 4 : Construction du Modèle CNN

Nous allons construire un réseau de neurones convolutif (CNN) pour extraire des caractéristiques hiérarchiques des images. Ce modèle se compose de plusieurs blocs de convolution suivis de couches de pooling et se termine par des couches entièrement connectées pour la classification.

### Explication Pratique
Les couches de convolution permettent au modèle de détecter des motifs locaux (comme les contours ou les textures), tandis que les couches de pooling réduisent la dimensionnalité, ce qui diminue la charge computationnelle et aide à rendre le modèle plus robuste aux translations. Le dropout, quant à lui, est une technique de régularisation qui aide à prévenir le surapprentissage en désactivant aléatoirement certains neurones pendant l'entraînement.

In [None]:
# Construire le modèle CNN
model = models.Sequential()

# Bloc de convolution 1 : 32 filtres, taille 3x3, activation ReLU
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=x_train.shape[1:]))
model.add(layers.MaxPooling2D((2, 2)))

# Bloc de convolution 2 : 64 filtres
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))

# Bloc de convolution 3 : 64 filtres
model.add(layers.Conv2D(64, (3, 3), activation='relu'))

# Aplatir les sorties et ajouter des couches entièrement connectées
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(num_classes, activation='softmax'))

model.summary()

### Question 4

**Q4 :** Décrivez le rôle de chaque composant du CNN (couches de convolution, pooling et dropout) et expliquez comment ils interagissent pour permettre au modèle d'extraire des caractéristiques pertinentes des images.

_Répondez dans une nouvelle cellule Markdown._

Couches de convolution (Conv2D)
- Elles appliquent des filtres aux images d’entrée pour détecter des motifs locaux (ex : contours, textures).  
- Chaque filtre extrait une caractéristique spécifique.  
- L’activation ReLU (Rectified Linear Unit) introduit de la non-linéarité pour permettre au modèle d’apprendre des relations complexes.  

Couches de pooling (MaxPooling2D)
- Elles réduisent la taille des cartes de caractéristiques, diminuant ainsi le nombre de paramètres et la charge computationnelle.  
- Le pooling rend le modèle plus robuste aux petites variations et translations dans l’image.  
- Dans le code, une fenêtre de taille (2,2) est utilisée pour extraire la valeur maximale dans chaque région, conservant ainsi les informations les plus importantes.  

Aplatissement (Flatten)
- Il transforme la sortie 2D des couches de convolution en un vecteur 1D pour pouvoir être utilisé par les couches entièrement connectées.  

Couches entièrement connectées (Dense)
- Elles combinent les caractéristiques extraites par les couches de convolution pour effectuer la classification finale.  
- Une couche Dense avec 64 neurones et activation ReLU aide à apprendre des représentations plus complexes.  
- La dernière couche Dense avec `softmax` attribue une probabilité à chaque classe pour effectuer la classification.  

Dropout
- Il désactive aléatoirement 50% des neurones pendant l’entraînement (`Dropout(0.5)`).  
- Cela empêche le surapprentissage en forçant le réseau à ne pas dépendre excessivement de certaines connexions.  

Interaction entre les composants
1. Convolution → Pooling : Extraction des caractéristiques locales et réduction de la dimension.  
2. Empilement des blocs convolutionnels : Apprentissage progressif des motifs de bas niveau (bords, textures) vers des motifs plus complexes.  
3. Flatten → Dense : Transformation des caractéristiques en un vecteur utilisable pour la classification.  
4. Dropout : Régularisation pour améliorer la généralisation.  
5. Softmax : Attribution des probabilités aux différentes classes pour la prise de décision finale.

## Étape 5 : Compilation et Entraînement du Modèle

Nous allons maintenant compiler le modèle en choisissant un optimiseur, une fonction de perte ainsi que des métriques d'évaluation. Ensuite, nous entraînons le modèle sur les données d'entraînement en réservant une partie des données pour la validation.

### Explication Pratique
La compilation configure le processus d'apprentissage, notamment la manière dont les poids seront ajustés via la rétropropagation. Le choix de l'optimiseur (ici, Adam) et la définition des hyperparamètres (comme le taux d'apprentissage et la taille du batch) influencent grandement la vitesse de convergence et la qualité finale du modèle.

In [None]:
# Compiler le modèle
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# Entraîner le modèle
history = model.fit(x_train, y_train, epochs=10, batch_size=64,
                    validation_split=0.2)

### Question 5

**Q5 :** Quels sont les effets d'un choix inadapté d'hyperparamètres (comme le taux d'apprentissage ou la taille du batch) sur l'entraînement d'un réseau de neurones ? Expliquez en quoi un optimiseur bien configuré est crucial pour la convergence du modèle.

_Répondez dans une nouvelle cellule Markdown._

Un **taux d’apprentissage trop élevé** empêche la convergence, provoque des oscillations et peut mener à la divergence. Un **taux trop faible** ralentit l’apprentissage et peut bloquer le modèle dans un minimum local. Une **taille de batch trop grande** réduit la fréquence des mises à jour des poids, accélère l’entraînement mais risque une convergence sous-optimale. Une **taille de batch trop petite** augmente la variance des gradients, rendant l’optimisation plus bruitée et instable.

L’**optimiseur Adam** ajuste dynamiquement le taux d’apprentissage, accélère la convergence et stabilise l’apprentissage. Il permet une mise à jour efficace des poids en combinant le momentum et l’adaptation du taux d’apprentissage. Un optimiseur mal configuré peut ralentir l’entraînement, provoquer un surajustement ou empêcher la convergence.

Un bon paramétrage équilibre la **vitesse d’apprentissage**, la **stabilité** et la **généralisation** du modèle. L’**interaction entre le taux d’apprentissage, la taille du batch et l’optimiseur** est cruciale pour obtenir de bonnes performances.

## Étape 6 : Évaluation du Modèle

Après l'entraînement, nous évaluons notre modèle sur le jeu de test afin de mesurer sa capacité de généralisation sur des données inédites. Les métriques telles que la perte et la précision nous aident à quantifier la performance globale du modèle.

### Explication Pratique
L'évaluation sur un jeu de test indépendant permet de détecter un éventuel surapprentissage (overfitting). Si le modèle présente une bonne performance sur l'entraînement mais une performance médiocre sur le test, cela indique qu'il n'a pas suffisamment généralisé, ce qui peut nécessiter des ajustements comme plus de régularisation ou des techniques d'augmentation de données.

In [None]:
# Évaluer le modèle sur le jeu de test
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=2)
print('Précision sur le jeu de test :', test_acc)

### Question  6

**Q6 :** Que nous indiquent la perte et la précision obtenues lors de l'évaluation sur le jeu de test ? Quels ajustements pourriez-vous envisager si vous observez un écart significatif entre les performances sur l'entraînement et le test ?

_Répondez dans une nouvelle cellule Markdown._

La **perte** indique combien le modèle se trompe dans ses prédictions, une valeur plus faible suggère une meilleure performance. La **précision** mesure le pourcentage de bonnes prédictions, une précision élevée sur le test signifie que le modèle généralise bien. Si la précision est élevée sur l'entraînement mais faible sur le test, cela indique un **surapprentissage**. Dans ce cas, vous pourriez ajuster le modèle en augmentant la **régularisation** (comme en augmentant le taux de dropout), en utilisant des techniques d’**augmentation de données** pour diversifier le jeu d'entraînement, ou en réduisant la **complexité du modèle** pour éviter qu’il n'apprenne des détails spécifiques à l’entraînement.

## Étape 7 : Prédictions et Visualisation des Résultats

Nous allons utiliser le modèle entraîné pour prédire les classes des images du jeu de test. La visualisation des résultats nous permet de comparer les étiquettes prédites aux étiquettes réelles et d'identifier les erreurs potentielles.

### Explication Pratique
La visualisation aide à comprendre qualitativement comment le modèle se comporte face à différentes images. Cela permet d'identifier si certaines classes sont systématiquement mal prédites ou si le modèle confond certaines catégories, ouvrant ainsi la voie à des améliorations ultérieures (par exemple, via l'augmentation de données ou des ajustements de l'architecture).

In [None]:
# Faire des prédictions sur le jeu de test
predictions = model.predict(x_test)

# Fonction pour afficher l'image avec les étiquettes prédites et réelles
def afficher_image(i, predictions_array, etiquette_vraie, img):
    plt.grid(False)
    plt.xticks([])
    plt.yticks([])
    plt.imshow(img, cmap=plt.cm.binary)

    etiquette_predite = np.argmax(predictions_array)
    etiquette_vraie = np.argmax(etiquette_vraie)

    couleur = 'blue' if etiquette_predite == etiquette_vraie else 'red'
    plt.xlabel(f"Prédit : {noms_classes[etiquette_predite]} (Vrai : {noms_classes[etiquette_vraie]})", color=couleur)

# Afficher quelques images de test avec leurs prédictions
nb_lignes = 5
nb_colonnes = 3
nb_images = nb_lignes * nb_colonnes
plt.figure(figsize=(2 * nb_colonnes, 2 * nb_lignes))
for i in range(nb_images):
    plt.subplot(nb_lignes, nb_colonnes, i+1)
    afficher_image(i, predictions[i], y_test[i], x_test[i])
plt.tight_layout()
plt.show()

### Question 7

**Q7 :** Après avoir examiné les prédictions, identifiez et discutez des stratégies conceptuelles (par exemple, l'augmentation de données, le raffinement de l'architecture ou l'ajustement des hyperparamètres) qui pourraient améliorer la robustesse et la précision du modèle.

_Répondez dans une nouvelle cellule Markdown._

Après avoir examiné les prédictions, voici des stratégies possibles pour améliorer la robustesse et la précision du modèle :

1. **Augmentation de données** : Si le modèle confond certaines classes ou a des difficultés avec certaines images, l’augmentation de données (rotation, zoom, décalage) peut aider à diversifier le jeu d’entraînement et améliorer la généralisation.

2. **Raffinement de l'architecture** : Ajouter plus de couches convolutionnelles, augmenter la taille des filtres ou ajuster les hyperparamètres des couches existantes (par exemple, augmenter le nombre de filtres) peut permettre au modèle de mieux capturer des caractéristiques complexes des images.

3. **Ajustement des hyperparamètres** : Expérimenter avec différents taux d'apprentissage, tailles de batch et le nombre d'époques pourrait permettre d'améliorer la convergence du modèle. Un ajustement fin de ces paramètres peut permettre au modèle de mieux généraliser.

4. **Régularisation supplémentaire** : Si des erreurs de surapprentissage sont observées (précision élevée en entraînement mais faible en test), l’augmentation du dropout ou l’introduction de techniques comme la **L2 régularisation** pourrait être bénéfique pour réduire le surajustement.

5. **Ensembles de modèles** : Combiner plusieurs modèles (par exemple, via le **bagging** ou le **boosting**) pourrait également améliorer la précision en réduisant la variance des prédictions.

Ces stratégies devraient être testées pour évaluer leur impact sur les performances globales du modèle.

## Étape 8 : Conclusion et Travaux Futurs

Dans ce notebook, nous avons :
- Configuré l'environnement et importé les bibliothèques nécessaires
- Chargé et prétraité le jeu de données CIFAR-10
- Exploré et visualisé les données
- Construit, compilé et entraîné un modèle CNN
- Évalué le modèle et visualisé ses prédictions

### Explication Pratique
Ce pipeline offre une approche complète, à la fois pratique et conceptuelle, pour la mise en œuvre d'un modèle de vision par ordinateur. Pour aller plus loin, vous pouvez explorer des architectures plus complexes, appliquer des techniques d'augmentation de données ou encore expérimenter avec différents optimisateurs afin de mieux comprendre l'impact de chacun sur la performance du modèle.