# Instructions

Travail individuel à réaliser par chaque étudiant. Chaque fichier devra ensuite être rassemblé par groupe dans le premier dépôt Git de l'année universitaire, dans un nouveau dossier nommé <code>Computer Vision</code>.

Le nom du fichier doit être le prénom de l'étudiant écrit en minuscules. Par exemple, si l'étudiant s'appelle BOB Toto, le fichier doit être nommé toto.ipynb.

# Détails de l'étudiant
### Nom(s)  : RABE ANDRIANAOSLO
### Prénom(s) : Johaninho Nirinjaka
### Classe : IGGLIA 4 

# Vision par Ordinateur avec Keras/TensorFlow : Un Notebook Pratique et Conceptuel

Ce notebook a pour objectif de vous guider pas à pas dans la création et l'analyse d'un modèle de réseau de neurones convolutif (CNN) appliqué au jeu de données CIFAR-10. Chaque étape est accompagnée d'explications pratiques ainsi que de questions conceptuelles pour renforcer votre compréhension des enjeux théoriques et pratiques de la vision par ordinateur.

## Étape 1 : Introduction et Configuration de l'Environnement

Dans cette étape, nous allons configurer notre environnement de travail et importer les bibliothèques indispensables pour le deep learning et la manipulation de données. Nous vérifions également la version de TensorFlow pour nous assurer que tout fonctionne correctement.

### Explication Pratique
La bonne configuration de l'environnement est cruciale pour garantir la reproductibilité et la stabilité de vos expériences. En particulier, les versions des bibliothèques peuvent influencer le comportement du modèle et sa performance, d'où l'importance de vérifier et documenter ces versions dès le début.

In [1]:
# Importer les bibliothèques nécessaires
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models
import numpy as np
import matplotlib.pyplot as plt

print('Version de TensorFlow :', tf.__version__)

Version de TensorFlow : 2.18.0


### Question  1

**Q1 :** Pourquoi est-il essentiel de vérifier la configuration de l'environnement (versions des bibliothèques, dépendances, etc.) avant de développer un modèle de deep learning ?

_Répondez dans une nouvelle cellule Markdown._

### Réponse Q1
Il est essentiel de vérifier la configuration de l’environnement (versions des bibliothèques, dépendances, etc.) avant de développer un modèle de deep learning pour plusieurs raisons :

- **Reproductibilité des résultats** : En deep learning, même une légère différence de version dans une bibliothèque comme TensorFlow ou PyTorch peut modifier les résultats obtenus. Documenter les versions permet de garantir que le modèle peut être reproduit avec les mêmes performances sur un autre système.

- **Compatibilité des dépendances** : Certaines versions de bibliothèques peuvent être incompatibles entre elles. Vérifier ces compatibilités évite des erreurs difficiles à diagnostiquer.

- **Optimisation des performances** : Les mises à jour de bibliothèques apportent souvent des améliorations en termes de performance et de gestion de la mémoire. Cependant, elles peuvent aussi introduire des changements affectant le comportement des modèles. Tester une version spécifique garantit que l’environnement est optimisé pour l’application cible.

- **Facilitation du déploiement** : Lors du passage du développement à la production, disposer d’un environnement bien défini (souvent via des fichiers comme requirements.txt ou environment.yml) permet d’éviter des problèmes liés aux mises à jour inattendues de bibliothèques.

En résumé, la vérification de l’environnement assure un développement stable, prévisible et reproductible, ce qui est essentiel pour des projets de deep learning fiables et performants.

## Étape 2 : Chargement et Prétraitement des Données

Nous allons charger le jeu de données CIFAR-10, composé de 60 000 images couleur réparties en 10 classes. Dans cette étape, nous normalisons les valeurs des pixels afin qu'elles soient comprises entre 0 et 1, et nous transformons les étiquettes en format one-hot pour faciliter le processus de classification.

### Explication Pratique
La normalisation aide à stabiliser et accélérer l'entraînement du modèle en assurant que les valeurs d'entrée ont une échelle comparable. Le one-hot encoding évite que le modèle interprète les étiquettes comme des valeurs numériques ordonnées, ce qui est essentiel pour les problèmes de classification multi-classes.

In [None]:
# Charger le jeu de données CIFAR-10
(x_train, y_train), (x_test, y_test) = keras.datasets.cifar10.load_data()

# Normaliser les valeurs des pixels (entre 0 et 1)
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0

# Convertir les vecteurs de classes en matrices binaires (one-hot encoding)
num_classes = 10
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)
 
print("Forme des données d'entrainement :", x_train.shape)
print("Forme des étiquettes d'entraînement :", y_train.shape)

### Question 2

**Q2 :** Expliquez comment la normalisation des pixels et le one-hot encoding des étiquettes contribuent chacun à la stabilité et à l'efficacité de l'entraînement d'un modèle de deep learning.

_Répondez dans une nouvelle cellule Markdown._

### Réponse Q2

La normalisation des pixels et le one-hot encoding des étiquettes sont deux étapes qui facilitent l’apprentissage du modèle et améliorent ses performances.

**Pourquoi normaliser les pixels ?** 
Les images sont constituées de pixels dont les valeurs varient entre 0 et 255. Si on les garde sous cette forme, certaines valeurs seront très élevées et d’autres très faibles, ce qui peut déséquilibrer l’apprentissage du modèle. En divisant chaque pixel par 255 pour ramener les valeurs entre 0 et 1, on uniformise les données. Cela permet :

- Un entraînement plus stable,

- Une convergence plus rapide,

- Une meilleure gestion des calculs, en évitant des problèmes liés aux gradients trop grands ou trop petits.

**Pourquoi utiliser le one-hot encoding ?** 
Les étiquettes des images sont souvent représentées par des nombres (par exemple : 0 pour "chat", 1 pour "chien", 2 pour "voiture"). Le problème, c’est que le modèle pourrait croire qu’il existe un ordre entre ces classes, ce qui n’est pas le cas. Pour éviter cette confusion, on transforme chaque étiquette en un vecteur où seule la case correspondant à la classe est activée. Par exemple :

- "Chat" devient [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

- "Chien" devient [0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

Grâce à cette transformation, le modèle comprend que chaque classe est indépendante des autres et ne fait pas de liens erronés entre elles.


La normalisation aide le modèle à mieux gérer les données et accélère son apprentissage. Le one-hot encoding empêche toute confusion sur les relations entre les classes. Ces deux étapes permettent d’obtenir un entraînement plus efficace et plus fiable.

## Étape 3 : Exploration et Visualisation des Données

Avant de construire le modèle, il est important d'explorer et de visualiser les données. Nous affichons ainsi un échantillon d'images du jeu de données pour mieux comprendre leur contenu et la distribution des classes.

### Explication Pratique
La visualisation des données permet d'identifier d'éventuelles anomalies, comme des classes sous-représentées ou des images bruitées, et de décider si des techniques d'augmentation de données ou de prétraitement supplémentaires sont nécessaires.

In [None]:
# Afficher quelques images du jeu de données d'entraînement
noms_classes = ['avion', 'automobile', 'oiseau', 'chat', 'cerf',
               'chien', 'grenouille', 'cheval', 'navire', 'camion']

plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(x_train[i])
    plt.xlabel(noms_classes[y_train[i].argmax()])
plt.show()

### Question 3

**Q3 :** D'après la visualisation, discutez de l'impact potentiel d'une distribution inégale des classes ou de la présence d'images de mauvaise qualité sur la performance d'un modèle de classification. Quelles stratégies pourraient être mises en place pour pallier ces problèmes ?

_Répondez dans une nouvelle cellule Markdown._

### Réponse Q3

Une distribution inégale des classes peut entraîner un biais du modèle, qui aura tendance à mieux reconnaître les classes majoritaires et à sous-performer sur les classes rares. De même, la présence d’images bruitées ou mal annotées peut perturber l’apprentissage, en rendant plus difficile l’extraction de caractéristiques pertinentes. Ces problèmes peuvent réduire la capacité du modèle à bien généraliser et affecter sa précision globale.

Pour atténuer ces effets, plusieurs stratégies peuvent être mises en place : le sur-échantillonnage des classes sous-représentées, le sous-échantillonnage des classes dominantes, ou l’ajustement de la fonction de perte pour mieux équilibrer l’apprentissage. Il est aussi crucial d’améliorer la qualité des données en supprimant ou corrigeant les images bruitées et en utilisant des techniques d’augmentation de données pour renforcer la robustesse du modèle.

En résumé, explorer et visualiser les données permet d’identifier ces déséquilibres et anomalies à temps, afin d’appliquer des correctifs adaptés. Un jeu de données propre et bien réparti est essentiel pour garantir une classification plus précise et efficace.

## Étape 4 : Construction du Modèle CNN

Nous allons construire un réseau de neurones convolutif (CNN) pour extraire des caractéristiques hiérarchiques des images. Ce modèle se compose de plusieurs blocs de convolution suivis de couches de pooling et se termine par des couches entièrement connectées pour la classification.

### Explication Pratique
Les couches de convolution permettent au modèle de détecter des motifs locaux (comme les contours ou les textures), tandis que les couches de pooling réduisent la dimensionnalité, ce qui diminue la charge computationnelle et aide à rendre le modèle plus robuste aux translations. Le dropout, quant à lui, est une technique de régularisation qui aide à prévenir le surapprentissage en désactivant aléatoirement certains neurones pendant l'entraînement.

In [None]:
# Construire le modèle CNN
model = models.Sequential()

# Bloc de convolution 1 : 32 filtres, taille 3x3, activation ReLU
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=x_train.shape[1:]))
model.add(layers.MaxPooling2D((2, 2)))

# Bloc de convolution 2 : 64 filtres
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))

# Bloc de convolution 3 : 64 filtres
model.add(layers.Conv2D(64, (3, 3), activation='relu'))

# Aplatir les sorties et ajouter des couches entièrement connectées
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(num_classes, activation='softmax'))

model.summary()

### Question 4

**Q4 :** Décrivez le rôle de chaque composant du CNN (couches de convolution, pooling et dropout) et expliquez comment ils interagissent pour permettre au modèle d'extraire des caractéristiques pertinentes des images.

_Répondez dans une nouvelle cellule Markdown._

### Réponse Q4

Les couches de convolution sont essentielles dans un CNN, car elles permettent d’extraire automatiquement des motifs visuels à différents niveaux. Les premiers filtres détectent des formes simples comme les contours, tandis que les couches plus profondes captent des structures plus complexes comme des textures ou des objets entiers. Chaque neurone d’une couche de convolution ne traite qu’une petite région de l’image, ce qui permet au modèle d’analyser les motifs localement avant de les combiner pour une compréhension globale.

Les couches de pooling, souvent basées sur le max-pooling, réduisent la dimensionnalité des données en ne conservant que les informations les plus importantes. Cela permet de diminuer la charge computationnelle, d’accélérer l’apprentissage et de rendre le modèle plus robuste aux variations dans l’image (comme les décalages ou les légères déformations). Enfin, la couche de dropout joue un rôle clé dans la régularisation en désactivant aléatoirement certains neurones lors de l'entraînement. Cela empêche le modèle de trop s’adapter aux données d’apprentissage et améliore sa capacité à généraliser sur de nouvelles images.

En combinant ces éléments, le CNN apprend progressivement à détecter des caractéristiques de plus en plus complexes, tout en maintenant un bon équilibre entre performance et généralisation. Les couches de convolution extraient les motifs, le pooling simplifie l’information et le dropout évite le surapprentissage, garantissant ainsi un modèle efficace et robuste.

## Étape 5 : Compilation et Entraînement du Modèle

Nous allons maintenant compiler le modèle en choisissant un optimiseur, une fonction de perte ainsi que des métriques d'évaluation. Ensuite, nous entraînons le modèle sur les données d'entraînement en réservant une partie des données pour la validation.

### Explication Pratique
La compilation configure le processus d'apprentissage, notamment la manière dont les poids seront ajustés via la rétropropagation. Le choix de l'optimiseur (ici, Adam) et la définition des hyperparamètres (comme le taux d'apprentissage et la taille du batch) influencent grandement la vitesse de convergence et la qualité finale du modèle.

In [None]:
# Compiler le modèle
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# Entraîner le modèle
history = model.fit(x_train, y_train, epochs=10, batch_size=64,
                    validation_split=0.2)

### Question 5

**Q5 :** Quels sont les effets d'un choix inadapté d'hyperparamètres (comme le taux d'apprentissage ou la taille du batch) sur l'entraînement d'un réseau de neurones ? Expliquez en quoi un optimiseur bien configuré est crucial pour la convergence du modèle.

_Répondez dans une nouvelle cellule Markdown._

### Réponse Q5

Un choix inadapté des hyperparamètres peut avoir un impact négatif sur l'entraînement d'un réseau de neurones. Un taux d’apprentissage trop élevé peut empêcher le modèle de converger, car les mises à jour des poids seront trop brutales, risquant de sauter les solutions optimales. À l’inverse, un taux trop faible ralentit l’apprentissage et peut coincer le modèle dans un minimum local. De même, une taille de batch trop grande peut entraîner une convergence plus rapide mais moins généralisable, tandis qu’une taille trop petite peut rendre l’optimisation instable et plus sujette aux variations aléatoires.

L’optimiseur joue un rôle clé dans la convergence du modèle. Par exemple, Adam combine les avantages de la descente de gradient classique et de l’optimisation adaptative, permettant un ajustement efficace des poids même sur des ensembles de données complexes. Un optimiseur mal configuré peut ralentir l’apprentissage ou conduire à des performances médiocres. Une bonne combinaison d’hyperparamètres et d’un optimiseur bien choisi assure une convergence rapide et stable, tout en améliorant la capacité du modèle à bien généraliser sur de nouvelles données.

## Étape 6 : Évaluation du Modèle

Après l'entraînement, nous évaluons notre modèle sur le jeu de test afin de mesurer sa capacité de généralisation sur des données inédites. Les métriques telles que la perte et la précision nous aident à quantifier la performance globale du modèle.

### Explication Pratique
L'évaluation sur un jeu de test indépendant permet de détecter un éventuel surapprentissage (overfitting). Si le modèle présente une bonne performance sur l'entraînement mais une performance médiocre sur le test, cela indique qu'il n'a pas suffisamment généralisé, ce qui peut nécessiter des ajustements comme plus de régularisation ou des techniques d'augmentation de données.

In [None]:
# Évaluer le modèle sur le jeu de test
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=2)
print('Précision sur le jeu de test :', test_acc)

### Question  6

**Q6 :** Que nous indiquent la perte et la précision obtenues lors de l'évaluation sur le jeu de test ? Quels ajustements pourriez-vous envisager si vous observez un écart significatif entre les performances sur l'entraînement et le test ?

_Répondez dans une nouvelle cellule Markdown._

### Réponse Q6

La perte et la précision obtenues lors de l’évaluation sur le jeu de test permettent de mesurer la capacité du modèle à généraliser sur des données inédites. Une faible perte et une haute précision indiquent un bon apprentissage, tandis qu’un écart significatif entre les performances sur l'entraînement et le test peut signaler un problème de surapprentissage (overfitting). Dans ce cas, le modèle a mémorisé les données d’entraînement au lieu d’apprendre des motifs généralisables, ce qui le rend inefficace sur de nouvelles données.

## Étape 7 : Prédictions et Visualisation des Résultats

Nous allons utiliser le modèle entraîné pour prédire les classes des images du jeu de test. La visualisation des résultats nous permet de comparer les étiquettes prédites aux étiquettes réelles et d'identifier les erreurs potentielles.

### Explication Pratique
La visualisation aide à comprendre qualitativement comment le modèle se comporte face à différentes images. Cela permet d'identifier si certaines classes sont systématiquement mal prédites ou si le modèle confond certaines catégories, ouvrant ainsi la voie à des améliorations ultérieures (par exemple, via l'augmentation de données ou des ajustements de l'architecture).

In [None]:
# Faire des prédictions sur le jeu de test
predictions = model.predict(x_test)

# Fonction pour afficher l'image avec les étiquettes prédites et réelles
def afficher_image(i, predictions_array, etiquette_vraie, img):
    plt.grid(False)
    plt.xticks([])
    plt.yticks([])
    plt.imshow(img, cmap=plt.cm.binary)

    etiquette_predite = np.argmax(predictions_array)
    etiquette_vraie = np.argmax(etiquette_vraie)

    couleur = 'blue' if etiquette_predite == etiquette_vraie else 'red'
    plt.xlabel(f"Prédit : {noms_classes[etiquette_predite]} (Vrai : {noms_classes[etiquette_vraie]})", color=couleur)

# Afficher quelques images de test avec leurs prédictions
nb_lignes = 5
nb_colonnes = 3
nb_images = nb_lignes * nb_colonnes
plt.figure(figsize=(2 * nb_colonnes, 2 * nb_lignes))
for i in range(nb_images):
    plt.subplot(nb_lignes, nb_colonnes, i+1)
    afficher_image(i, predictions[i], y_test[i], x_test[i])
plt.tight_layout()
plt.show()

### Question 7

**Q7 :** Après avoir examiné les prédictions, identifiez et discutez des stratégies conceptuelles (par exemple, l'augmentation de données, le raffinement de l'architecture ou l'ajustement des hyperparamètres) qui pourraient améliorer la robustesse et la précision du modèle.

_Répondez dans une nouvelle cellule Markdown._

### Réponse Q7
L’analyse des prédictions permet d’identifier les classes mal reconnues et les motifs d’erreur du modèle. Si certaines classes sont systématiquement confondues, cela peut indiquer un manque de diversité dans les données d’entraînement ou des caractéristiques trop similaires entre certaines catégories. Une solution efficace est l’augmentation de données, qui enrichit le jeu d’entraînement en appliquant des transformations comme la rotation, le changement de luminosité ou le recadrage, aidant ainsi le modèle à mieux généraliser.

Un autre levier d’amélioration est le raffinement de l’architecture du réseau. Ajouter des couches de convolution ou modifier la fonction d’activation peut permettre une extraction de caractéristiques plus fine. Enfin, l’ajustement des hyperparamètres, comme la modification du taux d’apprentissage ou l’optimisation du dropout, peut améliorer la convergence et la robustesse du modèle. Ces stratégies combinées permettent de renforcer la précision et de rendre le modèle plus performant sur des images inédites.

## Étape 8 : Conclusion et Travaux Futurs

Dans ce notebook, nous avons :
- Configuré l'environnement et importé les bibliothèques nécessaires
- Chargé et prétraité le jeu de données CIFAR-10
- Exploré et visualisé les données
- Construit, compilé et entraîné un modèle CNN
- Évalué le modèle et visualisé ses prédictions

### Explication Pratique
Ce pipeline offre une approche complète, à la fois pratique et conceptuelle, pour la mise en œuvre d'un modèle de vision par ordinateur. Pour aller plus loin, vous pouvez explorer des architectures plus complexes, appliquer des techniques d'augmentation de données ou encore expérimenter avec différents optimisateurs afin de mieux comprendre l'impact de chacun sur la performance du modèle.