# Instructions

Travail individuel à réaliser par chaque étudiant. Chaque fichier devra ensuite être rassemblé par groupe dans le premier dépôt Git de l'année universitaire, dans un nouveau dossier nommé <code>Computer Vision</code>.

Le nom du fichier doit être le prénom de l'étudiant écrit en minuscules. Par exemple, si l'étudiant s'appelle BOB Toto, le fichier doit être nommé toto.ipynb.

# Détails de l'étudiant
### Nom(s)  : RANDRIAMANALINA
### Prénom(s) : Lalaina Jimmy
### Classe : IMTICIA 4

# Vision par Ordinateur avec Keras/TensorFlow : Un Notebook Pratique et Conceptuel

Ce notebook a pour objectif de vous guider pas à pas dans la création et l'analyse d'un modèle de réseau de neurones convolutif (CNN) appliqué au jeu de données CIFAR-10. Chaque étape est accompagnée d'explications pratiques ainsi que de questions conceptuelles pour renforcer votre compréhension des enjeux théoriques et pratiques de la vision par ordinateur.

## Étape 1 : Introduction et Configuration de l'Environnement

Dans cette étape, nous allons configurer notre environnement de travail et importer les bibliothèques indispensables pour le deep learning et la manipulation de données. Nous vérifions également la version de TensorFlow pour nous assurer que tout fonctionne correctement.

### Explication Pratique
La bonne configuration de l'environnement est cruciale pour garantir la reproductibilité et la stabilité de vos expériences. En particulier, les versions des bibliothèques peuvent influencer le comportement du modèle et sa performance, d'où l'importance de vérifier et documenter ces versions dès le début.

In [None]:
# Importer les bibliothèques nécessaires
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models
import numpy as np
import matplotlib.pyplot as plt

print('Version de TensorFlow :', tf.__version__)

Version de TensorFlow : 2.18.0


### Question  1

**Q1 :** Pourquoi est-il essentiel de vérifier la configuration de l'environnement (versions des bibliothèques, dépendances, etc.) avant de développer un modèle de deep learning ?

_Répondez dans une nouvelle cellule Markdown._

### Reponse 1 :

Il essentiel de vérifier la configuration de l'environnement avant de développer un modèle de deep learning parce que la vérification de l'environnement de développement en deep learning est une étape fondamentale pour assurer la fiabilité des résultats. Elle garantit d'abord la stabilité des expériences en évitant les variations de comportement liées aux versions des librairies (comme TensorFlow/Keras), qui pourraient affecter les performances des modèles ou le fonctionnement des couches neuronales. Elle permet ensuite la reproductibilité scientifique en documentant précisément les configurations, facilitant ainsi la réplication des expériences, le débogage et les comparaisons entre approches. Enfin, dans un contexte industriel, cette pratique favorise la collaboration entre équipes hétérogènes et assure un déploiement fiable en production.

## Étape 2 : Chargement et Prétraitement des Données

Nous allons charger le jeu de données CIFAR-10, composé de 60 000 images couleur réparties en 10 classes. Dans cette étape, nous normalisons les valeurs des pixels afin qu'elles soient comprises entre 0 et 1, et nous transformons les étiquettes en format one-hot pour faciliter le processus de classification.

### Explication Pratique
La normalisation aide à stabiliser et accélérer l'entraînement du modèle en assurant que les valeurs d'entrée ont une échelle comparable. Le one-hot encoding évite que le modèle interprète les étiquettes comme des valeurs numériques ordonnées, ce qui est essentiel pour les problèmes de classification multi-classes.

In [None]:
# Charger le jeu de données CIFAR-10
(x_train, y_train), (x_test, y_test) = keras.datasets.cifar10.load_data()

# Normaliser les valeurs des pixels (entre 0 et 1)
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0

# Convertir les vecteurs de classes en matrices binaires (one-hot encoding)
num_classes = 10
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

print("Forme des données d'entrainement :", x_train.shape)
print("Forme des étiquettes d'entraînement :", y_train.shape)

### Question 2

**Q2 :** Expliquez comment la normalisation des pixels et le one-hot encoding des étiquettes contribuent chacun à la stabilité et à l'efficacité de l'entraînement d'un modèle de deep learning.

_Répondez dans une nouvelle cellule Markdown._

### Reponse 2 :


La normalisation des pixels et le one-hot encoding sont des étapes fondamentales de prétraitement pour l'entraînement efficace des modèles de vision par ordinateur. La normalisation des pixels stabilise les calculs en évitant que les pixels extrêmes ne dominent les gradients, tout en accélérant la convergence de l'optimiseur grâce à une échelle homogène. Le one-hot encoding, quant à lui, transforme les étiquettes catégorielles en vecteurs binaires, supprimant toute ambiguïté d'ordre entre les classes et permettant une compatibilité optimale avec les fonctions de perte comme la cross-entropy. Ensemble, ces techniques préparent les données à être traitées efficacement par les opérations matricielles des réseaux de neurones, tout en préservant leur signification intrinsèque, ce qui en fait une étape incontournable avant tout apprentissage.


## Étape 3 : Exploration et Visualisation des Données

Avant de construire le modèle, il est important d'explorer et de visualiser les données. Nous affichons ainsi un échantillon d'images du jeu de données pour mieux comprendre leur contenu et la distribution des classes.

### Explication Pratique
La visualisation des données permet d'identifier d'éventuelles anomalies, comme des classes sous-représentées ou des images bruitées, et de décider si des techniques d'augmentation de données ou de prétraitement supplémentaires sont nécessaires.

In [None]:
# Afficher quelques images du jeu de données d'entraînement
noms_classes = ['avion', 'automobile', 'oiseau', 'chat', 'cerf',
               'chien', 'grenouille', 'cheval', 'navire', 'camion']

plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(x_train[i])
    plt.xlabel(noms_classes[y_train[i].argmax()])
plt.show()

### Question 3

**Q3 :** D'après la visualisation, discutez de l'impact potentiel d'une distribution inégale des classes ou de la présence d'images de mauvaise qualité sur la performance d'un modèle de classification. Quelles stratégies pourraient être mises en place pour pallier ces problèmes ?

_Répondez dans une nouvelle cellule Markdown._

### Reponse 3 :

Une distribution déséquilibrée des classes ou des images de faible qualité peut sérieusement compromettre la performance d'un modèle de classification. Dans le premier cas, le modèle développe un biais en faveur des classes majoritaires, négligeant les catégories sous-représentées et réduisant sa capacité à généraliser. Pour y répondre, des méthodes comme l'échantillonnage adaptatif (SMOTE) ou l'ajustement des poids de perte pendant l'entraînement permettent de rééquilibrer l'influence des classes. Concernant les images dégradées, celles-ci introduisent du bruit dans l'apprentissage, conduisant à des caractéristiques non pertinentes. Une solution combinée de filtrage manuel des artefacts, d'augmentation ciblée (recadrage intelligent, correction de la luminosité) et l'utilisation de couches de prétraitement intégrées (comme la normalisation par lots) améliorent la robustesse. Ces approches, couplées à une validation croisée stratifiée, préservent l'intégrité du processus d'apprentissage tout en maximisant l'utilisation des données disponibles.

## Étape 4 : Construction du Modèle CNN

Nous allons construire un réseau de neurones convolutif (CNN) pour extraire des caractéristiques hiérarchiques des images. Ce modèle se compose de plusieurs blocs de convolution suivis de couches de pooling et se termine par des couches entièrement connectées pour la classification.

### Explication Pratique
Les couches de convolution permettent au modèle de détecter des motifs locaux (comme les contours ou les textures), tandis que les couches de pooling réduisent la dimensionnalité, ce qui diminue la charge computationnelle et aide à rendre le modèle plus robuste aux translations. Le dropout, quant à lui, est une technique de régularisation qui aide à prévenir le surapprentissage en désactivant aléatoirement certains neurones pendant l'entraînement.

In [None]:
# Construire le modèle CNN
model = models.Sequential()

# Bloc de convolution 1 : 32 filtres, taille 3x3, activation ReLU
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=x_train.shape[1:]))
model.add(layers.MaxPooling2D((2, 2)))

# Bloc de convolution 2 : 64 filtres
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))

# Bloc de convolution 3 : 64 filtres
model.add(layers.Conv2D(64, (3, 3), activation='relu'))

# Aplatir les sorties et ajouter des couches entièrement connectées
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(num_classes, activation='softmax'))

model.summary()

### Question 4

**Q4 :** Décrivez le rôle de chaque composant du CNN (couches de convolution, pooling et dropout) et expliquez comment ils interagissent pour permettre au modèle d'extraire des caractéristiques pertinentes des images.

_Répondez dans une nouvelle cellule Markdown._

Un réseau de neurones convolutif (CNN) est conçu pour analyser des images et en extraire des informations pertinentes pour la classification. Pour cela, il utilise une combinaison de couches spécifiques : convolution, pooling et dropout.

1. Les couches de convolution : détecteurs de motifs

Imaginez un détective qui examine une scène de crime à la recherche d'indices. Il utilise une loupe pour se concentrer sur des zones spécifiques et identifier des détails importants. Les couches de convolution fonctionnent de manière similaire : elles appliquent des filtres (les "loupes") sur l'image pour détecter des motifs locaux, comme des contours, des textures ou des formes simples. Chaque filtre produit une carte de caractéristiques qui met en évidence les zones de l'image où le motif correspondant est présent.

2. Les couches de pooling : simplification et robustesse

Une fois que le détective a identifié les indices importants, il doit les synthétiser pour avoir une vue d'ensemble de la situation. Les couches de pooling jouent ce rôle : elles réduisent la dimensionnalité des cartes de caractéristiques, en conservant les informations les plus importantes et en éliminant les détails superflus. Cela permet de simplifier le traitement de l'information et de rendre le modèle plus robuste aux petites variations dans les images, comme des légers déplacements ou des rotations.

3. Le dropout : éviter les conclusions hâtives

Pour éviter de tirer des conclusions trop hâtives à partir d'un seul indice, le détective doit prendre en compte tous les éléments de l'enquête. Le dropout permet d'introduire cette prudence dans le modèle : pendant l'entraînement, il désactive aléatoirement un certain pourcentage de neurones. Cela force le modèle à apprendre des représentations plus robustes et moins dépendantes de neurones individuels, ce qui évite le surapprentissage et améliore la capacité de généralisation.

L'interaction des composants : une enquête collaborative

Ces trois types de couches interagissent pour permettre au modèle d'extraire des caractéristiques pertinentes des images et de les classifier avec précision :

  Les couches de convolution détectent des motifs locaux dans l'image, comme des contours ou des textures.
    Les couches de pooling réduisent la dimensionnalité des cartes de caractéristiques, simplifiant l'information et augmentant la robustesse du modèle.
    Le dropout prévient le surapprentissage en forçant le modèle à apprendre des représentations plus robustes.

Ensemble, ces couches permettent au modèle d'apprendre une hiérarchie de caractéristiques, des motifs simples aux motifs plus complexes, pour finalement aboutir à une classification précise des images. C'est comme une enquête collaborative où chaque composant apporte sa contribution pour résoudre le mystère de la classification d'images.

## Étape 5 : Compilation et Entraînement du Modèle

Nous allons maintenant compiler le modèle en choisissant un optimiseur, une fonction de perte ainsi que des métriques d'évaluation. Ensuite, nous entraînons le modèle sur les données d'entraînement en réservant une partie des données pour la validation.

### Explication Pratique
La compilation configure le processus d'apprentissage, notamment la manière dont les poids seront ajustés via la rétropropagation. Le choix de l'optimiseur (ici, Adam) et la définition des hyperparamètres (comme le taux d'apprentissage et la taille du batch) influencent grandement la vitesse de convergence et la qualité finale du modèle.

In [None]:
# Compiler le modèle
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# Entraîner le modèle
history = model.fit(x_train, y_train, epochs=10, batch_size=64,
                    validation_split=0.2)

### Question 5

**Q5 :** Quels sont les effets d'un choix inadapté d'hyperparamètres (comme le taux d'apprentissage ou la taille du batch) sur l'entraînement d'un réseau de neurones ? Expliquez en quoi un optimiseur bien configuré est crucial pour la convergence du modèle.

_Répondez dans une nouvelle cellule Markdown._

### Reponse 5 :

Les hyperparamètres comme le taux d'apprentissage et la taille du batch influencent profondément l'entraînement des réseaux de neurones. Un taux trop élevé provoque une divergence des poids (la perte augmente au lieu de diminuer), tandis qu'un taux trop faible ralentit inutilement la convergence. De même, un batch trop petit génère des mises à jour bruyantes, alors qu'un batch trop grand réduit la capacité d'exploration de l'optimiseur. L'optimiseur lui-même, s'il est mal configuré, peut manquer des minima globaux ou osciller autour de solutions sous-optimales. Par exemple, Adam avec un taux mal calibré convergera rapidement vers un plateau médiocre. Ces réglages délicats exigent une compréhension fine des mécanismes d'optimisation : ils déterminent non seulement la vitesse d'apprentissage, mais aussi la qualité finale du modèle et sa capacité à généraliser sur des données inédites.

## Étape 6 : Évaluation du Modèle

Après l'entraînement, nous évaluons notre modèle sur le jeu de test afin de mesurer sa capacité de généralisation sur des données inédites. Les métriques telles que la perte et la précision nous aident à quantifier la performance globale du modèle.

### Explication Pratique
L'évaluation sur un jeu de test indépendant permet de détecter un éventuel surapprentissage (overfitting). Si le modèle présente une bonne performance sur l'entraînement mais une performance médiocre sur le test, cela indique qu'il n'a pas suffisamment généralisé, ce qui peut nécessiter des ajustements comme plus de régularisation ou des techniques d'augmentation de données.

In [None]:
# Évaluer le modèle sur le jeu de test
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=2)
print('Précision sur le jeu de test :', test_acc)

### Question  6

**Q6 :** Que nous indiquent la perte et la précision obtenues lors de l'évaluation sur le jeu de test ? Quels ajustements pourriez-vous envisager si vous observez un écart significatif entre les performances sur l'entraînement et le test ?

_Répondez dans une nouvelle cellule Markdown._

### Reponse 6 :


La perte et la précision sur le jeu de test indiquent respectivement l'erreur globale et le taux de prédictions correctes du modèle face à des données inédites. Un écart marqué entre les performances d'entraînement et de test signale généralement un surapprentissage : le modèle a mémorisé les spécificités du jeu d'entraînement au détriment de sa capacité à généraliser. Pour y remédier, plusieurs stratégies s'offrent au praticien. L'augmentation de données (par rotation, zoom ou ajustement de contraste) enrichit artificiellement la variété des exemples d'apprentissage. La régularisation via des techniques comme le Dropout ou des contraintes de poids (L1/L2) limite la complexité du modèle. Simplifier l'architecture (moins de couches/neurones) peut aussi réduire la surcapacité modélisatrice. L'early stopping interrompt l'entraînement dès que la performance sur le test se dégrade, préservant ainsi la généralisation. Enfin, un réglage minutieux des hyperparamètres (taux d'apprentissage, taille des batches) par validation croisée permet d'optimiser ce compromis flexibilité-robustesse. Ces ajustements concertés visent à aligner la capacité du modèle avec la complexité réelle des données.

## Étape 7 : Prédictions et Visualisation des Résultats

Nous allons utiliser le modèle entraîné pour prédire les classes des images du jeu de test. La visualisation des résultats nous permet de comparer les étiquettes prédites aux étiquettes réelles et d'identifier les erreurs potentielles.

### Explication Pratique
La visualisation aide à comprendre qualitativement comment le modèle se comporte face à différentes images. Cela permet d'identifier si certaines classes sont systématiquement mal prédites ou si le modèle confond certaines catégories, ouvrant ainsi la voie à des améliorations ultérieures (par exemple, via l'augmentation de données ou des ajustements de l'architecture).

In [None]:
# Faire des prédictions sur le jeu de test
predictions = model.predict(x_test)

# Fonction pour afficher l'image avec les étiquettes prédites et réelles
def afficher_image(i, predictions_array, etiquette_vraie, img):
    plt.grid(False)
    plt.xticks([])
    plt.yticks([])
    plt.imshow(img, cmap=plt.cm.binary)

    etiquette_predite = np.argmax(predictions_array)
    etiquette_vraie = np.argmax(etiquette_vraie)

    couleur = 'blue' if etiquette_predite == etiquette_vraie else 'red'
    plt.xlabel(f"Prédit : {noms_classes[etiquette_predite]} (Vrai : {noms_classes[etiquette_vraie]})", color=couleur)

# Afficher quelques images de test avec leurs prédictions
nb_lignes = 5
nb_colonnes = 3
nb_images = nb_lignes * nb_colonnes
plt.figure(figsize=(2 * nb_colonnes, 2 * nb_lignes))
for i in range(nb_images):
    plt.subplot(nb_lignes, nb_colonnes, i+1)
    afficher_image(i, predictions[i], y_test[i], x_test[i])
plt.tight_layout()
plt.show()

### Question 7

**Q7 :** Après avoir examiné les prédictions, identifiez et discutez des stratégies conceptuelles (par exemple, l'augmentation de données, le raffinement de l'architecture ou l'ajustement des hyperparamètres) qui pourraient améliorer la robustesse et la précision du modèle.

_Répondez dans une nouvelle cellule Markdown._

### Reponse 7 :


L'analyse des prédictions révèle souvent des axes d'amélioration pour renforcer la robustesse du modèle. Une première piste consiste à enrichir le jeu d'entraînement via **l'augmentation de données** (rotations, miroirs, variations de luminosité), forçant le modèle à apprendre des invariants visuels plutôt que des artefacts spécifiques. Parallèlement, **l'optimisation de l'architecture** (ajout de couches convolutives, ajustement des filtres, intégration de mécanismes d'attention) permet de mieux capturer les motifs hiérarchiques complexes. Enfin, **le réglage fin des hyperparamètres** (taux d'apprentissage adaptatif, stratégie de *batch size*, cycles de *learning rate*) affine la dynamique d'entraînement. Ces approches combinées, testées itérativement via des validations croisées, visent à équilibrer précision et généralisation, tout en adaptant le modèle aux spécificités du domaine applicatif.

## Étape 8 : Conclusion et Travaux Futurs

Dans ce notebook, nous avons :
- Configuré l'environnement et importé les bibliothèques nécessaires
- Chargé et prétraité le jeu de données CIFAR-10
- Exploré et visualisé les données
- Construit, compilé et entraîné un modèle CNN
- Évalué le modèle et visualisé ses prédictions

### Explication Pratique
Ce pipeline offre une approche complète, à la fois pratique et conceptuelle, pour la mise en œuvre d'un modèle de vision par ordinateur. Pour aller plus loin, vous pouvez explorer des architectures plus complexes, appliquer des techniques d'augmentation de données ou encore expérimenter avec différents optimisateurs afin de mieux comprendre l'impact de chacun sur la performance du modèle.