# D√©tails de l'√©tudiant
### Nom(s)  : RABEMANANTSIMBA
### Pr√©nom(s) :Onja Faneva Rinoh
### Classe :IGGLIA 4      
### Num : 34

# Vision par Ordinateur avec Keras/TensorFlow : Un Notebook Pratique et Conceptuel

Ce notebook a pour objectif de vous guider pas √† pas dans la cr√©ation et l'analyse d'un mod√®le de r√©seau de neurones convolutif (CNN) appliqu√© au jeu de donn√©es CIFAR-10. Chaque √©tape est accompagn√©e d'explications pratiques ainsi que de questions conceptuelles pour renforcer votre compr√©hension des enjeux th√©oriques et pratiques de la vision par ordinateur.

## √âtape 1 : Introduction et Configuration de l'Environnement

Dans cette √©tape, nous allons configurer notre environnement de travail et importer les biblioth√®ques indispensables pour le deep learning et la manipulation de donn√©es. Nous v√©rifions √©galement la version de TensorFlow pour nous assurer que tout fonctionne correctement.

### Explication Pratique
La bonne configuration de l'environnement est cruciale pour garantir la reproductibilit√© et la stabilit√© de vos exp√©riences. En particulier, les versions des biblioth√®ques peuvent influencer le comportement du mod√®le et sa performance, d'o√π l'importance de v√©rifier et documenter ces versions d√®s le d√©but.

In [None]:
# Importer les biblioth√®ques n√©cessaires
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, models
import numpy as np
import matplotlib.pyplot as plt

print('Version de TensorFlow :', tf.__version__)

Version de TensorFlow : 2.18.0


### Question  1

**Q1 :** Pourquoi est-il essentiel de v√©rifier la configuration de l'environnement (versions des biblioth√®ques, d√©pendances, etc.) avant de d√©velopper un mod√®le de deep learning ?

_R√©pondez dans une nouvelle cellule Markdown._

Explication :
Le deep learning repose sur des biblioth√®ques comme TensorFlow, Keras, NumPy, etc. Ces biblioth√®ques √©voluent constamment avec des mises √† jour qui peuvent :

Modifier certaines fonctionnalit√©s,

Introduire des incompatibilit√©s entre les versions,

Changer le comportement des mod√®les.

 Pourquoi c'est important ?

√âviter les erreurs : Une version incompatible peut emp√™cher le mod√®le de s‚Äôex√©cuter correctement.

Assurer la reproductibilit√© : Si une autre personne ex√©cute ton code avec une version diff√©rente, elle peut obtenir des r√©sultats totalement diff√©rents.



## √âtape 2 : Chargement et Pr√©traitement des Donn√©es

Nous allons charger le jeu de donn√©es CIFAR-10, compos√© de 60 000 images couleur r√©parties en 10 classes. Dans cette √©tape, nous normalisons les valeurs des pixels afin qu'elles soient comprises entre 0 et 1, et nous transformons les √©tiquettes en format one-hot pour faciliter le processus de classification.

### Explication Pratique
La normalisation aide √† stabiliser et acc√©l√©rer l'entra√Ænement du mod√®le en assurant que les valeurs d'entr√©e ont une √©chelle comparable. Le one-hot encoding √©vite que le mod√®le interpr√®te les √©tiquettes comme des valeurs num√©riques ordonn√©es, ce qui est essentiel pour les probl√®mes de classification multi-classes.

In [None]:
# Charger le jeu de donn√©es CIFAR-10
(x_train, y_train), (x_test, y_test) = keras.datasets.cifar10.load_data()

# Normaliser les valeurs des pixels (entre 0 et 1)
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0

# Convertir les vecteurs de classes en matrices binaires (one-hot encoding)
num_classes = 10
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

print("Forme des donn√©es d'entrainement :", x_train.shape)
print("Forme des √©tiquettes d'entra√Ænement :", y_train.shape)

### Question 2

**Q2 :** Expliquez comment la normalisation des pixels et le one-hot encoding des √©tiquettes contribuent chacun √† la stabilit√© et √† l'efficacit√© de l'entra√Ænement d'un mod√®le de deep learning.

_R√©pondez dans une nouvelle cellule Markdown._

Les images sont compos√©es de pixels avec des valeurs entre 0 et 255.
En divisant chaque pixel par 255, on les ram√®ne dans l‚Äôintervalle [0,1], ce qui facilite l‚Äôapprentissage du mod√®le.

--> Stabilise l'entra√Ænement : Les valeurs normalis√©es √©vitent des mises √† jour trop brusques des poids du r√©seau.

--> Acc√©l√®re la convergence : Le mod√®le apprend plus efficacement car les valeurs sont homog√®nes.

## √âtape 3 : Exploration et Visualisation des Donn√©es

Avant de construire le mod√®le, il est important d'explorer et de visualiser les donn√©es. Nous affichons ainsi un √©chantillon d'images du jeu de donn√©es pour mieux comprendre leur contenu et la distribution des classes.

### Explication Pratique
La visualisation des donn√©es permet d'identifier d'√©ventuelles anomalies, comme des classes sous-repr√©sent√©es ou des images bruit√©es, et de d√©cider si des techniques d'augmentation de donn√©es ou de pr√©traitement suppl√©mentaires sont n√©cessaires.

In [None]:
# Afficher quelques images du jeu de donn√©es d'entra√Ænement
noms_classes = ['avion', 'automobile', 'oiseau', 'chat', 'cerf',
               'chien', 'grenouille', 'cheval', 'navire', 'camion']

plt.figure(figsize=(10,10))
for i in range(25):
    plt.subplot(5,5,i+1)
    plt.xticks([])
    plt.yticks([])
    plt.grid(False)
    plt.imshow(x_train[i])
    plt.xlabel(noms_classes[y_train[i].argmax()])
plt.show()

### Question 3

**Q3 :** D'apr√®s la visualisation, discutez de l'impact potentiel d'une distribution in√©gale des classes ou de la pr√©sence d'images de mauvaise qualit√© sur la performance d'un mod√®le de classification. Quelles strat√©gies pourraient √™tre mises en place pour pallier ces probl√®mes ?

_R√©pondez dans une nouvelle cellule Markdown._

1. Distribution in√©gale des classes (D√©s√©quilibre des donn√©es)
Si certaines classes ont beaucoup plus d'exemples que d'autres, le mod√®le aura tendance √† privil√©gier les classes majoritaires, ce qui nuit aux performances.

 CONSEQUENCES :

Mauvaise reconnaissance des classes sous-repr√©sent√©es.

Mauvaise g√©n√©ralisation aux nouvelles donn√©es.

--> Solutions :

Sur-√©chantillonnage : Ajouter des images artificielles des classes minoritaires.

Sous-√©chantillonnage : R√©duire le nombre d‚Äôimages des classes majoritaires.

Pond√©ration des classes dans la fonction de perte.

2. Images de mauvaise qualit√©
Les images floues, bruit√©es ou mal expos√©es peuvent fausser l‚Äôapprentissage.

 CONSEQUENCES :

Le mod√®le apprend des informations erron√©es.

Les performances sont d√©grad√©es.

--> Solutions :

Nettoyage des donn√©es : Supprimer ou am√©liorer les images de mauvaise qualit√©.

Augmentation de donn√©es : Rotation, zoom, bruit al√©atoire pour rendre le mod√®le plus robuste.

## √âtape 4 : Construction du Mod√®le CNN

Nous allons construire un r√©seau de neurones convolutif (CNN) pour extraire des caract√©ristiques hi√©rarchiques des images. Ce mod√®le se compose de plusieurs blocs de convolution suivis de couches de pooling et se termine par des couches enti√®rement connect√©es pour la classification.

### Explication Pratique
Les couches de convolution permettent au mod√®le de d√©tecter des motifs locaux (comme les contours ou les textures), tandis que les couches de pooling r√©duisent la dimensionnalit√©, ce qui diminue la charge computationnelle et aide √† rendre le mod√®le plus robuste aux translations. Le dropout, quant √† lui, est une technique de r√©gularisation qui aide √† pr√©venir le surapprentissage en d√©sactivant al√©atoirement certains neurones pendant l'entra√Ænement.

In [None]:
# Construire le mod√®le CNN
model = models.Sequential()

# Bloc de convolution 1 : 32 filtres, taille 3x3, activation ReLU
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=x_train.shape[1:]))
model.add(layers.MaxPooling2D((2, 2)))

# Bloc de convolution 2 : 64 filtres
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))

# Bloc de convolution 3 : 64 filtres
model.add(layers.Conv2D(64, (3, 3), activation='relu'))

# Aplatir les sorties et ajouter des couches enti√®rement connect√©es
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(num_classes, activation='softmax'))

model.summary()

### Question 4

**Q4 :** D√©crivez le r√¥le de chaque composant du CNN (couches de convolution, pooling et dropout) et expliquez comment ils interagissent pour permettre au mod√®le d'extraire des caract√©ristiques pertinentes des images.

_R√©pondez dans une nouvelle cellule Markdown._

-->Couches de convolution

Elles appliquent des filtres (ou kernels) pour d√©tecter des motifs comme des bords, textures ou formes.

Chaque filtre glisse sur l‚Äôimage et extrait des caract√©ristiques locales.

Plus il y a de couches, plus le mod√®le d√©tecte des motifs complexes (ex : 1√®re couche ‚Üí bords, 2e couche ‚Üí formes, 3e couche ‚Üí objets).

-->Couches de pooling (MaxPooling, AveragePooling)

Elles r√©duisent la taille des matrices de caract√©ristiques, ce qui :

Diminue le nombre de param√®tres ‚Üí mod√®le plus rapide.

Garde les informations importantes tout en supprimant du bruit.

Exemple : MaxPooling prend la valeur maximale d‚Äôune r√©gion de pixels (ex: une matrice 2x2 devient un seul pixel, avec la valeur max).

-->Couches de Dropout

Elles d√©sactivent al√©atoirement un certain pourcentage de neurones pendant l‚Äôentra√Ænement.

Cela emp√™che le mod√®le de m√©moriser trop fortement les donn√©es d‚Äôentra√Ænement (√©vite l‚Äôoverfitting).

COMMENT CES COUCHES INTERAGISSENT ?

Les couches de convolution extraient les caract√©ristiques visuelles.

Les couches de pooling r√©duisent la dimension et conservent les informations cl√©s.

Le dropout emp√™che le mod√®le de trop s‚Äôadapter aux donn√©es d‚Äôentra√Ænement et le rend plus g√©n√©ralisable aux nouvelles images.

## √âtape 5 : Compilation et Entra√Ænement du Mod√®le

Nous allons maintenant compiler le mod√®le en choisissant un optimiseur, une fonction de perte ainsi que des m√©triques d'√©valuation. Ensuite, nous entra√Ænons le mod√®le sur les donn√©es d'entra√Ænement en r√©servant une partie des donn√©es pour la validation.

### Explication Pratique
La compilation configure le processus d'apprentissage, notamment la mani√®re dont les poids seront ajust√©s via la r√©tropropagation. Le choix de l'optimiseur (ici, Adam) et la d√©finition des hyperparam√®tres (comme le taux d'apprentissage et la taille du batch) influencent grandement la vitesse de convergence et la qualit√© finale du mod√®le.

In [None]:
# Compiler le mod√®le
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# Entra√Æner le mod√®le
history = model.fit(x_train, y_train, epochs=10, batch_size=64,
                    validation_split=0.2)

### Question 5

**Q5 :** Quels sont les effets d'un choix inadapt√© d'hyperparam√®tres (comme le taux d'apprentissage ou la taille du batch) sur l'entra√Ænement d'un r√©seau de neurones ? Expliquez en quoi un optimiseur bien configur√© est crucial pour la convergence du mod√®le.

_R√©pondez dans une nouvelle cellule Markdown._



-->Un taux d‚Äôapprentissage trop √©lev√© peut entra√Æner une divergence du mod√®le, le faisant osciller sans converger.

-->Un taux d‚Äôapprentissage trop faible peut ralentir l'entra√Ænement et emp√™cher le mod√®le d'atteindre un bon minimum.

-->Une taille de batch trop grande peut exiger trop de m√©moire et moyenner les gradients, ce qui peut emp√™cher d‚Äôapprendre des variations subtiles.

-->Une taille de batch trop petite peut causer des mises √† jour instables des poids du r√©seau.

ROLE DE l'OPTIMISEUR:
Un bon optimiseur (comme Adam, RMSprop ou SGD) aide le mod√®le √† trouver efficacement le minimum de la fonction de perte, assurant une convergence stable et rapide.

## √âtape 6 : √âvaluation du Mod√®le

Apr√®s l'entra√Ænement, nous √©valuons notre mod√®le sur le jeu de test afin de mesurer sa capacit√© de g√©n√©ralisation sur des donn√©es in√©dites. Les m√©triques telles que la perte et la pr√©cision nous aident √† quantifier la performance globale du mod√®le.

### Explication Pratique
L'√©valuation sur un jeu de test ind√©pendant permet de d√©tecter un √©ventuel surapprentissage (overfitting). Si le mod√®le pr√©sente une bonne performance sur l'entra√Ænement mais une performance m√©diocre sur le test, cela indique qu'il n'a pas suffisamment g√©n√©ralis√©, ce qui peut n√©cessiter des ajustements comme plus de r√©gularisation ou des techniques d'augmentation de donn√©es.

In [None]:
# √âvaluer le mod√®le sur le jeu de test
test_loss, test_acc = model.evaluate(x_test, y_test, verbose=2)
print('Pr√©cision sur le jeu de test :', test_acc)

### Question  6

**Q6 :** Que nous indiquent la perte et la pr√©cision obtenues lors de l'√©valuation sur le jeu de test ? Quels ajustements pourriez-vous envisager si vous observez un √©cart significatif entre les performances sur l'entra√Ænement et le test ?

_R√©pondez dans une nouvelle cellule Markdown._



Une perte et une pr√©cision √©lev√©es sur l'entra√Ænement, mais faibles sur le test  Overfitting (sur-apprentissage).

Une perte √©lev√©e √† la fois sur l'entra√Ænement et le test ‚Üí Underfitting (mod√®le trop simple, qui n'apprend pas bien).

AJUSTEMENT POSSIBLES :

-->Si overfitting :

Ajouter du dropout pour √©viter la d√©pendance excessive √† certaines caract√©ristiques.

R√©duire la complexit√© du mod√®le (moins de couches ou de neurones).

Augmenter les donn√©es d‚Äôentra√Ænement (data augmentation).

-->Si underfitting :

Utiliser un mod√®le plus complexe (plus de couches, plus de neurones).

Entra√Æner plus longtemps.

Changer l‚Äôoptimiseur ou le taux d‚Äôapprentissage.



## √âtape 7 : Pr√©dictions et Visualisation des R√©sultats

Nous allons utiliser le mod√®le entra√Æn√© pour pr√©dire les classes des images du jeu de test. La visualisation des r√©sultats nous permet de comparer les √©tiquettes pr√©dites aux √©tiquettes r√©elles et d'identifier les erreurs potentielles.

### Explication Pratique
La visualisation aide √† comprendre qualitativement comment le mod√®le se comporte face √† diff√©rentes images. Cela permet d'identifier si certaines classes sont syst√©matiquement mal pr√©dites ou si le mod√®le confond certaines cat√©gories, ouvrant ainsi la voie √† des am√©liorations ult√©rieures (par exemple, via l'augmentation de donn√©es ou des ajustements de l'architecture).

In [1]:
# Faire des pr√©dictions sur le jeu de test
predictions = model.predict(x_test)

# Fonction pour afficher l'image avec les √©tiquettes pr√©dites et r√©elles
def afficher_image(i, predictions_array, etiquette_vraie, img):
    plt.grid(False)
    plt.xticks([])
    plt.yticks([])
    plt.imshow(img, cmap=plt.cm.binary)

    etiquette_predite = np.argmax(predictions_array)
    etiquette_vraie = np.argmax(etiquette_vraie)

    couleur = 'blue' if etiquette_predite == etiquette_vraie else 'red'
    plt.xlabel(f"Pr√©dit : {noms_classes[etiquette_predite]} (Vrai : {noms_classes[etiquette_vraie]})", color=couleur)

# Afficher quelques images de test avec leurs pr√©dictions
nb_lignes = 5
nb_colonnes = 3
nb_images = nb_lignes * nb_colonnes
plt.figure(figsize=(2 * nb_colonnes, 2 * nb_lignes))
for i in range(nb_images):
    plt.subplot(nb_lignes, nb_colonnes, i+1)
    afficher_image(i, predictions[i], y_test[i], x_test[i])
plt.tight_layout()
plt.show()

NameError: name 'model' is not defined

### Question 7

**Q7 :** Apr√®s avoir examin√© les pr√©dictions, identifiez et discutez des strat√©gies conceptuelles (par exemple, l'augmentation de donn√©es, le raffinement de l'architecture ou l'ajustement des hyperparam√®tres) qui pourraient am√©liorer la robustesse et la pr√©cision du mod√®le.

_R√©pondez dans une nouvelle cellule Markdown._

Pour am√©liorer la robustesse et la pr√©cision du mod√®le apr√®s analyse des pr√©dictions, il est possible d‚Äôexplorer plusieurs strat√©gies :

--> L‚Äôaugmentation de donn√©es permet d‚Äôam√©liorer la g√©n√©ralisation.

--> Le raffinement de l‚Äôarchitecture optimise la capacit√© d‚Äôapprentissage.

--> L‚Äôajustement des hyperparam√®tres stabilise et acc√©l√®re l‚Äôapprentissage.

--> Le Transfer Learning permet d‚Äôexploiter des mod√®les puissants d√©j√† entra√Æn√©s.

--> La r√©duction du sur-apprentissage garantit une meilleure adaptation aux nouvelles donn√©es.

En combinant ces diff√©rentes approches, on peut obtenir un mod√®le plus performant, plus fiable et mieux adapt√© aux d√©fis du monde r√©el. üöÄ

## √âtape 8 : Conclusion et Travaux Futurs

Dans ce notebook, nous avons :
- Configur√© l'environnement et import√© les biblioth√®ques n√©cessaires
- Charg√© et pr√©trait√© le jeu de donn√©es CIFAR-10
- Explor√© et visualis√© les donn√©es
- Construit, compil√© et entra√Æn√© un mod√®le CNN
- √âvalu√© le mod√®le et visualis√© ses pr√©dictions

### Explication Pratique
Ce pipeline offre une approche compl√®te, √† la fois pratique et conceptuelle, pour la mise en ≈ìuvre d'un mod√®le de vision par ordinateur. Pour aller plus loin, vous pouvez explorer des architectures plus complexes, appliquer des techniques d'augmentation de donn√©es ou encore exp√©rimenter avec diff√©rents optimisateurs afin de mieux comprendre l'impact de chacun sur la performance du mod√®le.