# II) Classification et explication des données

## 1) Classification des données

Nous allons maintenant utiliser les données pour faire de la classification et de l'explication. Nous allons utiliser les données de la base de données Image Net qui contient des images de différents animaux.

Pour réaliser cette tâche, nous allons utiliser une ensemble d'image issue de la base de données Image Net. Nous allons utiliser les images de 6 classes différentes. Pour chaque classe, nous avons 99% images d'entrainement et 1% images de test. Les classes sont les suivantes :

- n02114367 (loup)
- n01484850 (requin)
- n01614925 (aigle)
- n02133161 (ours)
- n01537544 (passerin indigo)
- n01443537 (poisson rouge)

Nous allons utiliser les images d'entrainement pour entrainer un modèle de classification et les images de test pour évaluer la performance du modèle. Nous allons ensuite utiliser les images de test pour expliquer les prédictions du modèle.

Nous allons diviser notre travail différentes parties :

1) Récupérer les données sur Kaggle et sélectionner les images des classes qui nous intéressent (https://www.kaggle.com/c/imagenet-object-localization-challenge)
2) Traiter les données, cela implique de les diviser en classe égale et de les redimensionner, pour ce faire, nous pourrons utiliser des bibliothèques comme OpenCV ou Pillow
3) Diviser les données en données d'entrainement et données de test
4) Le choix du modèle de classification : nous utiliserons des modèles couramment utilisés pour la classification d'images incluent les réseaux de neurones convolutionnels (CNN), qui ont obtenu de bons résultats dans de nombreux domaines.
5) Entrainer un modèle de classification, pour ce faire, nous pourrons utiliser des bibliothèques comme Keras ou PyTorch ou TensorFlow
6) Évaluer la performance du modèle sur les données de test, et obtenir l'accuarcy du modèle
7) Utiliser les images de test pour expliquer les prédictions du modèle, pour ce faire, nous pourrons utiliser des bibliothèques comme LIME ou SHAP


In [5]:
# Importer les bibliothèques nécessaires
import os
import shutil
from PIL import Image

Nous listons l'ensemble des noms de dossiers, où se trouvent les images qui nous intéressent.

In [6]:
# Définir les classes qui nous intéressent
classes_names = {'n02114367': 'loup', 'n01484850': 'requin', 'n01614925': 'aigle', 'n02133161': 'ours',
                 'n01537544': 'passerin indigo', 'n01443537': 'poisson rouge'}
classes = list(classes_names.keys())

# Définir le chemin vers les données
data_path = './ILSVRC/Data/CLS-LOC/train'

Création du dossier `data` pour stocker les images.

In [7]:
# Créer un dossier pour stocker les images des classes qui nous intéressent
os.makedirs('./data', exist_ok=True)
for c in classes:
    os.makedirs('./data/' + c, exist_ok=True)

Nous récupérons seulement les images des dossiers que nous enregistrons dans `./data/id_dossier_animal`.

In [8]:
from PIL import UnidentifiedImageError

# Copier 1200 images par classes qui nous intéressent dans le dossier que nous venons de créer

taille_data = 1200
inv = 0
for c in classes:
    files = os.listdir(os.path.join(data_path, c))
    for f in files[:taille_data]:
        # Vérifier si le fichier est un fichier d'image valide
        try:
            im = Image.open(os.path.join(data_path, c, f))
            im.verify()
            shutil.copy(os.path.join(data_path, c, f), os.path.join('./data', c, f))
            im = Image.open(os.path.join('./data', c, f))
            im.save(os.path.join('./data', c, f))
        except (IOError, SyntaxError, UnidentifiedImageError) as e:
            inv += 1
            print("Nombre d'images invalides:", inv, end="\r")

Nombre d'images invalides: 5

Nous divisons notre dataset à 95% (au lieu de 99% pour avoir une évaluation plus précise) donc 95% des images chaque dossier (tiré aléatoirement) sont mise dans le fichier `./data/train` et 5% dans `./data/test`.

In [9]:
# Diviser les données en données d'entrainement et données de test
# Nous allons utiliser 95% des données pour l'entrainement et 5% pour le test
# Nous allons stocker les données d'entrainement dans un dossier train et les données de test dans un dossier test

# Créer les dossiers train et test
for c in classes:
    os.makedirs('./data/train/' + c, exist_ok=True)
    os.makedirs('./data/test/' + c, exist_ok=True)

pourcentage_train = 0.95

os.makedirs('./data/train', exist_ok=True)
os.makedirs('./data/test', exist_ok=True)

for c in classes:
    files = os.listdir(os.path.join('./data', c))
    for f in files[:round(pourcentage_train * len(files)) - 1]:
        shutil.copy(os.path.join('./data', c, f), os.path.join('./data/train', c, f))
    for f in files[round(pourcentage_train * len(files)) - 1:]:
        shutil.copy(os.path.join('./data', c, f), os.path.join('./data/test', c, f))

Nous venons de mettre l'ensemble des images dans les bons dossiers, ceux pour l'entrainement et ceux pour l'évaluation.
Maintenant entrainons notre modèle [2-2_cnn_model](./2-2_cnn_model.ipynb).