# Data augmentation et division des données

Une fois les images prises, il s'agit de diversifier le dataset par la data augmentation, pour créer des variations d'images. Ensuite, les images seront séparées entre données d'entraînement et de test et enregistrées dans un nouveau dossier.

Importer les modules nécessaires :

In [1]:
import os
from pathlib import Path

from keras.preprocessing.image import ImageDataGenerator, array_to_img, img_to_array, load_img

import shutil
import random

Identifier le dossier d'importation :

In [2]:
entries = os.listdir('gesture//')

Créer le dossier de réception s'il n'existe pas :

In [3]:
Path("data//train").mkdir(parents=True, exist_ok=True)

In [4]:
Path("data//test").mkdir(parents=True, exist_ok=True)

Définir les paramètres de data augmentation :

In [5]:
datagen = ImageDataGenerator(
        #Rotation
        rotation_range=20,
        #Déplacement latéral et vertical
        width_shift_range=0.1,
        height_shift_range=0.1,
        #Luminosité
        brightness_range=[0.3, 2],
        #Zoom
        shear_range=0.1,
        zoom_range=0.3,
        #Pivotage gauche/droite
        horizontal_flip=True,
        #Mode de remplissage des bords
        fill_mode='nearest')

Appliquer la data augmentation puis enregistrer et séparér les fichiers :

In [6]:
#Itérer sur les dossiers d'images
for entry in entries:
    folder = 'gesture//' + entry + '//'
    #Créer les dossiers de réception
    Path("data//train//" + entry).mkdir(parents=True, exist_ok=True)
    Path("data//test//" + entry).mkdir(parents=True, exist_ok=True)
    
    #Itérer sur les images
    for pic in os.listdir(folder):
        #Obtenir le nom de fichier
        filename = folder + pic
        #Copier le fichier dans train
        shutil.copyfile(filename, 'data//train//' + entry + "//" + pic)
        
        filename1 = os.path.splitext(filename)[0]
        filename1 = list(filename1.split("//"))[-1]
        print(filename1)
        
        #Obtenir l'image et la convertir en array
        img = load_img(filename)
        x = img_to_array(img)
        x = x.reshape((1,) + x.shape)
        #Appliquer la data augmentation x9 (pour un total de x10 avec les fichiers originaux) et sauvegarder dans data/train
        i = 0
        for batch in datagen.flow(x, batch_size=1,
                                  save_to_dir='data//train//' + entry, save_prefix=filename1, save_format='jpg'):
            i += 1
            if i > 8:
                break
         
    #Calcul du nombre de fichiers
    count = len(os.listdir('data//train//' + entry))
    print(count, "files")
    
    #Créer un array booléen aléatoire
    zeros_list = [0] * int(count * 0.8)
    ones_list= [1] * int(count * 0.2)
    boolean_list = zeros_list + ones_list
    while len(boolean_list) < count:
        boolean_list.append(0)
    random.shuffle(boolean_list)
    
    filename_list = []
    #Itérer sur les fichiers
    for i in range(count):
        #Vérifier si la liste booléenne s'arrête sur un 1
        if boolean_list[i] == 1:
            #Bouger le fichier
            filename = os.listdir('data//train//' + entry)[i]
            filename_list.append(filename)
            
    for filename in filename_list:        
        shutil.move('data//train//' + entry + "//" + filename, 'data//test//' + entry + "//" + filename)

A0
A10
A100
A15
A20
A25
A30
A35
A40
A45
A5
A50
A55
A60
A65
A70
A75
A80
A85
A90
A95
210 files
B0
B10
B100
B15
B20
B25
B30
B35
B40
B45
B5
B50
B55
B60
B65
B70
B75
B80
B85
B90
B95
210 files
C0
C10
C100
C15
C20
C25
C30
C35
C40
C45
C5
C50
C55
C60
C65
C70
C75
C80
C85
C90
C95
210 files
D0
D10
D100
D15
D20
D25
D30
D35
D40
D45
D5
D50
D55
D60
D65
D70
D75
D80
D85
D90
D95
210 files
E0
E10
E100
E15
E20
E25
E30
E35
E40
E45
E5
E50
E55
E60
E65
E70
E75
E80
E85
E90
E95
210 files
F0
F10
F100
F15
F20
F25
F30
F35
F40
F45
F5
F50
F55
F60
F65
F70
F75
F80
F85
F90
F95
210 files
G0
G10
G100
G15
G20
G25
G30
G35
G40
G45
G5
G50
G55
G60
G65
G70
G75
G80
G85
G90
G95
210 files
H0
H10
H100
H15
H20
H25
H30
H35
H40
H45
H5
H50
H55
H60
H65
H70
H75
H80
H85
H90
H95
210 files
I0
I10
I100
I15
I20
I25
I30
I35
I40
I45
I5
I50
I55
I60
I65
I70
I75
I80
I85
I90
I95
210 files
J0
J10
J100
J15
J20
J25
J30
J35
J40
J45
J5
J50
J55
J60
J65
J70
J75
J80
J85
J90
J95
209 files
K0
K10
K100
K15
K20
K25
K30
K35
K40
K45
K5
K50
K55
K60
K65
K70
K75
K80