# Classification d'images - Modèle VGG16 

# Introduction

Nous avons dans une première partie essayer de classifier nos images de chiens en fonction de leurs races en utilisant les méthodes conventionnels de traitement d'images et de clustering non supervisé. 

Nous allons maintenant utiliser des méthodes de deep learning. Nous n'allons pas entrainer tous le réseaux de neurones mais allons utiliser un réseaux de neurones pré-entrainer: le VGG-16. Ce réseau de neurones a été entrainé sur différents types d'images via des couches de convolutions et des couches de classifications classiques.

# Prétraitement des données

Nous allons tout d'abord simplement entrainer nos données avec 10 classes de chiens ce qui nous donnera une assez bonne vue du fonctionnement de nos algorihtmes. Nous allons ensuite testés nos résultats avec plus de classes pour observer les résultats finaux.


In [1]:
from keras.applications.vgg16 import VGG16
from keras.layers import Dense, Flatten, Dropout
from keras.models import Sequential, Model
import os
import numpy as np
from sklearn.cross_validation import train_test_split
from keras import optimizers
from keras.preprocessing.image import load_img, img_to_array
from keras.applications.vgg16 import preprocess_input
from keras.callbacks import EarlyStopping, ModelCheckpoint
from sklearn.metrics import accuracy_score


  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


In [25]:

directory = r'C:\Users\zakis\Documents\OpenClassroom\Projet 7\Images'
n_class = 10#♣len(os.listdir(directory))

nb_photos = 1000
Y = []
X = []
for i in range(0, n_class):#len(os.listdir(directory))):
    folder = directory + '\\' + os.listdir(directory)[i]
    nb = min(nb_photos, len(os.listdir(folder)))
    for j in range(0, nb):
        file = os.listdir(folder)[j]
        img = folder + '\\' + file
        img = load_img(img, target_size=(128, 128))  # Charger l'image
        img = img_to_array(img)  # Convertir en tableau numpy
        img = img.reshape((1, img.shape[0], img.shape[1], img.shape[2]))  # Créer la collection d'images (un seul échantillon)
        img = preprocess_input(img)  # Prétraiter l'image comme le veut VGG-16
        y = np.zeros((n_class,1))
        y[i] = 1
        if len(X) == 0:
            X = img
        else:
            X = np.concatenate([X, img])
        Y.append(y)

X = np.array(X)
Y = np.array(Y).reshape((len(Y),n_class))

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)


# VGG-16 - customisation basique

Nous allons tout d'abord essayer d'entrainer notre réseaux de neurones en enlevant les couches de classifications relatives du réseaux vgg16 et en les remplaçant par une classification que nous allons entrainer à dix classes.

In [7]:
side_length = 128
vgg16_base = VGG16(include_top=False, 
                   weights='imagenet', 
                   input_shape=(side_length, side_length, 3))

model = Sequential()
model.add(vgg16_base)
model.add(Flatten())
model.add(Dense(10, activation='softmax'))

vgg16_base.trainable = False
model.compile(optimizer=optimizers.Adam(lr=1e-4), 
              loss='categorical_crossentropy', 
              metrics=['acc'])

callbacks = [
    EarlyStopping(patience=5),
    ModelCheckpoint('vgg16_simple.h5', save_best_only=True),
]

history = model.fit(x=X_train, y=y_train,  
                    validation_data=(X_test, y_test), 
                    batch_size=32, epochs=100, callbacks=callbacks)

Train on 1535 samples, validate on 384 samples
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100


Nous avons ici utilisé le modèle vgg16:

In [10]:
vgg16_base.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_6 (InputLayer)         (None, 128, 128, 3)       0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 128, 128, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 128, 128, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 64, 64, 64)        0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 64, 64, 128)       73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 64, 64, 128)       147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 32, 32, 128)       0         
__________

Associé avec un classifieur qui nous donne le modèle suivant:

In [11]:
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
vgg16 (Model)                (None, 4, 4, 512)         14714688  
_________________________________________________________________
flatten_4 (Flatten)          (None, 8192)              0         
_________________________________________________________________
dense_4 (Dense)              (None, 2048)              16779264  
_________________________________________________________________
dropout_1 (Dropout)          (None, 2048)              0         
_________________________________________________________________
dense_5 (Dense)              (None, 10)                20490     
Total params: 31,514,442
Trainable params: 16,799,754
Non-trainable params: 14,714,688
_________________________________________________________________


On a vu que nos résultats très améliorés par rapport aux résultats avec les méthodes classiques de classification. On a un score (accuracy) de 67%. Nous allons essayer d'améliorer nos résultats en rajoutant une couche de classification à celle déjà existante.

In [8]:
side_length = 128
vgg16_base = VGG16(include_top=False, 
                   weights='imagenet', 
                   input_shape=(side_length, side_length, 3))

model = Sequential()
model.add(vgg16_base)
model.add(Flatten())
model.add(Dense(2048, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='softmax'))

vgg16_base.trainable = False
model.compile(optimizer=optimizers.Adam(lr=1e-4), 
              loss='categorical_crossentropy', 
              metrics=['acc'])

callbacks = [
    EarlyStopping(patience=5),
    ModelCheckpoint('vgg16_simple.h5', save_best_only=True),
]

history = model.fit(x=X_train, y=y_train,  
                    validation_data=(X_test, y_test), 
                    batch_size=32, epochs=100, callbacks=callbacks)

Train on 1535 samples, validate on 384 samples
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100


Nous voyons que les résultats sont encore améliorés et permettent d'atteindre un score de 76% de prédictions correctes. 

Nous avons donc bien classifier nos 10 classes de chiens. Nous allons encore essayer d'améliorer nos résultats en entrainant cette fois les dernières couches de convolutions. Celles-ci correspondent aux détails de l'image assez larges comme la forme des oreilles ou des yeux. En entrainant ces couches on espère avoir des résultats encore meilleurs.

In [12]:
side_length = 128
vgg16_base = VGG16(include_top=False, 
                   weights='imagenet', 
                   input_shape=(side_length, side_length, 3))

model = Sequential()
model.add(vgg16_base)
model.add(Flatten())
model.add(Dense(2048, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='softmax'))

vgg16_base.trainable = True
set_trainable = False
for layer in vgg16_base.layers:
    if layer.name == 'block5_conv1':
        set_trainable = True
    layer.trainable = set_trainable
    
model.compile(optimizer=optimizers.Adam(lr=1e-4), 
              loss='categorical_crossentropy', 
              metrics=['acc'])

callbacks = [
    EarlyStopping(patience=5),
    ModelCheckpoint('vgg16_simple.h5', save_best_only=True),
]

history = model.fit(x=X_train, y=y_train,  
                    validation_data=(X_test, y_test), 
                    batch_size=32, epochs=100, callbacks=callbacks)

Train on 1535 samples, validate on 384 samples
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100


On avons entrainer notre algorithme avec toutes les couches de convoutions pré entrainer du reseaux vgg16 et avons entrainer les dernières couches.

Chaque couche de convolutions correspond aux détails de plus en plus complexes que l'on a pu trouver dans les images. Nous allons retirer la dernière couche de convolution du réseaux vg16 et entrainer l'avant dernière couche de convolution de tels sortes que l'on enlève un peu de la complexité des détails trouver par le réseaux vgg16. 

In [5]:
side_length = 128
vgg16_base = VGG16(include_top=False, 
                   weights='imagenet', 
                   input_shape=(side_length, side_length, 3))

model = Sequential()
model.add(vgg16_base)
model.add(Flatten())
model.add(Dense(2048, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='softmax'))

vgg16_base.trainable = True
set_trainable = False
for layer in vgg16_base.layers:
    if layer.name == 'block4_conv1':
        set_trainable = True
    layer.trainable = set_trainable
    
for layer in vgg16_base.layers[-4:-1]:
    vgg16_base.layers.remove(layer)

In [7]:
vgg16_base.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_2 (InputLayer)         (None, 128, 128, 3)       0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 128, 128, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 128, 128, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 64, 64, 64)        0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 64, 64, 128)       73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 64, 64, 128)       147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 32, 32, 128)       0         
__________

In [8]:
model.compile(optimizer=optimizers.Adam(lr=1e-4), 
              loss='categorical_crossentropy', 
              metrics=['acc'])

callbacks = [
    EarlyStopping(patience=5),
    ModelCheckpoint('vgg16_simple.h5', save_best_only=True),
]

history = model.fit(x=X_train, y=y_train,  
                    validation_data=(X_test, y_test), 
                    batch_size=32, epochs=100, callbacks=callbacks)

Train on 1535 samples, validate on 384 samples
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100


In [10]:
side_length = 128
vgg16_base = VGG16(include_top=False, 
                   weights='imagenet', 
                   input_shape=(side_length, side_length, 3))

model = Sequential()
model.add(vgg16_base)
model.add(Flatten())
model.add(Dense(2048, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='softmax'))

vgg16_base.trainable = True
set_trainable = False
for layer in vgg16_base.layers:
    if layer.name == 'block3_conv1':
        set_trainable = True
    layer.trainable = set_trainable
    
for layer in vgg16_base.layers[-4:-1]:
    vgg16_base.layers.remove(layer)
for layer in vgg16_base.layers[-5:-2]:
    vgg16_base.layers.remove(layer)

In [11]:
vgg16_base.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_4 (InputLayer)         (None, 128, 128, 3)       0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 128, 128, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 128, 128, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 64, 64, 64)        0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 64, 64, 128)       73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 64, 64, 128)       147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 32, 32, 128)       0         
__________

In [12]:
model.compile(optimizer=optimizers.Adam(lr=1e-4), 
              loss='categorical_crossentropy', 
              metrics=['acc'])

callbacks = [
    EarlyStopping(patience=5),
    ModelCheckpoint('vgg16_simple.h5', save_best_only=True),
]

history = model.fit(x=X_train, y=y_train,  
                    validation_data=(X_test, y_test), 
                    batch_size=32, epochs=100, callbacks=callbacks)

Train on 1535 samples, validate on 384 samples
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100


In [13]:
side_length = 128
vgg16_base = VGG16(include_top=False, 
                   weights='imagenet', 
                   input_shape=(side_length, side_length, 3))

model = Sequential()
model.add(vgg16_base)
model.add(Flatten())
model.add(Dense(2048, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='softmax'))

vgg16_base.trainable = True
set_trainable = False
for layer in vgg16_base.layers:
    if layer.name == 'block2_conv1':
        set_trainable = True
    layer.trainable = set_trainable
    
for layer in vgg16_base.layers[-4:-1]:
    vgg16_base.layers.remove(layer)
for layer in vgg16_base.layers[-5:-2]:
    vgg16_base.layers.remove(layer)
for layer in vgg16_base.layers[-6:-3]:
    vgg16_base.layers.remove(layer)

In [14]:
vgg16_base.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_5 (InputLayer)         (None, 128, 128, 3)       0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 128, 128, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 128, 128, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 64, 64, 64)        0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 64, 64, 128)       73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 64, 64, 128)       147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 32, 32, 128)       0         
__________

In [15]:
model.compile(optimizer=optimizers.Adam(lr=1e-4), 
              loss='categorical_crossentropy', 
              metrics=['acc'])

callbacks = [
    EarlyStopping(patience=5),
    ModelCheckpoint('vgg16_simple.h5', save_best_only=True),
]

history = model.fit(x=X_train, y=y_train,  
                    validation_data=(X_test, y_test), 
                    batch_size=32, epochs=100, callbacks=callbacks)

Train on 1535 samples, validate on 384 samples
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100


On est arrivé à une valeur du montant accuracy à 58% ce qui nous indique que le modèle le plus performant est celui qui prend 3 couches de convolutions: 2 couches préentrainées et une couche entrainé via nos données. 

On peut maintenant tester avec plus de races de chiens les résultats. Malheureusement, on ne va aller au delà de 25 races pour des raisons de temps de calculs et de mémoires trop faibles.

In [16]:

directory = r'C:\Users\zakis\Documents\OpenClassroom\Projet 7\Images'
n_class = 25#♣len(os.listdir(directory))

nb_photos = 1000
Y = []
X = []
for i in range(0, n_class):#len(os.listdir(directory))):
    folder = directory + '\\' + os.listdir(directory)[i]
    nb = min(nb_photos, len(os.listdir(folder)))
    for j in range(0, nb):
        file = os.listdir(folder)[j]
        img = folder + '\\' + file
        img = load_img(img, target_size=(128, 128))  # Charger l'image
        img = img_to_array(img)  # Convertir en tableau numpy
        img = img.reshape((1, img.shape[0], img.shape[1], img.shape[2]))  # Créer la collection d'images (un seul échantillon)
        img = preprocess_input(img)  # Prétraiter l'image comme le veut VGG-16
        y = np.zeros((n_class,1))
        y[i] = 1
        if len(X) == 0:
            X = img
        else:
            X = np.concatenate([X, img])
        Y.append(y)

X = np.array(X)
Y = np.array(Y).reshape((len(Y),n_class))

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)

In [24]:
side_length = 128
vgg16_base = VGG16(include_top=False, 
                   weights='imagenet', 
                   input_shape=(side_length, side_length, 3))

model = Sequential()
model.add(vgg16_base)
model.add(Flatten())
model.add(Dense(2048, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(25, activation='softmax'))

vgg16_base.trainable = True
set_trainable = False
for layer in vgg16_base.layers:
    if layer.name == 'block5_conv1':
        set_trainable = True
    layer.trainable = set_trainable
    
model.compile(optimizer=optimizers.Adam(lr=1e-4), 
              loss='categorical_crossentropy', 
              metrics=['acc'])

callbacks = [
    EarlyStopping(patience=5),
    ModelCheckpoint('vgg16_simple.h5', save_best_only=True),
]

history = model.fit(x=X_train, y=y_train,  
                    validation_data=(X_test, y_test), 
                    batch_size=32, epochs=100, callbacks=callbacks)

Train on 3629 samples, validate on 908 samples
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100


On voit toujours un très bon résultat:45% de réussites pour 25 classes nous n'allons pas testé d'autres algorihtmes et allons nous contenter de ces résultats pour le fine tunning du réseaux vgg16. Ce réseau nous permet donc de trouver un résultat bien meilleure qu'avec des méthodes classiques. Cependant on voit que l'on a un résultat qui reste insufisant.

# Conclusion

Nous avons tester le fine tunning du réseaux vgg16. Nous avons tout d'abord tester une extraction de features entrainer avec nos images et nous avons observer des résultats meilleures qu'avec les méthodes traditionnels d'extractions de features.

Nous avons cependant des résultats qui ne nous parraissent pas suffisants pour classifier des chiens et allons essayer dans une seconde partie de tunner un autre réseau de neurones le resnet50.