# VGGNET

VGGNet est un modèle de réseau neuronal convolutif (CNN) proposé par K. Simonyan et A. Zisserman de l’Université d’Oxford dans leur article “Very Deep Convolutional Networks for Large-Scale Image Recognition”. Le “16” dans VGG16 fait référence au nombre total de couches avec des poids qui sont dans le réseau, y compris 13 couches de convolution et 3 couches entièrement connectées.


## Caractéristiques

- *Architecture profonde* : VGGNet est connu pour son architecture profonde avec jusqu’à 16 à 19 couches. Il a démontré que la profondeur du réseau est un facteur critique pour de bonnes performances.

- *Petits filtres de convolution* : VGGNet utilise des filtres de convolution de petite taille (3x3), ce qui est l’une des principales raisons de son succès.

- *Utilisation de couches entièrement connectées* : À la fin de l’architecture, VGGNet utilise trois couches entièrement connectées qui sont suivies d’une fonction softmax pour la classification.

## Example

### Tensorflow

In [1]:
from keras.applications.vgg16 import VGG16
from keras.preprocessing import image
from keras.applications.vgg16 import preprocess_input, decode_predictions
import numpy as np


In [11]:
model = VGG16(weights='imagenet')


In [12]:
img_path = '../assets/car.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

In [13]:
preds = model.predict(x)
print('Prédiction:', decode_predictions(preds, top=1)[0])

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 291ms/step
Prédiction: [('n04285008', 'sports_car', 0.24773166)]


### Pytorch

In [14]:
import torch
from torchvision import models, transforms
from PIL import Image


In [15]:
model = models.vgg16(pretrained=True)
model.eval()

VGG(
  (features): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU(inplace=True)
    (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU(inplace=True)
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (5): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (6): ReLU(inplace=True)
    (7): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): ReLU(inplace=True)
    (9): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
    (10): Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (13): ReLU(inplace=True)
    (14): Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (15): ReLU(inplace=True)
    (16): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1

In [16]:
img_path = '../assets/car.jpg'
img = Image.open(img_path)

preprocess = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

input_tensor = preprocess(img)
input_batch = input_tensor.unsqueeze(0)

In [17]:
if torch.cuda.is_available():
    input_batch = input_batch.to('cuda')
    model.to('cuda')

with torch.no_grad():
    output = model(input_batch)

_, predicted_idx = torch.max(output, 1)

with open('../assets/imagenet_classes.txt') as f:
    classes = [line.strip() for line in f.readlines()]

print('Prédiction:', classes[predicted_idx.item()])

Prédiction: sports car


## Quand utiliser VGGNet

- *Classification d’images* : VGGNet est principalement utilisé pour la classification d’images et la reconnaissance d’objets dans les images.


- *Transfert d’apprentissage* : En raison de son excellente performance sur ImageNet, VGGNet est souvent utilisé comme point de départ pour le transfert d’apprentissage pour des tâches spécifiques. Vous pouvez utiliser les poids pré-entraînés de VGGNet et ne former que les dernières couches pour votre tâche spécifique.


- *Extraction de caractéristiques* : Vous pouvez utiliser VGGNet comme un extracteur de caractéristiques. Les dernières couches entièrement connectées peuvent être supprimées et les caractéristiques peuvent être extraites à partir des couches de convolution pour être utilisées dans d’autres applications.


Attention, il est important de noter que VGGNet est plus lent à former et utilise plus de mémoire pour stocker les poids en raison de sa profondeur et du nombre de filtres de convolution.

Des modèles plus récents comme ResNet et DenseNet ont montré de meilleures performances avec une complexité moindre. Aujourd'hui, il existe des options plus efficaces pour des applications professionnel. Malgré cela, il demeure une trés bonne ressource d'apprentissage