# ImageNet比賽的那些英雄們

- ImageNet 每年舉辦的競賽CNN模型演進很有參考性
- 2012年冠軍 AlexNet 錯誤率比前一年減少超過10%，且首度引用 Dropout 層 --> 我們前面也有提到
- 2014年亞軍 VGGNet 承襲 AlexNet 思路，建立更多層的模型，達到 16及19 個隱藏層
- 2015年冠軍 ResNets 發現 20 層以上的模型前面幾層會發生優化退化(degradation)的狀況，因而提出以『殘差』(Residual)解決問題
    - ref: https://arxiv.org/abs/1512.03385


Keras把它們都收錄進框架內，稱為Keras Applications 【預先訓練的模型(pre-trained models)】，包括下列幾項：

- Xception
- VGG16
- VGG19
- ResNet50
- InceptionV3
- InceptionResNetV2
- MobileNet

## VGG : Visual Geometry Group

- 牛津大學的Oxford Visual Geometry Group，該組織主要的研究範圍為機器學習及移動機器人
- VGG16/VGG19分別為16層(13個卷積層及3個全連接層)與19層(16個卷積層及3個全連接層)

### 使用前先了解一件事：因為VGG16整個model參數很大，要500多MB，所以會需要些時間下載

In [4]:
from tensorflow.keras.applications.vgg16 import VGG16
from tensorflow.keras.preprocessing import image
from tensorflow.keras.applications.vgg16 import preprocess_input, decode_predictions
import numpy as np

# include_top=True，表示會載入完整的 VGG16 模型，包括加在最後3層的卷積層
# include_top=False，表示會載入 VGG16 的模型，不包括加在最後3層的卷積層，通常是取得 Features
# 若下載失敗，請先刪除 c:\<使用者>\.keras\models\vgg16_weights_tf_dim_ordering_tf_kernels.h5
model = VGG16(weights='imagenet', include_top=True) 

# Input：要辨識的影像
img_path = './image/car01.jpg'
#img_path = 'elephant.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

# 預測，取得features，維度為 (1,7,7,512)
features = model.predict(x)
# 取得前三個最可能的類別及機率
print('Predicted:', decode_predictions(features, top=3)[0])

Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/imagenet_class_index.json
Predicted: [('n04285008', 'sports_car', 0.7893434), ('n02930766', 'cab', 0.16229911), ('n02974003', 'car_wheel', 0.01456001)]


### 再次使用剛剛已經載入的Model

In [6]:
# Input：要辨識的影像
img_path = './image/bear.jpg'
#img_path = 'elephant.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

# 預測，取得features，維度為 (1,7,7,512)
features = model.predict(x)
# 取得前三個最可能的類別及機率
print('Predicted:', decode_predictions(features, top=3)[0])

Predicted: [('n02132136', 'brown_bear', 0.9373002), ('n02113799', 'standard_poodle', 0.012614256), ('n02133161', 'American_black_bear', 0.00835964)]


In [7]:
# Input：要辨識的影像
img_path = './image/dinosour.jpg'
#img_path = 'elephant.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

# 預測，取得features，維度為 (1,7,7,512)
features = model.predict(x)
# 取得前三個最可能的類別及機率
print('Predicted:', decode_predictions(features, top=3)[0])

Predicted: [('n01704323', 'triceratops', 0.9636599), ('n01694178', 'African_chameleon', 0.019334473), ('n01688243', 'frilled_lizard', 0.010634087)]


In [9]:
decode_predictions(features)

[[('n01704323', 'triceratops', 0.9636599),
  ('n01694178', 'African_chameleon', 0.019334473),
  ('n01688243', 'frilled_lizard', 0.010634087),
  ('n01677366', 'common_iguana', 0.0038849327),
  ('n01667778', 'terrapin', 0.0007994435)]]