## 学習済みモデルの活用

### I. Đặt vấn đề

**1. Khó khăn mỗi khi xây dựng mô hình:**

- Cần thu thập lượng dữ liệu lớn
- Phải đảm bảo tài nguyên máy tính + chi phí tính toán
- Điều chỉnh mô hình + thử nghiệm + lỗi

Để đơn giản giải quyết vấn đề này, sử dụng các **pretrained model**

**2. Giới thiệu bộ ImageNet**

- Bộ dữ liệu hình ảnh, được sử dụng rộng rãi trong các mô hình học sâu
- ImageNet bao gồm các lớp và hình ảnh điển hình như động vật, thực vật và phương tiện.
- Ví dụ, nhiệm vụ phân loại cho chó và mèo có thể được thực hiện với độ chính xác cao chỉ bằng cách sử dụng mô hình được đào tạo này.
Bạn có thể làm điều đó.
- Đối với hình ảnh không được bao gồm trong phân loại lớp đã học (ví dụ: nhãn hiệu của một sản phẩm nhất định).
Thì bằng cách học lại một trong những mô hình được đào tạo, có thể xây dựng các mô hình có độ chính xác cao với nỗ lực cực kỳ nhỏ.


**Một số pretrained-model của bộ ImageNet**
<img src="./images/imagenet_pretrained_model.png">

## II. Cách sử dụng pretrained-model

Có hai cách chính để sử dụng **pretrained-model**: "sử dụng nguyên trạng" và "sử dụng sau khi học một phần".

**1. 学習せずにそのまま使う(sử dụng nguyên trạng)**

Ví dụ như khi muốn phân loại các nhãn đã tồn tại trong bộ ImageNet, có thể để nguyên VGG16 và sử dụng.
Chẳng hạn phân loại chó và mèo, trước đó VGG16 đã sử dụng số lượng lớn hình ảnh, và trích suất
được những đặc trưng ứng với 2 nhãn.

Do đó, không cần học mới, mà có thể trực tiếp sử dụng

In [1]:
from tensorflow.python.keras.applications.vgg16 import VGG16

#初回呼び出し時にモデルをダウンロードする為、初回呼び出しは時間がかかる
#In first execution, first call takes a little time because of downloading
model = VGG16()

Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
Downloading data from https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weights_tf_dim_ordering_tf_kernels.h5


In [2]:
# モデルのサマリを確認する。入力層のサイズが224 x 224、
# 出力層は1000クラス分の確率が出力される構造になっている
model.summary()

Model: "vgg16"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         [(None, 224, 224, 3)]     0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 224, 224, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 224, 224, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 112, 112, 64)      0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 112, 112, 128)     73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 112, 112, 128)     147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 56, 56, 128)       0     

VGG16は、画像１枚の入力に対して、1000クラスそれぞれの分類確率を出力します。

In [4]:
from tensorflow.python.keras.preprocessing.image import load_img as load_img

# 画像をロードする。load_img()では、読み込み時に画像をリサイズすることが
# 出来るので、VGG16の入力サイズ 224 x 224 にリサイズする

img_dog = load_img('./images/dog.png', target_size=(224, 224))
img_cat = load_img('./images/cat.png', target_size=(224, 224))

**load_img** trả về ảnh ở định dạng numpy.ndarray, thứ tự channel RGB (format của thư viện Pillow). 

Để phù hợp với input của VGG16, sử dụng preprocess_input(). **preprocess_input() subtracts the mean RGB channels of the imagenet dataset.** Đồng thời thay đổi thứ tự channel RGB thành BGR.


In [5]:
# List: 6.5
from tensorflow.python.keras.preprocessing.image import img_to_array

# loat_img()はpillowと呼ばれる画像ライブラリのデータフォーマットに
# なっている為、そのままでは利用できない
# 一般できな数値データとして扱う為、numpy.ndarrayに変換
arr_dog = img_to_array(img_dog)
arr_cat = img_to_array(img_cat)

In [6]:
# List: 6.6
from tensorflow.python.keras.applications.vgg16 import preprocess_input

# 画像の各チャンネルの中心化とRGBからBGRへの変換を行う。
# 画像をVGG16モデルの事前学習時と同じ状態に合わせて変換
arr_cat = preprocess_input(arr_cat)
arr_dog = preprocess_input(arr_dog)

In [7]:
# List: 6.7
import numpy as np

# 一般的な判別モデルは、複数の画像・データを一度に入力し、
# データの数だけ結果を出力できる
# 犬と猫の画像をまとめて、２枚の画像を含む配列の入力データに変換
arr_input = np.stack([arr_dog, arr_cat])

#入力データのshapeを確認
print('shape of arr_input:', arr_input.shape)

shape of arr_input: (2, 224, 224, 3)


In [8]:
# List: 6.8
# 予測値（確率）を算出
# 推論では 2 x 1000の2次元配列が出力される
probs = model.predict(arr_input)

# 予測値のshapeを確認
print('shape of probs:', probs.shape)

# 予測値の表示
probs

shape of probs: (2, 1000)


array([[6.5855619e-09, 2.0227546e-08, 1.5133401e-06, ..., 2.6205951e-09,
        3.2031102e-07, 4.8476463e-06],
       [1.4584022e-07, 6.4128486e-08, 2.0749354e-07, ..., 9.3700487e-09,
        1.7942160e-05, 1.6269496e-05]], dtype=float32)

In [9]:
# List: 6.9
from tensorflow.python.keras.applications.vgg16 import decode_predictions

# 予測結果は、1000クラスそれぞれの確率のみで返されるため、
# クラス名が判断しにくいため
# decode_predictions()を使ってわかりやすい結果に変換し、
# 上位５つを表示
results = decode_predictions(probs)

Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/imagenet_class_index.json


In [10]:
# List: 6.10
# 犬の画像の結果を表示（上位５）
results[0]

[('n02111500', 'Great_Pyrenees', 0.39383647),
 ('n02105641', 'Old_English_sheepdog', 0.2964038),
 ('n02104029', 'kuvasz', 0.21470262),
 ('n02106166', 'Border_collie', 0.019875549),
 ('n02109525', 'Saint_Bernard', 0.01221566)]

<img src="./images/dog_predict.png">

In [11]:
# List: 6.11
# 猫の画像の結果を表示（上位５）
results[1]

[('n02123394', 'Persian_cat', 0.9005455),
 ('n02124075', 'Egyptian_cat', 0.032724656),
 ('n02127052', 'lynx', 0.024242047),
 ('n02123045', 'tabby', 0.016705466),
 ('n02123159', 'tiger_cat', 0.007996062)]

**2. 学習済みモデルの一部を学習し直す(sử dụng sau khi học 1 phần)**

Khi phân loại dựa trên hình ảnh, không giống như "Dog" và "Cat", phân loại lớp được phân loại không tồn tại trong ImageNet. Như là "temple" và "shrine"

Đồng thời, do VGG16 chưa bao giờ tìm hiểu các đặc điểm của "đền thờ" hoặc "đền thờ", nên người ta không thể đánh giá những đặc điểm nào nên được sử dụng để phân biệt chúng.

Trong trường hợp như vậy, cần phải chuẩn bị một hình ảnh mới về mục tiêu học tập ("temple", "shrine") và học lại mô hình. Việc này được gọi là **Transfer Learning**

**Cách xây dựng:**
Như đã thấy trong ví dụ trước, VGG16 có cấu trúc đưa ra xác suất 1000 lớp cho một hình ảnh đầu vào và khi một hình ảnh được nhập vào, xác suất được xuất ra dưới dạng vectơ 1000 chiều.

Những gì chúng ta cần lần này là một xác suất xem một bức ảnh nhất định có phải là "temple" hay không, vì vậy chúng ta thay đổi số lượng đầu ra thành 1 chiều, giả sử gọi là p. (thì xác suất là "shrine" là 1 - p)

In [12]:
#List: 6.13
from tensorflow.python.keras.applications.vgg16 import VGG16

# 既存の1000クラスの出力を使わないため、
# include_top=Falseとして出力層を含まない状態でロード
vgg16 = VGG16(include_top=False, input_shape=(224, 224, 3))

# モデルのサマリを確認。出力層が含まれていないことがわかる
vgg16.summary()

Downloading data from https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5
Model: "vgg16"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_2 (InputLayer)         [(None, 224, 224, 3)]     0         
_________________________________________________________________
block1_conv1 (Conv2D)        (None, 224, 224, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 224, 224, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 112, 112, 64)      0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 112, 112, 128)     73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 112, 112, 128

In [13]:
# List: 6.14
from tensorflow.python.keras.models import Sequential
from tensorflow.python.keras.layers import Dense, Dropout, Flatten

# モデルを編集し、ネットワークを生成する関数の定義
def build_transfer_model(vgg16):
    """ モデルを編集し、ネットワークを生成する """
    
    #読みだしたモデルを使って、新しいモデルを作成
    model = Sequential(vgg16.layers)
    
    # 読みだした重みの一部は再学習しないように設定
    # ここでは、追加する層と出力層に近い層の重みのみを再学習
    for layer in model.layers[:15]:
        layer.trainable = False
        
    # 追加する出力部分の層を構築
    model.add(Flatten())
    model.add(Dense(256, activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(1, activation='sigmoid'))
    
    return model

# 定義した関数を呼び出してネットワークを生成
model = build_transfer_model(vgg16)

In [14]:
# List: 6.15
from tensorflow.python.keras.optimizers import SGD

model.compile(
    loss='binary_crossentropy',
    optimizer=SGD(lr=1e-4, momentum=0.9),
    metrics=['accuracy']
)

# モデルのサマリを確認
model.summary()

Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where
Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
block1_conv1 (Conv2D)        (None, 224, 224, 64)      1792      
_________________________________________________________________
block1_conv2 (Conv2D)        (None, 224, 224, 64)      36928     
_________________________________________________________________
block1_pool (MaxPooling2D)   (None, 112, 112, 64)      0         
_________________________________________________________________
block2_conv1 (Conv2D)        (None, 112, 112, 128)     73856     
_________________________________________________________________
block2_conv2 (Conv2D)        (None, 112, 112, 128)     147584    
_________________________________________________________________
block2_pool (MaxPooling2D)   (None, 56, 56, 128)       0         
____________________________

### Kerasレイヤーオブジェクト

...

## III. Ứng dụng

### 1. Image classification
**a. Data preparation:** sử dụng **ImageDataGenerator** để làm các nhiệm vụ như:
- Read images from the disk.
- Decode contents of these images and convert it into proper grid format as per their RGB content.
- Convert them into floating point tensors.
- Rescale the tensors from values between 0 and 255 to values between 0 and 1, as neural networks prefer to deal with small input values.


**b. Data augmentation:**

<img src="./images/overfitting.png">
Overfitting thường xảy ra khi có một số ít dữ liệu. Một cách để khắc phục vấn đề này là tăng dữ liệu để nó có đủ số lượng ví dụ đào tạo. Tăng dữ liệu sử dụng phương pháp tạo thêm dữ liệu từ các dữ liệu hiện có bằng cách sử dụng các phép biến đổi ngẫu nhiên mang lại hình ảnh trông có thể tin được. 

Mục tiêu là sẽ không bao giờ lặp lại dữ liệu 2 lần trong quá trình đào tạo. Điều này giúp đưa mô hình đến nhiều khía cạnh của dữ liệu và khái quát hóa tốt hơn.

**Một số kỹ thuật augmentation:**
- Lật ngang (Horizontal flip)
- Xoay góc ngẫu nhiên (Randomly rotate the image)
- Zoom ngẫu nhiên (Apply zoom augmentation)

In [None]:
# Các phương thức được tích hợp trong class ImageDataGenerator và có thể  kết hợp 
# sử dụng:
image_gen_train = ImageDataGenerator(
                    rescale=1./255,
                    rotation_range=45, 
                    width_shift_range=.15,
                    height_shift_range=.15,
                    horizontal_flip=True,
                    zoom_range=0.5
                    )

train_data_gen = image_gen_train.flow_from_directory(batch_size=batch_size,
                                                     directory=train_dir,
                                                     shuffle=True,
                                                     target_size=(IMG_HEIGHT, IMG_WIDTH),
                                                     class_mode='binary')

<img src="images/overfitting_fix.png">

### 2. Transfer learning with a pretrained ConvNet

Pretrained model là một mô hình đã được đào tạo trước đó trên một tập dữ liệu lớn, thường là trên một nhiệm vụ phân loại hình ảnh quy mô lớn. Bạn có thể trực tiếp sử dụng mô hình hoặc customize mô hình này theo một nhiệm vụ nhất định.

Trực giác đằng sau việc tinh chỉnh để phân loại hình ảnh là nếu một mô hình được đào tạo trên một tập dữ liệu lớn và đủ chung, mô hình này sẽ hoạt động hiệu quả như một mô hình chung của thế giới thị giác. Sau đó, bạn có thể tận dụng các learned feature maps mà không phải bắt đầu từ đầu bằng cách đào tạo một mô hình lớn trên một tập dữ liệu lớn.

### Customize 1 pretrained model:

**- Feature Extraction:** sử dụng các biểu diễn được học bởi một mô hình trước đó để trích xuất các tính năng có ý nghĩa từ các new samples. Một lớp phân loại mới sẽ được đào tạo từ đầu, bên trên mô hình đã được sàng lọc trước để bạn có thể tái sử dụng các learned feature maps đã học trước đó cho bộ dữ liệu.

**- Fine-turning:** Unfreeze các top layers của 1 mô hình và cùng huấn luyện cả hai lớp phân loại mới được thêm vào và các lớp cuối cùng của mô hình cơ sở. Điều này cho phép "Fine-turning" các deep features trong mô hình cơ sở để làm cho chúng phù hợp hơn với nhiệm vụ cụ thể.

### 2.1 Feature extraction

Trước tiên, cần chọn layer MobileNet V2 nào có thể sử dụng để trích xuất features. Bằng việc đặc tả include_top=False, có thể load mô hình mà ko bao gồm các classification layers ở top. Đó là 1 phương pháp tốt để thực hiện feature extraction

In [None]:
base_model = tf.keras.applications.MobileNetV2(input_shape=IMG_SHAPE,
                                               include_top=False,
                                               weights='imagenet')

Bộ feature extractor của pretrained-model chuyển mỗi **160x160x3 image** thành a **5x5x1280 block of features**

Freezing (bằng việc thiết lập layer.trainable = False) ngăn không cập nhật các weights trong base model. Khi đó, quan sát trainable params = 0 trong base_model.summary().

In [None]:
base_model.trainable = False

<img src="./images/params.png" style="margin-left: 0px">

Để tạo dự đoán từ block of features, trung bình trên các vị trí không gian 5x5 không gian, sử dụng lớp **tf.keras.layers.GlobalAlusivePooling2D** để chuyển đổi các tính năng thành một vectơ 1280 phần tử trên mỗi hình ảnh.

In [None]:
global_average_layer = tf.keras.layers.GlobalAveragePooling2D()
feature_batch_average = global_average_layer(feature_batch)
print(feature_batch_average.shape)

prediction_layer = keras.layers.Dense(1)
prediction_batch = prediction_layer(feature_batch_average)
print(prediction_batch.shape)

model = tf.keras.Sequential([
    base_model,
    global_average_layer,
    prediction_layer
])

<img src="./images/params2.png" style="margin-left: 0px">

### 2.2 Fine turning

Trong thử nghiệm feature extractor trên base_model **MobileNet V2**. Trọng số  weights của mạng được đào tạo trước đó không được cập nhật trong quá trình training.

Một cách để tăng hiệu suất hơn nữa là đào tạo (hoặc **fine-turning**), trọng số của các layers trên cùng của mô hình, và layers phân loại vừa thêm vào. Quá trình training sẽ buộc các trọng số được điều chỉnh từ **generic feature maps** thành **features maps** đặc trưng cho bộ dữ liệu của mình.

**Chú ý :** nên cố gắng fine-turning một số lượng nhỏ các layers trên cùng thay vì toàn bộ mô hình MobileNet. Trong hầu hết các mạng chập, một lớp càng cao thì càng chuyên biệt. Các layers đầu tiên học các tính năng rất đơn giản và chung chung cho hầu hết các loại hình ảnh.

Càng các layer cao hơn , các features càng cụ thể hơn đối với tập dữ liệu mà mô hình được đào tạo. Mục tiêu của fine-turning là điều chỉnh các features này để làm việc với bộ dữ liệu mới, thay vì ghi đè lên việc học chung.

Tiếp tục train với cấu hình mới, có thể thu được mô hình tốt hơn

In [None]:
# Example unfreeze layers model
base_model.trainable = True

# Let's take a look to see how many layers are in the base model
print("Number of layers in the base model: ", len(base_model.layers))

# Fine-tune from this layer onwards
fine_tune_at = 100

# Freeze all the layers before the `fine_tune_at` layer
for layer in base_model.layers[:fine_tune_at]:
    layer.trainable =  False

### 2. Image Segmentation

![image.png](attachment:image.png)

In [None]:
base_model = tf.keras.applications.MobileNetV2(input_shape=[128, 128, 3], include_top=False)

# Use the activations of these layers
layer_names = [
    'block_1_expand_relu',   # 64x64
    'block_3_expand_relu',   # 32x32
    'block_6_expand_relu',   # 16x16
    'block_13_expand_relu',  # 8x8
    'block_16_project',      # 4x4
]
layers = [base_model.get_layer(name).output for name in layer_names]

# Create the feature extraction model
down_stack = tf.keras.Model(inputs=base_model.input, outputs=layers)

down_stack.trainable = False

In [None]:
up_stack = [
    pix2pix.upsample(512, 3),  # 4x4 -> 8x8
    pix2pix.upsample(256, 3),  # 8x8 -> 16x16
    pix2pix.upsample(128, 3),  # 16x16 -> 32x32
    pix2pix.upsample(64, 3),   # 32x32 -> 64x64
]

Transfer learning theo pp **feature extraction** với 2 thành phần chính: down_stack và up_stack

**1. Down stack**
- Sử dụng pretrained-model MobileNetV2, lấy đầu ra ở activations của các layers để trích suất đặc trưng của ảnh.
- Set trainble = False để ko train lại trọng số cho downstack

**2. Up stack**
- Được xây dựng dựa vào các đầu ra các layers trong down_stack
- Các đầu ra đó kết hợp với nhau dựa vào các layer concatenate 
- Các layers trong downstack có kích thước khác nhau (do lần lượt là các layers trong mạng CNN MObileNet), do đó trước khi concatenate cần up-sample