# 貓狗辨識 - L3建構深度學習模型
本次的課程將學習如何實作二元分類的模型，目的是利用圖片當中的特徵，來預測是貓或狗，藉由此項專案將學會如何使用python裡的套件pandas和numpy來操作資料、並利用來搭建深度學習的模型，特別是用於圖像辨識的卷積神經網絡。

### 課程架構
在貓狗辨識的專案中，將帶著學員建構一個深度學習的模型，並進行貓狗預測，主要包括下面四個步驟：

>1.   如何進行資料前處理(Processing)

>2.   如何實作資料增強(Data Augmentation)

>3.   如何建構深度學習模型(Model)

>4.   如何評估其模型的學習狀況(Inference) 

## 連結Drive與Colab
在執行本範例前請先確認Jupyter筆記本設置是否正確，首先點選主選單的「修改」─「筆記本設置」─「運行類別」，選擇「Python3」，同時將「硬件加速器」下拉式選單由「None」改成「GPU」，再按「保存」。

In [None]:
# 3-1
!apt-get install -y -qq software-properties-common python-software-properties module-init-tools
!add-apt-repository -y ppa:alessandro-strada/ppa 2>&1 > /dev/null
!apt-get update -qq 2>&1 > /dev/null
!apt-get -y install -qq google-drive-ocamlfuse fuse
from google.colab import auth
auth.authenticate_user()
from oauth2client.client import GoogleCredentials
creds = GoogleCredentials.get_application_default()
import getpass
!google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret} < /dev/null 2>&1 | grep URL
vcode = getpass.getpass()
!echo {vcode} | google-drive-ocamlfuse -headless -id={creds.client_id} -secret={creds.client_secret}
# 如果出現了長條型的可輸入單元格 代表你曾經 授權過了 可以直接跳到下一格

In [None]:
# 3-2
# 指定Google Drive雲端硬盤的根目錄，名為drive
!mkdir -p drive
!google-drive-ocamlfuse drive

In [None]:
# 3-3
# 在drive下面新增一個Colab Notebook的資料夾
import os
os.chdir("drive")
if("Colab Notebooks" in os.listdir()):
  os.chdir("Colab Notebooks")
else:
  os.mkdir("Colab Notebooks")
  os.chdir("Colab Notebooks")

## import library與讀取檔案

In [1]:
# 3-4
# 首先載入所需套件，一般會利用import (package_name) as (xxx) 來簡化套件名稱，使得之後呼叫它們時更方便

# 操作陣列型態資料處理的套件
import pandas as pd
import numpy as np

# 資料檔案處理
import os # 處理字符串路徑
import zipfile # 內建標準庫提供做壓縮與解壓縮用

# 資料視覺化
import matplotlib.pyplot as plt # 基本的繪圖套件
import matplotlib.image as mpimg # 用於讀取圖片
%matplotlib inline # 讓圖片可顯示在jupter notebook
plt.style.use('ggplot') # 製圖時選用ggplot的視覺樣式

# 指定模型學習的參數
seed = 7
np.random.seed(seed)

# 忽略警告
import warnings
warnings.filterwarnings('ignore')

UsageError: unrecognized arguments: # 讓圖片可顯示在jupter notebook


In [9]:
# 3-5
# tensorflow
import tensorflow as tf

# keras
from keras.models import Model
from keras import layers
from keras import backend as K
from keras.models import Sequential
from keras.layers import Dense,Flatten,Dropout # Frequency Layers
from keras.layers.convolutional import Conv2D,MaxPooling2D,Convolution2D # CNN Layers
from keras.utils.np_utils import to_categorical # 資料夾輸出標籤

In [2]:
# 3-6
# 取得資料集路徑
base_dir = '/tmp/cats_and_dogs_filtered'
train_dir = os.path.join(base_dir, 'train') #連結目錄與文件名
validation_dir = os.path.join(base_dir, 'validation')

In [3]:
# 3-7
# 取得所有圖片的路徑
train_cats_dir = os.path.join(train_dir, 'cats')           # 取得訓練用貓圖片的路徑
train_dogs_dir = os.path.join(train_dir, 'dogs')           # 取得訓練用狗圖片的路徑
validation_cats_dir = os.path.join(validation_dir, 'cats') # 取得驗證用貓圖片的路徑
validation_dogs_dir = os.path.join(validation_dir, 'dogs') # 取得驗證用狗圖片的路徑

In [4]:
# 3-8
# 取得所有訓練及驗證用的圖片
train_cat_fnames = os.listdir(train_cats_dir)              # 取得訓練用所有貓圖片
train_dog_fnames = os.listdir(train_dogs_dir)              # 取得訓練用所有狗圖片
validation_cat_fnames = os.listdir(validation_cats_dir)    # 取得驗證用所有貓圖片
validation_dog_fnames = os.listdir(validation_dogs_dir)    # 取得驗用所有狗圖片

FileNotFoundError: [Errno 2] No such file or directory: '/tmp/cats_and_dogs_filtered/train/cats'

## 3.1 卷積網路模型
為了讓大家更容易了解如何利用TensorFlow及Keras建構一個深度學習模型，這裡展示了一個小型的卷積神經網路(Convolution Neural Network, CNN)，共有三層卷積層(包含ReLu及Max Pooling)，每個卷積層皆用3x3的濾波器進行卷積動作，三層分別提取16, 32及64組濾波器。接著展開成獨立節點後，再加入二層全連結層，分別為512及1個節點，而最後得到的那一個節點加上Sigmodid函數即為最終輸出的結果。其值介於0.0 ~ 1.0，當值越接近1.0時圖片為狗的機率越高，反之輸出值越接近0.0時圖片判定是貓的機率越高。

這個模型雖然不大，但可適用各種圖像分類問題，大家可試著導入自己準備的圖像進行測試。

## 3.2 輸入圖像尺寸正規化
接著說明輸入(層)資料問題。由於資料集的每張圖片大小、長寬比都不一樣，這樣無法直接進入訓練模型，因此須將影像尺寸統一縮小到指定尺寸。在這個範例中會將圖片統一縮至150x150像素，而色彩依然保持全彩(RGB 3通道)，所以對輸入層來說等於150x150x3。至於影像縮小後造成影像變形導致訓練結果有些許不同的問題是另一層次問題，在此先忽略不予考慮。

## 3.3 模型架構及訓練參數說明
Create model:
1. input = input feature map
2. output = input feature map + stacked convolution/maxpooling layers + fully 
3. connected layer + sigmoid output layer

In [13]:
# 3-9
# 以API Model來設計模型架構

# 若有安裝GPU CUDA系統，則會使用GPU進行運算
tf_config = tf.ConfigProto(
    gpu_options=tf.GPUOptions(allow_growth=True))
K.set_session(tf.Session(config=tf_config))

# 輸入的圖像格式為(150x150x3) : 150x150是圖片的像素, 3的話則為顏色的通道 R, G, B
# 每一組濾波器另加上一個偏置值(Bias)一起訓練，故共有 (3x3x3+1)x16=448個參數待訓練，經過卷積後圖像大小變成148x148x16
img_input = layers.Input(shape=(150, 150, 3))

# 第一層-卷積層
# Conv2D共產生16組3X3X3的濾波器，並搭配ReLu激活(Activation)函數
# 以2x2窗口進行最大池化(Max Pooling)動作，取出四個值中最大值，同時將圖像縮小至一半尺寸74x74x16
x = layers.Conv2D(16, 3, activation='relu')(img_input)
x = layers.MaxPooling2D(2)(x)

# 第二層-卷積層
# Conv2D共產生32組3X3X3的濾波器，並搭配ReLu激活(Activation)函數
# 每一組濾波器另加上一個偏置值(Bias)一起訓練，故共有 (3x3x16+1)x32=4,640個參數待訓練，經過卷積後圖像大小變成72x72x32
# 接著同樣以2x2窗口進行最大池化(Max Pooling)動作，取出四個值中最大值，同時將圖像縮小至一半尺寸36x36x32
x = layers.Conv2D(32, 3, activation='relu')(x)
x = layers.MaxPooling2D(2)(x)

# 第三層-卷積層
# Conv2D共產生64組3X3X3的濾波器，並搭配ReLu激活(Activation)函數
# 每一組濾波器另加上一個偏置值(Bias)一起訓練，故共有 (3x3x32+1)x64=18,496個參數待訓練，經過卷積後圖像大小變成34x34x64
# 以2x2窗口進行最大池化(Max Pooling)動作，取出四個值中最大值，同時將圖像縮小至一半尺寸17x17x64
x = layers.Conv2D(64, 3, activation='relu')(x)
x = layers.MaxPooling2D(2)(x)

# 第四層-平坦層
# 將所有節點展開(Flatten)變成一維節點，準備進行下一階段的全連結網路，共有17x17x64=18,496個節點
x = layers.Flatten()(x)

# 第五層-全連結層
# 以512個節點和上一層進行全連結(Dense)，並搭配ReLu激活函數
# 再加上一個偏置值(Bias)一起訓練，故共有(18,496+1)x512=9,470,464個參數待訓練
x = layers.Dense(512, activation='relu')(x)
x = layers.Dropout(0.3)(x)

# 最後只留一個輸出節點和上一層進行全連結(Dense)，並搭配Sigmoid激活函數來產生最後輸出結果
# 加上一個偏置值(Bias)，故共有512+1=513個參數待訓練
output = layers.Dense(1, activation='sigmoid')(x)

# 展示模型結構及各層所需訓練參數，合計共有10,641,441個參數待訓練
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_4 (Conv2D)            (None, 148, 148, 16)      448       
_________________________________________________________________
max_pooling2d_4 (MaxPooling2 (None, 74, 74, 16)        0         
_________________________________________________________________
conv2d_5 (Conv2D)            (None, 74, 74, 32)        4640      
_________________________________________________________________
max_pooling2d_5 (MaxPooling2 (None, 37, 37, 32)        0         
_________________________________________________________________
conv2d_6 (Conv2D)            (None, 37, 37, 64)        18496     
_________________________________________________________________
max_pooling2d_6 (MaxPooling2 (None, 18, 18, 64)        0         
_________________________________________________________________
flatten_2 (Flatten)          (None, 20736)             0         
__________

In [12]:
# 3-10
# 以Sequential Model來設計模型架構

model = Sequential()

# 第一層-卷積層
# Conv2D共產生16組3X3X3的濾波器，並搭配ReLu激活(Activation)函數
# 以2x2窗口進行最大池化(Max Pooling)動作，取出四個值中最大值，同時將圖像縮小至一半尺寸74x74x16
# 輸入的圖像格式為(150x150x3) : 150x150是圖片的像素, 3的話則為顏色的通道 R, G, B
# 每一組濾波器另加上一個偏置值(Bias)一起訓練，故共有 (3x3x3+1)x16=448個參數待訓練，經過卷積後圖像大小變成148x148x16
model.add(Conv2D(16,(3,3),strides=(1,1),input_shape=(150, 150, 3),padding='valid',activation='relu',kernel_initializer='uniform'))
model.add(MaxPooling2D(pool_size=(2,2),strides=None))

# 第二層-卷積層
# Conv2D共產生32組3X3X3的濾波器，並搭配ReLu激活(Activation)函數
# 每一組濾波器另加上一個偏置值(Bias)一起訓練，故共有 (3x3x16+1)x32=4,640個參數待訓練，經過卷積後圖像大小變成72x72x32
# 接著同樣以2x2窗口進行最大池化(Max Pooling)動作，取出四個值中最大值，同時將圖像縮小至一半尺寸36x36x32
model.add(Conv2D(32,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
model.add(MaxPooling2D(pool_size=(2,2),strides=None))

# 第三層-卷積層
# Conv2D共產生64組3X3X3的濾波器，並搭配ReLu激活(Activation)函數
# 每一組濾波器另加上一個偏置值(Bias)一起訓練，故共有 (3x3x32+1)x64=18,496個參數待訓練，經過卷積後圖像大小變成34x34x64
# 以2x2窗口進行最大池化(Max Pooling)動作，取出四個值中最大值，同時將圖像縮小至一半尺寸17x17x64
model.add(Conv2D(64,(3,3),strides=(1,1),padding='same',activation='relu',kernel_initializer='uniform'))
model.add(MaxPooling2D(pool_size=(2,2),strides=None))

# 第四層-平坦層
# 將所有節點展開(Flatten)變成一維節點，準備進行下一階段的全連結網路，共有17x17x64=18,496個節點
model.add(Flatten())

# 第五層-全連結層
# 以512個節點和上一層進行全連結(Dense)，並搭配ReLu激活函數
# 再加上一個偏置值(Bias)一起訓練，故共有(18,496+1)x512=9,470,464個參數待訓練
model.add(Dense(512,activation='relu'))
model.add(Dropout(0.3))
model.add(Dense(1, activation='sigmoid'))
          
# 展示模型結構及各層所需訓練參數，合計共有10,641,441個參數待訓練
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_4 (Conv2D)            (None, 148, 148, 16)      448       
_________________________________________________________________
max_pooling2d_4 (MaxPooling2 (None, 74, 74, 16)        0         
_________________________________________________________________
conv2d_5 (Conv2D)            (None, 74, 74, 32)        4640      
_________________________________________________________________
max_pooling2d_5 (MaxPooling2 (None, 37, 37, 32)        0         
_________________________________________________________________
conv2d_6 (Conv2D)            (None, 37, 37, 64)        18496     
_________________________________________________________________
max_pooling2d_6 (MaxPooling2 (None, 18, 18, 64)        0         
_________________________________________________________________
flatten_2 (Flatten)          (None, 20736)             0         
__________

---