# 1. 深度學習簡介

深度學習(Deep Learning)是機器學習(Machine Learning)的一個分支，可以被應用在機器學習的各個領域。
早在1980年代以前，各種機器學習演算法及類神經網路(Artificial Neural Networks)的理論就已經被提出，但由於當時的電腦運算能力、儲存裝置遠不足以將這些理論實作應用，因此這個領域一直沒有成功的發展起來。

![](images/storage.PNG)

隨著硬體技術的進步，特別是GPU、TPU處理器被投入在深度學習領域的平行運算技術後，近年來深度學習領域有了相當快速的進展。
所謂深度學習其實就是模擬人類的神經網路運作方式，在電腦上進行模擬時，會區分為多個層次，包含一個**輸入層(Input Layer)**、一個**輸出層(Output Layer)**以及一或多個**隱藏層(Hidden Layer)**。
當網路結構設計多層隱藏層的時候，所連結的神經網路結構可以非常複雜、需要大量的運算資源，因此被稱為深度學習。

![](images/ann.PNG)

## 1-1. 神經元(Neuron)

人類的神經系統由上億個神經元所組成，每個神經元又會與許多其他神經元相連接。
其傳遞訊息的過程是每個神經元會將訊息以電流訊號的形式傳遞給相連接的其他神經元，因此每個神經元其實會接收到多個來源的電流訊號，然後當這些電流訊號達到一個臨界值，就會再放電進行資訊的傳遞，最終大腦再依照這些接收到的訊息作出相對應的反應。

深度學習模擬人類神經系統，將網路架構分為輸入層、隱藏層及輸出層，每一層中的神經元都可能接收來自上一層神經元的訊號，接收的訊號來源有可能是輸入層，也有可能是其他隱藏層。
在深度學習的架構中，輸入層的每一個神經元代表的就是一個解釋變數(X)。

同樣的，每一層中的神經元都可能傳遞訊號至下一層的神經元，訊號的傳遞目標有可能是輸出層，也有可能是其他隱藏層。
在深度學習的架構中，輸出層的每一個神經元代表的就是反應變數(Y)的不同類別。

另外每一組神經元之間的連結都會有一個**權重(Weight)**，用來調整所傳遞訊息的重要性。

![](images/neuron.PNG)

將以上架構在電腦上數學化表示的話，就是每個神經元會加總所有接收到的訊息值乘以其對應的權重值，經過一個**激活函數(Activation Function)**的轉換，就成為這個神經元的輸出值。

## 1-2. 激活函數(Activation Function)

激活函數就如同他的名字一樣，他會加權所接收到的刺激總和來決定神經元的活化程度。
激活函數的形式可以有很多種，以下說明比較常見的四種函數：

- **Threshold Function:** 單純的二元轉換。當加權總和小於0時回傳0，否則回傳1。
- **Sigmoid:** 在一個區間內的加權總和對於神經刺激有顯著效果，區間外的刺激會鈍化。這個函數的優點是他是一個平滑曲線，而且值域介於0,1之間，因此適合用在輸出層作為預測分類發生的機率。
- **Rectifier:** 當加權總和大於臨界值時接收神經刺激，否則回傳0。
- **Hyperbolic Tangent (tanh):** 與Sigmoid函數類似，差別在於其值域介於-1,1之間。

![](images/activation.PNG)

一個深度學習網路可以同時使用多組激活函數，例如在隱藏層時使用Rectifier函數，在輸出層時則使用Sigmoid函數轉換為機率輸出。

## 1-3. 類神經網路學習原理

假設我們想讓電腦來識別圖片中的動物是貓還是狗，可能可以有兩種方法。
一種是直接給定規則，例如特定的顏色、耳朵形狀、鬍鬚等等...，告訴電腦怎麼樣的規則下識別為狗、怎麼樣的情況下識別為貓。
另一種方式就是讓電腦自己學習，也就是神經網路的學習原理，給電腦很多張圖片去學習，告訴他哪些是貓、哪些是狗，經過深度學習的訓練後，電腦就可以自行對新樣本作識別。

以下用架構圖說明類神經網路學習原理：

![](images/backpropagation.PNG)

首先在輸入層的每一個神經元代表的就是資料的每一個解釋變數值，要注意的是由於類神經網路需要大量的運算資源，因此在進行訓練前要記得先將資料進行**標準化**的動作，以加速收斂效率。

接著在隱藏層中的神經元會將傳遞過來的輸入值乘以其相對應的權重然後加總，這邊圖形中只以單一隱藏層單一神經元作為示意，實際上可以有多層隱藏層、每一層隱藏層有多個神經元。初始權重的部份通常會隨機給定一個接近0的數值。

在神經元中透過激活函數的轉換，再將轉換後的結果傳遞到下一個隱藏層或是輸出層，輸出層的神經元個數則會是目標變數(Y)的類別個數，以分類問題來說，其輸出通常代表的是預測為該類別的機率。

將預測值與實際值進行比較，定義一個**成本函數(Cost Function)**或稱**損失函數(Loss Function)**用來表示誤差的程度，而我們的目標就是要最小化這個損失函數。
而最佳化的方式就是將誤差值反向回饋至神經網路上的每個神經元，演算法就會依序去調整每一層的權重值。

以上所講的是單一筆觀測值的學習步驟，整個類神經網路就是在根據不同的資料輸入下計算預測值與實際值的誤差，反覆以最小化損失函數為目標去修正權重值來達到最佳預測結果。

## 1-4. 梯度下降(Gradient Descent)

那麼要如何求取損失函數的最小值呢？如果是在非常淺層的神經網路架構中，或許可以直觀的考慮使用暴力演算法(Brute Force)，概念就是把每個可能的權重組合都試過一遍，看看在哪個權重組合的情況下可以有最小的損失函數。
但是這種方式只要組合一多，即使是用現今最強的電腦運算能力來看依舊是一個不切實際的方法。

這邊用的是一個叫作梯度下降的方法，簡單來說就是計算單點損失函數值的斜率，每次調整權重時都往函數低點作修正。

![](images/gd.PNG)

實務上為避免選擇到局部低點而非最佳解，會使用**隨機梯度下降法(Stochastic Gradient Descent, SGD)**，概念上就是每一筆觀測值計算後都會回頭更新權重以增加隨機性。

## 1-5. 倒傳遞(Backpropagation)演算法步驟

1. 於每一層中隨機產生一組初始權重。
2. 將資料中的第一組觀測值放進輸入層，其中每個欄位對應到一個神經元。
3. 根據激活函數的選擇，由左向右傳遞各神經元的資料與權重運算結果，直到輸出層為止。
4. 比較輸出預測結果與實際值得到誤差值。
5. 由右至左回饋誤差，根據各權重對輸出結果的貢獻程度去進行修正。其中學習速率決定了權重修正幅度。
6. 以下二擇一：
    - 重複步驟1-5並於每組觀測值計算後皆反向傳遞修正權重(Reinforcement Learning)。
    - 重複步驟1-5但僅在給定數量的資料運算後才去修正權重(Batch Learning)。
7. 當資料集中所有樣本皆輸入運算後，即完成了一期(epoch)訓練。通常會進行數次epoch。

# 2. 案例實作

## 2-1. 問題描述

某間銀行想探討客戶流失問題，提供一資料集包含一反應變數(Exited)代表客戶是否流失，以及多個解釋變數包含信用評等、性別、年齡、產品持有狀況等。
分析目標是根據解釋變數去預測客戶是否會流失，資料集共包含10000筆客戶資訊。

In [6]:
# Part 1 - Data Preprocessing

# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importing the dataset
dataset = pd.read_csv('Churn_Modelling.csv')
X = dataset.iloc[:, 3:13].values
y = dataset.iloc[:, 13].values

# Encoding categorical data
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X_1 = LabelEncoder()
X[:, 1] = labelencoder_X_1.fit_transform(X[:, 1])
labelencoder_X_2 = LabelEncoder()
X[:, 2] = labelencoder_X_2.fit_transform(X[:, 2])
onehotencoder = OneHotEncoder(categorical_features = [1])
X = onehotencoder.fit_transform(X).toarray()
X = X[:, 1:]

# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

dataset.head()

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


## 2-2. 安裝相關軟體及套件

- [Theano](http://deeplearning.net/software/theano/): 這是一個Python的library，是一個開源的深度學習框架，但是其實在這個章節好像沒有用到。而且官方在2017年9月底宣布不再更新了，以後應該很快會被淘汰。
- [Tensorflow](https://www.tensorflow.org/): Tensorflow是由Google開發的開源軟體，可以透過CPU或GPU作為核心進行數值運算，被廣泛運用在深度學習領域。
- [Keras](https://keras.io/): 也是一個Python的library。是基於Tensorflow、CNTK或Theano的高階神經網路API。簡單來說就是一個包裝成比較簡單的介面，讓開發者可以較簡單去建構模型、提高開發效率。

安裝的部份Theano和Keras比較單純，可以直接在terminal用下面的指令安裝：

**Installing Theano**

pip install --upgrade --no-deps git+git://github.com/Theano/Theano.git

**Installing Keras**

pip install --upgrade keras

而Tensorflow的話因為牽涉到作業系統版本不同(Linux, MacOS, Windows)、Python版本不同(Python 2.7, Python 3.n)、安裝管道不同(virtualenv, pip, Docker, Anaconda)、支援版本不同(CPU, GPU)而有不同的安裝方式，如果是安裝GPU支援版本的話還需檢查相容顯示卡型號、另外安裝CUDA toolkit、cuDNN。因此建議直接到他的官網按照實際環境選擇適合的方案依照其說明步驟進行安裝。

## 2-3. Python語法說明

載入keras相關套件，預設就會使用Tensorflow框架。

In [7]:
# Part 2 - Now let's make the ANN!

# Importing the Keras libraries and packages
import keras
from keras.models import Sequential
from keras.layers import Dense

Using TensorFlow backend.


首先用Sequential類別建立一個classifier物件，Sequential是Keras中的主要模型。

使用add方法替神經網路添加不同的層(layer)，[Dense](https://keras.io/layers/core/#dense)代表一個與他層神經元全連接的核心層，常用參數包括：

- **units:** 該層的神經元個數。
- **kernel_initializer:** 初始權重的設定方法，可參考[initializers](https://keras.io/initializers/)。
- **activation:** 激活函數，可參考[activations](https://keras.io/activations/)。
- **input_dim:** 只有在第一層隱藏層的時候要設定，代表輸入層的神經元個數。

建立完神經網路的架構後，使用[compile](https://keras.io/models/sequential/)方法來編譯模型，常用參數包括：

- **optimizer:** 求取損失函數最佳解的方法，可參考[optimizers](https://keras.io/optimizers/)。
- **loss:** 損失函數，可參考[losses](https://keras.io/losses/)。
- **metrics:** 用於評估模型優劣的指標，基本上就是用metrics=['accuracy']。

最後使用[fit](https://keras.io/models/sequential/)方法配適模型，常用參數包括：

- **batch_size:** 指定每多少筆樣本進行一步梯度下降。
- **epochs:** 模型的訓練期數。

In [19]:
# Initialising the ANN
classifier = Sequential()

# Adding the input layer and the first hidden layer
classifier.add(Dense(units = 6, kernel_initializer = 'random_uniform', activation = 'relu', input_dim = 11))

# Adding the second hidden layer
classifier.add(Dense(units = 6, kernel_initializer = 'random_uniform', activation = 'relu'))

# Adding the output layer
classifier.add(Dense(units = 1, kernel_initializer = 'random_uniform', activation = 'sigmoid'))

# Compiling the ANN
classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

# Fitting the ANN to the Training set
classifier.fit(X_train, y_train, batch_size = 10, epochs = 100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.callbacks.History at 0x7f7b64643b38>

針對測試樣本進行客戶流失的預測，預測結果會是一組介於0,1之間的數值，可視為客戶流失的機率。
以0.5為切點，計算實際值與預測值的混淆矩陣。

In [21]:
# Part 3 - Making the predictions and evaluating the model

# Predicting the Test set results
y_pred = classifier.predict(X_test)
y_pred = (y_pred > 0.5)

# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
cm

array([[1542,   53],
       [ 264,  141]])