# Logistic Regression

課程範例程式及資料檔下載網址： https://www.superdatascience.com/machine-learning/

## Importing the Libraries 載入套件

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib notebook

## Importing the Dataset 讀入資料

利用 pd.read_csv 來載入資料，這組資料是一個 400 列(row) 5 行(column) Social Network的資料，其中 Purchased 表示有沒有購買。

In [2]:
path = '/Users/hsinyu/Desktop/Logistic_Regression/'
dataset = pd.read_csv( path+'Social_Network_Ads.csv' )

In [3]:
dataset

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0
5,15728773,Male,27,58000,0
6,15598044,Female,27,84000,0
7,15694829,Female,32,150000,1
8,15600575,Male,25,33000,0
9,15727311,Female,35,65000,0


## Dependent & independent variables 定義解釋變數及反應變數

In [4]:
X = dataset.iloc[:, [2, 3]].values #Age,EstimatedSalary
y = dataset.iloc[:, 4].values #Purchased

## Logistic Regression Intuition

> [Note]  <br>
> 雖然名稱中有  Regression ，但是 Logistic Regression 是拿來處理分類問題的 Model

當 $y$ 是連續（continuous）時，可以利用之前學到的 Simple Linear Regression 來預測 $y$，
但當 $y$ 是離散（discrete）時，若還是使用 Simple Linear Regression 是否會有問題？

![](plot_3_1_1.png)

> [Note] <br>
> 不管 $y$ 是否為離散的變數，直接使用一般的迴歸分析 (Simple Linear Regression ) 來處理，在某些很特殊的狀況下可能還可以處理的不錯 ( 下圖 A ) <br>
> + 如圖 A，當資料很規則 ( 像圖中 ) ，經過迴歸配適後，預測出來的 $y$ 值以 0.5 來區分，超過 0.5 就視為 1，小於 0.5 則視為 0，在這個例子中可能沒有太大的問題 <br>
> + 如圖 B，但當資料沒有這麼規則的分佈時，就會發現使用 Simple Linear Regression 的方法，配適出來的迴歸線若還是使用 0.5 做分界的話，就會出現一些問題（ 中間四筆資料的分類就是不正確的 )  <br>
> ![](plot_3_1_2.png)

![](plot_3_1_3.png)

> [Note]  <br>
> Logistic Regression 的原本型態是處理二元分類的問題，但修正 Model 後就可以處理多元分類問題

#### 拆解 Logistic Regression 的建立過程 ：
+ 建立 Regression Model ： $h(x) = b_0 + b_1x \;\; or \;\; h(x) = \sum_{i=0}^{n}\theta_i x_i =\theta^Tx$ 
+ 需要將 $h(x)$ 輸出的值域轉換成 $0 \leq h(x) \leq 1$ ，所以將 $h(x)$ 的輸出作為 Sigmoid function 的輸入，得到 $h(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^Tx}}$ 

> [Note] <br>
> + Sigmoid function ( Logistic function ) 映射出來是一個連續 0~1 的值 ( 可以想成是機率 ) <br><br>
$$g(z) = \frac{1}{1+e^{-z}}$$
<br>
> 當 $z \to \infty$ 時，$g(z) \to 1$，當 $z \to -\infty$ 時，$g(z) \to 0$。這樣 $g(z)$ 的值就只是在 0 和 1 之間

+ 再做一次轉換，將 $g(\theta^Tx)$ 作為 $H(x)$ 的輸入，得到 $\hat{y}$ 
$$
\hat{y} = H(x) = \left\{ \begin{aligned}
                         1 & & if \; x \geq 0.5\\
                         0 & & otherwise
                         \end{aligned}
                         \right.
$$

![](plot_3_1_4.png)

> [Note] <br>
> 預測出來的 $\hat{y}$ 是一個機率，可以依據 $0.5$ (建議) 做切分，大於 $0.5$ 就分在 $y=1$ 類，小於 $0.5$ 就分在 $y=0$ 類

## Splitting the dataset into the Training set and Test set 切分訓練及測試樣本

In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

## Feature Scaling 數值型資料尺度轉換

In [6]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)



## Fitting Logistic Regression to the Training set

In [7]:
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression(random_state = 0)
classifier.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=0, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

## Predicting the Test set results

In [8]:
y_pred = classifier.predict(X_test)

## Making the Confusion Matrix

透過判斷預測值是否符合實際值，用來評估模型的工具

![](plot_3_1_5.png)
> Reference ： https://images.nature.com/full/nature-assets/nmeth/journal/v13/n8/images_article/nmeth.3945-F1.jpg

+ True Negative (TN) ： 正確預測 Negative (實際 - → 預測 -)
+ False Positive (FP) ： 錯誤預測 Positive (實際 - → 預測 +)
+ False Negative (FN) ： 錯誤預測 Negative (實際 + → 預測 -)
+ True Positive (TP) ： 正確預測 Positive (實際 + → 預測 +)
+ Actual Negative ： TN + FP (實際 Total -)
+ Actual Positive ： FN + TP (實際 Total +)
+ Predicted Negative ： TN + FN (預測 Total -)
+ Predicted Positive ： FP + TP (預測 Total +)

+ **Accuracy 準確分類率** = 正確預測的正反例數/總數 = ( TN + TP ) /  ( TN + FP + FN + TP )
+ **Error rate** = ( FP + FN ) /  ( TN + FP + FN + TP ) = 1 - Accuracy

In [9]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

In [10]:
cm

array([[65,  3],
       [ 8, 24]])

## Visualising the Training set results

In [11]:
from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Logistic Regression (Training set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

<IPython.core.display.Javascript object>

## Visualising the Test set results

In [12]:
from matplotlib.colors import ListedColormap
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Logistic Regression (Test set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

<IPython.core.display.Javascript object>

## <div class="alert alert-block alert-warning"> My Note </div>

#### Decision Boundary 決策邊界

在一個特徵空間中欲將每個類別劃分成若干空間，而每兩個決策空間的交界處即為決策邊界

在 python 中若要將 Decision Boundary 畫出來時，需要透過 `np.meshgrid` 及 `plt.contourf` 來完成，下面分別介紹它們的用法：<br>
1.
```python
[X,Y] = np.meshgrid(x,y)
```
將向量 x 和向量 y 定義的區域轉換成矩陣 X 和 Y，其中假設 x 的長度是 m , y 的長度是 n ，則最終生成的矩陣 X 和 Y 維度都會是 n x m

In [13]:
X, Y = np.meshgrid(np.arange(1,3),np.arange(3,6))

In [14]:
print('x : ',np.arange(1,3)) # x 的長度是2
print('y : ',np.arange(3,6)) # y 的長度是3
# X, Y 的維度都是 3 x 2
print('X dimension : ',np.shape(X))
print(X) # X 的維度是 3 x 2
print('Y dimension : ',np.shape(Y))
print(Y) # Y 的維度是 3 x 2

x :  [1 2]
y :  [3 4 5]
X dimension :  (3, 2)
[[1 2]
 [1 2]
 [1 2]]
Y dimension :  (3, 2)
[[3 3]
 [4 4]
 [5 5]]


![](plot_3_1_6.png)
![](plot_3_1_7.png)
> Reference_1 ： http://www.jianshu.com/p/4b49e85a878c <br>
> 圖中的 xv 即為上面的矩陣 X， yv 即為上面的矩陣 Y <br>
> Reference_2 ： http://blog.ittraining.com.tw/2017/10/python-numpy-meshgrid.html

可以利用 matplotlib 畫出網格化數據的結果

In [15]:
plt.plot(X, Y, marker='.', color='blue', linestyle='none')
plt.grid()
plt.show()

<IPython.core.display.Javascript object>

2.
```python
plt.contourf(X, Y, result, alpha, cmap )
```
其中 X, Y 分別表示網格化的座標點(見上圖)，result 則是對應網格化的座標點上的結果值(維度必須跟 X, Y 相同)，alpha 為圖形的透明度，cmap 則表示所需要上的顏色

In [16]:
Z = np.array([[1,2],[1,2],[1,2]])
print('Z dimension : ',np.shape(Z))
print(Z)

Z dimension :  (3, 2)
[[1 2]
 [1 2]
 [1 2]]


In [17]:
plt.contourf(X, Y, Z, alpha = 0.75, cmap = ListedColormap(('red', 'green')))

<IPython.core.display.Javascript object>

<matplotlib.contour.QuadContourSet at 0x1110bbac8>