# Logistic Regression

我們將透過這份作業學習 Logistic Regression。

## 1 - Packages ##

首先，我們需要 import 一些需要使用到的套件。
- [numpy](http://www.numpy.org) 是 Python 的擴充程式庫，提供大量的數學函式庫與矩陣運算等。
- [Pandas](http://pandas.pydata.org) 是一個提供數據分析的 Python 函式庫。
- [Scikit-learn](http://scikit-learn.org) 是一個提供 Machine Learning 運算的函式庫。

In [1]:
import numpy as np
import pandas as pd
from sklearn import datasets, linear_model

## 2 - Overview of the Dataset
我們有一個 Dataset 包含
- X
- Y1
- Y2
- Y3

我們之後會透過 Scikit-learn 來找出他們之間的關係。

首先，我們透過 `pd.read_csv()` 來讀取 csv 檔案。

In [2]:
# csv 檔案的位置
csv_file = "logistic.regression.basic.csv"

# 讀取 csv
dataset = pd.read_csv(csv_file)

`dataset`是一個 DataFrame，我們可以使用 `print()` 來看看 dataset。

In [3]:
# 印出 dataset
print(dataset)

          a1  class0   class1 class2
0   -3.39726       0  IMPROVE     C3
1   -1.96212       0  IMPROVE     C3
2    3.53738       1     PASS     C0
3    1.44982       1     PASS     C0
4    1.54657       1     PASS     C0
5    1.54977       1     PASS     C0
6   -2.30432       0  IMPROVE     C3
7    0.51310       1     PASS     C1
8   -0.19312       1     PASS     C1
9   -0.04935       1     PASS     C1
10   0.52829       1     PASS     C1
11   1.67465       1     PASS     C0
12  -2.69680       0  IMPROVE     C3
13   1.15796       1     PASS     C0
14   1.26195       1     PASS     C0
15   3.37797       1     PASS     C0
16   1.67087       1     PASS     C0
17   1.00676       1     PASS     C1
18  -0.74247       1     PASS     C2
19  -0.66371       1     PASS     C2
20   1.64130       1     PASS     C0
21  -2.87262       0  IMPROVE     C3
22   1.40634       1     PASS     C0
23  -0.63676       1     PASS     C2
24   0.61014       1     PASS     C1
25   4.44448       1     PASS     C0
2

我們分別取出 `data_X`, `data_C1`, `data_C2`, `data_C3`。
- 我們可以使用 [`iloc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)取得數據。

In [4]:
# 取出 X
data_X = dataset.iloc[:, 0]

# 取出 C1
data_C1 = dataset.iloc[:, 1]

# 取出 C2
data_C2 = dataset.iloc[:, 2]

# 取出 C3
data_C3 = dataset.iloc[:, 3]

我們可以觀察這些變數的 `type` 和 `shape`:

In [5]:
print("data_X type:"+ str(type(data_X)))
print("data_X shape:"+ str(data_X.shape))
print("data_C1 type:"+ str(type(data_C1)))
print("data_C1 shape:"+ str(data_C1.shape))
print("data_C2 type:"+ str(type(data_C2)))
print("data_C2 shape:"+ str(data_C2.shape))
print("data_C3 type:"+ str(type(data_C3)))
print("data_C3 shape:"+ str(data_C3.shape))

data_X type:<class 'pandas.core.series.Series'>
data_X shape:(300,)
data_C1 type:<class 'pandas.core.series.Series'>
data_C1 shape:(300,)
data_C2 type:<class 'pandas.core.series.Series'>
data_C2 shape:(300,)
data_C3 type:<class 'pandas.core.series.Series'>
data_C3 shape:(300,)




我們發現四個變數的 shape 都是 **(300,)** , 使用 `np.array()` 轉成 array 後也會是 **(300,)** ，我們稱之為 **rank 1 array**。

在 Andrew Ng 的 Neural Networks and Deep Learning 課程中，有提到我們**應當避免使用 rank 1 array**。

這裡我們可以使用`data[:, np.newaxis]`或是`data[:, None]`來解決此問題。


In [6]:
# Reshape Rank 1 array
data_X  = data_X[:,None]
data_C1 = data_C1[:,None]
data_C2 = data_C2[:,None]
data_C3 = data_C3[:,None]

我們可以再次觀察這些變數的 `type` 和 `shape`:

In [7]:
print("data_X type:"+ str(type(data_X)))
print("data_X shape:"+ str(data_X.shape))
print("data_C1 type:"+ str(type(data_C1)))
print("data_C1 shape:"+ str(data_C1.shape))
print("data_C2 type:"+ str(type(data_C2)))
print("data_C2 shape:"+ str(data_C2.shape))
print("data_C3 type:"+ str(type(data_C3)))
print("data_C3 shape:"+ str(data_C3.shape))

data_X type:<class 'numpy.ndarray'>
data_X shape:(300, 1)
data_C1 type:<class 'numpy.ndarray'>
data_C1 shape:(300, 1)
data_C2 type:<class 'numpy.ndarray'>
data_C2 shape:(300, 1)
data_C3 type:<class 'numpy.ndarray'>
data_C3 shape:(300, 1)


我們可以看到我們有 300 筆的資料。現在我們把前 270 筆資料當作 train data，後 30 筆資料當作 test data。

In [8]:
train_X = data_X[:270]
train_C1 = data_C1[:270]
train_C2 = data_C2[:270]
train_C3 = data_C3[:270]
test_X = data_X[270:]
test_C1 = data_C1[270:]
test_C2 = data_C2[270:]
test_C3 = data_C3[270:]

In [9]:
print("train_X shape:"+ str(train_X.shape))
print("train_C1 shape:"+ str(train_C1.shape))
print("train_C2 shape:"+ str(train_C2.shape))
print("train_C3 shape:"+ str(train_C3.shape))
print("test_X shape:"+ str(test_X.shape))
print("test_C1 shape:"+ str(test_C1.shape))
print("test_C2 shape:"+ str(test_C2.shape))
print("test_C3 shape:"+ str(test_C3.shape))

train_X shape:(270, 1)
train_C1 shape:(270, 1)
train_C2 shape:(270, 1)
train_C3 shape:(270, 1)
test_X shape:(30, 1)
test_C1 shape:(30, 1)
test_C2 shape:(30, 1)
test_C3 shape:(30, 1)


## 3 - Choose a model
在這次的作業中，我們選擇使用 `Scikit-learn` 中的 [`LogisticRegression()`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) 來建立模型。

In [10]:
# 建立 Linear Regression 模型
clf = linear_model.LogisticRegression(C=1e5, solver='lbfgs')

## 4 - Train the model
建立好模型之後，我們可以使用 `fit()` 來訓練模型。

### 4-1 Example 1

In [11]:
# 訓練模型
clf.fit(train_X,train_C1.ravel())

LogisticRegression(C=100000.0, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='warn', n_jobs=None, penalty='l2', random_state=None,
          solver='lbfgs', tol=0.0001, verbose=0, warm_start=False)

最後我們可以列印出 $Coefficient$ 和 $Intercept$ 的值。

In [12]:
# 列印 Coefficient 和 Intercept
print("Coefficient:"+ str(clf.coef_))
print("Intercept:"+ str(clf.intercept_))

Coefficient:[[176.94875632]]
Intercept:[135.66942227]


# 5 - Test the Model
訓練完模型後，我們可以用`predict()`來預測新資料，以及`score()`來看模型的績效。

In [13]:
pred = clf.predict(test_X)
print("Result:" + str(pred))

Result:[0 0 1 1 0 0 1 1 1 1 0 1 1 1 1 1 0 0 1 1 0 0 1 0 1 0 0 1 1 1]


In [14]:
accuracy = clf.score(test_X, test_C1)
print("Accuracy:" + str(accuracy))

Accuracy:1.0


當 $A_1$=−0.902時，預測其結果。

In [15]:
pred = clf.predict([[-0.902]])
print("Result:" + str(pred))

Result:[0]
