# Linear Regression

我們將透過這份作業學習 Linear Regression。

## 1 - Packages ##

首先，我們需要 import 一些需要使用到的套件。
- [numpy](http://www.numpy.org) 是 Python 的擴充程式庫，提供大量的數學函式庫與矩陣運算等。
- [Pandas](http://pandas.pydata.org) 是一個提供數據分析的 Python 函式庫。
- [Scikit-learn](http://scikit-learn.org) 是一個提供 Machine Learning 運算的函式庫。

In [1]:
import numpy as np
import pandas as pd
from sklearn import datasets, linear_model

## 2 - Overview of the Dataset
我們有一個 Dataset 包含
- X
- Y1
- Y2
- Y3

我們之後會透過 Scikit-learn 來找出他們之間的關係。

首先，我們透過 `pd.read_csv()` 來讀取 csv 檔案。

In [2]:
# csv 檔案的位置
csv_file = "linear.regression.csv"

# 讀取 csv
dataset = pd.read_csv(csv_file)

`dataset`是一個 DataFrame，我們可以使用 `print()` 來看看 dataset。

In [3]:
# 印出 dataset
print(dataset)

             X         Y1         Y2         Y3
0    12.699206   6.539841   6.539841   6.239841
1   -16.338590   0.732282  -0.767718  -0.067718
2    16.566408   7.313282   5.513282   8.013282
3    47.881772  13.576354  14.776354  14.176354
4    15.416405   7.083281   7.383281   6.483281
5    15.008080   7.001616   4.301616   6.001616
6    50.411050  14.082210  11.082210  13.282210
7   -10.979108   1.804178   1.804178   1.604178
8    26.302514   9.260503  10.760503   9.760503
9     9.629661   5.925932   6.225932   5.325932
10   25.423108   9.084622  11.784622   8.184622
11    8.692681   5.738536   3.038536   5.238536
12   16.652935   7.330587   8.530587   7.230587
13   26.409103   9.281821  11.381821   8.881821
14   38.989969  11.797994  14.497994  12.097994
15   -2.706933   3.458613   4.058613   2.758613
16   -5.105699   2.978860   2.978860   2.778860
17   25.985092   9.197018  10.997018   8.397018
18   37.521462  11.504292  10.004292  11.504292
19    7.740839   5.548168   2.548168   6

我們分別取出 `data_X`, `data_Y1`, `data_Y2`, `data_Y3`。
- 我們可以使用 [`iloc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html)取得數據。

In [4]:
# 取出 X
data_X = dataset.iloc[:, 0]

# 取出 Y1
data_Y1 = dataset.iloc[:, 1]

# 取出 Y2
data_Y2 = dataset.iloc[:, 2]

# 取出 Y3
data_Y3 = dataset.iloc[:, 3]

我們可以觀察這些變數的 `type` 和 `shape`:

In [5]:
print("data_X type:"+ str(type(data_X)))
print("data_X shape:"+ str(data_X.shape))
print("data_Y1 type:"+ str(type(data_Y1)))
print("data_Y1 shape:"+ str(data_Y1.shape))
print("data_Y2 type:"+ str(type(data_Y2)))
print("data_Y2 shape:"+ str(data_Y2.shape))
print("data_Y3 type:"+ str(type(data_Y3)))
print("data_Y3 shape:"+ str(data_Y3.shape))

data_X type:<class 'pandas.core.series.Series'>
data_X shape:(300,)
data_Y1 type:<class 'pandas.core.series.Series'>
data_Y1 shape:(300,)
data_Y2 type:<class 'pandas.core.series.Series'>
data_Y2 shape:(300,)
data_Y3 type:<class 'pandas.core.series.Series'>
data_Y3 shape:(300,)




我們發現四個變數的 shape 都是 **(300,)** , 使用 `np.array()` 轉成 array 後也會是 **(300,)** ，我們稱之為 **rank 1 array**。

在 Andrew Ng 的 Neural Networks and Deep Learning 課程中，有提到我們**應當避免使用 rank 1 array**。

這裡我們可以使用`data[:, np.newaxis]`或是`data[:, None]`來解決此問題。


In [6]:
# Reshape Rank 1 array
data_X  = data_X[:,None]
data_Y1 = data_Y1[:,None]
data_Y2 = data_Y2[:,None]
data_Y3 = data_Y3[:,None]

我們可以再次觀察這些變數的 `type` 和 `shape`:

In [7]:
print("data_X type:"+ str(type(data_X)))
print("data_X shape:"+ str(data_X.shape))
print("data_Y1 type:"+ str(type(data_Y1)))
print("data_Y1 shape:"+ str(data_Y1.shape))
print("data_Y2 type:"+ str(type(data_Y2)))
print("data_Y2 shape:"+ str(data_Y2.shape))
print("data_Y3 type:"+ str(type(data_Y3)))
print("data_Y3 shape:"+ str(data_Y3.shape))

data_X type:<class 'numpy.ndarray'>
data_X shape:(300, 1)
data_Y1 type:<class 'numpy.ndarray'>
data_Y1 shape:(300, 1)
data_Y2 type:<class 'numpy.ndarray'>
data_Y2 shape:(300, 1)
data_Y3 type:<class 'numpy.ndarray'>
data_Y3 shape:(300, 1)


## 3 - Choose a model
在這次的作業中，我們選擇使用 `Scikit-learn` 中的 `LinearRegression()` 來建立模型。

其中方程式定義如下
$$ y=Ax+B $$

我們希望可以透過訓練學習到加權數(weight) `A`和`B`。

In [8]:
# 建立 Linear Regression 模型
regr = linear_model.LinearRegression()

## 4 - Train the model
建立好模型之後，我們可以使用 `fit()` 來訓練模型，找到上述線性方程式的加權。

### 4-1 Example 1
找出 $Y_1$和 X 的關係。
$$Y_1 = A_1x+B_1$$

In [9]:
# 訓練模型
regr.fit(data_X,data_Y1)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

最後我們可以列印出 $A_1$ 和 $B_1$ 的值。

In [10]:
# 列印 A1 和 B1
print("A1:"+ str(regr.coef_))
print("B1:"+ str(regr.intercept_))

A1:[[0.2]]
B1:[4.]


### 4-2 Example 2
找出 $Y_2$和 X 的關係。
$$Y_2 = A_2x+B_2$$

In [11]:
# 訓練模型
regr.fit(data_X,data_Y2)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

最後我們可以列印出 $A_2$ 和 $B_2$ 的值。

In [12]:
# 列印 A2 和 B2
print("A2:"+ str(regr.coef_))
print("B2:"+ str(regr.intercept_))

A2:[[0.20667775]]
B2:[3.90038936]


### 4-3 Example 3
找出 $Y_3$和 X 的關係。
$$Y_3 = A_3x+B_3$$

In [13]:
# 訓練模型
regr.fit(data_X,data_Y3)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

最後我們可以列印出 $A_3$ 和 $B_3$ 的值。

In [14]:
# 列印 A3 和 B3
print("A3:"+ str(regr.coef_))
print("B3:"+ str(regr.intercept_))

A3:[[0.20017319]]
B3:[4.00571246]
