# Simple Linear Regression 簡單線性迴歸

課程範例程式及資料檔下載網址： https://www.superdatascience.com/machine-learning/

## Importing the Libraries 載入套件

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib notebook

> [Note]
+ `%matplotlib notebook` 把圖畫在 Jupyter Notebook 中

## Importing the Dataset 讀入資料

利用 pd.read_csv 來載入資料，這組資料是一個 30 列(row) 2 行(column) 的薪資資料。
想要了解 YearsExperience 與 Salary 之間的關係。

In [2]:
path = '/Users/sun/Desktop/Machine-Learning-A-Z/Part 2 - Regression/2-1 - Simple Linear Regression/'
dataset = pd.read_csv( path+'Salary_Data.csv' )

In [3]:
dataset

Unnamed: 0,YearsExperience,Salary
0,1.1,39343.0
1,1.3,46205.0
2,1.5,37731.0
3,2.0,43525.0
4,2.2,39891.0
5,2.9,56642.0
6,3.0,60150.0
7,3.2,54445.0
8,3.2,64445.0
9,3.7,57189.0


### Dependent & independent variables 定義解釋變數及反應變數

In [4]:
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 1].values

## Simple Linear Regression Intuition

#### Simple Linear Regression 簡單線性迴歸
公式如下：
$$
y = b_0 + b_1\times x_1
$$
+ $y$ : Dependent Variable 反應變數 
+ $b_0$ : Constant 常數項 (當 $x_1=0$ 時 對應的 $y$ 值)
+ $b_1$ : Coefficient $x_1$的係數，指當 $x_1$ 變動一單位影響 $y$ 的變化 (在簡單線性迴歸中 $b_1$ 也是斜率)
+ $x_1$ : Independent Variable 解釋變數 (在簡單線性迴歸中只會有一個 $x_1$)

![](plot_2_1_1.png)

可以利用簡單線性迴歸來了解 Dependent Variable 反應變數與 Independent Variable 解釋變數間是否有線性關係<br>
以這個 dataset 為例，想了解 YearsExperience 與 Salary 之間的關係 <br>
套用在簡單線迴歸的公式中可以表示成：
$$
Salary = b_0 + b_1\times Experience
$$
係數項解釋，假設
+ $b_0 = 30000$  : 當一個剛出社會沒有工作經驗的人，一開始的起薪為 30000
+ $b_1 = 10000$  : 每當年增多增加一年薪水可以增加的幅度為 10000

> [Note] <br>
> 1. 斜率( $b_1$ )越大，表示每增加一年年資薪水調整的幅度越大
> 2. 斜率( $b_1$ )越小，表示每增加一年年資薪水調整的幅度越小

#### Ordinary Least Squares 最小平方法
+ $y_i$ : 實際上的觀測點 
+ $\hat{y_i}$ : Model 上的預測點

希望 $y_i$ 與 $\hat{y_i}$ 距離越近越好，所以利用最小平方法來找到最適合的迴歸線

![](plot_2_1_2.png)

## Splitting the dataset into the Training set and Test set 切分訓練及測試樣本

+ Training set : 用來建立 Model
+ Test set : 拿來跟 Model 預測出來的值做驗證，以確定 Model 的好壞

In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 0)

> [Note] <br>
> 1. 這裡是拿 1/3 去當 Test set , 2/3 去當 Training set

## Fitting Simple Linear Regression to the Training set

#### 使用 sklearn.linear_model 來建立 Linear Regression Model
拿 Training set 建立 Simple Linear Regression Model

In [6]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

## Predicting the Test set results

將 Test set 丟入，已經建立好的 Simple Linear Regression Model 中

In [7]:
y_pred = regressor.predict(X_test)

# Visualising the results

#### The Training set 

In [8]:
plt.scatter(X_train, y_train, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary vs Experience (Training set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

<IPython.core.display.Javascript object>

#### The Test set

In [9]:
plt.scatter(X_test, y_test, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('Salary vs Experience (Test set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

<IPython.core.display.Javascript object>

## <div class="alert alert-block alert-warning"> My Note </div>

**pandas 及 numpy 資料選取問題**
> The sklearn.LinearRegression.fit for the first argument "training data", which should be a 2D array <br>

因為簡單線性迴歸中 $X$ 只有一欄，因此選取 $X$ 時可以有以下幾種方式 <br>
1. `X = dataset.iloc[:, :-1].values`
2. `X = dataset.iloc[:, 0:1].values`
3. `X = dataset.iloc[:, 0].values`

其中 `X = dataset.iloc[, 0]` 會把 `X` 存成 `pd.Series`，而其他兩種選取方式則會存成 `pd.Dataframe` <br>
因為 sklearn.LinearRegression.fit 中需要放入 2D-ndarray，而將 `pd.Series`轉成 ndarray (`pd.Series.values`) 後會是 1D-ndarray <br>
故 `X = dataset.iloc[:, 0].values` 不能使用

#### 使用 statsmodels.api 建立 Linear Regression Model

In [10]:
import statsmodels.api as sm

  from pandas.core import datetools


In [11]:
X_train_constant = sm.add_constant(X_train) ## let's add an intercept (beta_0) to our model
lm = sm.OLS(y_train, X_train_constant).fit()

In [12]:
lm.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.938
Model:,OLS,Adj. R-squared:,0.935
Method:,Least Squares,F-statistic:,273.2
Date:,"Fri, 25 Aug 2017",Prob (F-statistic):,2.51e-12
Time:,15:05:48,Log-Likelihood:,-202.6
No. Observations:,20,AIC:,409.2
Df Residuals:,18,BIC:,411.2
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,2.682e+04,3033.148,8.841,0.000,2.04e+04,3.32e+04
x1,9345.9424,565.420,16.529,0.000,8158.040,1.05e+04

0,1,2,3
Omnibus:,2.688,Durbin-Watson:,2.684
Prob(Omnibus):,0.261,Jarque-Bera (JB):,1.386
Skew:,0.305,Prob(JB):,0.5
Kurtosis:,1.864,Cond. No.,11.7


In [13]:
y_pred_lm = regressor.predict(X_test)
y_pred_lm

array([  40835.10590871,  123079.39940819,   65134.55626083,
         63265.36777221,  115602.64545369,  108125.8914992 ,
        116537.23969801,   64199.96201652,   76349.68719258,
        100649.1375447 ])

#### seaborn 畫圖比較美

In [14]:
import seaborn as sns

In [15]:
sns.regplot(x=X_train, y=y_train)

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x11b617b00>