# 複迴歸

http://ithelp.ithome.com.tw/articles/10187047

# 建立複迴歸模型

使用連鎖蛋糕店的 店面面積（坪）與車站距離（公里）來預測分店單月銷售量（萬日圓）。

我們使用 sklearn.linear_model 的 LinearRegression() 方法

In [11]:
import numpy as np
from sklearn.linear_model import LinearRegression

X = np.array([
    [10, 80], 
    [8, 0], 
    [8, 200], 
    [5, 200], 
    [7, 300], 
    [8, 230], 
    [7, 40], 
    [9, 0], 
    [6, 330], 
    [9, 180]
])
y = np.array([469, 366, 371, 208, 246, 297, 363, 436, 198, 364])

lm = LinearRegression()
lm.fit(X, y)

# 印出係數
print(lm.coef_)

# 印出截距
print(lm.intercept_ )

[ 41.51347826  -0.34088269]
65.3239163889


# 利用複迴歸模型預測

建立複迴歸模型之後，身為連鎖蛋糕店的老闆，在開設新店選址的時候，就可以用新店資訊預測單月銷售量，進而更精準地掌握店租與人事成本的管理。

我們使用 LinearRegression() 的 predict() 方法。

In [12]:
# 新蛋糕店資料
to_be_predicted = np.array([
    [10, 110]
])
predicted_sales = lm.predict(to_be_predicted)

# 預測新蛋糕店的單月銷量
print(predicted_sales)

[ 442.96160353]


# 複迴歸模型的績效

複迴歸模型的績效（Performance）有 Mean squared error（MSE）、 R-squared 與 Adjusted R-squared。

我們使用 LinearRegression() 方法建立出來物件的 score 屬性。

In [13]:
# 模型績效
mse = np.mean((lm.predict(X) - y) ** 2)
r_squared = lm.score(X, y)
adj_r_squared = r_squared - (1 - r_squared) * (X.shape[1] / (X.shape[0] - X.shape[1] - 1))

# 印出模型績效
print(mse)
print(r_squared)
print(adj_r_squared)

417.300611999
0.945235852682
0.929588953448


# 複迴歸模型的係數檢定

複迴歸模型我們通常還會檢定變數的顯著性，以 P-value 是否小於 0.05（信心水準 95%）來判定。

我們使用 sklearn.feature_selection 的 f_regression() 方法。

In [14]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import f_regression

X = np.array([
    [10, 80], [8, 0], [8, 200], [5, 200], [7, 300], [8, 230], [7, 40], [9, 0], [6, 330], [9, 180]
])
y = np.array([469, 366, 371, 208, 246, 297, 363, 436, 198, 364])

lm = LinearRegression()
lm.fit(X, y)

# 印出 p-value
print(f_regression(X, y)[1])

[ 0.00051435  0.00844837]
