# 複迴歸

http://ithelp.ithome.com.tw/articles/10187047

# 建立複迴歸模型

使用連鎖蛋糕店的 店面面積（坪）與車站距離（公里）來預測分店單月銷售量（萬日圓）。

我們使用 lm() 函數。

In [11]:
store_area <- c(10, 8, 8, 5, 7, 8, 7, 9, 6, 9)
dist_to_station <- c(80, 0, 200, 200, 300, 230, 40, 0, 330, 180)
monthly_sales <- c(469, 366, 371, 208, 246, 297, 363, 436, 198, 364)
bakery_df <- data.frame(store_area, dist_to_station, monthly_sales)

lm_fit <- lm(monthly_sales ~ ., data = bakery_df)

# 印出係數
lm_fit$coefficients[-1]

# 印出截距
lm_fit$coefficients[1]

# 利用複迴歸模型預測

建立複迴歸模型之後，身為連鎖蛋糕店的老闆，在開設新店選址的時候，就可以用新店資訊預測單月銷售量，進而更精準地掌握店租與人事成本的管理。

我們使用 predict() 函數。

In [12]:
# 新蛋糕店資料
to_be_predicted <- data.frame(store_area = 10, dist_to_station = 110)
predicted_sales <- predict(lm_fit, newdata = to_be_predicted)

# 預測新蛋糕店的單月銷量
predicted_sales

# 複迴歸模型的績效

複迴歸模型的績效（Performance）有 Mean squared error（MSE）、 R-squared 與 Adjusted R-squared。

In [13]:
store_area <- c(10, 8, 8, 5, 7, 8, 7, 9, 6, 9)
dist_to_station <- c(80, 0, 200, 200, 300, 230, 40, 0, 330, 180)
monthly_sales <- c(469, 366, 371, 208, 246, 297, 363, 436, 198, 364)
bakery_df <- data.frame(store_area, dist_to_station, monthly_sales)

lm_fit <- lm(monthly_sales ~ ., data = bakery_df)
predicted_sales <- predict(lm_fit, newdata = data.frame(store_area, dist_to_station))

# 模型績效
mse <- mean((monthly_sales - predicted_sales) ^ 2)

# 印出模型績效
mse
summary(lm_fit)$r.squared
summary(lm_fit)$adj.r.squared

# 複迴歸模型的係數檢定

複迴歸模型我們通常還會檢定變數的顯著性，以 P-value 是否小於 0.05（信心水準 95%）來判定。

使用 summary(lm_fit) 的 coefficients 屬性。

In [14]:
store_area <- c(10, 8, 8, 5, 7, 8, 7, 9, 6, 9)
dist_to_station <- c(80, 0, 200, 200, 300, 230, 40, 0, 330, 180)
monthly_sales <- c(469, 366, 371, 208, 246, 297, 363, 436, 198, 364)
bakery_df <- data.frame(store_area, dist_to_station, monthly_sales)

lm_fit <- lm(monthly_sales ~ ., data = bakery_df)

# 印出 p-value
summary(lm_fit)$coefficients[-1, 4]