# 使用 SparkR提供的線性模型 (Linear Model)進行迴歸分析

由前面的範列，可以看到SparkR可以用R語言的特性，使用Spark分散運算的好處。
這個notebook會使用SparkR所提供的機器學習功能，[2013 American Community Survey](http://www.census.gov/programs-surveys/acs/data/summary-file.html)資料集建立線性模型，並用這個模型來預測資料，並檢測模型的正確性。

## 1. 啟動Spark Session & 建立 SparkDataFrame

和之前一樣，要先建立Spark Session。

In [None]:
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))

In [None]:
sparkR.session(master = "local[*]" , sparkConfig = list(spark.driver.extraJavaOptions = "-Xss10m"))

仿照之前的作法，載入`ss13husa.csv`和`ss13husb.csv`二個檔案，並建立SparkDataFrame

In [None]:
housing_a_file_path <- file.path('', 'home','spark','pu_workshop','data','2013-acs','ss13husa.csv')
housing_b_file_path <- file.path('', 'home','spark','pu_workshop','data','2013-acs','ss13husb.csv')

In [None]:
housing_a_df <- read.df(
    housing_a_file_path, 
    header='true', 
    source = "com.databricks.spark.csv", 
    inferSchema='true')

In [None]:
housing_b_df <- read.df(
    housing_b_file_path, 
    header='true', 
    source = "com.databricks.spark.csv", 
    inferSchema='true')

透過csv，產生二個SparkDataFrame，要先將這二個SparkDataFrame結合起來。

[rbind](http://spark.apache.org/docs/latest/api/R/rbind.html)

In [None]:
housing_df <- rbind(housing_a_df, housing_b_df)

rbind就是把二個SparkDataFrame做聯集，因此，總資料筆數應該就是二個SparkDataFrame的加總。

In [None]:
nrow_a <- nrow(housing_a_df)
nrow_b <- nrow(housing_b_df)
nrows <- nrow(housing_df)
nrow_a
nrow_b
nrows

In [None]:
head(housing_df)

## 2. 清洗資料

在將資料由csv讀成SparkDataFrame時，使用inferSchema，所以數值欄位的資料型態會被定義為int。但是在REGION欄位，這些數字只是用來代表是某一個種類，並不是有意義的數值，因此可用[cast](http://spark.apache.org/docs/latest/api/R/cast.html)要由數值資料(numeric variable)轉換成類別資料(categorical variable)


In [None]:
housing_df$ST <- cast(housing_df$ST, "string")

In [None]:
housing_df$REGION <- cast(housing_df$REGION, "string")

資料集中有些資料的欄位是null，在後續就沒辦法做迴歸，因此，要先將有問題的資料去除。這裡是用[filter](http://spark.apache.org/docs/latest/api/R/filter.html)，過濾值是null的資料。

In [None]:
housing_with_valp_df <- filter(
    housing_df, 
    isNotNull(housing_df$VALP) 
    & isNotNull(housing_df$TAXP)
    & isNotNull(housing_df$INSP)
    & isNotNull(housing_df$ACR)
)

檢查合法的資料剩多少。

In [None]:
nrows <- nrow(housing_with_valp_df)
nrows

## 3. 建立訓練 & 測試 資料集

使用`randomSplit` 將資料集分成二部份，一部份用來建立模型，一部份用來驗證模型正確性。建模與測試的資料集由原始資料依比例9:1取出。

[randomSplit](http://spark.apache.org/docs/latest/api/R/randomSplit.html)。**`randomSplit`是Spark 2.0.0後導入的函數，好像還有bug，若無法執行請多執行幾次。**

In [None]:
housing_df_list <- randomSplit(housing_with_valp_df, c(1,9), 0)
housing_df_test <- housing_df_list[[1]]
housing_df_train <- housing_df_list[[2]]

In [None]:
nrow(housing_df_test)
nrow(housing_df_train)

## 4. 訓練線性模型

我們使用Spark提供的[spark.glm](http://spark.apache.org/docs/latest/api/R/spark.glm.html)來建立線性模型。
和[R語言的glm](http://www.statmethods.net/advstats/glm.html)非常類似，用法幾乎完全一樣。

不同的是，`spark.glm`是針對SparkDataFrame做運算，而不是針對R的data frame做運算，因此在遇到大量資料的時候，才能進行平行處理。


在`glm`裡，我們目的是要預測房地產價值。  
- `VALP` or Property value.

而在`glm`用來預測的變數有
- `RMSP` or number of rooms.
- `ACR` the lot size.
- `INSP` or insurance cost.
- `TAXP` or taxes cost.
- `ELEP` or electricity cost.
- `GASP` or gas cost.
- `ST` that is the state code.
- `REGION` that identifies the region.

In [None]:
model <- spark.glm(
    VALP ~ RMSP + ACR + INSP + TAXP + ELEP + GASP + ST + REGION, 
    data = housing_df_train, 
    family = "gaussian")

透過[summay](http://spark.apache.org/docs/latest/api/R/summary.html)，可以知道線性模型裡每個變數的係數，可以看出不同變數的影響程度。

搭配[data dictionary](http://www2.census.gov/programs-surveys/acs/tech_docs/pums/data_dict/PUMSDataDict13.txt)，我們可以發覺加州(`ST_6`)和夏威夷(`ST_15`)的房地產有正影響。

In [None]:
summary(model)

## 5. 使用測試資料驗證模型準確度

使用測試資料進行預測。

In [None]:
predictions <- predict(model, newData = housing_df_test)

看一下預測的結果和實際值是否相符或相差很多。

In [None]:
head(select(predictions, 
    "prediction","VALP","RMSP","ACR","INSP","TAXP","ELEP","GASP","ST","REGION"))

我們可以計算[R2](https://en.wikipedia.org/wiki/Coefficient_of_determination)來判斷模型的好壞，R2=1，代表模型完全符合資料，所以R2值越大越好。

$S_{res} = \sum_i (VALP_i-prediction_i)^2$

$S_{tot} = \sum_i (VALP_i - \overline{VALP})^2$

$ R^2 = 1 - \frac{S_{res}}{S_{tot}}$

In [None]:
VALP_mean <- collect(agg(
    housing_df_train, 
    AVG_VALP=mean(housing_df_train$VALP)
))$AVG_VALP

In [None]:
VALP_mean

In [None]:
predictions <- transform(
    predictions, 
    S_res=(predictions$VALP - predictions$prediction)**2, 
    S_tot=(predictions$VALP - VALP_mean)**2)
head(select(predictions, "VALP", "prediction", "S_res", "S_tot"))

In [None]:
nrows_test <- nrow(housing_df_test)
residuals <- collect(agg(
    predictions, 
    SS_res=sum(predictions$S_res),
    SS_tot=sum(predictions$S_tot)
))

In [None]:
residuals

In [None]:
R2 <- 1.0 - (residuals$SS_res/residuals$SS_tot)

In [None]:
R2

A value of 0.40 doesn't speak very well about our model.