## 선형회귀모델

### 전처리된 데이터를 이용하여 선형모델 생성
### train 데이터를 train/validataion 데이터로 분리하여 진행
### Stepwise 방법을 이용하여 변수 선택
### 최종 선택된 변수는 CRIM, RM, AGE, PTRATIO, LSTAT

In [166]:
dataset <- read.csv('data/pre_train.csv')
testset <- read.csv('data/pre_test.csv')

### train 데이터를 8:2의 비율로 train/validation 데이터셋으로 분리
n <- nrow(dataset)
ind <- sample(n, n*0.8)

tr <- dataset[ind,]
val <- dataset[-ind,]
te <- testset

### 회귀모델생성 및 변수 선택법 진행(stepwise)
### validataion 데이터에 대한 MSE 값은 4.92

In [169]:
lm <- lm(MEDV~.,data=tr)
lm_step <- step(lm, direction ='both', trace = FALSE, steps=1000)
pr <- predict(lm_step, val)
rmse <- sqrt(mean((pr-val[,'MEDV'])^2))
print(paste('Validation_Dataset Mean_Squared_Error : ' , round(rmse,2)))

[1] "Validation_Dataset Mean_Squared_Error :  4.92"


### 총 5개의 변수가 선택되었으며 모두 유의미함
### 설명력을 나타내는 Multiple R-squared, Adjusted R-squared 가 모두 0.7 이상이므로 적절한 회귀모델이 생성됨

In [153]:
summary(lm_step)


Call:
lm(formula = MEDV ~ CRIM + RM + AGE + PTRATIO + LSTAT, data = tr)

Residuals:
     Min       1Q   Median       3Q      Max 
-18.1452  -2.5153  -0.6132   1.9794  29.8078 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.716e+00  1.879e+00   1.445  0.14931    
CRIM        -7.070e-01  2.296e-01  -3.079  0.00226 ** 
RM           3.033e-02  4.014e-03   7.555 4.27e-13 ***
AGE          2.111e-06  1.009e-06   2.093  0.03715 *  
PTRATIO     -6.468e-04  1.435e-04  -4.508 9.14e-06 ***
LSTAT        5.117e+01  4.979e+00  10.278  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 4.54 on 326 degrees of freedom
Multiple R-squared:  0.7415,	Adjusted R-squared:  0.7375 
F-statistic:   187 on 5 and 326 DF,  p-value: < 2.2e-16


### 최종 예측하고자 하는 test데이터셋에 적용
### MSE값은 4.89

In [156]:
te_pr <- predict(lm_step, te)
rmse <- sqrt(mean((te_pr-te[,'MEDV'])^2))
print(paste('test_Dataset Mean_Squared_Error : ' , round(rmse,2)))

[1] "test_Dataset Mean_Squared_Error :  4.89"


### Ensenble에 서 이용하기 위해 결과 저장

In [171]:
write.csv(te_pr, 'data/LinearRegression.csv',row.names = FALSE)

### 검증데이터의 오차에 대한 분산값 계산
### Ensenble에서 가중치로 이용

In [170]:
var(pr-val[,'MEDV'])