# 설명변수의 선택

##### 변수를 선택해 회귀모형을 설정해주는 데에는 다음의 두가지 원칙을 따른다.
* y에 영향을 미칠 수 있는 모든 설명변수 x들을 y의 값을 예측하는데 참여시킨다.
* 데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 포함시켜야 한다.

## 단계적 변수선택(Stepwise Variable Selection)

##### 전진선택법(forward selection)
절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수로부터 차례로 모형에 추가한다.
##### 후진제거법(backward elimination)
독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더이상 유의하지 않은 변수가 없을때까지 설명변수들을 제거한다.
##### 단계별방법(stepwise method)
전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더이상 없을때 중단한다.

## SAMPLE

### 1. 전진선택법

##### step 함수를 이용해 전진선택법을 적용한다.

In [4]:
library(MASS)
data(hills)
head(hills)

Unnamed: 0_level_0,dist,climb,time
Unnamed: 0_level_1,<dbl>,<int>,<dbl>
Greenmantle,2.5,650,16.083
Carnethy,6.0,2500,48.35
Craig Dunain,6.0,900,33.65
Ben Rha,7.5,800,45.6
Ben Lomond,8.0,3070,62.267
Goatfell,8.0,2866,73.217


2개의 설명변수와 time이라는 종속변수로 구성

In [5]:
step(lm(time ~1, hills), scop=list(lower=~1, upper=~dist+climb), direction="forward")

Start:  AIC=274.88
time ~ 1

        Df Sum of Sq   RSS    AIC
+ dist   1     71997 13142 211.49
+ climb  1     55205 29934 240.30
<none>               85138 274.88

Step:  AIC=211.49
time ~ dist

        Df Sum of Sq     RSS    AIC
+ climb  1    6249.7  6891.9 190.90
<none>               13141.6 211.49

Step:  AIC=190.9
time ~ dist + climb




Call:
lm(formula = time ~ dist + climb, data = hills)

Coefficients:
(Intercept)         dist        climb  
   -8.99204      6.21796      0.01105  


step 함수 결과 최종회귀식은 dist와 climb 모두 채택된 time =-8.99204+6.21796dist+0.01105climb로 추정됐다.

### 2. 후진제거법

Y를 반응변수로 하고, X1,X2,X3,X4를 설명변수로 하는 선형회귀모형을 고려하고, 후진제거법을 이용하여 변수를 선택한다.

In [10]:
X1 <- c(7,1,11,11,7,11,3,1,2,21,1,11,10)
X2 <- c(26,29,56,31,52,55,71,31,54,47,40,66,68)
X3 <- c(6,15,8,8,6,9,17,22,18,4,23,9,8)
X4 <- c(60,52,20,47,33,22,6,44,22,26,34,12,12)
Y <- c(78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4)
df <- data.frame(X1,X2,X3,X4,Y)
head(df)

X1,X2,X3,X4,Y
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
7,26,6,60,78.5
1,29,15,52,74.3
11,56,8,20,104.3
11,31,8,47,87.6
7,52,6,33,95.9
11,55,9,22,109.2


In [11]:
a <- lm(Y~X1+X2+X3+X4, data=df)
a


Call:
lm(formula = Y ~ X1 + X2 + X3 + X4, data = df)

Coefficients:
(Intercept)           X1           X2           X3           X4  
    62.4054       1.5511       0.5102       0.1019      -0.1441  


In [12]:
summary(a)


Call:
lm(formula = Y ~ X1 + X2 + X3 + X4, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.1750 -1.6709  0.2508  1.3783  3.9254 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  62.4054    70.0710   0.891   0.3991  
X1            1.5511     0.7448   2.083   0.0708 .
X2            0.5102     0.7238   0.705   0.5009  
X3            0.1019     0.7547   0.135   0.8959  
X4           -0.1441     0.7091  -0.203   0.8441  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.446 on 8 degrees of freedom
Multiple R-squared:  0.9824,	Adjusted R-squared:  0.9736 
F-statistic: 111.5 on 4 and 8 DF,  p-value: 4.756e-07


* 회귀식은 Y=62.4.54+1.5511X1+0.5102X2+0.1019X3 -0.1441X4로 추정된다.
* F통계량=111.5이며 p-값이 4.756e-07로 유의수준 5%하에서 추정된 회귀모형이 통계적으로 매우 유의함을 볼 수 있다.
* 수정된 결정계수 또한 0.9736으로 매우 높은 값을 보이므로 추정된 회귀식이 데이터를 97%로 적절하게 설명하고 있음을 알 수 있다.
* 설명변수 X1, X2, X3, X4의 p-value를 보면 X3의 유의 확률이 가장 높아 이들 중 가장 유의하지 않음을 볼 수 있다.

##### 설명변수 X3을 제거하고 다시 회귀분석을 한다.

In [14]:
b <- lm(Y~X1+X2+X4, data=df)
b


Call:
lm(formula = Y ~ X1 + X2 + X4, data = df)

Coefficients:
(Intercept)           X1           X2           X4  
    71.6483       1.4519       0.4161      -0.2365  


In [16]:
summary(b)


Call:
lm(formula = Y ~ X1 + X2 + X4, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.0919 -1.8016  0.2562  1.2818  3.8982 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  71.6483    14.1424   5.066 0.000675 ***
X1            1.4519     0.1170  12.410 5.78e-07 ***
X2            0.4161     0.1856   2.242 0.051687 .  
X4           -0.2365     0.1733  -1.365 0.205395    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.309 on 9 degrees of freedom
Multiple R-squared:  0.9823,	Adjusted R-squared:  0.9764 
F-statistic: 166.8 on 3 and 9 DF,  p-value: 3.323e-08


##### 설명변수 X1, X2, X4들 중 p-값이 가장 높은 X4를 제거하고 회귀분석을 한다.

In [17]:
c <- lm(Y~X1+X2, data=df)
c


Call:
lm(formula = Y ~ X1 + X2, data = df)

Coefficients:
(Intercept)           X1           X2  
    52.5773       1.4683       0.6623  


In [18]:
summary(c)


Call:
lm(formula = Y ~ X1 + X2, data = df)

Residuals:
   Min     1Q Median     3Q    Max 
-2.893 -1.574 -1.302  1.363  4.048 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 52.57735    2.28617   23.00 5.46e-10 ***
X1           1.46831    0.12130   12.11 2.69e-07 ***
X2           0.66225    0.04585   14.44 5.03e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.406 on 10 degrees of freedom
Multiple R-squared:  0.9787,	Adjusted R-squared:  0.9744 
F-statistic: 229.5 on 2 and 10 DF,  p-value: 4.407e-09


* 설명변수 X1, X2의 p-값이 모두 유의하므로 여기에서 변수제거를 멈춘다.
* 최종 회귀식은 Y=52.57735+1.46831X1+0.66225X2로 추정된다.

### 3. 단계별 변수 선택법
##### step(lm(종속변수~설명변수), 데이터세트), scope=list(lower=~1, upper=~설명변수), direction="변수선택방법")
* lm : 회귀분석
* scope : 분석할때 고려할 변수의 범위를 정한다. 가장 낮은 단계는 lower에서 1을 입력하면 상수항을 위미하고, 가장 높은 단계를 설정하기 위해서는 설명변수들을 모두 써주면 된다.
* direction : 변수 선택방법이다. 선택가능한 옵션은 forward, backward, both가 있다.

[예제] 위의 예에서 주어진 자료와 선형회귀모형에 대해, 전진선택법을 적용하여 모형을 선택한다.

In [20]:
step(lm(Y ~1, df), scope=list(lower=~1, upper=~X1+X2+X3+X4), direction="forward")

Start:  AIC=71.44
Y ~ 1

       Df Sum of Sq     RSS    AIC
+ X4    1   1831.90  883.87 58.852
+ X2    1   1809.43  906.34 59.178
+ X1    1   1450.08 1265.69 63.519
+ X3    1    776.36 1939.40 69.067
<none>              2715.76 71.444

Step:  AIC=58.85
Y ~ X4

       Df Sum of Sq    RSS    AIC
+ X1    1    809.10  74.76 28.742
+ X3    1    708.13 175.74 39.853
<none>              883.87 58.852
+ X2    1     14.99 868.88 60.629

Step:  AIC=28.74
Y ~ X4 + X1

       Df Sum of Sq    RSS    AIC
+ X2    1    26.789 47.973 24.974
+ X3    1    23.926 50.836 25.728
<none>              74.762 28.742

Step:  AIC=24.97
Y ~ X4 + X1 + X2

       Df Sum of Sq    RSS    AIC
<none>              47.973 24.974
+ X3    1   0.10909 47.864 26.944



Call:
lm(formula = Y ~ X4 + X1 + X2, data = df)

Coefficients:
(Intercept)           X4           X1           X2  
    71.6483      -0.2365       1.4519       0.4161  


* 최종회귀식은 Y=71.6483-0.2365X4+1.4519X1+0.4161X2로 추정된다.
* 앞의 후진제거법의 결과와 다른 모형이 선택되었다. 보통 변수선택의 기준에 따라 선택된 모형은 차이를 보일 수 있다.

##### 위의 자료와 모형에 대해 단계적 방법을 적용하여 모형을 선택한다.

In [21]:
df

X1,X2,X3,X4,Y
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
7,26,6,60,78.5
1,29,15,52,74.3
11,56,8,20,104.3
11,31,8,47,87.6
7,52,6,33,95.9
11,55,9,22,109.2
3,71,17,6,102.7
1,31,22,44,72.5
2,54,18,22,93.1
21,47,4,26,115.9


In [22]:
step(lm(Y ~1, df), scope=list(lower=~1, upper=~X1+X2+X3+X4), direction="both")

Start:  AIC=71.44
Y ~ 1

       Df Sum of Sq     RSS    AIC
+ X4    1   1831.90  883.87 58.852
+ X2    1   1809.43  906.34 59.178
+ X1    1   1450.08 1265.69 63.519
+ X3    1    776.36 1939.40 69.067
<none>              2715.76 71.444

Step:  AIC=58.85
Y ~ X4

       Df Sum of Sq     RSS    AIC
+ X1    1    809.10   74.76 28.742
+ X3    1    708.13  175.74 39.853
<none>               883.87 58.852
+ X2    1     14.99  868.88 60.629
- X4    1   1831.90 2715.76 71.444

Step:  AIC=28.74
Y ~ X4 + X1

       Df Sum of Sq     RSS    AIC
+ X2    1     26.79   47.97 24.974
+ X3    1     23.93   50.84 25.728
<none>                74.76 28.742
- X1    1    809.10  883.87 58.852
- X4    1   1190.92 1265.69 63.519

Step:  AIC=24.97
Y ~ X4 + X1 + X2

       Df Sum of Sq    RSS    AIC
<none>               47.97 24.974
- X4    1      9.93  57.90 25.420
+ X3    1      0.11  47.86 26.944
- X2    1     26.79  74.76 28.742
- X1    1    820.91 868.88 60.629



Call:
lm(formula = Y ~ X4 + X1 + X2, data = df)

Coefficients:
(Intercept)           X4           X1           X2  
    71.6483      -0.2365       1.4519       0.4161  


* 최종 회귀모형은 Y=71.6483-0.2365X4+1.4519X1+0.4161X2