# Variable Selection
> 회귀분석

- toc:false
- branch: master
- badges: true
- comments: true
- author: 심재인

## Model Selection
- Goal : explain the response with minimum number of explanatory variables   
- Full Model   
  - $y_i = \beta_0+\beta_1x_{i1}+\dots+\beta_px_{ip}+\dots+\beta_qx_{iq}+\epsilon_i$   
  - $\epsilon_i\sim_{idd}N(0,\epsilon^2)$   
  - $SSE_q = ||Y-X\hat{\beta^*}||^2,\quad\hat{\sigma_{q}^2}=SSE_q/(n-p-1)$   
-Current Model   
  - $y_i = \beta_0+\beta_1x_{i1}+\dots+\beta_px_{ip}\epsilon_i$,   
  - $\epsilon_i\sim_{idd}N(0,\epsilon_{p}^2)$   
  - $SSE_p = ||Y-X_{p}\hat{\beta^p}||^2,\quad\hat{\sigma_{p}^2}=SSE_p/(n-p-1)$   
- Statistics used in model selection   
  - Residual mean squares error (MSE) : $MSE = \frac{SSE_P}{(n-p-1)}$   
  - coefficient of determination : $R^2 = \frac{SSR}{SST}=1-\frac{SSE_p}{SST}$   
  - Adjusted $R^2 : R^2_{adj} = 1-\frac{SSE_p/(n-p-1)}{SST/(n-1)}$   
  - Partial F-test statistics
  
## Partial F-test statistics
- 부분 F-검정통계량   
  $H_0:\beta_p=0_{|\beta_0,\beta_1,\dots,\beta_{p-1}}\;vs. H_1:\beta_p\neq 0_{|\beta_0,\beta_1,\dots,\beta_{p-1}}$   
  - 부분 검정통계량 : $F_0 = \frac{SSR_{FM}-SSR_{RM}}{MSE_{FM}}\qquad 유의확률\begin{cases}낮으면\;추가 \\ 높으면\;제거 \end{cases}$   
  - $FM$ : 변수 $p$개, $RM$ : 변수 $(p-1)$개   
  - $F_0$ ~ $F(1,n-p-1), under\;H_0$   
  - $F_0 \geq F_c = F_{\alpha}(1,n-p-1) \Rightarrow H_0$ 기각 $\qquad f_0\begin{cases}높으면\;추가 \\ 낮으면\;제거 \end{cases}$
  
## Variable Selection
- Variable selection.  
  - All possible regression : 모든 가능한 회귀 $\Rightarrow$ 수가 많아지면 너무 오래 걸린다   
  - Backward Elimination : 후진 제거법 $\Rightarrow$ 필요없는것부터 제거 $\qquad\;$ (단, 한번 제거되면 무조건 제거)   
  - Forward Selection : 전진 선택법 $\Rightarrow$ 하나씩 추가해보며 하는 것 $\qquad$ (단, 한번 추가되면 무조건 추가)   
  - Stepwise regression : 단계별 회귀 $\Rightarrow$ 후진 제거법 + 전진 선택법   
- All possible regression   
  - 모든 가능한 변수들의 조합 $(2^p)$을 회귀분석하여 결과 비교   
  - 시간이 오래 걸림   
  - $R^2$또는 $MSE$ 사용   
- Backward Elimination   
  (step 0) 모든 변수를 포함한 회귀방정식 적합 (Full Model).  
  (step 1) 변수 하나하나씩에 대한 부분 F-검정통계량 $F_0$ 구함   
  (step 2) 가장 작은 부분 F-검정통계량 $F_L$과 $F_c$를 구함   
  (step 3) $F_L < F_c$ 이면 $x_L$ `제거` $\Rightarrow$ (step 2)로   
  $\qquad\quad F_L\geq F_c$ 이면 `멈춘 후 최종모형으로 선택`

- Forward Selection   
  (step 0) 변수 하나하나씩에 대한 회귀모형 적합 후 $R^2$ 를 `가장 크게 하는` 설명변수 선택   
  (step 1) 변수를 하나하나씩 `추가`하여 $R^2$를 가장 크게 하는 변수 선택 $(x_s)$   
  (step 2) 위에서 추가된 변수 $x_s$에 대해 부분 `F-검정 수행`   
  (step 3) 위의 결과가 유의하면 `$x_s$ 추가`하고 (step 1)으로, 유의하지 않으면 멈춘 후 `$x_s$를 제외한 모형을 최종모형으로 선택`   
- Stepwise regression   
  (step 0) 전진선택법의 (step 0)와 동일   
  (step 1) 변수를 하나하나씩 `추가`하여 $R^2$를 가장 크게 하는 변수 선택 $x_s$   
  (step 2) 위에서 추가된 변수 $x_s$에 대해 부분 F-검정 수행   
  (step 3) 위의 결과가 유의하면 $x_s$ 포함하고 (step 4)로, 유의하지 않으면 멈춘 후 $x_s$를 제외한 모형을 최종모형으로 선택   
  (step 4) 포함된 변수에 대해 부분 F-검정을 실시하여 유의하지 않은 변수가 있으면 `제거`하고 (step 1)로