# Linear Model Selection and Regularization

## 1. 이론

### **A. Imporving linear models**

---

`-` 예측력을 올리고, 설명력을 키우고 싶은데, 변수를 현재 있는 전부를 사용하면 안되는 경우.

`-` 반응변수에 별 다른 영향력이 없는 예측변수는 모형의 복잡성만을 초래함. 변수가 고차원인 경우 해석도 어려울 뿐더러 성능의저하도 가져옴.

`-` 최소제곱추정에 대한 대안 : 크게 세 가지 유형

- Subset selection : 전체 예측변수들 중 모형에 포함시킬 일부만 식별

- Shrinkage(축소) 방법 : p개의 예측변수를 모두 포함하여 자료를 적합하되, 추정된 계수들에는 0을 향한 축소가 일어남. 이러한 축소는 추정량의 분산을 감소시키는 효과가 있음 : Ridge, Lasso

- Dimension reduction : p개의 예측변수로 이루어진 공간을 M차원의 부분공간으로 정사영한 후 모형 적합 : PCA

### **B. Best subset selection**

---

`-` k개의 예측변수를 포함하는 모형을 모두 적합하여 적절한 기준으로 가장 좋은 모형을 선택

> $C_p, AIC, BIC, \text{adjusted}-R^2$등을 이용하여 가장 우수한 모형 선택
>
> p가 커짐에 따라 계산량이 지수적으로 증가하는 단점이 있음

$k = 0, 1, \cdots, p$에 대하여 위 과정을 반복하여 $M_0, \cdots, M_p$ 생성, 이 모형 중 가장 우수한 모형 선택

`-` 전진선택법

1. 예측변수가 없는 모형 $M_0$에서 출발
2. $k = 0, \cdots, p-1$에 대하여 다음을 실행

* $M_k$에서 하나의 변수가 추가된 $p-k$개의 모형을 고려
* 적절한 기준에서 가장 우수한 모형 $M_{k+1}$ 선택

3. 기준치에 대하여 $M_0, \cdots, M_p$ 중 가장 우수한 모형 선택

> 새로운 변수를 추가했을 때, 기준치가 개선되지 않았다면 변수 추가를 멈춤. 이에 따라 계산이 가장 빠르다.

2번 과정의 기준과, 3번 과정의 기준을 다르게 설정하는 것도 가능함. 가능하면 일치시키는 게 좋음. 계산량은 경감되나 best model을 선택할 수 있다는 보장은 없음.(다중공선성을 고려하지 않음)

`-` 후진제거법

1. 예측변수가 모두 포함된 모형 $M_p$에서 출발
2. $k = p, p-1, \cdots, 1$에 대하여 다음을 실행
* $M_k$에서 하나의 변수만을 제외한 $k$개의 모형을 각각 고려
* $RSS$ 또는 $R^2$의 관점에서 가장 우수한 모형 $M_{k-1}$ 선택

3. 기준치에 대하여 가장 우수한 모형 선택

> 전진선택법보다 계산량이 일반적으로 많음.

`-` Hybrid approaches

* 다중공선성의 문제 때문에 전진선택법과 후진제거법을 혼합. forward의 방식을 기본적으로 따르되, 새로운 변수가 하나 추가된 후 모형적합에 더이상 도움이 되지 않아 제거가 필요한 변수가 있는지 탐색

### **C. 평가 측도**

---

`-` 최적모형 선택을 위해선 test error에 대한 추정이 필요함.

* 교차타당검증(CV)을 이용하여 직접적으로 test error를 추정
* training error에 과적합 등에 따른 편의를 고려한 보정을 가하는 방식으로 간접적으로 test error를 추정

`-` 평가 측도 : training error 보정

* $RSS, R^2$ 등은 모형의 복잡도에 따라 단조적으로 변하는 측도이므로 최적모형 선택에 도움이 되지 않음.
* training error를 모형의 크기(복잡도 또는 모수의 개수)에 대하여 보정한 측도들 활용
* $C_p, AIC, BIC, \text{adjusted}-R^2$

`-` $C_p$

* p개의 예측변수를 포함한 모형에서 test MSE에 대한 추정량

$$C_p = \frac1n(RSS + 2p\hat \sigma^2)$$

> $E[(y' - x^{\top}\hat \beta)^2] - E[(y - x^{\top}\hat \beta)^2] = 2p \hat \sigma^2$이며, $y'$는 평가데이터에서, $y$는 훈련데이터에서 나옴. $\hat \sigma^2$은 오차항의 분산 추정치임.
>
> 원래는 $\sigma$를 넣어야 하는데, $\hat \sigma^2$를 넣음. 추정량이므로 바뀌지 않는 고정된 값임
>
> 원래 있던 강의록의 내용과 다름. 이 쪽이 더 엄밀한 정의임

`-` AIC(Akaike Information Criterion)

$$AIC = -2 \log \hat L + 2p ∝ n \log \hat \sigma^2 + 2p$$

> $C_p$와 달리 원래 $\hat \sigma^2$를 사용함. 여기서는 모형마다의 추정치, MSE를 사용

`-` BIC(Bayesian Information Criterion)

$$BIC = -2 \log \hat L + (\log n) p ∝ n \log \hat \sigma^2 + (\log n)p$$

> $n > 7$면 $\log(n) > 2$이므로, AIC보다 상대적으로 단순한 모형을 선택하도록 만듦.

`-` $\text{Adjusted}-R^2$

$$\text{Adjusted}-R^2 = 1 - \frac{RSS/(n-p-1)}{TSS/(n-1)}$$

> 변수의 개수가 늘어날 때, 값이 무지성으로 늘어나지 않음.
>
> 해당 값을 최대화하는 것은 $RSS/(n-p-1)$을 최소화시키는 것과 동치.
>
> 이해가 쉬운 반면, 이론적인 배경은 빈약함. 이론적인 정당성은 없음.

`-` $C_p, AIC, BIC$ 측도들은 선형모형 뿐 아니라 좀 더 일반적인 형태의 모형 하에서도 적절히 정의될 수 이씅며, 모형 선택에 활용될 수 있음.

`-` 과거에는 보정측도들을 널리 사용하였으나, 계산능력의 향상으로 교차타당검증법(CV)도 매우 대중적으로 변함.

### **D. One-standard-error rule**

---

교차타당검증에는 데이터셋 분할에 따른 변동성이 존재할 수 있음 : CV에서 MSE의 표준오차$e$ 추정. 최적으로 판명된 모형의 test MSE에서 $e$이내의 test MSE를 가지는 모형들은 대략 비슷한 성능을 보이는 것으로 간주함.

> 즉, test MSE의 최소값 $\pm e$이내에서 test MSE를 가지고 있는 모형들 중 가장 단순한 모형을 최종 모형으로 선택

Anova t검정 안하면 감점?

---

위까지 중간고사 범위

---

지금은 기말 발표 개인적으로 하는 거임. 배운 내용들을 종합하여 분석하고, 1페이지 정도의 포스터로 축약하여 발표하는 것.

### E. Shrinkage methods

---

`-` 변수의 개수가 많아서 변수 전체를 쓰는 데 문제가 되는 상황

* 완벽한 선형 결합으로 이뤄졌거나 변수의 개수가 너무 많아서 역행렬이 존재하지 않는 경우 -> 유일해가 존재하지 않음.
* 다중공선성이 존재하는 경우 유일해가 존재하나 분산이 매우 큼

> 계수 추정에서 특정한 바운더리에 모수가 들어간다고 가정하여 추정량 산출

`-` Ridge regression

> 원의 형태로 계수 추정 구간을 제약(L2-norm)
>
> 아래 식을 최소화하는 것을 목표로 함

$$\underset{i=1}{\overset{n}{\sum}} \Bigg(y_i - \beta_0 - \underset{j=1}{\overset{p}{\sum}}\beta_jx_{ij}\Bigg)^2 + \lambda \underset{j=1}{\overset{p}{\sum}}\beta_j^2$$

> $\lambda = 0$은 OLS와 동일, $\lambda \to \inf$일수록 계수가 0에 가까워짐.
>
> 중요한 성질
>
> * 변수들 간 상관관계가 높을 경우 좋은 성능을 나타낼 수 있다. 

ex) $\beta_0 = 2$

일반적인 최소제곱추정 $\hat\beta_{01} = 3, \hat\beta_{02} = 1 \to \mathbb E(\hat\beta_0) = 2 : u.e$

> 불편추정량

Ridge Regression $\hat\beta_{01} = 2.4, \hat\beta_{02} = 1.2 \to \mathbb E(\hat\beta_0^R) = 1.8 : b.e$

> 편의추정량, 하지만 분산이 줄어듦.

$\text{MSE}(\hat\beta) = Var(\hat\beta) + \text{Bias}^2(\hat\beta)$가 줄어든다면, 더 좋은 거 ㅇㅇ

`-` Lasso regression

> 마름모꼴로 계수 추정 구간을 제약(L1-norm)

OLS, Ridge : 회귀계수가 0이 되는 경우는 거의 없음(사실상 불가능함)

LASSO : 실제 값이 0인 계수(의미가 없는 변수)가 존재한다면, 일부를 0으로 만들 수 있음.

> screening, 전체를 찾아내진 못하나, 최소한 몇 가지의 변수는 찾을 수 있다. 실제와 정확히 일치하냐는 것은 어렵다.
>
> 정확히 찾아내지 못해도, 평가 데이터에서의 예측오차를 가장 줄여줄 수 있는 방법이다. (선형 방법론들 중에서)

그래서 최적의 $\lambda$값을 어떻게 선택할까?

> Cross Validation을 사용.
>
> 많은 $\lambda$ 값들에 대한 validation error를 확인해서 비교, validation error가 가장 작은 셋을 사용.