----

# 최적 회귀 방정식 사례

## 1. Prostate Dataset

전립선 특정 항원 수준과 급진적 전립선 절제수술을 받으려는 남성들에 대한 여러 가지 임상 조치 사이의 상관관계를 조사하기 위한 데이터. 총 10개 변수로 되어 있고 총 97개의 데이터가 있다.

In [3]:
# 라이브러리 호출
# install.packages("ElemStatLearn")
library(ElemStatLearn)

In [6]:
?prostate

In [4]:
Data = prostate

In [5]:
# 데이터 확인
head(Data)
str(Data)

lcavol,lweight,age,lbph,svi,lcp,gleason,pgg45,lpsa,train
-0.5798185,2.769459,50,-1.386294,0,-1.386294,6,0,-0.4307829,True
-0.9942523,3.319626,58,-1.386294,0,-1.386294,6,0,-0.1625189,True
-0.5108256,2.691243,74,-1.386294,0,-1.386294,7,20,-0.1625189,True
-1.2039728,3.282789,58,-1.386294,0,-1.386294,6,0,-0.1625189,True
0.7514161,3.432373,62,-1.386294,0,-1.386294,6,0,0.3715636,True
-1.0498221,3.228826,50,-1.386294,0,-1.386294,6,0,0.7654678,True


'data.frame':	97 obs. of  10 variables:
 $ lcavol : num  -0.58 -0.994 -0.511 -1.204 0.751 ...
 $ lweight: num  2.77 3.32 2.69 3.28 3.43 ...
 $ age    : int  50 58 74 58 62 50 64 58 47 63 ...
 $ lbph   : num  -1.39 -1.39 -1.39 -1.39 -1.39 ...
 $ svi    : int  0 0 0 0 0 0 0 0 0 0 ...
 $ lcp    : num  -1.39 -1.39 -1.39 -1.39 -1.39 ...
 $ gleason: int  6 6 7 6 6 6 6 6 6 6 ...
 $ pgg45  : int  0 0 20 0 0 0 0 0 0 0 ...
 $ lpsa   : num  -0.431 -0.163 -0.163 -0.163 0.372 ...
 $ train  : logi  TRUE TRUE TRUE TRUE TRUE TRUE ...


1. lcavol: 종양 부피의 로그
1. lweight: 전립선 무게의 로그
1.  age: 환자의 나이
1. lbph : 양성 전립선 증식량의 로그
1. svi : 암이 정낭을 침범할 확률
1. lcp : capsular penetration의 로그
1. gleason : Gleason 점수
1. pgg45 : Gleason 점수가 4 또는 5인 비율
1. lpsa 전립선 수치의 로그

## 2. Regression Analysis

8개의 입력변수와 1개의 출력변수로 구성. 마지막 열의 train변수는 학습자료인지 예측자료인지 여부를 나타내는 것으로 이번 분석에서는 사용하지 않는다.

In [20]:
data.use <- Data[, -ncol(Data)]

In [22]:
lm.full.Model = lm(lpsa~., data=data.use )

- 양식 : **`step(lm(출력변수~입력변수, 데이터셋), scope=list(lower=~1, upper=~입력변수), direction=("변수선택방법"))`**


- **[scope]**
    - 변수선택과정에서 결정할 수 있는 가장 큰 모형, 가장 작은 모형을 설정
    - 값이 지정되지 않으면 전진선택법에서는 선택한 모형을 가장 큰 모형으로 설정
    - 값이 지정되지 않으면 후진제거법에서는 상수항만 있는 모형을 가장 작은 모형으로 설정
    
- **[k]**
    - 모형선택 기준에서 AIC, BIC와 같은 옵션을 사용
    - k=2이면 AIC, k=log(자료의 수)이면 BIC
    

## 3. Backward Selection : AIC

후진제거법에서 AIC를 이용한 변수 선택

In [25]:
backward.aic <- step(lm.full.Model, lpsa~1, direction = "backward")

Start:  AIC=-60.78
lpsa ~ lcavol + lweight + age + lbph + svi + lcp + gleason + 
    pgg45

          Df Sum of Sq    RSS     AIC
- gleason  1    0.0491 43.108 -62.668
- pgg45    1    0.5102 43.569 -61.636
- lcp      1    0.6814 43.740 -61.256
<none>                 43.058 -60.779
- lbph     1    1.3646 44.423 -59.753
- age      1    1.7981 44.857 -58.810
- lweight  1    4.6907 47.749 -52.749
- svi      1    4.8803 47.939 -52.364
- lcavol   1   20.1994 63.258 -25.467

Step:  AIC=-62.67
lpsa ~ lcavol + lweight + age + lbph + svi + lcp + pgg45

          Df Sum of Sq    RSS     AIC
- lcp      1    0.6684 43.776 -63.176
<none>                 43.108 -62.668
- pgg45    1    1.1987 44.306 -62.008
- lbph     1    1.3844 44.492 -61.602
- age      1    1.7579 44.865 -60.791
- lweight  1    4.6429 47.751 -54.746
- svi      1    4.8333 47.941 -54.360
- lcavol   1   21.3191 64.427 -25.691

Step:  AIC=-63.18
lpsa ~ lcavol + lweight + age + lbph + svi + pgg45

          Df Sum of Sq    RSS     AIC


- 가장 처음의 AIC는 -62.668로 gleason 변수가 제거됨
- 그 다음으로 lcp, pgg45 순서로 제거됨

## 4. Backward Selection : BIC

후진제거법에서 AIC를 이용한 변수 선택

In [33]:
backward.bic <- step(lm.full.Model, lpsa~1, direction = "backward", k=log(nrow(data.use)))

Start:  AIC=-37.61
lpsa ~ lcavol + lweight + age + lbph + svi + lcp + gleason + 
    pgg45

          Df Sum of Sq    RSS     AIC
- gleason  1    0.0491 43.108 -42.071
- pgg45    1    0.5102 43.569 -41.039
- lcp      1    0.6814 43.740 -40.658
- lbph     1    1.3646 44.423 -39.155
- age      1    1.7981 44.857 -38.213
<none>                 43.058 -37.606
- lweight  1    4.6907 47.749 -32.151
- svi      1    4.8803 47.939 -31.767
- lcavol   1   20.1994 63.258  -4.869

Step:  AIC=-42.07
lpsa ~ lcavol + lweight + age + lbph + svi + lcp + pgg45

          Df Sum of Sq    RSS     AIC
- lcp      1    0.6684 43.776 -45.153
- pgg45    1    1.1987 44.306 -43.985
- lbph     1    1.3844 44.492 -43.579
- age      1    1.7579 44.865 -42.768
<none>                 43.108 -42.071
- lweight  1    4.6429 47.751 -36.723
- svi      1    4.8333 47.941 -36.337
- lcavol   1   21.3191 64.427  -7.668

Step:  AIC=-45.15
lpsa ~ lcavol + lweight + age + lbph + svi + pgg45

          Df Sum of Sq    RSS     AIC


- 가장 처음 분석에서 gleason의 BIC는  -42.071로 가장 먼저 제거됨
- AIC와 BIC로 찾은 모형을 비교해보면 BIC 모형이 변수를 더 적게 사용함을 확인가능
- BIC가 변수의 수에 대하여 가중치를 높게 주기 때문

----