# Featrue Selection - Forward selection 코드 구현하기 


구현해야하는 것은 크게 아래의 3가지 함수이다. 아래의 함수들을 구현하는 과정을 최대한 세분화하여 모델을 구축할 것 

1. measure 함수 (설명력 지표)  
- forward_select 함수에서 어떤 변수가 더 좋은지 판단하기 위함 
- AIC / adjusted_R_sq 계산 필요 

2. forward_select 함수 
- 아직 선택되지 않은 후보로부터 P-value 또는 설명력 지표값을 가장 좋게 받은 속성 1개 선택 

3. forward_select_goal 함수 
- 설명력이 일정 이상의 값(ex-adjusted_R_Sq) forward_select을 반복할 것 

###### 방향성  
1. Class의 형태로 만들며, 각 기능들을 모듈로 만들 것 


In [1]:
# 데이터 사용 및 라이브러리 설치 

import numpy as np
import pandas as pd 

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression 

boston = load_boston()
X = boston.data 
y = boston.target



    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

### 1. measure 함수 구조 

**구현해야하는 것** 
- AIC : $n *ln(\frac{SSE}{n}) + 2k$ 
> k : 변수의 개수 
- ad_R_sq : $1- \frac{(n-1)(SSE)}{(n-k-1)(SST)}$  

- SST : $\sum_{i=1}^{N}(y_i - mean(y))^2$

- SSE : $\sum_{i=1}^{N}(y_i - pred_y)^2$

**필요로 하는 것**
- n or N : 샘플 데이터의 수 
- k : 사용한 변수의 개수 
- $y_i$ : 데이터의 결과값
- mean(y) : 데이터의 결과값의 평균. np.mean 으로 구현 
- pred_y : 예상 결과값. 예측 모델을 구현하여 값을 찾아야 함. 

**함수의 형태**
- 설명력을 계산할 변수들을 입력하면 AIC / ad_R_sq의 결과값이 구분되어 return 될 것 
- measure(X, y, selected value : 인덱스 또는 속성명) => Dict .  


In [14]:
# measure 함수 구현 

def measure(X,y, select_val) : 
    n = np.shape(X)[0]
    k = len(select_val)
    mean_y = np.mean(y)
    select_X = np.take(X, select_val, axis=1)
    
    model = LinearRegression()
    model.fit(select_X,y)
    pred_y = model.predict(select_X)

    SST = np.sum((y - mean_y)**2)
    SSE = np.sum((y-pred_y)**2) 
    
    AIC = n*np.log(SSE/n) + 2*k 
    ad_R_sq = 1- (n-1)*(SSE) / ((n-k-1)*(SST))
    
    return {"AIC" : AIC, "ad_R_sq" : ad_R_sq}
    

In [50]:
test_val1 = [0,1,2,3,4,5]

measure(X, y, test_val1)

{'AIC': 1808.5925888909474, 'ad_R_sq': 0.5824155627936991}

# 2. forward_select 함수 

**구현해야하는 것** 
- 이미 선택한 변수 List와, 변수 후보군 list 구분.
- 변수 후보군 중 한개씩 변수를 추가하면서 가장 설명력이 좋은 변수값 선택 
- 선택한 변수값을 선택한 변수 list 군으로 포함할 것 


**필요한 것**
- select_val_lst : 함수의 입력값으로 제시 
- candi_val_lst : 모든 변수들의 list - select_val_lst 로 구현 
- 설명력 지표로 무엇을 사용할 것인지 제시 

**함수의 형태**
- 입력값 : select_val_lst, 사용할 설명력 지표, 사용할 모델 
- 결과값 : 선택한 변수가 포함된 selected value와 당시 설명력 지표값 
- measure(X, y, selected value, 설명력 지표) => selected value , 설명력 지표값 .


In [51]:
def forward_select(X, y, select_val_lst, way) : 
    candi_val_lst = list(set(list(range(np.shape(X)[1]))) - set(select_val_lst))
    result = []
    
    for i in candi_val_lst :
        selected_lst = select_val_lst + [i]
        result.append(measure(X,y,selected_lst)[way]) 
        
    if way == "AIC" : 
        select_val = candi_val_lst[np.argmin(result)]
        best_result = min(result)
    if way == "ad_R_sq" : 
        select_val = candi_val_lst[np.argmax(result)]
        best_result = max(result)
    
    select_val_lst.append(select_val)
    
    
    return select_val_lst, best_result


# 3. forward_select_goal 함수 
**구현해야하는 것** 
- 원하는 수준의 설명력을 갖추기 전까지 계속 forward_select 함수를 반복할 것 


**필요한 것**
- select_val_lst : 초기엔 []. forward_select를 진행함에 따라 변수를 추가


**함수의 형태**
- 입력값 : X,y, 사용할 설명력 지표, 목표 지점  
- 결과값 : 최종 선택한 변수들 list 

In [56]:
def forward_select_goal(X,y, way, purpose) : 
    select_val_lst = [] 
    result =0
    
    for i in range(np.shape(X)[0]) : 
        select_val_lst, result = forward_select(X,y,select_val_lst, way)
        
        if way == "AIC" and result <= purpose : 
            break 
        if way == "ad_R_sq" and result >= purpose :
            break 
    
    return select_val_lst
        

In [61]:
forward_select_goal(X,y, "ad_R_sq", 0.7)

[12, 5, 10, 7, 4]

In [43]:
# 최종본 & Backward까지 구현하기
# Forward / Backward Select 간 요구하는 AIC, ad_R_sq의 값을 모든 변수를 고려했을 때보다 높게 잡으면 오류 발생. 
# 위의 오류 수정해둠. 

class Variable_Selection() : 
    def __init__(self, X,y, model) : 
        self.X = X 
        self.y = y 
        self.n = np.shape(X)[0]
        self.model = model 
        self.all_vars = list(range(np.shape(X)[1]))
        self.min_AIC = self.measure(self.all_vars)["AIC"]
        self.max_ad_R_sq = self.measure(self.all_vars)["ad_R_sq"]

# measure 함수 구현 
    def measure(self, select_val) : 
        k = len(select_val)
        mean_y = np.mean(self.y)
        select_X = np.take(self.X, select_val, axis=1)
    
        self.model.fit(select_X,self.y)
        pred_y = self.model.predict(select_X)
    # 여기서 X값에 대입되어야 하는 것은 특정 변수에 대해서 선택된 데이터를 넣어야 하나? 

        SST = np.sum((self.y - mean_y)**2)
        SSE = np.sum((self.y-pred_y)**2) 
    
        AIC = self.n*np.log(SSE/self.n) + 2*k 
        ad_R_sq = 1- (self.n-1)*(SSE) / ((self.n-k-1)*(SST))
    
        return {"AIC" : AIC, "ad_R_sq" : ad_R_sq}
    

    def forward_select(self, select_val_lst, way) : 
        candi_val_lst = list(set(self.all_vars) - set(select_val_lst))
        result = []
    
        for i in candi_val_lst :
            selected_lst = select_val_lst + [i]
            result.append(self.measure(selected_lst)[way]) 
        
        if way == "AIC" : 
            select_val = candi_val_lst[np.argmin(result)]
            best_result = min(result)
        if way == "ad_R_sq" : 
            select_val = candi_val_lst[np.argmax(result)]
            best_result = max(result)
    
        select_val_lst.append(select_val)
    
        return select_val_lst, best_result


    def forward_select_goal(self, way, purpose) : 
        select_val_lst = [] 
        result =0
        if way == "AIC" and purpose < self.min_AIC : 
            return print("Please lower purpose over", self.min_AIC)
        if way == "ad_R_sq" and purpose > self.max_ad_R_sq : 
            return print("Please lower purpose under", self.max_ad_R_sq)        
    
        for i in range(self.n) :  
            select_val_lst, result = self.forward_select(select_val_lst, way)
        
            if (way == "AIC" and result <= purpose) or (way == "ad_R_sq" and result >= purpose) :
                break 
    
        return select_val_lst
    
    def backward_select(self, select_val_lst, way) : 
        # select_val_lst 에서 값을 하나씩 빼가는 형태로 
        result = []
    
        for i in select_val_lst :
            selected_lst = list(set(select_val_lst) - set([i])) 
            result.append(self.measure(selected_lst)[way]) 
        
        if way == "AIC" : 
            select_val = select_val_lst[np.argmax(result)]
            best_result = min(result)
        if way == "ad_R_sq" : 
            select_val = select_val_lst[np.argmin(result)]
            best_result = max(result)
    
        select_val_lst.remove(select_val)
    
        return select_val_lst, best_result


    def backward_select_goal(self, way, purpose) : 
        select_val_lst = self.all_vars
        result =0

        if way == "AIC" and purpose < self.min_AIC : 
            return print("Please lower purpose over", self.min_AIC)
        if way == "ad_R_sq" and purpose > self.max_ad_R_sq : 
            return print("Please lower purpose under", self.max_ad_R_sq)
        
        for i in range(self.n) :  
            # measure 부분에서 오류 발생. 아마 공 list 를 입력해서 그런 것 같은데. check 필요
            select_val_lst, result = self.backward_select(select_val_lst, way)
        
            if (way == "AIC" and result >= purpose) or (way == "ad_R_sq" and result <= purpose) :
                break 
    
        return select_val_lst

In [47]:
test =Variable_Selection(X,y, LinearRegression()) 
#print(test.forward_select_goal("ad_R_sq", 0.73))
print(test.backward_select_goal("ad_R_sq", 0.4))

[0, 1, 2, 4, 6, 8, 9, 11]


# Stepwise selection 구현 

**구현해야하는 것** 
- 선택한 변수의 개수가 3개가 되기 전까진 forward_select 함수 진행 
- 선택한 변수의 개수가 3개 이상이 되면 한 변수씩 빼면서 설명력을 보다 높게 가지는 경우가 있는지 확인. 그런 경우가 있다면 변수 list 조정함 
- 원하는 수준의 설명력을 갖출 때까지 위의 과정 반복 


**필요한 것**
- X, y, model : self 값으로 부여 
- way, purpose


**함수의 형태**
- 입력값 : X,y, 사용할 설명력 지표, 목표 지점  
- 결과값 : 최종 선택한 변수들 list 

In [48]:
# 최종본 & Backward까지 구현하기
# Forward / Backward Select 간 요구하는 AIC, ad_R_sq의 값을 모든 변수를 고려했을 때보다 높게 잡으면 오류 발생. 
# 위의 오류 수정해둠. 

class Variable_Selection() : 
    def __init__(self, X,y, model) : 
        self.X = X 
        self.y = y 
        self.n = np.shape(X)[0]
        self.model = model 
        self.all_vars = list(range(np.shape(X)[1]))
        self.min_AIC = self.measure(self.all_vars)["AIC"]
        self.max_ad_R_sq = self.measure(self.all_vars)["ad_R_sq"]

# measure 함수 구현 
    def measure(self, select_val) : 
        k = len(select_val)
        mean_y = np.mean(self.y)
        select_X = np.take(self.X, select_val, axis=1)
    
        self.model.fit(select_X,self.y)
        pred_y = self.model.predict(select_X)
    # 여기서 X값에 대입되어야 하는 것은 특정 변수에 대해서 선택된 데이터를 넣어야 하나? 

        SST = np.sum((self.y - mean_y)**2)
        SSE = np.sum((self.y-pred_y)**2) 
    
        AIC = self.n*np.log(SSE/self.n) + 2*k 
        ad_R_sq = 1- (self.n-1)*(SSE) / ((self.n-k-1)*(SST))
    
        return {"AIC" : AIC, "ad_R_sq" : ad_R_sq}
    

    def forward_select(self, select_val_lst, way) : 
        candi_val_lst = list(set(self.all_vars) - set(select_val_lst))
        result = []
    
        for i in candi_val_lst :
            selected_lst = select_val_lst + [i]
            result.append(self.measure(selected_lst)[way]) 
        
        if way == "AIC" : 
            select_val = candi_val_lst[np.argmin(result)]
            best_result = min(result)
        if way == "ad_R_sq" : 
            select_val = candi_val_lst[np.argmax(result)]
            best_result = max(result)
    
        select_val_lst.append(select_val)
    
        return select_val_lst, best_result


    def forward_select_goal(self, way, purpose) : 
        select_val_lst = [] 
        result =0
        if way == "AIC" and purpose < self.min_AIC : 
            return print("Please lower purpose over", self.min_AIC)
        if way == "ad_R_sq" and purpose > self.max_ad_R_sq : 
            return print("Please lower purpose under", self.max_ad_R_sq)        
    
        for i in range(self.n) :  
            select_val_lst, result = self.forward_select(select_val_lst, way)
        
            if (way == "AIC" and result <= purpose) or (way == "ad_R_sq" and result >= purpose) :
                break 
    
        return select_val_lst
    
    def backward_select(self, select_val_lst, way) : 
        # select_val_lst 에서 값을 하나씩 빼가는 형태로 
        result = []
    
        for i in select_val_lst :
            selected_lst = list(set(select_val_lst) - set([i])) 
            result.append(self.measure(selected_lst)[way]) 
        
        if way == "AIC" : 
            select_val = select_val_lst[np.argmax(result)]
            best_result = min(result)
        if way == "ad_R_sq" : 
            select_val = select_val_lst[np.argmin(result)]
            best_result = max(result)
    
        select_val_lst.remove(select_val)
    
        return select_val_lst, best_result


    def backward_select_goal(self, way, purpose) : 
        select_val_lst = self.all_vars
        result =0

        if way == "AIC" and purpose < self.min_AIC : 
            return print("Please lower purpose over", self.min_AIC)
        if way == "ad_R_sq" and purpose > self.max_ad_R_sq : 
            return print("Please lower purpose under", self.max_ad_R_sq)
        
        for i in range(self.n) :  
            # measure 부분에서 오류 발생. 아마 공 list 를 입력해서 그런 것 같은데. check 필요
            select_val_lst, result = self.backward_select(select_val_lst, way)
        
            if (way == "AIC" and result >= purpose) or (way == "ad_R_sq" and result <= purpose) :
                break 
    
        return select_val_lst
    
    def stepwise_select_goal(self, way, purpose) : 
        select_val_lst = [] 
        
        if way == "AIC" and purpose < self.min_AIC : 
            return print("Please lower purpose over", self.min_AIC)
        if way == "ad_R_sq" and purpose > self.max_ad_R_sq : 
            return print("Please lower purpose under", self.max_ad_R_sq)
        
        if self.n >2 : 
            self.forward_select(select_val_lst, way)
            self.forward_select(select_val_lst, way)
        
        while select_val_lst != self.all_vars : 
            before = select_val_lst
            after, result = self.forward_select(select_val_lst, way)
            if before == self.backward_select(select_val_lst,way)[0] : 
                select_val_lst = after
                
            if (way == "AIC" and result <= purpose) or (way == "ad_R_sq" and result >= purpose) :
                break 
    
        return select_val_lst

In [None]:
test =Variable_Selection(X,y, LinearRegression()) 
print(test.stepwise_select_goal("ad_R_sq", 0.6))