# Feature Selection - Forward Selection 코드 이해하기


## https://heejeongchoi.github.io/hydejack/2018-10-23-Supervised-Dimension-Reduction/ 

따라 코드 구현을 쭉 해볼 것. 

### 구현 간 필요한 것 

1. 설명력 지표 
- AIC / BIC / Adjusted $R^2$ 가 있음 



In [1]:
import numpy as np
import pandas as pd
from scipy import stats

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression

In [37]:
boston = load_boston()
X = boston.data
y = boston.target
var_names = boston.feature_names
model = LinearRegression(fit_intercept=True)

var_num = np.shape(X)[1]
all_vars = list(np.arange(var_num))

VS = Variable_Selection(model, X, y, 'AIC', var_names)


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

In [25]:
class Variable_Selection():
    def __init__(self, model, X, y, eval_metric, feature_names):
        '''
        model : 적용할 모델
        X : 입력 데이터
        y : 타겟 데이터. 결과값
        eval_metric : 평가 지표. AIC 또는 adj_R_sq 가 주로 사용됨
        feature_names : 입력 데이터의 속성명
        '''

        self.model = model
        self.X = X
        self.y = y
        self.eval_metric = eval_metric
        self.feature_names = feature_names

        self.n = np.shape(X)[0]
        # np.shape는 X의 형태를 의미. np.shape(X)[0]는 개수를, np.shape(X)[1]는 속성의 개수를 의미함
        self.var_num = np.shape(X)[1]
        self.all_vars = list(np.arange(self.var_num))
        # np.arange(self.var_num) 은 array([0,1,2,3,4, ... self.var_num-1]) 를 의미한다. 즉, 여기선 index를 표현한 것으로 볼 수 있다.

    def metric(self, used_vars):
        used_X = np.take(self.X, used_vars, axis=1)
        # X 입력 데이터의 axis=1, 즉 속성값에 대해서 used_vars의 인덱스에 따라서 array 형태로 값을 추출해라
        # Q.각 속성 값을 array 형태로 빼내는 건데, 꼭 np.take로 빼야하는건가? indexing 으로는 안되나?
        # > 나중에 사용하고 싶은 변수만 설정하여 뽑아낼 수 있음. 그래서 used_vars로 명명한 것으로 보임 
        
        fitted_model = self.model.fit(used_X, self.y)
        # 입력값과 그에 따른 결과값을 입력함. 결과는 어떤 형태로 출력되는 거지? 
        #> Linear Regression() 으로 결과가 나옴. 즉, 함수의 형태로 나오는 것이고 답이 나오는 것은 아님. 
        
        # fit() 메서드는 선형 회귀 모델에 필요한 두가지 변수를 전달하는 것 
        # 기울기 : line_fitter.coef / 절편 ㅣ line_fitter.intercept 
        # Q. 위의 fitted_model은 used_X를 기울기로, self.y를 절편으로 받아들인다는 건가? 
        
        
        y_pred = fitted_model.predict(used_X)
        
        SSE = np.sum((self.y - y_pred)**2) #(실제값 - 예측값)^2 
        SST = np.sum((self.y - np.mean(self.y))**2 )
        AIC = self.n * np.log(SSE / self.n) + 2*len(used_vars) 
        adj_R_sq = 1 - (self.n -1) / self.n - (len(used_vars) +1 )* SSE/SST
        
        return {"AIC" : AIC, "adj_R_sq": adj_R_sq}, fitted_model

    
    def p_value(self, fitted_model, used_vars): # 목적 : 각 속성별로 얼마나 영향을 미치나 체크. 
        used_X = np.take(self.X, used_vars, axis=1)
        params = np.append(fitted_model.intercept_, fitted_model.coef_)
        y_pred = fitted_model.predict(used_X)

        const_X = pd.DataFrame({"Constant": np.ones(len(used_X))}).join(pd.DataFrame(used_X))
        # "Constant" 를 제목으로 하는 한 열에는 모두 값을 1을, 나머지는 속성 열에 맞춰 각 값을 가지게 함.
        
        MSE = (sum((self.y - y_pred) ** 2)) / (len(const_X) - len(const_X.columns))
        #  왜 분모에 전체 데이터의 개수 - 속성 열의 개수를 뺐을까? 
        # A. 그게 오차의 자유도를 의미하며, 보다 정확한 결과를 가져오기 때문. 

        var_b = MSE * (np.linalg.inv(np.dot(const_X.T, const_X)).diagonal())
        # np.linalg.inv :는 역행렬을 구하는 메서드임 
        # 분산을 구하기 위해서 const_X의 내적을 구하고 diagonal() 한 것은 이해가 되나 왜 역행렬을 보낸거지? 
        # 그리고 왜 MSE를 곱했지? 
        
        sd_b = np.sqrt(var_b)
        ts_b = params / sd_b

        pvalue = [2 * (1 - stats.t.cdf(np.abs(i), (len(const_X) - 1))) for i in ts_b]
        # 각 속성의 기울기들이 얼마나 영향을 주는지 확인. 
        # 이떄 pvalue는 [절편, 속성 개수] 만큼의 값들을 지니고 있음. 

        return pvalue[1:]
        # 절편을 제외한 나머지 속성들의 p-value를 확인함. 
   
    def forward_cell(self, selected_vars):
        candidate_vars = list(set(self.all_vars) - set(selected_vars))

        candidate_vars_crt, pvalues = [], []
        # canditate_vars_Crt 가 의미하는 것은 무엇일까? 
        
        for i in range(len(candidate_vars)):
            used_vars = selected_vars + [candidate_vars[i]] # 순서대로 하나씩 추가 

            candidate_var_crt, fitted_model = self.metric(used_vars)
            #{"AIC" : AIC, "adj_R_sq": adj_R_sq}, fitted_model
            # 즉, candidate_var_crt 는 {"AIC" : AIC, "adj_R_sq": adj_R_sq} 를 의미함.
            # candidate_var"s"_crt 에 넣을 값들을 하나 하나 반환하기 
            
            candidate_vars_crt.append(candidate_var_crt[self.eval_metric])
            # 아하 이래서 dictionary 형태로 넣었구나. 
            # AIC, adj_R_sq 둘 모두의 계산 값을 넣은 다음에 적용한 것
            # 원하는 설명력 지표에 대한 값을 가지는 것. 

            pvalue = self.p_value(fitted_model, used_vars)
            # list의 형태로 값을 받을 것이고 
            
            pvalues.append(pvalue)
            #pvalues [] 에 기존 pvalue 값들 추가. 

        if self.eval_metric == 'AIC':
            selected_idx = np.argmin(candidate_vars_crt)
            # AIC는 작을수록 좋은 것 
            
        elif self.eval_metric == 'adj_R_sq':
            selected_idx = np.argmax(candidate_vars_crt)
            # adj_R_sq 는 높을 수록 좋은 것 

        selected_var = candidate_vars[selected_idx]
        selected_pvalue = pvalues[selected_idx][-1]

        return selected_var, selected_pvalue
    

    def forward_selection(self, alpha):
        selected_vars = []
        # 모든 변수에 대해서 forward_cell을 거치면서 1개씩 변수를 추가 
        for _ in range(self.var_num):
            selected_var, selected_pvalue = self.forward_cell(selected_vars)
            
            #유의수준이 원하는 수준까지 도달하지 못하면 계속 변수를 추가. 
            if selected_pvalue <= alpha:
                selected_vars.append(selected_var)
            else:
                break

        return self.feature_names[selected_vars]
    # 마지막에 선택한 변수들의 이름 호출 

In [27]:
used_X = np.take(X, all_vars, axis=1)

fitted_model = model.fit(used_X, y)

y_pred = fitted_model.predict(used_X)

        
SSE = np.sum((y - y_pred)**2)


In [31]:
test = Variable_Selection(model, X, y, 'AIC', var_names)

In [30]:
type(used_X)

numpy.ndarray

In [44]:
const_X = pd.DataFrame({"Constant": np.ones(len(used_X))}).join(pd.DataFrame(used_X))


MSE = (sum((y- y_pred) ** 2)) / (len(const_X) - len(const_X.columns))
var_b = MSE * (np.linalg.inv(np.dot(const_X.T, const_X)).diagonal())


params = np.append(fitted_model.intercept_, fitted_model.coef_)
sd_b = np.sqrt(var_b)
ts_b = params / sd_b


pvalue = [2 * (1 - stats.t.cdf(np.abs(i), (len(const_X) - 1))) for i in ts_b]
print(pvalue)



[3.183009411600324e-12, 0.0010849073826375566, 0.0007765982484859713, 0.7382844051646806, 0.0019222448521833968, 4.218907149189377e-06, 0.0, 0.9582287618194383, 5.804245972740318e-13, 5.039564416220443e-06, 0.0011097045319747867, 1.2658762926776035e-12, 0.0005716404814104514, 0.0]


In [54]:
print(all_vars)
selected_vars = [0,3]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]


In [55]:
candidate_vars = list(set(all_vars) - set(selected_vars))

candidate_vars_crt, pvalues = [], []
        # canditate_vars_Crt 가 의미하는 것은 무엇일까? 
        
for i in range(len(candidate_vars)):
    used_vars = selected_vars + [candidate_vars[i]] # 순서대로 하나씩 추가 

    candidate_var_crt, fitted_model = test.metric(used_vars)
    print(candidate_var_crt)
            #{"AIC" : AIC, "adj_R_sq": adj_R_sq}, fitted_model
            # 즉, candidate_var_crt 는 {"AIC" : AIC, "adj_R_sq": adj_R_sq} 를 의미함.
            # 잎사사 candidate_var_crt 는 list로 정의했었는데 이렇게 대입시켜줘도 되나? 
            
    candidate_vars_crt.append(candidate_var_crt["AIC"])
            # 아하 이래서 dictionary 형태로 넣었구나. 
            # AIC, adj_R_sq 둘 모두의 계산 값을 넣은 다음에 적용한 것
            # [{"AIC" : AIC, "adj_R_sq": adj_R_sq}, AIC] 이런 형태일 듯.. 맞나? 
            
print(len(candidate_vars_crt))

{'AIC': 2096.1876354262286, 'adj_R_sq': -2.946536439686617}
{'AIC': 2060.275112289814, 'adj_R_sq': -2.7445241061680115}
{'AIC': 2089.649621868097, 'adj_R_sq': -2.908683852080899}
{'AIC': 1843.4756663396336, 'adj_R_sq': -1.7874053649949573}
{'AIC': 2104.6293568176084, 'adj_R_sq': -2.9961398186066086}
{'AIC': 2142.732340691568, 'adj_R_sq': -3.2306227407559085}
{'AIC': 2132.477459347147, 'adj_R_sq': -3.1657684723671045}
{'AIC': 2096.129295398424, 'adj_R_sq': -2.9461965060932247}
{'AIC': 2045.4738666481512, 'adj_R_sq': -2.665348568526416}
{'AIC': 2129.700930932229, 'adj_R_sq': -3.1484339931502916}
{'AIC': 1828.7800086233703, 'adj_R_sq': -1.7361841130267375}
11
