# 변수선택법 (Variable Selection Methods)

변수 선택(variable selection)은 모델의 예측력을 향상시키고, 과적합(overfitting)을 방지하기 위해 사용되는 중요한 기법 중 하나입니다. 
변수 선택은 모델에 포함될 변수들을 선정하는 과정으로, 모델의 복잡성을 줄이고, 중요한 변수들을 식별하는 데 도움을 줍니다.

1. `전진 선택 (Forward Selection)`: 
   - 초기에는 변수가 없는 상태에서 시작하여, 각 단계마다 모델의 성능을 가장 많이 개선하는 변수를 추가합니다. 이 과정은 더 이상 유의미한 성능 향상이 없을 때까지 계속됩니다.

2. `후진 제거 (Backward Elimination)`: 
   - 모든 변수를 포함한 상태에서 시작하여, 가장 덜 유의미한 변수부터 하나씩 제거합니다. 이 과정은 더 이상 변수를 제거해도 모델 성능이 유의미하게 떨어지지 않을 때까지 계속됩니다.

3. `단계적 선택 (Stepwise Selection)`: 
   - 전진 선택과 후진 제거를 번갈아가며 수행합니다. 변수를 추가할 때마다, 이미 포함된 변수들이 여전히 유의미한지 검토하여 필요시 제거합니다. 이 과정을 반복하여 최적의 변수 집합을 찾습니다.

이와 같은 변수 선택 기법들은 모델의 복잡성을 줄이고, 중요한 변수들을 식별하는 데 중요한 역할을 합니다. 데이터 과학 프로젝트에서는 이러한 기법들을 통해 모델의 성능을 최적화할 수 있습니다.

### 1. 모듈 불러오기

In [2]:
# import 불러올 패키지명 as 그 패키지를 파이썬에서 사용할 이름
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import matplotlib.pyplot as plt

# 한글 폰트 설정
plt.rc('font', family='Malgun Gothic')

# 노트북상에서 이쁘게 출력하기 위해
from IPython.display import display, HTML

### 2. 데이터 불러오기

In [3]:
# Load data
data = pd.read_csv('./Data/BostonHousing.csv')
data.head()

Unnamed: 0,CRIM,ZN,INDUS,NOX,RM,AGE,DIS,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0.538,6.575,65.2,4.09,296,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.469,6.421,78.9,4.9671,242,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.469,7.185,61.1,4.9671,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.458,6.998,45.8,6.0622,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.458,7.147,54.2,6.0622,222,18.7,396.9,5.33,36.2


### 3. 데이터 준비 
#### Train set / Test set 나누기

In [4]:
X_cols = data.columns.drop('MEDV')
X = data[X_cols]
y = data['MEDV']

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train.shape, y_train.shape, X_test.shape, y_test.shape

((404, 11), (404,), (102, 11), (102,))

In [7]:
# 모델 생성
lr = LinearRegression()
lr.fit(X_train, y_train)

In [8]:
y_pred = lr.predict(X_test)

### 4.2. 선형회귀 모델 평가하기
- R-squared (결정계수,coefficient of determination):모형의 성능
- coef (회귀계수): X가 한단위 증가할 때 Y의 변화량
- P>[t] (p-value):0.05(유의수준) 이하일 때 변수가 유의미

In [9]:
print('Mean Squared Error:', mean_squared_error(y_test, y_pred))
print('R^2 Score:', r2_score(y_test, y_pred))
print('Mean Absolute Error:', mean_absolute_error(y_test, y_pred))

Mean Squared Error: 27.076445309751165
R^2 Score: 0.6307780105854296
Mean Absolute Error: 3.409932206067992


# 변수선택법 (Variable Selection Methods)
- 하지만, 우리는 모든 변수를 사용하는 것이 아닌, 중요한 변수들만 선택하여 모델을 구축하고자 합니다. (💡 과연 모든 변수를 사용하는 것이 가장 좋은가?)

  1. `전진 선택 (Forward Selection)`: 
     - 초기에는 변수가 없는 상태에서 시작하여, 각 단계마다 모델의 성능을 가장 많이 개선하는 변수를 추가합니다. 이 과정은 더 이상 유의미한 성능 향상이 없을 때까지 계속됩니다.
     
  2. `후진 제거 (Backward Elimination)`: 
     - 모든 변수를 포함한 상태에서 시작하여, 가장 덜 유의미한 변수부터 하나씩 제거합니다. 이 과정은 더 이상 변수를 제거해도 모델 성능이 유의미하게 떨어지지 않을 때까지 계속됩니다.

  3. `단계적 선택 (Stepwise Selection)`: 
     - 전진 선택과 후진 제거를 번갈아가며 수행합니다. 변수를 추가할 때마다, 이미 포함된 변수들이 여전히 유의미한지 검토하여 필요시 제거합니다. 이 과정을 반복하여 최적의 변수 집합을 찾습니다.

In [10]:
from sklearn.feature_selection import SequentialFeatureSelector

`SequentialFeatureSelector` 클래스는 `scikit-learn` 라이브러리의 특성 선택 기법 중 하나로, 전진 선택 (Forward Selection)과 후진 제거 (Backward Elimination)을 지원합니다. 

이 클래스는 특성 집합을 점진적으로 구성하거나 축소하여 모델의 성능을 최적화할 수 있는 중요한 특성들을 선택하는 데 사용됩니다.

### 주요 매개변수와 속성

1. **estimator**: 
   - 특성 선택에 사용할 기본 모델을 지정합니다. 예를 들어, `LinearRegression()`이나 `DecisionTreeClassifier()` 등의 모델을 사용할 수 있습니다.

2. **n_features_to_select**: 
   - 선택할 특성의 개수를 지정합니다. 기본값은 'auto'로 설정할 수 있으며, 이 경우 최적의 특성 개수를 자동으로 선택합니다.

3. **direction**: 
   - 특성을 추가하거나 제거할 방향을 지정합니다. 'forward'는 전진 선택, 'backward'는 후진 제거를 의미합니다.

4. **scoring**: 
   - 모델 평가에 사용할 점수 기준을 지정합니다. 예를 들어, 'accuracy', 'r2', 'f1' 등을 사용할 수 있습니다.

5. **cv**: 
   - 교차 검증의 폴드 수를 지정합니다. 기본값은 None이며, 이 경우 교차 검증을 수행하지 않습니다.

### 주요 메서드

- **fit(X, y)**: 
  - 데이터 X와 타겟 y를 사용하여 특성 선택을 수행합니다.

- **get_support(indices=False)**: 
  - 선택된 특성의 부울 마스크 또는 인덱스를 반환합니다.

- **transform(X)**: 
  - 선택된 특성만 포함하도록 데이터 X를 변환합니다.

- **fit_transform(X, y)**: 
  - 특성 선택을 수행하고, 선택된 특성만 포함하도록 데이터 X를 변환합니다.

In [13]:
X_train.columns

Index(['CRIM', 'ZN', 'INDUS', 'NOX', 'RM', 'AGE ', 'DIS', 'TAX', 'PTRATIO',
       'B', 'LSTAT'],
      dtype='object')

### 전진 선택 (Forward Selection)

전진 선택은 변수가 없는 상태에서 시작하여 단계별로 변수를 추가하는 방식입니다. 각 단계마다 모델의 성능을 가장 많이 개선하는 변수를 선택하여 추가합니다. 

#### 과정
1. **초기 상태**: 모델에 아무런 변수가 포함되어 있지 않습니다.
2. **1단계**:
    - 모든 변수 중에서 하나씩 추가하여 모델을 평가합니다.
    - `CRIM`, `ZN`, `INDUS`, `NOX`, `RM`, `AGE`, `DIS`, `TAX`, `PTRATIO`, `B`, `LSTAT` 각각을 모델에 추가한 후 모델의 성능을 평가합니다.
    - 모델 성능이 가장 많이 개선되는 변수를 선택합니다. 예를 들어, `RM`이 선택되었다고 가정합니다.
3. **2단계**:
    - 현재 포함된 변수는 `RM`입니다.
    - 나머지 변수 중에서 하나씩 추가하여 모델을 평가합니다.
    - `CRIM`, `ZN`, `INDUS`, `NOX`, `AGE`, `DIS`, `TAX`, `PTRATIO`, `B`, `LSTAT` 각각을 추가하여 모델의 성능을 평가합니다.
    - 모델 성능이 가장 많이 개선되는 변수를 선택합니다. 예를 들어, `LSTAT`이 선택되었다고 가정합니다.
4. **3단계**:
    - 현재 포함된 변수는 `RM`, `LSTAT`입니다.
    - 나머지 변수 중에서 하나씩 추가하여 모델을 평가합니다.
    - `CRIM`, `ZN`, `INDUS`, `NOX`, `AGE`, `DIS`, `TAX`, `PTRATIO`, `B` 각각을 추가하여 모델의 성능을 평가합니다.
    - 이 과정을 더 이상 유의미한 성능 향상이 없을 때까지 반복합니다.

In [11]:
def forward_selection(X_train, y_train):
    model = LinearRegression()
    sfs = SequentialFeatureSelector(model, n_features_to_select='auto', direction='forward', scoring='r2').fit(X_train, y_train)
    selected_features = X_train.columns[sfs.get_support()]
    return selected_features

In [12]:
selected_features_forward = forward_selection(X_train, y_train)
print(f'전진 선택으로 선택된 특성: {selected_features_forward}')

전진 선택으로 선택된 특성: Index(['RM', 'DIS', 'PTRATIO', 'B', 'LSTAT'], dtype='object')


### 후진 제거 (Backward Elimination)

후진 제거는 모든 변수를 포함한 상태에서 시작하여 단계별로 변수를 제거하는 방식입니다. 각 단계마다 모델의 성능에 가장 적은 영향을 미치는 변수를 제거합니다.

#### 과정
1. **초기 상태**: 모든 변수가 모델에 포함되어 있습니다. 즉, `CRIM`, `ZN`, `INDUS`, `NOX`, `RM`, `AGE`, `DIS`, `TAX`, `PTRATIO`, `B`, `LSTAT` 모두 포함됩니다.
2. **1단계**:
    - 모든 변수가 포함된 상태에서 모델을 평가합니다.
    - 각 변수의 중요도를 평가하여 모델 성능에 가장 적은 영향을 미치는 변수를 식별합니다.
    - 예를 들어, `AGE`가 가장 영향이 적은 변수로 판단되었다면 이를 제거합니다.
3. **2단계**:
    - 현재 포함된 변수는 `CRIM`, `ZN`, `INDUS`, `NOX`, `RM`, `DIS`, `TAX`, `PTRATIO`, `B`, `LSTAT`입니다.
    - 나머지 변수 중에서 모델 성능에 가장 적은 영향을 미치는 변수를 식별합니다.
    - `ZN`이 가장 영향이 적은 변수로 판단되었다면 이를 제거합니다.
4. **3단계**:
    - 현재 포함된 변수는 `CRIM`, `INDUS`, `NOX`, `RM`, `DIS`, `TAX`, `PTRATIO`, `B`, `LSTAT`입니다.
    - 이 과정을 더 이상 변수를 제거해도 모델 성능이 유의미하게 떨어지지 않을 때까지 반복합니다.

In [14]:
def backward_elimination(X_train, y_train):
    model = LinearRegression()
    sfs = SequentialFeatureSelector(model, n_features_to_select='auto', direction='backward', scoring='r2').fit(X_train, y_train)
    selected_features = X_train.columns[sfs.get_support()]
    return selected_features

In [15]:
selected_features_backward = backward_elimination(X_train, y_train)
print(f'후진 제거로 선택된 특성: {selected_features_backward}')

후진 제거로 선택된 특성: Index(['NOX', 'RM', 'DIS', 'PTRATIO', 'B', 'LSTAT'], dtype='object')


### 단계적 선택 (Stepwise Selection)

단계적 선택은 전진 선택과 후진 제거를 결합하여 수행됩니다. 처음에는 전진 선택으로 변수를 추가하고, 그 다음 후진 제거로 추가된 변수들 중 유의미하지 않은 변수를 제거합니다. 이 과정을 반복하여 최적의 변수 집합을 찾습니다.

#### 과정

1. **초기 상태**: 모델에 아무런 변수가 포함되어 있지 않습니다.
2. **1단계** (전진 선택):
    - 모든 변수 중에서 하나씩 추가하여 모델을 평가합니다.
    - `CRIM`, `ZN`, `INDUS`, `NOX`, `RM`, `AGE`, `DIS`, `TAX`, `PTRATIO`, `B`, `LSTAT` 각각을 모델에 추가한 후 모델의 성능을 평가합니다.
    - 모델 성능이 가장 많이 개선되는 변수를 선택합니다. 예를 들어, `RM`이 선택되었다고 가정합니다.
3. **2단계** (후진 제거):
    - 현재 포함된 변수는 `RM`입니다.
    - 포함된 변수 중에서 유의미하지 않은 변수가 있는지 평가합니다. 현재는 `RM`만 포함되어 있으므로 제거할 변수가 없습니다.
4. **3단계** (전진 선택):
    - 현재 포함된 변수는 `RM`입니다.
    - 나머지 변수 중에서 하나씩 추가하여 모델을 평가합니다.
    - `CRIM`, `ZN`, `INDUS`, `NOX`, `AGE`, `DIS`, `TAX`, `PTRATIO`, `B`, `LSTAT` 각각을 추가하여 모델의 성능을 평가합니다.
    - 모델 성능이 가장 많이 개선되는 변수를 선택합니다. 예를 들어, `LSTAT`이 선택되었다고 가정합니다.
5. **4단계** (후진 제거):
    - 현재 포함된 변수는 `RM`, `LSTAT`입니다.
    - 포함된 변수 중에서 유의미하지 않은 변수가 있는지 평가합니다.
    - 모델 성능이 크게 떨어지지 않는 한 유의미하지 않은 변수를 제거합니다.
6. **5단계**:
    - 이 과정을 더 이상 유의미한 성능 향상이 없을 때까지 반복합니다.

`mlxtend`는 `Machine Learning Extensions`의 약자로, `scikit-learn` 라이브러리를 확장하는 유틸리티 라이브러리입니다. 

이 라이브러리는 데이터 사이언스와 머신러닝 작업을 더 쉽게 만들기 위한 다양한 기능을 제공합니다. `mlxtend`는 다음과 같은 기능들을 포함하고 있습니다:

1. **Feature Selection (특성 선택)**:
   - Sequential Feature Selector (SFS)
   - Exhaustive Feature Selector

2. **Classification and Regression Algorithms (분류 및 회귀 알고리즘)**:
   - Stacking Classifier / Regressor
   - Ensemble Classifier

3. **Frequent Pattern Mining (빈발 패턴 마이닝)**:
   - Apriori
   - FP-Growth

4. **Evaluation Metrics (평가 지표)**:
   - Confusion Matrix Plot
   - Lift Curve

5. **Data Preprocessing (데이터 전처리)**:
   - Shuffle Split Cross-Validator
   - Exhaustive Grid Search

In [32]:
from mlxtend.feature_selection import SequentialFeatureSelector as SFS
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

def stepwise_selection(X_train, y_train):
    model = LinearRegression()
    sfs = SFS(model, 
              k_features='best', 
              forward=True, 
              floating=True, 
              scoring='r2', 
              cv=5).fit(X_train.values, y_train.values)
    selected_features = X_train.columns[list(sfs.k_feature_idx_)]
    return selected_features

In [33]:
selected_features_stepwise = stepwise_selection(X_train, y_train)
print(f'단계적 선택으로 선택된 특성: {selected_features_stepwise}')

단계적 선택으로 선택된 특성: Index(['CRIM', 'NOX', 'RM', 'DIS', 'PTRATIO', 'B', 'LSTAT'], dtype='object')


In [35]:
def pretty_print_features(selected_features, method_name):
    print(f"=== {method_name} ===")
    sorted_features = sorted(selected_features)
    print(", ".join(f"{i+1}. {feature}" for i, feature in enumerate(sorted_features)))
    print("\n")

# 전진 선택
pretty_print_features(selected_features_forward, "전진 선택 (Forward Selection)")

# 후진 제거
pretty_print_features(selected_features_backward, "후진 제거 (Backward Elimination)")

# 단계적 선택
pretty_print_features(selected_features_stepwise, "단계적 선택 (Stepwise Selection)")

=== 전진 선택 (Forward Selection) ===
1. B, 2. DIS, 3. LSTAT, 4. PTRATIO, 5. RM


=== 후진 제거 (Backward Elimination) ===
1. B, 2. DIS, 3. LSTAT, 4. NOX, 5. PTRATIO, 6. RM


=== 단계적 선택 (Stepwise Selection) ===
1. B, 2. CRIM, 3. DIS, 4. LSTAT, 5. NOX, 6. PTRATIO, 7. RM




# EOD