# RFE(Recursive Feature Elimination)
***

- 모델을 학습하면서 모든 feature에 대해 중요하지 않은 feature를 제거해가며 최종적으로 원하는 개수만큼의 feature만 남기는 방법
- 위의 이유로 인해 상당히 직관적인 feature selection이다.

In [40]:
from sklearn.datasets import make_classification, load_breast_cancer
from sklearn.model_selection import StratifiedKFold
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import RFE, RFECV
import pandas as pd

In [2]:
X, y = make_classification(n_samples = 10000, n_features = 100, n_informative = 10, n_redundant = 2, random_state = 42)

In [5]:
rf = RandomForestClassifier(random_state = 42)

In [6]:
rfe = RFE(estimator = rf, n_features_to_select = 20)

In [7]:
rfe.fit(X, y)

RFE(estimator=RandomForestClassifier(random_state=42), n_features_to_select=20)

In [14]:
rfe.get_support()

array([False, False, False, False,  True, False, False, False,  True,
       False, False, False, False,  True, False, False,  True,  True,
       False, False, False,  True, False, False,  True, False, False,
       False, False, False,  True, False, False, False, False, False,
       False, False, False, False,  True, False, False,  True,  True,
       False, False, False, False, False, False,  True,  True, False,
       False, False, False, False, False, False, False, False, False,
       False,  True, False,  True, False, False, False,  True, False,
       False, False, False, False, False, False,  True, False, False,
       False, False, False, False, False, False, False,  True, False,
       False,  True, False, False, False, False, False, False, False,
        True])

feaure의 index를 기준으로 boolean 형태로 생존(?) 여부를 반환한다.

In [12]:
rfe.get_feature_names_out()

array(['x4', 'x8', 'x13', 'x16', 'x17', 'x21', 'x24', 'x30', 'x40', 'x43',
       'x44', 'x51', 'x52', 'x64', 'x66', 'x70', 'x78', 'x88', 'x91',
       'x99'], dtype=object)

RFE를 통해 선택된 feature명은 위와 같다.

In [19]:
rfe.ranking_

array([22, 74, 19, 13,  1, 77, 33, 68,  1, 25, 36, 48, 17,  1, 16, 73,  1,
        1, 44, 53, 62,  1, 60, 46,  1, 26, 32, 15, 52, 38,  1, 27, 41, 72,
       54, 58, 29, 14, 21, 76,  1, 39, 80,  1,  1, 42,  2,  3, 20, 12, 79,
        1,  1, 75, 11, 69, 50, 56, 65, 30, 31, 24,  4, 59,  1, 63,  1,  6,
       28, 34,  1, 43,  8, 81, 71, 61, 37, 35,  1, 70, 23, 64, 67, 40, 45,
       66, 10, 47,  1, 51, 49,  1, 55, 18, 78,  5, 57,  9,  7,  1])

각 feature의 index를 feature의 랭킹 형태로 반환하며 선택된 feature는 1로 표시된다.

뿐만 아니라 RFE는 cross-validation 형태로도 사용이 가능하다.

In [21]:
data = load_breast_cancer()

In [41]:
X = pd.DataFrame(data.data, columns = data.feature_names)

In [42]:
y = data.target

In [30]:
skf = StratifiedKFold(n_splits = 10, random_state = 42, shuffle = True)

In [31]:
rfe = RFECV(estimator = rf, cv = skf)

In [43]:
rfe.fit(X, y)

RFECV(cv=StratifiedKFold(n_splits=10, random_state=42, shuffle=True),
      estimator=RandomForestClassifier(random_state=42))

In [44]:
rfe_X = rfe.transform(X)

In [55]:
len(rfe.get_feature_names_out())

26

In [56]:
len(X.columns)

30