# Методы отбора признаков в классическом машинном обучении
## 1. Загрузка данных 
В качестве примерных данных используется классический набор данных о стоимости недвижимости в Бостоне. Данные получены уже в предобработанном виде. Стоит задача посмотреть, как работать с методами отбора признаков.

In [None]:
import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]
data.shape

## 2. Методы отбора фичей
Отбор признаков $-$ процесс, направленный на поиск подмножества фичей (признаков, полезных сигналов), которые вносят наибольший вклад в обучение модели машинного обучения.
![image.png](attachment:image.png)

### 2.1 Методы отбора без учителя (unsupervised methods)
Как измерять полезность признака прии отборе без учителя:
- смотреть на дисперсию: признак нерелевантен и будет вносить меньший вклад, если он имеет очень низкую дисперсию;
- смотреть на количество пропущенных значений: если их очень много, то признак, вероятнее всего, имеет низкую ценность;
- высокая мультиколлинеарность: мультиколлинеарность $-$ сильная корреляционная связь между признаками, говорящая об избыточности информации.

In [None]:
# отобрать признаки по порогу допустимой дисперсии
from sklearn.feature_selection import VarianceThreshold
sel = VarianceThreshold(threshold=0.05)
X_selection = sel.fit_transform(data)
X_selection.shape # один признак не прошел порог

In [None]:
# измерить мультиколлинеарность и удалить признаки
from statsmodels.stats.outliers_influence import variance_inflation_factor
vif_scores = [variance_inflation_factor(data.values, feature)for feature in range(len(data.columns))]

### 2.2 Методы-обертки c учителем
Методы-обертки относятся к семейству контролируемых методов выбора признаков, которые используют модель для оценки различных подмножеств фичей, чтобы в конечном итоге выбрать лучшее из них. Каждое новое подмножество используется для обучения модели, производительность которой затем оценивается на промежуточном наборе. Выбирается подмножество функций, которое обеспечивает наилучшую производительность модели. Основным преимуществом методов-оболочек является тот факт, что они, как правило, обеспечивают наилучший набор функций для конкретного выбранного типа модели.

Наиболее известные методы:
- метод прямого отбора;
- метод обратного отбора;
- метод рекурсивного отбрасывания;

Методы прямого и обратного отбора можно релизовать через класс `SequentialFeatureSelector` пакета `sklearn.feature_selection`.

In [None]:
# метод позволит отобрать три признака,
# перебирая их комбинации от подмножества из одного признака до полного набора
from sklearn.feature_selection import SequentialFeatureSelector
from sklearn.neighbors import KNeighborsRegressor

knn = KNeighborsRegressor(n_neighbors=3)
sfs = SequentialFeatureSelector(knn, n_features_to_select=3, direction='forward')
sfs.fit(data, target)
X_selection = sfs.transform(data)
X_selection.shape

In [None]:
# метод рекурсивного отбрасывания
from sklearn.feature_selection import RFE
from sklearn.svm import SVR

svr = SVR(kernel="linear")
rfe = RFE(svr, n_features_to_select=3)
rfe.fit(data, target)
X_selection = rfe.transform(data)

## 3. Собственная реализация метода отбора признаков
Метод заключается в том, чтобы скомбинировать разные методы в одном и отбирать наилучшие признаки путём голосования разных оценщиков.

In [None]:
class VotingSelector():
    from itertools import compress
    from sklearn.feature_selection import RFE, r_regression, SelectKBest
    from sklearn.svm import SVR
    from statsmodels.stats.outliers_influence import variance_inflation_factor
    def __init__(self):
        self.selectors = {
            'pearsons' : self._select_pearson,
            'vif' : self._select_vif,
            'rfe' : self._select_rfe
        }
        self.votes = None
        
    @staticmethod
    def _select_pearson(X, y, **kwargs):
        selector = SelectKBest(r_regression, 
                               k=kwargs.get('n_features_to_select', 5)).fit(X, y)
        return selector.get_feature_names_out()
    
    @staticmethod
    def _select_vif(X, y, **kwargs):
        return [
           X.columns[feature_index]
              for feature_index in range(len(X.columns))
                 if variance_inflation_factor(X.values, feature_index) <= kwargs.get("vif_threshold", 10)
        ]
    
    @staticmethod
    def _select_rfe(X, y, **kwargs):
        svr = SVR(kernel="linear")
        rfe = RFE(svr, n_features_to_select=kwargs.get("n_features_to_select", 5))
        rfe.fit(X, y)
        return rfe.get_feature_names_out()
    
    def select(self, X, y, voiting_threshold=0.5, **kwargs):
        votes = []
        for selector_name, selector_method in self.items():
            features_to_keep = selector_method(X, y, **kwargs)
            votes.append(pd.DataFrame([int(feature in features_to_keep) for feature in X.columns]).T)
            self.votes = pd.concat(votes)
            
            self.votes.columns = X.columns
            self.votes.index = self.selectors.keys()
            features_to_keep = list(compress(X.columns, self.votes.mean(axis=0) > voting_threshold))
            return X[features_to_keep]


In [None]:
vs = VotingSelector()
X_selection = vs.select(X, y, n_features_to_select=8, vif_threshold=15)