# Отбор признаков: классификация методов

> Методы отбора признаков предназначены для уменьшения количества входных переменных до тех значений, которые наиболее полезны для предсказательной способности модели.

![image.png](attachment:image.png)

## RFE

> **Метод рекурсивного исключения признаков (RFE)** предполагает выбор признаков путём рекурсивного рассмотрения всё меньших и меньших наборов фичей.

Сначала RFE обучается на изначальной выборке, и происходит оценка важности каждого признака. Затем наименее важные фичи удаляются. Эта процедура рекурсивно повторяется на сокращённом наборе до тех пор, пока в конечном итоге не будет достигнуто желаемое количество признаков в выборке.

Выделим три наиболее значимых признака:

In [None]:
from sklearn.feature_selection import RFE
 
estimator = LinearRegression()
selector = RFE(estimator, n_features_to_select=3, step=1)
selector = selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

Также узнаем, как RFE проранжировал все доступные признаки:

![image.png](attachment:image.png)

### Задание 9.1

Какой признак RFE счёл наименее значимым? Используйте метод .ranking_ для ранжирования фичей по степени их важности.

## МЕТОДЫ ВЫБОРА ПРИЗНАКОВ НА ОСНОВЕ ФИЛЬТРОВ

В качестве фильтров для выбора признаков используются уже знакомые нам статистики, такие как коэффициент корреляции Пирсона, ANOVA и т. д. При этом выбор статистических показателей сильно зависит от типов переменных в данных.

Чем больше известно о типе данных, тем проще выбрать подходящую статистическую меру для метода отбора признаков на основе фильтра. Ниже приведена схема-помощник в выборе метода селекции признаков.

![image.png](attachment:image.png)

### Задание 9.2

Соотнесите типы переменных с задачами:

### Задание 9.3

Соотнесите типы переменных со статистиками:

> Библиотека sklearn обеспечивает реализацию большинства полезных статистических показателей, например:

- коэффициента корреляции Пирсона: [f_regression()](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_regression.html);
- дисперсионного анализа ANOVA: [f_classif()](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_classif.html);
- хи-квадрата: [chi2()](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html);
- взаимной информации: [mutual_info_classif()](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_classif.html) и [mutual_info_regression()](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_regression.html).

Кроме того, библиотека SciPy обеспечивает реализацию многих других статистических данных, таких как тау Кендалла [(kendalltau)](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kendalltau.html) и ранговая корреляция Спирмена [(spearmanr)](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.spearmanr.html).

*sklearn* также предоставляет множество различных методов фильтрации после расчёта статистики для каждой входной переменной с целевой.

Два наиболее популярных метода:

- выбор k лучших переменных: [SelectKBest](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html);
- выбор переменных верхнего процентиля: [SelectPercentile](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectPercentile.html).

In [2]:
from sklearn.feature_selection import SelectKBest, f_regression
selector = SelectKBest(f_regression, k=3)
selector.fit(X_train, y_train)
 
selector.get_feature_names_out()

NameError: name 'X_train' is not defined

На этот раз odometer оказался в топе.

### Задание 9.4

Как необходимо дополнить код, чтобы выполнить отбор признаков с помощью *ANOVA F-measure*?

> selector = SelectKBest(___?___, k=3)

Впишите недостающую часть в поле ниже.