# Отбор признаков (Feature selection)

# References


[Отбор признаков](https://ru.wikipedia.org/wiki/%D0%9E%D1%82%D0%B1%D0%BE%D1%80_%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%BE%D0%B2)

[Выделение признаков](https://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%BE%D0%B2)

[Feature selection](https://scikit-learn.org/stable/modules/feature_selection.html)

[Applied Predictive Modeling](https://www.amazon.com/Applied-Predictive-Modeling-Max-Kuhn/dp/1461468485/ref=as_li_ss_tl?dchild=1&keywords=Applied+Predictive+Modeling&qid=1588722749&s=books&sr=1-1&linkCode=sl1&tag=inspiredalgor-20&linkId=45aa03c24c87a9e32f5611baa5e287ff&language=en_US)

[How to Choose a Feature Selection Method For Machine Learning](https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/)

[The 5 Feature Selection Algorithms every Data Scientist should know](https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2)

[Feature Selection Techniques in Machine Learning](https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/)

[Automated feature selection with sklearn](https://www.kaggle.com/residentmario/automated-feature-selection-with-sklearn)

[A survey on feature selection methods](https://www.sciencedirect.com/science/article/abs/pii/S0045790613003066)

[Basic Feature Engineering to Reach More Efficient Machine Learning](https://towardsdatascience.com/basic-feature-engineering-to-reach-more-efficient-machine-learning-6294022e17a5)

[How to Perform Feature Selection for Regression Data](https://machinelearningmastery.com/feature-selection-for-regression-data/)

[Selecting good features – Part III: random forests](http://blog.datadive.net/selecting-good-features-part-iii-random-forests/)


# References

## Отбор признаков

**Отбор признаков**, также известный как **отбор переменных**, **отбор атрибутов** или **отбор поднабора переменных**, в редких случаях **генерализация** — это разновидность абстрагирования, процесс отбора подмножества значимых признаков (переменных зависимых и независимых) для использования в построении модели.

Техники отбора признаков используются по четырём причинам:
- упрощение моделей для того, чтобы сделать их проще для интерпретации исследователями/пользователями, 
- более короткое время тренировки, 
- чтобы избежать проклятия размерности,
- улучшенное обобщение путём сокращения переобучения (формально, уменьшение дисперсии).

Центральный посыл использования техники отбора признаков, что данные содержат некоторые признаки, которые либо **излишни (redundant)**, либо **незначимы (non-informative)**, а потому могут быть удалены без существенной потери информации.

**"Излишний"** и **"незначимый"** являются двумя различными понятиями, поскольку **один значимый признак может быть излишним при присутствии другого существенного признака, с которым он сильно коррелирует**.

Техники **отбора признаков** следует отличать от **выделения признаков (feature extraction)**. **Выделение признаков создаёт новые признаки как функции** от оригинальных признаков, в то время как **отбор признаков возвращает подмножество признаков**.

**Техники отбора** признаков часто используются в областях, где имеется **много признаков и выборки сравнительно малы** (мало точек данных). Классическими местами применения отбора признаков являются анализ рукописных текстов и ДНК-микрочипы, где имеется много тысяч признаков и от десятков до сотен экземпляров выборки.


Многие модели, особенно те, которые основаны на наклонах и пересечениях регрессии, будут оценивать параметры для каждой переменной модели. Из-за этого наличие неинформативных переменных может добавить неопределенности к прогнозам и снизить общую эффективность модели.

Классы в модуле [sklearn.feature_selection](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_selection) могут использоваться для выбора признаков / уменьшения размерности на выборочных наборах, либо для улучшения показателей точности оценщиков (estimators), либо для повышения их производительности на очень многомерных наборах данных.

## Удаление признаков с низкой дисперсией (Removing features with low variance)

[sklearn.feature_selection.VarianceThreshold](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html) - это простой базовый подход к выбору признаков.

[sklearn.feature_selection.VarianceThreshold](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html) удаляет все признаки, дисперсия которых не соответствует некоторому пороговому значению. 

По умолчанию удаляет все признаки с нулевой дисперсией, то есть признаки, которые имеют одинаковое значение во всех выборках.

## *Одномерный выбор признаков (Univariate feature selection)

Одномерный выбор признаков работает путем выбора лучших признаков на основе одномерных статистических тестов:

- Для регрессии: 
    - [`f_regression`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_regression.html)
    - [`mutual_info_regression`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_regression.html)
    


- Для классификации: 
    - [`chi2`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html)
    - [`f_classif`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_classif.html)
    - [`mutual_info_classif`](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_classif.html)
    
**ВНИМАНИЕ: Не используйте функцию оценки регрессии с классификацией (и наоборот), так как в результате получите бесполезные результаты.**
    
Методы, основанные на F-тесте (F-test), оценивают степень линейной зависимости между двумя случайными величинами.

С другой стороны, методы взаимной информации (mutual information) могут фиксировать любой вид статистической зависимости, но, будучи непараметрическими, они требуют большего количества выборок (samples) для точной оценки.

Это можно рассматривать как этап предварительной обработки модели (estimator). 


Scikit-learn предоставляет процедуры выбора признаков как объекты, реализующие метод `transform`:

- [sklearn.feature_selection.SelectKBest](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectKBest.html) удаляет все, кроме k признаков с наивысшими оценками.


- [sklearn.feature_selection.SelectPercentile](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectPercentile.html) удаляет все признаки, кроме указанного пользователем наивысшего процента признаков, которые нужно оставить.


- Использование общих одномерных статистических тестов для каждой функции: 
    - частота ложных срабатываний (False Positive Rate) [sklearn.feature_selection.SelectFpr](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFpr.html)
    - частота ложных обнаружений (False Discovery Rate) [sklearn.feature_selection.SelectFdr](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFdr.html)
    - Вероятность сделать одно или несколько ложных открытий или ошибок типа I при выполнении проверки нескольких гипотез (Family-Wise Error) [sklearn.feature_selection.SelectFwe](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFwe.html)


- **[sklearn.feature_selection.GenericUnivariateSelect](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.GenericUnivariateSelect.html)** позволяет выполнять одномерный выбор признаков с настраиваемой стратегией. Это позволяет выбрать лучшую одномерную стратегию выбора с помощью гиперпараметрического поискового оценщика (estimator), например, GridSearch.

## Рекурсивное устранение признаков (Recursive feature elimination)

При наличии внешнего оценщика (external estimator), который присваивает веса признакам (например, коэффициентам линейной модели), цель рекурсивного исключения признаков ([sklearn.feature_selection.RFE](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html)) состоит в том, чтобы выбрать признаки путем рекурсивного рассмотрения все меньших и меньших наборов признаков.

Во-первых, оценщик обучается на начальном наборе признаков, и важность каждого признака определяется либо через любой конкретный атрибут (например, `coef_`, `feature_importances_`), либо через вызываемый (своя собственная функция).

Затем наименее важные признаки удаляются из текущего набора признаков.

Эта процедура рекурсивно повторяется для сокращенного набора до тех пор, пока в конечном итоге не будет достигнуто желаемое количество признаков.

**[sklearn.feature_selection.RFECV](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFECV.html) выполняет RFE с помощью cross-validation, чтобы найти оптимальное количество признаков.**

## Выбор признаков с помощью SelectFromModel (Feature selection using SelectFromModel)

[sklearn.feature_selection.SelectFromModel](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html) - это мета-преобразователь (transformer), который можно использовать вместе с любым оценщиком (estimator), который назначает важность каждого признака с помощью определенного атрибута (например, `coef_`, `feature_importances_`) или с помощью метода `important_getter`, вызываемого после обучения (fitting).

Признаки считаются неважными и удаляются, если соответствующая важность значений признака ниже указанного порогового параметра. 

Помимо числового указания порога, существуют встроенные эвристики для поиска порога с использованием строкового аргумента.

Доступные эвристики: `"mean"`, `"median"` и числа с плавающей запятой, такие как `"0.1*mean"`.

В сочетании с пороговыми критериями можно использовать параметр `max_features`, чтобы установить ограничение на количество выбираемых признаков.

### *Выбор признаков на основе L1 (L1-based feature selection)

Линейные модели, с L1 регуляризацией, имеют разреженные результаты: многие из их оценочных коэффициентов равны нулю.

Когда цель состоит в том, чтобы уменьшить размерность данных для использования с другим классификатором, их можно использовать вместе с [sklearn.feature_selection.SelectFromModel](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html) для выбора ненулевых коэффициентов.

В частности, для этой цели можно использовать разреженные оценки: [sklearn.linear_model.Lasso](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html) для регрессии, а также [sklearn.linear_model.LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) и [sklearn.svm.LinearSVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html) для классификации.

В [sklearn.linear_model.LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) и [sklearn.svm.LinearSVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html) параметр `C` контролирует разреженность: чем меньше `C`, тем меньше выбирается признаков. 

При использовании [sklearn.linear_model.Lasso](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html), чем выше `alpha`, тем меньше признаков выбирается.

### Выбор признаков на основе дерева (Tree-based feature selection)

Модели на основе деревьев (см. [sklearn.tree](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.tree) и лес деревьев в [sklearn.ensemble](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.ensemble)) могут использоваться для вычисления важности признаков, которые могут использоваться для отбрасывания нерелевантных признаков (в сочетании с [sklearn.feature_selection.SelectFromModel](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html)).

## Последовательный выбор признаков (Sequential Feature Selection)

Последовательный выбор признаков (SFS) доступен в преобразователе [sklearn.feature_selection.SequentialFeatureSelector](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SequentialFeatureSelector.html#sklearn.feature_selection.SequentialFeatureSelector). SFS может быть использован как вперед, так и назад:

- Forward-SFS (`direction="forward"` - по умолчанию) - это [жадный алгоритм](https://ru.wikipedia.org/wiki/%D0%96%D0%B0%D0%B4%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC), который итеративно находит лучший новый признак для добавления к набору выбранных признаков. 
    - Сначала начинаем с нулевого признака и находим один признак, который максимизирует cross-validated score, когда модель обучается на этом единственном признаке. 
    - Как только этот первый признак выбран, повторяем процедуру, добавляя новый признак к набору выбранных признаков.
    - Процедура останавливается, когда достигается желаемое количество выбранных признаков, как определено параметром `n_features_to_select`.
    

- Backward-SFS (`direction="backward"`) следует той же идее, но работает в противоположном направлении: вместо того, чтобы начинать без признаков и жадно добавлять признаки, начинаем со всех признаков и жадно удаляем признаки из набора.

Как правило, прямой (`direction="forward"`) и обратный отбор (`direction="backward"`) дают различные результаты. 


ВНИМАНИЕ: Одна модель может быть намного быстрее, чем другая, в зависимости от запрошенного количества выбранных признаков: если у есть 10 признаков и запрашиваем 7 выбранных признаков, для прямого выбора потребуется выполнить 7 итераций, а для обратного выбора потребуется выполнить только 3.