# Отбор признаков (Feature selection)

---

[Отбор признаков](https://ru.wikipedia.org/wiki/%D0%9E%D1%82%D0%B1%D0%BE%D1%80_%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%BE%D0%B2)

[Выделение признаков](https://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%BE%D0%B2)

[Feature selection](https://scikit-learn.org/stable/modules/feature_selection.html)

[Applied Predictive Modeling](https://www.amazon.com/Applied-Predictive-Modeling-Max-Kuhn/dp/1461468485/ref=as_li_ss_tl?dchild=1&keywords=Applied+Predictive+Modeling&qid=1588722749&s=books&sr=1-1&linkCode=sl1&tag=inspiredalgor-20&linkId=45aa03c24c87a9e32f5611baa5e287ff&language=en_US)

[How to Choose a Feature Selection Method For Machine Learning](https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/)

[The 5 Feature Selection Algorithms every Data Scientist should know](https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2)

[Feature Selection Techniques in Machine Learning](https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/)

[]()

[]()

[]()

[]()

[]()

[]()

---

In [None]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

# Для MacOS/Ubuntu
# !which pip

# Для Windows
# !where pip

In [None]:
# !conda install pandas matplotlib numpy seaborn scipy -y

In [None]:
import numpy as np

np.__version__

In [None]:
import pandas as pd

pd.__version__

In [None]:
import matplotlib
import matplotlib.pyplot as plt

matplotlib.__version__

In [None]:
import seaborn as sns

sns.__version__

In [None]:
import sklearn

sklearn.__version__

In [None]:
import scipy
from scipy.stats import normaltest
from scipy import stats

scipy.__version__

## Загрузка данных

[Источник (House Sales in King County, USA)](https://www.kaggle.com/harlfoxem/housesalesprediction).

In [None]:
df = pd.read_csv('./../../data/kc_house_data.csv')

# показать все колонки
pd.options.display.max_columns = None

# изменить формат отображения с помощью средства форматирования
# (float без E, а 2 знаков после запятой)
# (для удобства чтения)
pd.options.display.float_format = '{:.2f}'.format

# отобразить первые 5 и последние 5 строк
df

In [None]:
df.info()


## Отбор признаков

**Отбор признаков**, также известный как **отбор переменных**, **отбор атрибутов** или **отбор поднабора переменных**, в редких случаях **генерализация** — это разновидность абстрагирования, процесс отбора подмножества значимых признаков (переменных зависимых и независимых) для использования в построении модели.

Техники отбора признаков используются по четырём причинам:
- упрощение моделей для того, чтобы сделать их проще для интерпретации исследователями/пользователями, 
- более короткое время тренировки, 
- чтобы избежать проклятие размерности,
- улучшенное обобщение путём сокращения переобучения (формально, уменьшение дисперсии).

Центральный посыл использования техники отбора признаков, что данные содержат некоторые признаки, которые либо **излишни (redundant)**, либо **незначимы (non-informative)**, а потому могут быть удалены без существенной потери информации.

**"Излишний"** и **"незначимый"** являются двумя различными понятиями, поскольку **один значимый признак может быть излишним при присутствии другого существенного признака, с которым он сильно коррелирует**.

Техники **отбора признаков** следует отличать от **выделения признаков**. **Выделение признаков создаёт новые признаки как функции** от оригинальных признаков, в то время как **отбор признаков возвращает подмножество признаков**.

**Техники отбора** признаков часто используются в областях, где имеется **много признаков и выборки сравнительно малы** (мало точек данных). Классическими местами применения отбора признаков являются анализ рукописных текстов и ДНК-микрочипы, где имеется много тысяч признаков и от десятков до сотен экземпляров выборки.


Многие модели, особенно те, которые основаны на наклонах и пересечениях регрессии, будут оценивать параметры для каждой переменной модели. Из-за этого наличие неинформативных переменных может добавить неопределенности к прогнозам и снизить общую эффективность модели.