# Отбор признаков (Feature selection)

---

**Источники:**

[Отбор признаков](https://ru.wikipedia.org/wiki/%D0%9E%D1%82%D0%B1%D0%BE%D1%80_%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%BE%D0%B2)

[Выделение признаков](https://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%BE%D0%B2)

[Feature selection](https://scikit-learn.org/stable/modules/feature_selection.html)

[Applied Predictive Modeling](https://www.amazon.com/Applied-Predictive-Modeling-Max-Kuhn/dp/1461468485/ref=as_li_ss_tl?dchild=1&keywords=Applied+Predictive+Modeling&qid=1588722749&s=books&sr=1-1&linkCode=sl1&tag=inspiredalgor-20&linkId=45aa03c24c87a9e32f5611baa5e287ff&language=en_US)

[How to Choose a Feature Selection Method For Machine Learning](https://machinelearningmastery.com/feature-selection-with-real-and-categorical-data/)

[The 5 Feature Selection Algorithms every Data Scientist should know](https://towardsdatascience.com/the-5-feature-selection-algorithms-every-data-scientist-need-to-know-3a6b566efd2)

[Feature Selection Techniques in Machine Learning](https://www.analyticsvidhya.com/blog/2020/10/feature-selection-techniques-in-machine-learning/)

[Automated feature selection with sklearn](https://www.kaggle.com/residentmario/automated-feature-selection-with-sklearn)

[A survey on feature selection methods](https://www.sciencedirect.com/science/article/abs/pii/S0045790613003066)

[Basic Feature Engineering to Reach More Efficient Machine Learning](https://towardsdatascience.com/basic-feature-engineering-to-reach-more-efficient-machine-learning-6294022e17a5)

[How to Perform Feature Selection for Regression Data](https://machinelearningmastery.com/feature-selection-for-regression-data/)

[Selecting good features – Part III: random forests](http://blog.datadive.net/selecting-good-features-part-iii-random-forests/)

[]()

[]()

[]()

[]()

[]()

[]()

---

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

# Для MacOS/Ubuntu
# !which pip

# Для Windows
# !where pip

In [2]:
# !conda install pandas matplotlib numpy seaborn scipy -y

In [3]:
import numpy as np

np.__version__

'1.19.2'

In [4]:
import pandas as pd

pd.__version__

'1.2.3'

In [5]:
import matplotlib
import matplotlib.pyplot as plt

matplotlib.__version__

'3.3.4'

In [6]:
import seaborn as sns

sns.__version__

'0.11.1'

In [7]:
import sklearn

sklearn.__version__

'0.24.1'

In [8]:
import scipy
from scipy.stats import normaltest
from scipy import stats

scipy.__version__

'1.6.2'

## Загрузка данных

[Источник (House Sales in King County, USA)](https://www.kaggle.com/harlfoxem/housesalesprediction).

In [9]:
df = pd.read_csv('./../../data/kc_house_data.csv')

# показать все колонки
pd.options.display.max_columns = None

# изменить формат отображения с помощью средства форматирования
# (float без E, а 2 знаков после запятой)
# (для удобства чтения)
pd.options.display.float_format = '{:.2f}'.format

# отобразить первые 5 и последние 5 строк
df

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.00,3,1.00,1180,5650,1.00,0,0,3,7,1180,0,1955,0,98178,47.51,-122.26,1340,5650
1,6414100192,20141209T000000,538000.00,3,2.25,2570,7242,2.00,0,0,3,7,2170,400,1951,1991,98125,47.72,-122.32,1690,7639
2,5631500400,20150225T000000,180000.00,2,1.00,770,10000,1.00,0,0,3,6,770,0,1933,0,98028,47.74,-122.23,2720,8062
3,2487200875,20141209T000000,604000.00,4,3.00,1960,5000,1.00,0,0,5,7,1050,910,1965,0,98136,47.52,-122.39,1360,5000
4,1954400510,20150218T000000,510000.00,3,2.00,1680,8080,1.00,0,0,3,8,1680,0,1987,0,98074,47.62,-122.05,1800,7503
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,263000018,20140521T000000,360000.00,3,2.50,1530,1131,3.00,0,0,3,8,1530,0,2009,0,98103,47.70,-122.35,1530,1509
21609,6600060120,20150223T000000,400000.00,4,2.50,2310,5813,2.00,0,0,3,8,2310,0,2014,0,98146,47.51,-122.36,1830,7200
21610,1523300141,20140623T000000,402101.00,2,0.75,1020,1350,2.00,0,0,3,7,1020,0,2009,0,98144,47.59,-122.30,1020,2007
21611,291310100,20150116T000000,400000.00,3,2.50,1600,2388,2.00,0,0,3,8,1600,0,2004,0,98027,47.53,-122.07,1410,1287


In [10]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long  

## Отбор признаков

**Отбор признаков**, также известный как **отбор переменных**, **отбор атрибутов** или **отбор поднабора переменных**, в редких случаях **генерализация** — это разновидность абстрагирования, процесс отбора подмножества значимых признаков (переменных зависимых и независимых) для использования в построении модели.

Техники отбора признаков используются по четырём причинам:
- упрощение моделей для того, чтобы сделать их проще для интерпретации исследователями/пользователями, 
- более короткое время тренировки, 
- чтобы избежать проклятие размерности,
- улучшенное обобщение путём сокращения переобучения (формально, уменьшение дисперсии).

Центральный посыл использования техники отбора признаков, что данные содержат некоторые признаки, которые либо **излишни (redundant)**, либо **незначимы (non-informative)**, а потому могут быть удалены без существенной потери информации.

**"Излишний"** и **"незначимый"** являются двумя различными понятиями, поскольку **один значимый признак может быть излишним при присутствии другого существенного признака, с которым он сильно коррелирует**.

Техники **отбора признаков** следует отличать от **выделения признаков**. **Выделение признаков создаёт новые признаки как функции** от оригинальных признаков, в то время как **отбор признаков возвращает подмножество признаков**.

**Техники отбора** признаков часто используются в областях, где имеется **много признаков и выборки сравнительно малы** (мало точек данных). Классическими местами применения отбора признаков являются анализ рукописных текстов и ДНК-микрочипы, где имеется много тысяч признаков и от десятков до сотен экземпляров выборки.


Многие модели, особенно те, которые основаны на наклонах и пересечениях регрессии, будут оценивать параметры для каждой переменной модели. Из-за этого наличие неинформативных переменных может добавить неопределенности к прогнозам и снизить общую эффективность модели.