# Feature Selection

Один из важных этапов обучения модели - отбор признаков. Иногда их может оказаться много - гораздо больше, чем нужно для эффективной работы моделей. На прошлых занятиях мы уже познакомились с методом главных компонент, PCA, и говорили о проклятии размерности.

Мы знаем многое о том, как отбирать признаки. В этой тетрадке структурируем наши знания.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")


## 0. Data

Source: https://www.kaggle.com/mlg-ulb/creditcardfraud

The dataset contains transactions made by credit cards in September 2013 by European cardholders.
This dataset presents transactions that occurred in two days, where we have 492 frauds out of 284,807 transactions. The dataset is highly unbalanced, the positive class (frauds) account for 0.172% of all transactions.

It contains only numerical input variables which are the result of a PCA transformation. Unfortunately, due to confidentiality issues, we cannot provide the original features and more background information about the data. Features V1, V2, … V28 are the principal components obtained with PCA, the only features which have not been transformed with PCA are 'Time' and 'Amount'. Feature 'Time' contains the seconds elapsed between each transaction and the first transaction in the dataset. The feature 'Amount' is the transaction Amount, this feature can be used for example-dependant cost-sensitive learning. Feature 'Class' is the response variable and it takes value 1 in case of fraud and 0 otherwise.

Given the class imbalance ratio, we recommend measuring the accuracy using the Area Under the Precision-Recall Curve (AUPRC). Confusion matrix accuracy is not meaningful for unbalanced classification.

In [2]:
data = pd.read_csv("creditcard.csv")

In [3]:
data.head()

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
11258,19546.0,-0.454749,-4.054983,-0.273254,-0.399568,-2.590132,-0.393092,0.138466,-0.391686,-0.873562,...,0.054097,-1.563757,-0.628145,0.457243,-0.33881,-0.653193,-0.184372,0.185015,1002.0,0
78321,57475.0,-6.423197,1.072629,-3.820238,-0.269845,-4.125205,-0.690805,-0.196968,2.840871,-0.307457,...,0.011082,0.109586,-0.041425,0.576822,-0.291755,0.837947,-0.077805,-0.788987,255.3,0
226814,144808.0,-2.405207,2.943823,-7.616654,3.533374,-5.417494,-0.112632,-1.329372,1.709417,-2.322716,...,0.652683,0.414132,0.023869,-0.260616,0.405316,0.029107,0.519807,-0.469537,667.55,1
276476,167121.0,-0.454736,0.189683,0.839674,-0.810172,0.458127,0.106038,0.427228,0.195571,-1.232442,...,-0.136466,0.090678,-0.255906,0.628284,0.175469,-0.617653,0.147898,0.142017,9.94,0
174521,121948.0,0.014204,0.516012,0.248349,-0.307436,0.180279,1.025058,-0.806851,-1.25525,0.843365,...,1.673448,0.206028,-0.294641,0.199466,0.902569,0.829324,0.220143,0.262698,7.5,0


**Задание** Давайте проверим, сколько "фрода" в этой выборке?

## 1. Поиск константных признаков

$$ R_j = \frac{1}{l}\sum \limits _{i=1}^{l}{(x_{ij} - \bar{x_j})^2}$$
- Чем больше $R_j$, тем информативнее признак
- Никак не учитываются ответы
- Подходит для фильтрации константных и близких к ним признаков

**Задание** Посчитайте дисперсию признаков

## 2. Поиск коррелирующих признаков


$$ R_j = \frac{\sum \limits _{i=1}^{l}{(x_{ij} - \bar{x_j})(y_i - \bar{y})}}{\sqrt{\sum \limits _{i=1}^{l}{(x_{ij} - \bar{x_j})^2} \sum \limits _{i=1}^{l}{(y_i - \bar{y})^2} }}$$
- Чем больше $|R_j|$, тем информативнее признак
- Учитывает только линейную связь

**Задание**: составьте матрицу корреляций и визуализируйте ее. 
Проанализируйте, есть ли необходимость в удалении каких-либо признаков

## 3. Оценка T-score

$$ R_j = \frac{|\mu_1 - \mu_2|} {\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2} }} $$

- Для задач бинарной классификации
- Чем больше $𝑅_𝑗$, тем информативнее признак
- $\mu_1, \mu_2$ — средние значения признаков в первом и втором классах
- $\sigma_1^2, \sigma_2^2$ - дисперсии
- $n_1, n_2$ - число объектов в первом и втором классах

**Задание**: напишите функцию, рассчитывающую T-score

In [None]:
def get_t_score(column, target):

    return t_score

**Задание**: Рассчитайте t_scores для всех признаков

**Задание**: Визуализируйте важность признаков в виде столбцовой диаграммы

**Задание**: составьте список отфильтрованных признаков. Соберите в небольшую функцию eliminate_features с двумя аргументами: 
- features
- eliminated_features

Сохраните результат в переменной features_list_tscore

## 4. Отбор с помощью моделей

In [57]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LogisticRegression 
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score

**Задание**: разделите данные на тренировочную и тестовую выборки со стратификацией по целевой переменной

In [None]:
scaler = StandardScaler()
X_train_scaled = pd.DataFrame(scaler.fit_transform(X_train), columns=features)
X_test_scaled =  pd.DataFrame(scaler.transform(X_test), columns=features)

### Отбор с помощью линейных моделей

Если признаки масштабированы, то веса можно использовать как показатели информативности!

Однако это не все. Мы изучали регуляризаторы - $L_1$ и $L_2$

$$Q(a,X) + \lambda \sum \limits_{j=1}^{d}{|w_j| \rightarrow \min_w}$$

- Чем выше $\lambda$, тем больше весов зануляется
- Позволяет построить модель, использующую только самые важные признаки

**Задание**: Обучим логистическую регрессию с аргументами 
- penalty='l1'
- solver='liblinear'

**Задание**: визуализируйте важность признаков в виде столбцовой диаграммы

**Задание**: составьте список самых важных фичей по версии логистической регрессии features_list_lr

### Отбор случайным лесом

Поиск наилучшего разбиения:
$$ Q(X_m, j, t) = H(X_m) - \frac{|X_l|}{|X_m|}H(X_l) - \frac{|X_r|}{|X_m|}H(X_r) \rightarrow \max_{j,t}$$

$H(X)$ - критерий информативности

Для *решающего дерева*:
- Чем сильнее уменьшили $𝐻(𝑋)$, тем лучше признак
- Важность признака $𝑅_𝑗$: просуммируем уменьшения по всем вершинам, где разбиение делалось по признаку 𝑗

Для *случайного леса*:

- Сумма важностей $𝑅_𝑗$ по всем деревьям
- Чем больше, тем важнее признак
- Учитывается важность признаков в совокупности

**Задание**: Обучим случайный лес

**Задание**: визуализируйте важность признаков в виде столбцовой диаграммы

**Задание**: составьте список самых важных фичей по версии случайного леса features_list_rf

## 5. Будем учить на разных группах признаков

**Задание**: давайте соберем функцию для обучения. Подадим ей:
- model
- X_train
- X_test
- y_train
- y_test
- features: набор признаков для обучения
<br> 
В ответ она нам вернет: модель и значение roc_auc

**Задание**: Примените функцию, обучите логистическую регрессию на самых важных признаках

**Задание**: Примените функцию, обучите случайный лес на самых важных признаках