Предложить метод выбора наиболее важных признаков для логистической регрессии на основе изученных методов прикладной статистики. Осуществить выбор.

In [2]:
import eli5
import pandas as pd
from sklearn.datasets import load_wine
from sklearn.feature_selection import chi2, SelectPercentile
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

In [3]:
data = load_wine()
X, y, feature_names = data['data'], data['target'], data['feature_names']

Воспользуемся критерием проверки независимости `target` с каждым из признаков. Тестовая статистика будет иметь распределение хи-квадрат. Признаки с большим p-value более вероятно будут независимы с `target`, поэтому можем отсортировать по возрастанию p-value и взять топ n.

In [4]:
selector = SelectPercentile(chi2, percentile=0)
selector.fit(X, y)
pd.DataFrame({'feature': feature_names, 'score': selector.scores_, 'p-value': selector.pvalues_}).sort_values('p-value')

Unnamed: 0,feature,score,p-value
12,proline,16540.067145,0.0
9,color_intensity,109.016647,2.124887e-24
6,flavanoids,63.334308,1.766565e-14
4,magnesium,45.026381,1.669728e-10
3,alcalinity_of_ash,29.383695,4.16305e-07
1,malic_acid,28.068605,8.03489e-07
11,od280/od315_of_diluted_wines,23.389883,8.335878e-06
5,total_phenols,15.623076,0.0004050346
8,proanthocyanins,9.368283,0.009240664
0,alcohol,5.445499,0.06569389


Можно сравнить с более популярным на практике методом

In [5]:
lr = LogisticRegression(penalty='l1', random_state=16, solver='liblinear')
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
lr.fit(X_scaled, y)
eli5.explain_weights(lr, feature_names=feature_names)

Weight?,Feature,Unnamed: 2_level_0
Weight?,Feature,Unnamed: 2_level_1
Weight?,Feature,Unnamed: 2_level_2
+2.467,proline,
+1.510,alcohol,
+1.187,od280/od315_of_diluted_wines,
+0.962,ash,
+0.910,flavanoids,
+0.254,malic_acid,
-1.476,alcalinity_of_ash,
-1.491,<BIAS>,
+1.239,hue,
+0.568,alcalinity_of_ash,

Weight?,Feature
2.467,proline
1.51,alcohol
1.187,od280/od315_of_diluted_wines
0.962,ash
0.91,flavanoids
0.254,malic_acid
-1.476,alcalinity_of_ash
-1.491,<BIAS>

Weight?,Feature
1.239,hue
0.568,alcalinity_of_ash
0.501,flavanoids
0.203,nonflavanoid_phenols
0.135,proanthocyanins
-0.552,malic_acid
-1.118,ash
-1.552,<BIAS>
-1.599,alcohol
-2.315,color_intensity

Weight?,Feature
1.951,color_intensity
0.506,ash
0.252,malic_acid
0.049,alcohol
-0.055,nonflavanoid_phenols
-0.614,od280/od315_of_diluted_wines
-1.111,hue
-2.429,flavanoids
-2.498,<BIAS>


In [6]:
lr.coef_

array([[ 1.51017585,  0.25408249,  0.9623054 , -1.4759549 ,  0.        ,
         0.        ,  0.90966307,  0.        ,  0.        ,  0.        ,
         0.        ,  1.18662539,  2.46749327],
       [-1.5988605 , -0.55249396, -1.11755584,  0.5681369 ,  0.        ,
         0.        ,  0.50078399,  0.20348308,  0.13514279, -2.31514443,
         1.23926939,  0.        , -2.48137824],
       [ 0.04911449,  0.25191553,  0.50595451,  0.        ,  0.        ,
         0.        , -2.42917366, -0.05524966,  0.        ,  1.95067299,
        -1.11141492, -0.6139669 ,  0.        ]])

Результаты в целом согласуются, кроме, быть может,  признака `magnesium`. Насколько я понял, он связан с `proline`, видимо из-за этого лассо понизила его влияние.