# Задача 3.3.

---
Выборка: Wine (https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html).

Предложить метод выбора наиболее важных признаков для логистической регрессии на основе изученных методов прикладной статистики. Осуществить выбор.

---

In [63]:
from sklearn.datasets import load_wine
from sklearn.linear_model import LogisticRegression
import statsmodels.api as sm
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import roc_auc_score
from tqdm import trange, tqdm

### 1. Вначале загрузим датасет и посмотри на его наполнение и характеристики

In [2]:
print(load_wine()['DESCR'])
X, y = load_wine(return_X_y=True)

.. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178 (50 in each of three classes)
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.3
    Total Phenols:                0

### 2. Обучим модель логистической регрессии на данном датасете 

#### Препроцессинг данных. Вначале стандартизуем данные в датасете:

In [15]:
from sklearn.preprocessing import StandardScaler

In [81]:
scaler = StandardScaler()
scaler.fit(X)

X_scaled = scaler.transform(X)

In [82]:
X_scaled = pd.DataFrame(X_scaled)
X_scaled.columns = ['Alcohol', 'Malic acid', 'Ash', 
                    'Alcalinity of ash', 'Magnesium', 'Total phenols',
                    'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins',
                    'Color intensity', 'Hue', 'OD280/OD315 of diluted wines',
                    'Proline']

#### Обучение модели логистической регрессии со всеми фичами:

In [83]:
model = LogisticRegression(penalty='none', fit_intercept=True, multi_class='ovr', 
                           solver='saga', max_iter=10000)

model.fit(X_scaled, y)

print('ROC-AUC score на полном датасете: ', 
      roc_auc_score(y, model.predict_proba(X_scaled), multi_class='ovr', average='macro'))

ROC-AUC score на полном датасете:  1.0


Таким образом, получаем, что базовая модель логистической регрессии может полностью выучить данный набор данных. Пусть итоговое качество по ROC-AUC score, которое мы хотим получить после cокращения кол-ва переменных, должно быть таким же, то есть хотим получить roc_auc_score=1 на наиболее маленьком подмножестве фичей.

#### feature_selection по методу прямого включения:

У нас всего 13 фичей, будем поочередно добавлять самые значимые переменные, пока не достигнем roc_auc_score=1.

1) 1 фича:

In [87]:
roc_auc_score_dict = {}

for col in X_scaled.columns:
    X_train = X_scaled[[col]]

    model = LogisticRegression(penalty='none', fit_intercept=True, multi_class='ovr', 
                               solver='saga', max_iter=10000)
    model.fit(X_train, y)

    roc_auc_score_dict[col] = roc_auc_score(y, model.predict_proba(X_train), multi_class='ovr', average='macro')

roc_auc_score_dict

{'Alcohol': 0.847008210262056,
 'Malic acid': 0.7050743537873609,
 'Ash': 0.651504672318106,
 'Alcalinity of ash': 0.7324511049471116,
 'Magnesium': 0.6911729335885842,
 'Total phenols': 0.813522592196609,
 'Flavanoids': 0.9301292982316886,
 'Nonflavanoid phenols': 0.6859860437504759,
 'Proanthocyanins': 0.7244476998347528,
 'Color intensity': 0.8785817197348006,
 'Hue': 0.7638688165474422,
 'OD280/OD315 of diluted wines': 0.8462901170783148,
 'Proline': 0.8861056271549881}

**Вывод**: самая значимая переменная - `Flavanoids`, выбираем ее.

2) 2 фичи:

In [88]:
roc_auc_score_dict = {}

for col in X_scaled.columns:
    if col !='Flavanoids':
        X_train = X_scaled[['Flavanoids', col]]

        model = LogisticRegression(penalty='none', fit_intercept=True, multi_class='ovr', 
                                   solver='saga', max_iter=10000)
        model.fit(X_train, y)

        roc_auc_score_dict[col] = roc_auc_score(y, model.predict_proba(X_train), multi_class='ovr', average='macro')

roc_auc_score_dict

{'Alcohol': 0.980531075457069,
 'Malic acid': 0.9134426316373835,
 'Ash': 0.9288987381166139,
 'Alcalinity of ash': 0.9517136374379538,
 'Magnesium': 0.9285731696665761,
 'Total phenols': 0.9225646885698273,
 'Nonflavanoid phenols': 0.926580320100007,
 'Proanthocyanins': 0.9365489202075254,
 'Color intensity': 0.9802322102680137,
 'Hue': 0.929486034839246,
 'OD280/OD315 of diluted wines': 0.9335446075132457,
 'Proline': 0.9731773891359534}

**Вывод**: самая значимая переменная - `Alcohol`, выбираем ее.

3) 3 фичи: 

In [89]:
roc_auc_score_dict = {}

for col in X_scaled.columns:
    if col !='Flavanoids' and col != 'Alcohol':
        X_train = X_scaled[['Flavanoids', 'Alcohol', col]]

        model = LogisticRegression(penalty='none', fit_intercept=True, multi_class='ovr', 
                                   solver='saga', max_iter=10000)
        model.fit(X_train, y)

        roc_auc_score_dict[col] = roc_auc_score(y, model.predict_proba(X_train), multi_class='ovr', average='macro')

roc_auc_score_dict

{'Malic acid': 0.9798501103054397,
 'Ash': 0.9859225264321564,
 'Alcalinity of ash': 0.9832576831413111,
 'Magnesium': 0.9830242430752184,
 'Total phenols': 0.9796991187874932,
 'Nonflavanoid phenols': 0.9816174332896166,
 'Proanthocyanins': 0.9811581511320521,
 'Color intensity': 0.9924883272965433,
 'Hue': 0.988694611571247,
 'OD280/OD315 of diluted wines': 0.9827657715902322,
 'Proline': 0.9924068480027864}

**Вывод**: самая значимая переменная - `Color intensity`, выбираем ее.

4) 4 фичи:

In [90]:
roc_auc_score_dict = {}

for col in X_scaled.columns:
    if col !='Flavanoids' and col != 'Alcohol' and col != 'Color intensity':
        X_train = X_scaled[['Flavanoids', 'Alcohol', 'Color intensity', col]]

        model = LogisticRegression(penalty='none', fit_intercept=True, multi_class='ovr', 
                                   solver='saga', max_iter=10000)
        model.fit(X_train, y)

        roc_auc_score_dict[col] = roc_auc_score(y, model.predict_proba(X_train), multi_class='ovr', average='macro')

roc_auc_score_dict

{'Malic acid': 0.993831323573774,
 'Ash': 0.9959581631069733,
 'Alcalinity of ash': 0.9932736602188658,
 'Magnesium': 0.9953602224318728,
 'Total phenols': 0.9935973684467574,
 'Nonflavanoid phenols': 0.9934002626781208,
 'Proanthocyanins': 0.9928571696053344,
 'Hue': 0.995132381177484,
 'OD280/OD315 of diluted wines': 0.995000750270547,
 'Proline': 0.9991826744800046}

**Вывод**: самая значимая переменная - `Proline`, выбираем ее.

5) 5 фичей:

In [91]:
roc_auc_score_dict = {}

for col in X_scaled.columns:
    if col !='Flavanoids' and col != 'Alcohol' and col != 'Color intensity' and col != 'Proline':
        X_train = X_scaled[['Flavanoids', 'Alcohol', 'Color intensity', 'Proline', col]]

        model = LogisticRegression(penalty='none', fit_intercept=True, multi_class='ovr', 
                                   solver='saga', max_iter=10000)
        model.fit(X_train, y)

        roc_auc_score_dict[col] = roc_auc_score(y, model.predict_proba(X_train), multi_class='ovr', average='macro')

roc_auc_score_dict

{'Malic acid': 0.9996761200851338,
 'Ash': 0.9998208924752973,
 'Alcalinity of ash': 0.9991790748312179,
 'Magnesium': 0.9994116011593395,
 'Total phenols': 0.9996820622707868,
 'Nonflavanoid phenols': 0.9994116011593395,
 'Proanthocyanins': 0.9995468317150631,
 'Hue': 0.9999086464132553,
 'OD280/OD315 of diluted wines': 0.9996381853018078}

**Вывод**: самая значимая переменная - `Hue`, выбираем ее.

6) 6 фичей:

In [92]:
roc_auc_score_dict = {}

for col in X_scaled.columns:
    if col !='Flavanoids' and col != 'Alcohol' and col != 'Color intensity' and col != 'Proline' and col != 'Hue':
        X_train = X_scaled[['Flavanoids', 'Alcohol', 'Color intensity', 'Proline', 'Hue', col]]

        model = LogisticRegression(penalty='none', fit_intercept=True, multi_class='ovr', 
                                   solver='saga', max_iter=10000)
        model.fit(X_train, y)

        roc_auc_score_dict[col] = roc_auc_score(y, model.predict_proba(X_train), multi_class='ovr', average='macro')

roc_auc_score_dict

{'Malic acid': 0.9999086464132553,
 'Ash': 1.0,
 'Alcalinity of ash': 1.0,
 'Magnesium': 0.9999086464132553,
 'Total phenols': 1.0,
 'Nonflavanoid phenols': 0.9999086464132553,
 'Proanthocyanins': 0.9999086464132553,
 'OD280/OD315 of diluted wines': 0.9999086464132553}

**Вывод**: самые значимые переменные - `Ash`, `Alcalinity of ash`, `Total phenols`. Выберем, например, переменную `Ash`.

Таким образом, мы получили 6 наиболее значимых переменных (в порядке возрастания): `Flavanoids`, `Alcohol`, `Color intensity`, `Proline`, `Hue`, `Ash`.