In [1]:
#  Подключаю необходимые библиотеки
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
matplotlib.style.use('ggplot')
%matplotlib inline

In [3]:
df = pd.read_csv('winequality-red.csv', sep=';')

In [4]:
#  Все хорошо?
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


In [5]:
#  Классы сбалансированы?
df['quality'].value_counts()

5    681
6    638
7    199
4     53
8     18
3     10
Name: quality, dtype: int64

In [6]:
#  Проверяю размерность матрицы данных
df.shape

(1599, 12)

In [7]:
#  разделяю предикоторы и отклики
X = df.iloc[:, :-1].values  
y = df.iloc[:, -1].values 

In [8]:
#  разделяю на обучающую и тестовую выборку

from sklearn.model_selection import train_test_split  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)  

In [10]:
from sklearn.ensemble import GradientBoostingClassifier
#  from sklearn.metrics import classification_report
from sklearn import metrics

In [333]:
model = GradientBoostingClassifier(random_state=13,
                                   # Доля наблюдений в случайной подвыборке для очередного дерева
                                   subsample=0.66,
                                   # Доля переменных в случайной подвыборке для очередного дерева
                                   max_features='sqrt', 
                                   # Число деревьев
                                   n_estimators=80,
                                   #  критерий качества ‘deviance’ (кросс-энтропия) или ‘exponential’ (как в AdaBoost)
                                   #  ‘deviance’ для классификации с вероятностями на выходе
                                   loss='deviance', 
                                   # shrinkage На это число умножаем каждое дерево.
                                   # Рекомендуется выставлять небольшие значения из (0, 0.3].
                                   learning_rate=0.01, 
                                   #  загрязнение дерева измеряем “mse” или “friedman_mse”  (mse с улучшениями)
                                    #  “mae” удалено из нынешней версии,  
                                   criterion='friedman_mse', 
                                   # минимальное уменьшение загрязнения 
                                   min_impurity_decrease=0.001, 
                                   # минимальное число наблюдений в узле потомке
                                   min_samples_leaf=5, 
                                   # минимальное число наблюдений в узле родителе
                                   min_samples_split=10,
                                   # число узлов в дереве (в RandomForest иначе !!!!!!!!!!!!!)
                                   max_depth=5,
                                   # как выдавать промежуточные результаты
                                   verbose=0
                                   # Есть и другие параметры, уменьшающие размер дерева,
                                   # такие же как у DecisionTreeClassifier
                                   )

In [334]:
# Определим тестируемые значения гиперпараметров
params_set = {
    'max_depth': [3, 4, 5, 6],
    'min_samples_leaf': [5, 8, 10, 16],
    'min_samples_split': [3, 5, 8, 10, 15],
    'n_estimators': [40, 80, 100, 200],
    'criterion': ["friedman_mse", "mse"]
}

In [335]:
# Активируем поиск на решетке GridSearchCV
from sklearn.model_selection import GridSearchCV
#   Проводим 10-fold кросс-валидацию

grid_CV = GridSearchCV(estimator=model,
                       param_grid=params_set,
                       scoring='accuracy',
                       cv=10,
                       n_jobs=-1)

# Обучим на тренировочной выборке
grid_CV.fit(X_train, y_train)



GridSearchCV(cv=10, error_score=nan,
             estimator=GradientBoostingClassifier(ccp_alpha=0.0,
                                                  criterion='friedman_mse',
                                                  init=None, learning_rate=0.01,
                                                  loss='deviance', max_depth=5,
                                                  max_features='sqrt',
                                                  max_leaf_nodes=None,
                                                  min_impurity_decrease=0.001,
                                                  min_impurity_split=None,
                                                  min_samples_leaf=5,
                                                  min_samples_split=10,
                                                  min_weight_fraction_leaf=0.0,
                                                  n_estimators=80,
                                                  n_ite...
                 

In [336]:
# Выберем лучшую модель
best_model = grid_CV.best_estimator_
print('Лучшие значения гиперпараметров:\n', grid_CV.best_params_)

Лучшие значения гиперпараметров:
 {'criterion': 'friedman_mse', 'max_depth': 6, 'min_samples_leaf': 8, 'min_samples_split': 3, 'n_estimators': 200}


In [337]:
from sklearn import metrics
# Строим предсказания модели
y_pred_train = best_model.predict(X_train)
y_pred_test = best_model.predict(X_test)

print(metrics.classification_report(y_pred_test, y_test))

              precision    recall  f1-score   support

           3       0.00      0.00      0.00         0
           4       0.00      0.00      0.00         0
           5       0.80      0.73      0.76       253
           6       0.65      0.61      0.63       228
           7       0.40      0.51      0.45        47
           8       0.00      0.00      0.00         0

    accuracy                           0.66       528
   macro avg       0.31      0.31      0.31       528
weighted avg       0.70      0.66      0.68       528



  _warn_prf(average, modifier, msg_start, len(result))


In [338]:
from sklearn.calibration import CalibratedClassifierCV

In [339]:
model_sigmoid = CalibratedClassifierCV(best_model, cv=2, method='sigmoid')
# метод калибровки: ‘sigmoid’ или ‘isotonic’

In [340]:
# Собственно калибровка
model_sigmoid.fit(X_train, y_train)

CalibratedClassifierCV(base_estimator=GradientBoostingClassifier(ccp_alpha=0.0,
                                                                 criterion='friedman_mse',
                                                                 init=None,
                                                                 learning_rate=0.01,
                                                                 loss='deviance',
                                                                 max_depth=6,
                                                                 max_features='sqrt',
                                                                 max_leaf_nodes=None,
                                                                 min_impurity_decrease=0.001,
                                                                 min_impurity_split=None,
                                                                 min_samples_leaf=8,
                                                                 mi

In [341]:
# Строим предсказания откалиброванной модели
y_pred_train = model_sigmoid.predict(X_train)
y_pred_test = model_sigmoid.predict(X_test)

print(metrics.classification_report(y_pred_test, y_test))

              precision    recall  f1-score   support

           3       0.00      0.00      0.00         0
           4       0.00      0.00      0.00         0
           5       0.80      0.72      0.76       256
           6       0.61      0.62      0.61       214
           7       0.48      0.50      0.49        58
           8       0.00      0.00      0.00         0

    accuracy                           0.65       528
   macro avg       0.31      0.31      0.31       528
weighted avg       0.69      0.65      0.67       528



  _warn_prf(average, modifier, msg_start, len(result))


In [342]:
# Строим предсказание модели
y_pred_test_probs = model_sigmoid.predict_proba(X_test)

# Оценим долю наблюдений в тестовой выборке, для которых есть класс, вероятность принадлежать которому больше 0.8
(y_pred_test_probs > 0.8).sum() / len(y_pred_test_probs)

0.043560606060606064