## Задача
Реализуем бэггинг для деревьев решений. Для тренировки будем использовать датасет о винах. 

Для начала подготовим данные к классификации. Условно разделим вино на хорошее и нет. Хорошим вином будем называть вино, параметр quality которого не менее \(6\).

Теперь сравним несколько методов классификации: логистическую регрессию, решающее дерево и бэггинг.

Разбейте выборку на обучающую и тренировочную с параметрами test_size=0.30, random_state=42.

Обучите два классификатора: логистическую регрессию (с дефолтными параметрами) и решающее дерево (random_state=42, максимальная глубина равна \(10\)).

In [1]:
import pandas as pd # библиотека для работы с файлами csv
import numpy as np # линейная алгебра

# Библиотеки для работы с ML
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import BaggingClassifier

# Библиотеки метрик
from sklearn.metrics import f1_score

In [2]:
data = pd.read_csv('winequality-red.csv', sep=';')

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         1599 non-null   float64
 1   volatile acidity      1599 non-null   float64
 2   citric acid           1599 non-null   float64
 3   residual sugar        1599 non-null   float64
 4   chlorides             1599 non-null   float64
 5   free sulfur dioxide   1599 non-null   float64
 6   total sulfur dioxide  1599 non-null   float64
 7   density               1599 non-null   float64
 8   pH                    1599 non-null   float64
 9   sulphates             1599 non-null   float64
 10  alcohol               1599 non-null   float64
 11  quality               1599 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 150.0 KB


In [4]:
data['class'] = data['quality'].apply(lambda x: 1 if x>=6 else 0)

In [5]:
y = data['class']
X = data.drop(['quality', 'class'], axis=1)

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)

### Задание
Выберите значение f1 score для классификатора, который показал наилучшее значение. 

In [7]:
model_LR = LogisticRegression()
model_LR.fit(X_train, y_train)

pred_LR = model_LR.predict(X_test)
print('LogisticRegression f1-score: ' + str(f1_score(y_test, pred_LR)))

LogisticRegression f1-score: 0.7542857142857143


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [8]:
model_tree = DecisionTreeClassifier(max_depth=10, random_state=42)
model_tree.fit(X_train, y_train)
pred_tree = model_tree.predict(X_test)
print('DecisionTreeClassifier f1-score: ' + str(f1_score(y_test, pred_tree)))

DecisionTreeClassifier f1-score: 0.7927927927927927


### Задание
Обучите модель с использование бэггинга (функция BaggingClassifier с random_state=42, разделение выборки на обучающую и тренировочную с параметрами test_size=0.30, random_state=42) для алгоритма, показавшего лучшее качество, определите количество моделей \(1500\). Вычислите новое значение f1-score.

In [9]:
estimator = model_LR if f1_score(y_test, pred_LR) > f1_score(y_test, pred_tree) else model_tree

In [10]:
model_bag = BaggingClassifier(base_estimator=estimator, n_estimators=1500, random_state=42)
model_bag.fit(X_train, y_train)

BaggingClassifier(base_estimator=DecisionTreeClassifier(max_depth=10,
                                                        random_state=42),
                  n_estimators=1500, random_state=42)

In [11]:
pred_bag = model_bag.predict(X_test)
print('BaggingClassifier f1-score: ' + str(f1_score(y_test, pred_bag)))

BaggingClassifier f1-score: 0.8181818181818181
