# Завдання
Проведіть класифікацію на основі датасету UCI ML Breast Cancer Wisconsin, використовуючи вказані у презентації моделі бустингу, беггінгу та стекінгу. Змініть їх параметри наступним чином:

у StackingClassifier як базові алгоритми встановіть LogisticRegression та DecisionTreeClassifier, як фінальну модель – SVC;
у BaggingClassifier як базовий алгоритм встановіть DecisionTreeClassifier;
у AdaBoostClassifier як базовий алгоритм встановіть LogisticRegression
у XGBСlassifier як базовий алгоритм (booster) встановіть ‘gbtree’.
У зведеній таблиці порівняйте результати класифікацій, наведених у коді, із класифікаціями, що отримані вами.

## Рішення

In [35]:
# імпорт бібліотек
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score
from sklearn.ensemble import BaggingClassifier, AdaBoostClassifier, StackingClassifier
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from xgboost import XGBClassifier

### Підготовка даних:

In [36]:
# завантаження датасету
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data', header=None)

# перетворення значень міток класів M та B у числові значення 1 та 0 відповідно
data[1] = np.where(data[1] == 'M', 1, 0)

# визначення ознак та міток класів
X = data.iloc[:, 2:]
y = data.iloc[:, 1]

# розділення на тренувальний та тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2023)

### Побудова базових моделей

In [37]:
# Стекінг
estimators = [('lr', LogisticRegression(max_iter=10000)), ('sgc', SGDClassifier())]
sc = StackingClassifier(estimators=estimators, final_estimator=DecisionTreeClassifier())
sc.fit(X_train, y_train)
y_pred = sc.predict(X_test)
sc_accuracy = accuracy_score(y_test, y_pred)
sc_recall = recall_score(y_test, y_pred)
sc_precision = precision_score(y_test, y_pred)
sc_f1 = f1_score(y_test, y_pred)

# Беггінг
bc = BaggingClassifier(estimator=LogisticRegression(max_iter=10000), n_estimators=100, random_state=2023)
bc.fit(X_train, y_train)
y_pred = bc.predict(X_test)
bc_accuracy = accuracy_score(y_test, y_pred)
bc_recall = recall_score(y_test, y_pred)
bc_precision = precision_score(y_test, y_pred)
bc_f1 = f1_score(y_test, y_pred)

# AdaBoostClassifier бустинг
abc = AdaBoostClassifier(estimator=DecisionTreeClassifier(max_depth=6), n_estimators=100, random_state=2023)
abc.fit(X_train, y_train)
y_pred = abc.predict(X_test)
abc_accuracy = accuracy_score(y_test, y_pred)
abc_recall = recall_score(y_test, y_pred)
abc_precision = precision_score(y_test, y_pred)
abc_f1 = f1_score(y_test, y_pred)

# XGBClassifier
xgb = XGBClassifier(booster='gblinear', learning_rate=0.02, n_estimators=100)
xgb.fit(X_train, y_train)
y_pred = xgb.predict(X_test)
xgb_accuracy = accuracy_score(y_test, y_pred)
xgb_recall = recall_score(y_test, y_pred)
xgb_precision = precision_score(y_test, y_pred)
xgb_f1 = f1_score(y_test, y_pred)

### ### Побудова моделей зі зміною параметрів

In [38]:
# Змінені параметри
# StackingClassifier
estimators = [('lg', LogisticRegression(max_iter=10000)), ('dtc', DecisionTreeClassifier())]
sc = StackingClassifier(estimators=estimators, final_estimator=SVC())
sc.fit(X_train, y_train)
y_pred = sc.predict(X_test)
sc_accuracy_mod = accuracy_score(y_test, y_pred)
sc_recall_mod = recall_score(y_test, y_pred)
sc_precision_mod = precision_score(y_test, y_pred)
sc_f1_mod = f1_score(y_test, y_pred)

# BaggingClassifier
bc = BaggingClassifier(estimator=DecisionTreeClassifier(max_depth=5), n_estimators=50)
bc.fit(X_train, y_train)
y_pred = bc.predict(X_test)
bc_accuracy_mod = accuracy_score(y_test, y_pred)
bc_recall_mod = recall_score(y_test, y_pred)
bc_precision_mod = precision_score(y_test, y_pred)
bc_f1_mod = f1_score(y_test, y_pred)

# AdaBoostClassifier
abc = AdaBoostClassifier(estimator=LogisticRegression(C=0.5, penalty='l2', max_iter=1000), n_estimators=100, learning_rate=0.1)
abc.fit(X_train, y_train)
y_pred = abc.predict(X_test)
abc_accuracy_mod = accuracy_score(y_test, y_pred)
abc_recall_mod = recall_score(y_test, y_pred)
abc_precision_mod = precision_score(y_test, y_pred)
abc_f1_mod = f1_score(y_test, y_pred)

# XGBClassifier
xgb = XGBClassifier(booster='gbtree')
xgb.fit(X_train, y_train)
y_pred = xgb.predict(X_test)
xgb_accuracy_mod = accuracy_score(y_test, y_pred)
xgb_recall_mod = recall_score(y_test, y_pred)
xgb_precision_mod = precision_score(y_test, y_pred)
xgb_f1_mod = f1_score(y_test, y_pred)

### Зведена таблиця результатів

In [39]:
import pandas as pd

# Створення DataFrame з результатами класифікації
results_df = pd.DataFrame({
    'Модель': ['StackingClassifier', 'StackingClassifier', 'BaggingClassifier', 'BaggingClassifier', 'AdaBoostClassifier', 'AdaBoostClassifier', 'XGBClassifier', 'XGBClassifier'],
    'Параметри': ['з лекції', 'з завдання', 'з лекції', 'з завдання', 'з лекції', 'з завдання', 'з лекції', 'з завдання'],
    'Точність': [sc_accuracy, sc_accuracy_mod, bc_accuracy, bc_accuracy_mod, abc_accuracy, abc_accuracy_mod, xgb_accuracy, xgb_accuracy_mod],
    'Чутливість': [sc_recall, sc_recall_mod, bc_recall, bc_recall_mod, abc_recall, abc_recall_mod, xgb_recall, xgb_recall_mod],
    'Специфічність': [sc_precision, sc_precision_mod, bc_precision, bc_precision_mod, abc_precision, abc_precision, xgb_precision, xgb_precision_mod],
    'F1-score': [sc_f1, sc_f1_mod, bc_f1, bc_f1_mod, abc_f1, abc_f1_mod, xgb_f1, xgb_f1_mod]
})

# Відображення зведеної таблиці
print('Порівняння ефективності моделей')
results_df

Порівняння ефективності моделей


Unnamed: 0,Модель,Параметри,Точність,Чутливість,Специфічність,F1-score
0,StackingClassifier,з лекції,0.94152,0.901639,0.932203,0.916667
1,StackingClassifier,з завдання,0.97076,0.934426,0.982759,0.957983
2,BaggingClassifier,з лекції,0.97076,0.95082,0.966667,0.958678
3,BaggingClassifier,з завдання,0.947368,0.934426,0.919355,0.926829
4,AdaBoostClassifier,з лекції,0.929825,0.918033,0.888889,0.903226
5,AdaBoostClassifier,з завдання,0.97076,0.95082,0.888889,0.958678
6,XGBClassifier,з лекції,0.929825,0.819672,0.980392,0.892857
7,XGBClassifier,з завдання,0.964912,0.95082,0.95082,0.95082


In [40]:
print('Приріст/падіння ефективності моделей, %')
results_df.set_index(['Модель','Параметри']) \
    .diff() \
    .filter(regex='з завдання', axis=0) \
    .sort_values(['F1-score'], ascending=False) \
    .select_dtypes(include=['number']) * 100

Приріст/падіння ефективності моделей, %


Unnamed: 0_level_0,Unnamed: 1_level_0,Точність,Чутливість,Специфічність,F1-score
Модель,Параметри,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
XGBClassifier,з завдання,3.508772,13.114754,-2.957248,5.796253
AdaBoostClassifier,з завдання,4.093567,3.278689,0.0,5.545188
StackingClassifier,з завдання,2.923977,3.278689,5.055523,4.131653
BaggingClassifier,з завдання,-2.339181,-1.639344,-4.731183,-3.184842


### Висновок
1. Кращими моделями класифікації у такому випадку є Bagging (з лекції) та AdaBoost (з завдання).
2. Найбільший приріст точності через модифікацію параметрів моделі зазнала XGB.
3. Модель Bagging навпаки зазнала найбільшої втрати з точки зору ефективності.
4. Загалом, зміна параметрів може покращити результати, але важливо не забувати про підбір гіперпараметрів шляхом випадкового пошуку або пошуку по сітці.