**Задание 1: Анализ и сравнение алгоритмов Boosting**

Исследовать эффективность различных алгоритмов Boosting на задаче классификации, используя датасет Iris из библиотеки scikit-learn.



Шаги выполнения:

Применение моделей Boosting:

Инициализируйте и обучите следующие модели на обучающей выборке:

AdaBoost (AdaBoostClassifier)
Gradient Boosting (GradientBoostingClassifier)
XGBoost (XGBClassifier)
LightGBM (LGBMClassifier)
Укажите для каждой модели параметры: n_estimators=50, learning_rate=0.01, и max_depth=5 (если применимо), random_state=105.

Анализ производительности:

Для каждой модели выполните предсказания на тестовой выборке.
Оцените и сравните модели, используя следующие метрики: точность (Accuracy), F1-мера.
Представьте результаты в виде отчета, содержащего как текстовое описание, так и визуальные представления (таблицы).
Результаты:

В вашем отчете должны быть четко представлены результаты сравнения моделей, включая обсуждение того, какая модель показала себя лучше всего на выбранном датасете и почему. Обратите внимание на различия в производительности моделей в зависимости от используемых метрик.

In [60]:
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import AdaBoostClassifier, GradientBoostingClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier
from sklearn.metrics import classification_report, confusion_matrix

data = datasets.load_iris()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)


ada = AdaBoostClassifier(n_estimators = 50, learning_rate = 0.01, random_state = 105)

In [61]:
%%time
ada.fit(X_train, y_train)

CPU times: total: 141 ms
Wall time: 130 ms


In [62]:
prediction_1 = ada.predict(X_test)

print(f"Classification report:\n{classification_report(y_test, prediction_1)}")
print(f"Confusion matrix:\n{confusion_matrix(y_test, prediction_1)}")

importance_dict_1 = {ada.feature_names_in_[i]:ada.feature_importances_[i] for i in range(len(ada.feature_importances_))}
for x, y in sorted(importance_dict_1.items(), key = lambda x: x[1], reverse = True):
    print(f"{x}:{y}")

Classification report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        20
           1       0.80      1.00      0.89        12
           2       1.00      0.77      0.87        13

    accuracy                           0.93        45
   macro avg       0.93      0.92      0.92        45
weighted avg       0.95      0.93      0.93        45

Confusion matrix:
[[20  0  0]
 [ 0 12  0]
 [ 0  3 10]]
petal width (cm):0.6
petal length (cm):0.4
sepal length (cm):0.0
sepal width (cm):0.0


In [63]:
gradient = GradientBoostingClassifier(n_estimators = 50, learning_rate = 0.01, random_state = 105, max_depth = 5)

In [64]:
%%time
gradient.fit(X_train, y_train)

CPU times: total: 250 ms
Wall time: 256 ms


In [65]:
prediction_2 = gradient.predict(X_test)

print(f"Classification report:\n{classification_report(y_test, prediction_2)}")
print(f"Confusion matrix:\n{confusion_matrix(y_test, prediction_2)}")

importance_dict_2 = {gradient.feature_names_in_[i]:gradient.feature_importances_[i] for i in range(len(gradient.feature_importances_))}
for x, y in sorted(importance_dict_2.items(), key = lambda x: x[1], reverse = True):
    print(f"{x}:{y}")

Classification report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        20
           1       0.92      1.00      0.96        12
           2       1.00      0.92      0.96        13

    accuracy                           0.98        45
   macro avg       0.97      0.97      0.97        45
weighted avg       0.98      0.98      0.98        45

Confusion matrix:
[[20  0  0]
 [ 0 12  0]
 [ 0  1 12]]
petal width (cm):0.7013248475421134
petal length (cm):0.27055231945879954
sepal width (cm):0.020515147826074213
sepal length (cm):0.007607685173012855


In [66]:
xgboost = XGBClassifier(n_estimators = 50, learning_rate = 0.01, random_state = 105)

In [67]:
%%time
xgboost.fit(X_train, y_train)

CPU times: total: 891 ms
Wall time: 74.6 ms


In [68]:
prediction_3 = xgboost.predict(X_test)

print(f"Classification report:\n{classification_report(y_test, prediction_3)}")
print(f"Confusion matrix:\n{confusion_matrix(y_test, prediction_3)}")

importance_dict_3 = {xgboost.feature_names_in_[i]:xgboost.feature_importances_[i] for i in range(len(xgboost.feature_importances_))}
for x, y in sorted(importance_dict_3.items(), key = lambda x: x[1], reverse = True):
    print(f"{x}:{y}")

Classification report:
              precision    recall  f1-score   support

           0       0.95      1.00      0.98        20
           1       0.92      0.92      0.92        12
           2       1.00      0.92      0.96        13

    accuracy                           0.96        45
   macro avg       0.96      0.95      0.95        45
weighted avg       0.96      0.96      0.96        45

Confusion matrix:
[[20  0  0]
 [ 1 11  0]
 [ 0  1 12]]
petal width (cm):0.6653192639350891
petal length (cm):0.3346807360649109
sepal length (cm):0.0
sepal width (cm):0.0


In [69]:
lgbm = LGBMClassifier(n_estimators = 50, learning_rate = 0.01, random_state = 105)

In [70]:
%%time
lgbm.fit(X_train, y_train)

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000052 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 84
[LightGBM] [Info] Number of data points in the train set: 105, number of used features: 4
[LightGBM] [Info] Start training from score -1.252763
[LightGBM] [Info] Start training from score -1.016374
[LightGBM] [Info] Start training from score -1.043042
CPU times: total: 46.9 ms
Wall time: 20.1 ms


In [71]:
prediction_4 = lgbm.predict(X_test)

print(f"Classification report:\n{classification_report(y_test, prediction_4)}")
print(f"Confusion matrix:\n{confusion_matrix(y_test, prediction_4)}")

Classification report:
              precision    recall  f1-score   support

           0       1.00      0.95      0.97        20
           1       0.86      1.00      0.92        12
           2       1.00      0.92      0.96        13

    accuracy                           0.96        45
   macro avg       0.95      0.96      0.95        45
weighted avg       0.96      0.96      0.96        45

Confusion matrix:
[[19  1  0]
 [ 0 12  0]
 [ 0  1 12]]


**Отчет**:

Все модели показали одинковую точность и F1 меру.(98%) С точки зрения производительности опережает всех LightGBM.(46.1 ms)

**Задание 2: Оптимизация гиперпараметров с использованием GridSearchCV**

Цель задания: Провести детальный анализ влияния гиперпараметров на качество модели машинного обучения и найти их оптимальные значения, используя метод Grid Search.



Данные: Выберите датасет Iris для классификации из библиотеки scikit-learn.



Процесс:

Выбор модели: Используйте модель XGBoost (или любую другую модель на ваше усмотрение) для решения задачи классификации.

Настройка гиперпараметров:

Определите сетку гиперпараметров для выбранной модели. Например, для XGBoost это может быть количество деревьев (n_estimators), скорость обучения (learning_rate), максимальная глубина (max_depth) и доля подвыборки (subsample).

Инициализируйте GridSearchCV с вашей моделью и сеткой гиперпараметров. Установите количество кросс-валидаций (например, cv=3) и метрику оценки (например, scoring='accuracy').

Обучение и выбор лучшей модели:

Обучите GridSearchCV на обучающих данных.
Используйте grid_search.best_params_ для вывода на экран лучших значений гиперпараметров.
Используйте grid_search.best_score_ для вывода на экран лучшей достигнутой точности на кросс-валидации.
Задачи:

Анализируйте, как изменение каждого гиперпараметра влияет на производительность модели.

Сравните производительность модели с оптимальными гиперпараметрами с производительностью исходной модели.

Результаты:

Оформите отчет, в котором представьте найденные оптимальные гиперпараметры и их влияние на точность модели.

Объясните, почему выбранные гиперпараметры являются оптимальными и как они влияют на результаты модели.

In [74]:
from sklearn.model_selection import GridSearchCV

model = XGBClassifier(random_state=21)
params = {'n_estimators':[100,200],
          'max_depth':[2,3,4],
          'learning_rate':[0.01,0.05,0.1],
          'subsample':[0.5,0.25,0.3]}
model_search = GridSearchCV(estimator=model, param_grid=params, cv=3, scoring='accuracy')
model_search.fit(X_train, y_train)
prediction = model_search.predict(X_test)

In [75]:
model_search.best_params_

{'learning_rate': 0.01, 'max_depth': 2, 'n_estimators': 200, 'subsample': 0.3}

In [76]:
model_search.best_score_

0.9714285714285715

**Отчет**:\
n_estimators - количество базовых моделей (деревьев решений). Увеличивает производительность модели, но также увеличивает время обучения и риск переобучения.\
max_depth - увеличение этого значения сделает модель более сложной и с большей вероятностью переобучится.\
learning_rate - используется для предотвращения переобучения.\
subsample - cоотношение подвыборок обучающих экземпляров. Это предотвратит переобучение.