# Практическая работа №7 - Ансамблевое обучение

In [11]:
import time
import ace_tools_open as tools
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import BaggingClassifier, GradientBoostingClassifier
from sklearn.metrics import accuracy_score

## Задание №1

Найти данные для задачи классификации или для задачи регрессии (данные не должны повторятся в группе).

In [12]:
data = load_breast_cancer()
X = data.data
y = data.target

# Тренировочный - 70%, тестовый - 30%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

##  Задание №2

Реализовать баггинг.

**Теория**:

_Баггинг_ (Bagging, сокращение от Bootstrap Aggregating) — это метод ансамблевого обучения, который используется для повышения точности модели за счёт уменьшения дисперсии. В баггинге несколько моделей обучаются на разных подвыборках одного и того же набора данных, после чего их результаты объединяются (например, путём голосования или усреднения). Основная идея баггинга заключается в том, чтобы уменьшить разброс (variance) модели, что приводит к повышению её устойчивости и точности.

_Принцип работы_:

1. Создаются случайные подвыборки данных с помощью bootstrap (с повторяющимися выборками из исходного набора данных);
2. Для каждой подвыборки обучается отдельная модель (чаще всего используются слабые классификаторы, например, деревья решений);
3. Все обученные модели предсказывают результат, после чего результаты объединяются — в задачах классификации используется голосование, а в задачах регрессии — усреднение;
4. Итоговое предсказание получается как агрегированный результат всех моделей.

Баггинг помогает уменьшить переобучение, так как каждая модель работает на случайной подвыборке данных.

_Bootstrap_ – это статистический метод, используемый для оценки свойств (например, среднего, дисперсии) выборки данных с помощью многократного повторного случайного выборочного отбора данных с возвратом. Этот метод особенно полезен, когда исходная выборка ограничена по размеру или неизвестно распределение данных.

_Принцип работы_:

1. Из исходного набора данных многократно делаются случайные подвыборки того же размера, что и исходная выборка. Важное отличие от обычного случайного отбора — с возвратом, то есть одна и та же точка данных может быть выбрана несколько раз;
2.	Для каждой из полученных подвыборок вычисляется интересующий нас статистический показатель (например, среднее, медиана);
3.	Все полученные значения показателя объединяются для вычисления конечной оценки (например, среднего всех средних или среднего значения медианы).

In [16]:
start_time_bagging = time.time()
bagging = BaggingClassifier(n_estimators=100, random_state=42)
bagging.fit(X_train, y_train)
y_pred_bagging = bagging.predict(X_test)
accuracy_bagging = accuracy_score(y_test, y_pred_bagging)
end_time_bagging = time.time()

print(y_pred_bagging)

[1 0 0 1 1 0 0 0 0 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 1 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 0 1 0
 1 1 0 1 0 1 1 1 0 1 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 0 1 1 0 1 0 1 1 0 1 0 0
 0 1 0 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1]


## Задание №3

Реализовать бустинг на тех же данных, что использовались для баггинга.

**Теория**:

Бустинг — это метод ансамблевого обучения. В отличие от баггинга, бустинг направлен на последовательное улучшение модели. В бустинге каждая новая модель обучается на ошибках предыдущих моделей, таким образом, каждая последующая модель старается исправить ошибки предыдущей. Это делает бустинг мощным инструментом для повышения точности модели за счёт уменьшения смещения (bias).

_Принцип работы_:

1.	Первая модель обучается на исходных данных;
2.	Вычисляются ошибки (например, неправильно классифицированные объекты) первой модели;
3.	Вторая модель обучается на тех данных, которые были плохо предсказаны первой моделью (чаще всего такие данные получают больший вес);
4.	Процесс продолжается: каждая следующая модель обучается на ошибках предыдущей, и их результаты объединяются, чаще всего в виде взвешенного голосования;
5.	Итоговое предсказание представляет собой совокупное предсказание всех моделей с учётом их веса.

Бустинг снижает смещение модели, что приводит к более высокой точности, но делает модель склонной к переобучению, особенно если количество слабых моделей слишком велико.

In [17]:
start_time_boosting = time.time()
boosting = GradientBoostingClassifier(n_estimators=100, random_state=42)
boosting.fit(X_train, y_train)
y_pred_boosting = boosting.predict(X_test)
accuracy_boosting = accuracy_score(y_test, y_pred_boosting)
end_time_boosting = time.time()

print(y_pred_boosting)

[1 0 0 1 1 0 0 0 0 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 1 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 0 1 0
 1 1 0 1 0 1 1 1 0 1 1 1 0 1 0 0 1 1 0 0 0 1 1 1 0 0 1 1 0 1 0 1 1 0 1 0 0
 0 1 0 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1]


## Задание №4

Сравнить результаты работы алгоритмов (время работы и качество моделей). Сделать выводы.

In [15]:
results = {
    "Bagging Accuracy": accuracy_bagging,
    "Bagging Time": end_time_bagging - start_time_bagging,
    "Boosting Accuracy": accuracy_boosting,
    "Boosting Time": end_time_boosting - start_time_boosting
}

tools.display_dataframe_to_user(name="Сравнение баггинга и бустинга", dataframe=pd.DataFrame([results]))

Сравнение баггинга и бустинга


Bagging Accuracy,Bagging Time,Boosting Accuracy,Boosting Time
Loading ITables v2.2.2 from the internet... (need help?),,,


- Точность баггинга и бустинга одинакова. Оба метода показали одинаковую точность — 95.9%. Это говорит о том, что в данном конкретном наборе данных разница в подходах не дала значимого прироста качества. Оба метода справляются с классификацией примерно одинаково хорошо;
- Баггинг занял немного больше времени (0.258 секунды), чем бустинг (0.236 секунды). Это может быть связано с тем, что баггинг параллельно обучает несколько моделей, что требует больше ресурсов для одновременной обработки. Однако разница в скорости незначительна, и в этом конкретном случае бустинг оказался немного быстрее.