# Boosting

Бустинг - це метод у машинному навчанні, який об'єднує багато слабких моделей у одну дуже сильну (типу, коли кілька "трошки тупих" моделей разом стають дуже розумними, і кожна наступна виправляє помилки попередньої)

## Ідея бустингу:

## Тезки для презентації

### Проблема
- Чому одна модель - це не завжди добре?
  1) Окремі моделі можуть бути слабкими, неточними
  2) Дерева рішень передбачують або працюють неточно (дають погані прогнози)
  3) Хочеться отримати точнішу модель, без складного налаштування однієї великої моделі

### Слабкі моделі
- Що таке слабкі моделі?
  1) бебебебебе
 
### Що таке Boosting (суть)
- Послідовне навчання з виправленням помилок
  1) Навчаємо моделі послідовно, одне за одною (по черзі)
  2) Кожна наступна модель намагається виправити помилки попередньої (фокусується на складних прикладах)
  3) Фінальний прогноз = зважене поєднання всіх моделей, кожна модель вносить свій внесок

_Ключова відмінність від інших методів полягає в тому, що кожна нова модель знає про помилки попередніх._

### Метафора для розуміння
- Boosting - це як команда мопсів, що вчаться:
  1) Перший мопс намагається принести м'яч - але приносить тільки великі м'ячі, маленькі не помічає
  2) Другий мопс тренерує те саме на маленьких м'ячах - тих, що пропустив перший
  3) Третій мопс вчиться на червоних м'ячах - бо попередні їх плутали
  4) потім разом ця команда мопсів приносить будь-які м'ячі
     
_кожен мопс слабкий сам по собі, але разом вони можуть навчатись_

### Як це працює (покроково)
- Алгоритм:
  1) Модель №1 навчається на всіх даних - робить деякі помилки
  2) Boosting збільшує "вагу" об'єктів, де були помилки - робить їх важливішими
  3) Модель №2 вчиться більше на цих складних об'єктах - навчається на цих помилках
  4) Повторюємо n разів
  5) Усі моделі об'єднуються - ми отримуємо більш точний прогноз

_Кожна модель доповнює попередню, а не просто дублює їх роботу_


### Переваги Boosting
1) Висока точність
2) Добре працює з деревами рішень - ідеальна комбінація

### Висновок
- Boosting спосіб перетворити багато слабких моделей в одну сильну
- Головна ідея: послідовне навчання на помилках попередніх моделей


<img url="/images/Boosting_Pugs.png">

# Простий приклад Boosting

In [16]:
import pandas as pd
import numpy as np

from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

Просто створюю датасетик з МОПСАМИ

In [20]:
np.random.seed(42)
n = 200

df = pd.DataFrame({
    "weight": np.random.normal(8, 2, n).round(1),
    "age": np.random.randint(1, 12, n),
    "snore_volume": np.random.randint(0, 11, n),
    "activity": np.random.randint(0, 11, n)
})

df["overweight"] = (
    (df["weight"] > 9) &
    (df["activity"] < 5) &
    (df["snore_volume"] > 5)
).astype(int)

Розділення + Boosting:

In [24]:
x = df.drop("overweight", axis=1)
y = df["overweight"]

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# створюємо модельку
model = AdaBoostClassifier(
    n_estimators = 50,  # 50 слабеньких моделей об'єднуються
    learning_rate = 1.0, # тіп сила внеску кожної моделі в кінечний прогноз
    random_state = 42 
)

model.fit(x_train, y_train) # тренеруємо модельку

y_pred = model.predict(x_test) # прогнозуємо тестові данні, щоб перевірити, наскільки вона навчилась правильно класифікувати нові приклади

print(accuracy_score(y_test, y_pred)) # точність моделі

0.975
