# Boosting

Geleneksel olarak ML uygulamaları şöyle çalışır:
* Bir tane learner (algoritma) alırsınız, Logistic Regression, Decision Tree, Support Vector Machines...
* Bu learner'a datayı beslerseniz
* Bu learner'ı verdiğiniz data ile eğitirsiniz
* Eğitilmiş bu learner ile tahmin yaparsınız (test data ile)

Fakat **ensemble metodlarında** durum bu şekilde işlemez.

Ensemble (**bagging & boosting**) metodlarında, bir değil **bir kaç learner** alırsınız.

Örneğin, Random Forest'larda olduğu gibi 1 adet değil, **n** adet Decision Tree alırsınız.

Ve ML uygulamasının toplam performansı tüm bireysel learner'lardan (DT) daha fazla olur.

## Bagging vs. Boosting

**Ensemble Teknikleri:** Bir grup **weak learner** (basit algoritamalar, ör: DT) alarak onları **tek bir güçlü learner** haline getiren tekniklerdir.

İki tür Ensemble Learning Metodu vardır:
* Bagging (Random Forests)
* Boosting (AdaBoost,XGBoost...)

**Bagging** ile **Boosting** arasındaki fark şudur:
* Bagging'de weak learner'lar paralel olarak eğitilir
* Boosting'de weak learner'lar sıra ile (seri olarak) eğitilir

---

![image.png](attachment:image.png)

---

$$BAGGING$$

![image.png](attachment:image.png)>

$$BOOSTING$$

![image.png](attachment:image.png)

Yukarıdaki resimlerde gördüğünüz gibi, 
* Boosting'de modeller sırası ile işler ve her bir modelin farklı bir önem katsayısı vardır. (Sarı kutuların büyüklükleri modelin katsayısını gösterir)
* Bagging'de ise, modeller paralel olarak işler ve tüm modeller aynı önem katsayısına sahiptirler

Ek olarak:
* Boosting'de veri noktaları da ağırlıklandırılmıştır (mor noktaların büyüklükleri katsayıları gösterir)
  
  Bir önceki algoritmanın yanlış sınıflandırdığı noktaların katsayısı büyültülür ki sıradaki algoritma o noktayı doğru sınıflandırmak için daha çok uğraşsın.
  
* Bagging'de tüm nonktlar aynı önemdedir ve veri seti içinden rasgele seçilirler

## Boosting nasıl bu kadar iyi çalışır?

Genel olarak, `Ensemble Metodları` **hem Bias'ı hem de Variance'ı azaltırlar.**

Ensemble Metodları, tek bir algoritmaya (learner) dayanmayıp, n adet learner ile çalışırlar.

Dolayısı ile **daha stabil ve güvenilir** olurlar. (Ör: Random Forests)

**Boosting**'de N adet model bir sıra içinde train edilir. 

Bu sıranın özel bir amacı vardır.

Her bir model (weak learner) bir önceki modelin hatalı sınıflandırdığı data noktalarını alır, onlara daha çok önem (katsayı) verir ve bu noktaları doğru sınıflandırmaya çalışır.

Böylece her bir model (weak learner) bir önceki modelin hatalarını telafi eder. (Hatlarından öğrenir de diyebiliriz.)

Bu şekilde model sayısı arttıkça toplam hata azalır.

![image.png](attachment:image.png)

Boosting tek bir model değildir, bir çok modeli sırası ile çalıştıran jenerik bir algoritmalar dizisidir.

## Boosting Türleri

### 1. AdaBoost

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostClassifier.html

AdaBoost (Adaptive Boosting) metodunda her bir weak learner, 
* yanlış classify edilmiş noktları alır ve onların ağırlıklarını artırır,
* doğru classify edilmiş noktların ağırlıklarını düşürür
* böylece kendisinden sonraki learner, yanlış tahmin edilmiş noktalara daha çok odaklanmış olur
* bu şekilde yanlış noktalar düzeltilir

![image.png](attachment:image.png)

![image.png](attachment:image.png)

**AdaBoost'un Hata Fonksiyonu:**

Her bir Weak Classifier C için:
* X: n*d
* Y: n*k
* W: n*1

olmak üzere.

![image.png](attachment:image.png)

$ I(C(X_j) \ne Y_j) $

fonksiyonu, 
* eğer $C(X_j)$ (tahmin) $Y_j$ (gerçek y) eşit değilse **1** döner.
* eğer eşitlerse **0** döner.

Yani amaç yanlış tahmin edilmiş noktaları tespit edip, onların ağırlıklarını artırmaktır.

**AdaBoost** taki 'Adaptive' kelimesi de buradan gelir.

![image.png](attachment:image.png)

### 2. Gradient Boosting

https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html

Gradient Boosting metodu soruna biraz daha farklı yaklaşır.

Data noklarının ağırlıklarını artırmaya çalışmak yerine, tahmin ile gerçek değer arasındaki farka odaklanır.

Amaç toplam Loss Fonksiyonu üzerinden giderek her bir iterasyondaki Weak Learner'ın toplam Loss'unu minimize etmektir.

Bu çalışma şekli aslında bize Gradient Descent'i hatırlatır.

Gradient Descent'te rasgele bir noktadan başlayıp toplam Loss'u azaltarak optimum noktaya varmaya çalışıyordu.

İşte Gradient Boosting, Gradient Descent'e benzer ama tek farkla, artık optimize edilen tek bir noktanın Loss function'ı değil, **Model'in Loss Function'ıdır.**

Gradient Boosting'i modelleri optimize eden Gradient Descent olarak da düşünebiliriz.

$F$ modeli Gradient Boosting içindeki bir model olsun (weak learner):

**F Modelini iyileştirmek için:** 

Tek bir modelin Loss fonksiyonu olan;

$Loss(Y, F(X))$ 

değerini minimize etmemiz lazım.

Gradient Boosting içindeki bütün modellerin kümüle Loss fonksiyonu ise:

$L = func(F(X_1), F(X_2), ..., F(X_n), Y) $

Bütün modellerin toplam Loss değeridir.

İşte Gradient Boosting bu toplam Loss değerini optimize etmeye çalışır.

![image.png](attachment:image.png)

### 3. XGBoost

https://xgboost.readthedocs.io/en/latest/

**XGBoost (eXtreme Gradient Boosting)** bir dağıtık (distributed) Gradient Boosting metodudur.

Gradient Boosting'in sorunu modellerin sırası ile çalışmasıdır.

Bu da zaman kaybı ve maliyet demektir.

XGBoost modelleri paralel çalıştırarak hem daha hızlı hem de daha verimli çalışır.

Endüstri'de kullanılan boosting algoritması çoğu yerde **XGBoost**'tur.

**Kaggle** problemlerinin büyük bir çoğunluğunda kazanan ML metodu **XGBoost**'tur.