# AdaBoost Classifier



## 1. Topluluk (Ensemble) Modellerine Giriş


**- Bir topluluk modeli, güçlü bir sınıflandırıcı oluşturmak amacıyla bir dizi düşük performanslı veya zayıf sınıflandırıcıyı birleştiren bir bileşik modeldir.**

- Burada, bireysel sınıflandırıcılar oy verir ve çoğunluk oylaması yapan nihai tahmin etiketi döndürülür.

- Bu bireysel sınıflandırıcılar, bir topluluk modeli oluşturmak için belirli bir kritere göre birleştirilir.

- Topluluk modelleri, bireysel veya temel sınıflandırıcılardan daha fazla doğruluk sunar.

- Topluluk öğrenme yöntemlerinin, performansı artırmak için birkaç makine öğrenmesi algoritmasını tek bir tahmin modelinde birleştiren meta-algoritmalar olduğunu söyleyebiliriz.

- Topluluk modelleri, aşağıda belirtildiği gibi bazı belirli kriterlere göre oluşturulur:-

  - **Bagging** - Bagging yaklaşımı kullanılarak model varyansını azaltmak için oluşturulabilirler.
  
  - **Boosting** - Boosting yaklaşımı kullanılarak model yanlılığını azaltmak için oluşturulabilirler.
  
  - **Stacking** - Stacking yaklaşımı kullanılarak model tahminlerini geliştirmek için oluşturulabilirler.
  
  
- Aşağıdaki diyagram yardımı ile gösterilebilir.

![Ensemble Machine Learning](https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1542651255/image_1_joyt3x.png)

### 1.1 Bagging

- **Bagging**, tahminlerin varyansını azaltacak şekilde birden fazla öğrenciyi birleştirir.

- Örneğin, rastgele orman (random forest), verilerin farklı rastgele alt kümelerinde N farklı ağacı eğiteceğimiz ve nihai tahmin için oylama yapacağımız N Karar Ağacı eğitir.

- **Bagging ensembles** yöntemleri **Rastgele Orman (Random Forest)** ve **Ekstra Ağaçlar (Extra Trees)**'dır.

### 1.2 Boosting

- **Boosting** algoritmaları, güçlü bir sınıflandırıcı oluşturmak için bir dizi zayıf sınıflandırıcıyı kullanır.

- Boosting algoritmaları, overfitting probleminden daha az etkilenir.

- Aşağıdaki üç algoritma, veri bilimi yarışmalarında büyük popülerlik kazanmıştır.

   - AdaBoost (Uyarlanabilir Güçlendirme)
   - Gradyan Ağacı Artırma (GBM)
   - XGBoost
  

### 1.3 Stacking

- **Stacking** (veya yığın genelleştirme), birden çok temel sınıflandırma modeli tahminlerini yeni bir veri kümesinde birleştiren bir topluluk (ensemble) öğrenme tekniğidir.

- Bu yeni veriler, başka bir sınıflandırıcı için giriş verileri olarak değerlendirilir.


# 2. AdaBoost Sınıflandırıcı


- **AdaBoost veya Adaptive Boosting**, 1996 yılında Yoav Freund ve Robert Schapire tarafından önerilen ensemble boosting sınıflandırıcılarından biridir.

**- Sınıflandırıcıların doğruluğunu artırmak için birden çok zayıf sınıflandırıcıyı birleştirir.**

- AdaBoost, yinelemeli bir topluluk yöntemidir. AdaBoost sınıflandırıcı, yüksek doğrulukta güçlü sınıflandırıcı elde etmeniz için düşük performans gösteren birden çok sınıflandırıcıyı birleştirerek güçlü bir sınıflandırıcı oluşturur.

- Adaboost'un arkasındaki temel kavram, sınıflandırıcıların ağırlıklarını ayarlamak ve her yinelemede veri örneğini, anormal gözlemlerin doğru tahminlerini sağlayacak şekilde eğitmektir.


**- AdaBoost algoritmasını gerçekleştirme adımları aşağıdadır:**

  1. Başlangıçta, tüm gözlemlere eşit ağırlıklar verilir.
  
  2. Bir model, bir veri alt kümesi üzerinde eğitilir.
  
  3. Bu model kullanılarak tüm veri seti üzerinde tahminler yapılır.
  
  4. Tahminler ve gerçek değerler karşılaştırılarak hatalar hesaplanır.
  
  5. Bir sonraki model oluşturulurken yanlış tahmin edilen veri noktalarına daha yüksek ağırlıklar verilir.
  
  6. Ağırlıklar hata değeri kullanılarak belirlenebilir. Örneğin, hata ne kadar yüksek olursa, gözleme verilen ağırlık o kadar fazla olur.
  
  7. Bu işlem, hata fonksiyonu değişmeyinceye veya tahminci sayısının maksimum sınırına ulaşılıncaya kadar tekrarlanır.

![AdaBoost Classifier](https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1542651255/image_3_nwa5zf.png)

## 3. AdaBoost uygulaması


### 3.1 Kütüphane Yükleme

In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

### 3.2 Veri Kümesi Yükleme

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

In [None]:
#ROOT_DIR = "/content/drive/MyDrive/CASGEM-Egitim/Egitim-Part1/Day7-DecisionTree/notebooks"
ROOT_DIR = "https://media.githubusercontent.com/media/yapay-ogrenme/casgem-eu-project-training-on-data-mining/main/PART1/Day7-DecisionTree/notebooks"

DATASET_PATH = ROOT_DIR + "/datasets/"

In [None]:
iris = pd.read_csv(DATASET_PATH + 'Iris.csv')

### 3.3 Keşifsel Veri Analizi (Exploratory Data Analysis) - EDA 

### Veri kümesi ön izleme

In [None]:
iris.head()

### Veri kümesi özet bilgi

In [None]:
iris.info()

Veri setinde eksik değer olmadığını görebiliriz.

### Öznitelik vektörü ve hedef değişkeni tanımlama

In [None]:
X = iris[['SepalLengthCm','SepalWidthCm','PetalLengthCm','PetalWidthCm']]

X.head()

In [None]:
y = iris['Species']

y.head()

In [None]:
from sklearn.preprocessing import LabelEncoder

le=LabelEncoder()

y=le.fit_transform(y)

In [None]:
y

### 3.4 Veri kümesini eğitim ve test kümelerine ayıralım

In [None]:
# Import train_test_split function
from sklearn.model_selection import train_test_split

# Split dataset into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

### 3.5 AdaBoost modeli oluşturma

In [None]:
# Import the AdaBoost classifier
from sklearn.ensemble import AdaBoostClassifier


# Create adaboost classifer object
abc = AdaBoostClassifier(n_estimators=50, learning_rate=1, random_state=0)

# Train Adaboost Classifer
model1 = abc.fit(X_train, y_train)


#Predict the response for test dataset
y_pred = model1.predict(X_test)

### Adaboost Sınıflandırıcısı Oluşturma

- **En önemli parametreler `base_estimator`, `n_estimators` ve `learning_rate`dir.**

- **base_estimator**, zayıf modelleri eğitmek için kullanılacak öğrenme algoritmasıdır. Bunun hemen hemen her zaman değiştirilmesi gerekmeyecektir çünkü AdaBoost ile kullanılan en yaygın öğrenici bir karar ağacıdır – bu parametrenin varsayılan argümanıdır.

- **n_estimators**, yinelemeli olarak eğitilecek model sayısıdır.

- **learning_rate**, her modelin ağırlıklara katkısıdır ve varsayılan olarak 1'dir. Öğrenme oranının düşürülmesi, ağırlıkların küçük bir dereceye kadar artırılacağı veya azaltılacağı anlamına gelir, bu da model eğitimi daha yavaş yapmaya zorlar (ancak bazen daha iyi performans ile sonuçlanır).

- **loss**, AdaBoostRegressor'a özeldir ve ağırlıkları güncellerken kullanılacak kayıp işlevini ayarlar. Bu, varsayılan olarak doğrusal bir kayıp işlevidir, ancak kare veya üstel olarak değiştirilebilir.

### 3.6 Model Değerlendirmesi 

Sınıflandırıcının veya modelin çeşitlerin türünü ne kadar doğru tahmin edebileceğini tahmin edelim. 

In [None]:
#import scikit-learn metrics module for accuracy calculation
from sklearn.metrics import accuracy_score


# calculate and print model accuracy
print("AdaBoost Classifier Model Accuracy:", accuracy_score(y_test, y_pred))

### 3.7 SVC temel tahmincisi ile daha fazla değerlendirme


- Daha fazla değerlendirme için, SVC'yi temel tahmin edici olarak aşağıdaki gibi kullanacağız: 

In [None]:
# load required classifer
from sklearn.ensemble import AdaBoostClassifier


# import Support Vector Classifier
from sklearn.svm import SVC


# import scikit-learn metrics module for accuracy calculation
from sklearn.metrics import accuracy_score
svc=SVC(probability=True, kernel='linear')


# create adaboost classifer object
abc = AdaBoostClassifier(n_estimators=50, base_estimator=svc,learning_rate=1, random_state=0)


# train adaboost classifer
model2 = abc.fit(X_train, y_train)


# predict the response for test dataset
y_pred = model2.predict(X_test)


# calculate and print model accuracy
print("Model Accuracy with SVC Base Estimator:",accuracy_score(y_test, y_pred))


- Bu durumda, SVC Base Estimator, Decision Tree Base Estimator'dan daha iyi doğruluk elde ediliyor.

# **4. AdaBoost'un avantajları ve dezavantajları** 

- Avantajları aşağıdaki gibidir:

    1. AdaBoost'u uygulamak kolaydır.
  
    2. Zayıf sınıflandırıcının hatalarını yinelemeli olarak düzeltir ve zayıf öğrenicileri birleştirerek doğruluğu artırır.
  
    3. AdaBoost ile birçok temel sınıflandırıcı kullanabiliriz.
  
    4. AdaBoost overfitting'e meyilli değildir.

- Dezavantajları aşağıdaki gibidir:

    1. AdaBoost, gürültülü verilerine duyarlıdır.
  
    2. Her noktayı tam olarak uydurmaya çalıştığı için aykırı değerlerden oldukça etkilenir.
  
    3. AdaBoost, XGBoost'a kıyasla daha yavaştır.