# XGBoost


**XGBoost**, **Extreme Gradient Boosting** ifadesinin kısaltmasıdır. 

Sınıflandırma ve regresyon problemlerini çözmek için kullanılabilecek güçlü bir makine öğrenme algoritmasıdır. 

Buradaki problem, müşterileri Horeca (Otel/Perakende/Kafe) müşterileri veya Perakende kanalı (nominal) müşterileri olarak iki farklı kanaldan sınıflandırmaktır.

## 1. XGBoost algoritmasına giriş


**XGBoost (Extreme Gradient Boost)**, hız ve doğruluk için tasarlanmış gradyan destekli ağaçların bir uygulamasıdır.


Makine öğrenimi yarışmalarında yaygın olarak kullanılan oldukça etkili bir makine öğrenimi algoritması olduğu kanıtlanmıştır. 

XGBoost, yüksek tahmin gücüne sahiptir ve diğer gradyan artırma tekniklerinden neredeyse 10 kat daha hızlıdır. 

Ayrıca, fazla takmayı azaltan ve genel performansı iyileştiren çeşitli düzenleme parametreleri içerir. 

Bu nedenle **düzenli güçlendirme (regularized boosting)** tekniği olarak da bilinir.

## 2. XGBoost algoritması sezgisi

### Gradyan artırma

Gradyan artırma, bir dizi daha basit, daha zayıf modelin tahminlerini birleştirerek bir hedef değişkeni tahmin etmeye çalışan, denetimli bir makine öğrenimi algoritmasıdır. Güçlendirmede, ağaçlar sıralı bir şekilde inşa edilir, böylece sonraki her ağaç bir önceki ağacın hatalarını azaltmayı amaçlar. Yanlış sınıflandırılmış etiketlere daha yüksek ağırlıklar verilir. Her ağaç öncekilerden öğrenir ve kalan hataları azaltmaya çalışır. Böylece sıradaki ağaç önceki ağaç artıklarından öğrenecektir.

### XGBoost

XGBoost'ta, önceki adımdan üretilen kayıp fonksiyonunun gradyanına bir model uydurmaya çalışıyoruz. Bu nedenle, XGBoost'ta gradyan artırma algoritmamızı herhangi bir türevlenebilir kayıp işleviyle çalışacak şekilde değiştirdik.

## 3. Veri kümesi açıklaması

Bu çalışma dosyasında UCI Machine Learning deposundan indirilen 'Toptan müşteri veri kümesi' kullanılacak.

Bu veri kümesi aşağıdaki url'de bulunabilir:

https://archive.ics.uci.edu/ml/datasets/Wholesale+customers

## 4. Kütüphaneleri Yükleme

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
import warnings
warnings.filterwarnings('ignore')

## 5. Veri Kümesini Yükleme

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

In [None]:
#ROOT_DIR = "/content/drive/MyDrive/CASGEM-Egitim/Egitim-Part1/Day7-DecisionTree/notebooks"
ROOT_DIR = "https://media.githubusercontent.com/media/yapay-ogrenme/casgem-eu-project-training-on-data-mining/main/PART1/Day7-DecisionTree/notebooks/"
DATASET_PATH = ROOT_DIR + "/datasets/"

In [None]:
# Import dataset
data = DATASET_PATH + 'Wholesale_customers_data.csv'

df = pd.read_csv(data)

## 6. Keşfedici Veri Analizi

In [None]:
df.shape

Veri setinde 440 örnek ve 8 öznitelik olduğunu görebiliriz.

### Veri kümesi önizleme

In [None]:
df.head()

`Channel` değişkeninin `1` ve `2` olarak değerler içerdiğini görebiliriz. 
Bu iki değer, müşterileri Horeca (Otel/Perakende/Kafe) müşterileri için 1 ve Perakende kanalı (nominal) müşterileri için 2 olmak üzere iki farklı kanaldan sınıflandırmaktadır.

### Veri kümesinin özeti

In [None]:
df.info()

Veri setinde sadece sayısal değişkenlerin olduğunu görebiliriz.

### Veri kümesinin özet istatistikleri

In [None]:
df.describe()

### Eksik değerleri kontrol edin

In [None]:
df.isnull().sum()

Veri setinde eksik değer yoktur.

## 7. Özellik vektörü ve hedef değişkeni 

In [None]:
X = df.drop('Channel', axis=1)

y = df['Channel']

### Öznitelik vektörüne (X) ve hedef değişkene (y) değerlerini inceleyelim

In [None]:
X.head()

In [None]:
y.head()

y etiketlerinin 1 ve 2 gibi değerler içerdiğini görebiliyoruz. 
Daha fazla analiz için aşağıdaki şekilde 0 ve 1'e dönüştürelim.

In [None]:
# etiketleri ikili değerlere dönüştürün
y[y == 2] = 0
y[y == 1] = 1

In [None]:
# y etiketini tekrar görüntüleyelim

y.head()

Şimdi veri kümesini, XGBoost'un desteklediği ve ona beğenilen performans ve verimlilik kazanımları sağlayan **Dmatrix** adlı optimize edilmiş bir veri yapısına aşağıdaki şekilde dönüştürelim.

In [None]:
# import XGBoost
import xgboost as xgb


# define data_dmatrix
data_dmatrix = xgb.DMatrix(data=X,label=y)

## 8. Verileri eğitim ve test kümelerine ayırma

In [None]:
# split X and y into training and testing sets

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)

## 9. XGBoost sınıflandırıcısını eğitme


Bilmemiz gereken en önemli parametreler şunlardır:


**öğrenme oranı (learning_rate)** - Fazla takmayı önlemek için kullanılan adım boyutu küçülmesini verir. Aralığı [0,1]'dir.

**maksimum derinlik (max_depth)** - Herhangi bir güçlendirme turu sırasında her bir ağacın ne kadar derin büyümesine izin verildiğini belirler.

**alt örnek (subsample)** - Ağaç başına kullanılan örnek yüzdesini belirler. Alt numunenin düşük değeri yetersiz donanıma neden olabilir.

**colsample_bytree** - Ağaç başına kullanılan özelliklerin yüzdesini belirler. Yüksek değeri, fazla takmaya neden olabilir.

**ağaç sayısı (n_estimators)** - İnşa etmek istediğimiz ağaç sayısıdır.

** objective ** - Süreçte kullanılacak kayıp fonksiyonunu belirler. Örneğin, regresyon problemleri için 'reg: lineer', sadece karar içeren sınıflandırma problemleri için 'reg: logistic', olasılıklı sınıflandırma problemleri için 'binary: logistic'.


XGBoost, modelleri daha karmaşık hale geldikçe cezalandırmak ve basit modellere indirgemek için düzenleme parametrelerini de destekler. Bu düzenlileştirme parametreleri aşağıdaki gibidir: -


**gama** - Belirli bir düğümün bölünmeden sonra kayıpta beklenen azalmaya göre bölünüp bölünmeyeceğini kontrol eder. Daha yüksek bir değer daha az bölünmeye yol açar. Yalnızca ağaç tabanlı öğrenenler için desteklenir.

**alpha** - Yaprak ağırlıklarında bize `L1` düzenlemesini verir. Bunun büyük bir değeri daha fazla düzenlemeye yol açar.

**lambda** - Yaprak ağırlıklarında bize 'L2' düzenlemesini verir ve 'L1' düzenlemesinden daha düzgündür.

Temel öğrenicilerimiz olarak ağaçları kullanmamıza rağmen, XGBoost'un nispeten daha az popüler olan doğrusal temel öğrenicilerini ve "dart" olarak bilinen bir başka ağaç öğrenicisini de kullanabiliriz. "Güçlendirici" parametresini "gbtree" (varsayılan), "gblinear" veya "dart" olarak ayarlamamız gerekiyor.

In [None]:
# import XGBClassifier
from xgboost import XGBClassifier

# declare parameters
params = {
            'objective':'binary:logistic',
            'max_depth': 4,
            'alpha': 10,
            'learning_rate': 1.0,
            'n_estimators':100
        }
            
            
# instantiate the classifier 
xgb_clf = XGBClassifier(**params)


# fit the classifier to the training data
xgb_clf.fit(X_train, y_train)

In [None]:
# alternatively view the parameters of the xgb trained model
print(xgb_clf)

## 10. XGBoost Sınıflandırıcı ile tahminler yapma

In [None]:
# make predictions on test data
y_pred = xgb_clf.predict(X_test)

## 11. Doğruluk puanını kontrol etme

In [None]:
# check accuracy score
from sklearn.metrics import accuracy_score

print('XGBoost model accuracy score: {0:0.4f}'. format(accuracy_score(y_test, y_pred)))

XGBoost'un %91,67 gibi çok yüksek bir doğruluk puanı aldığını görebiliriz.

## 12. Çapraz Doğrulama


XGBoost ile daha sağlam modeller oluşturmak için k-kat çapraz doğrulama yapmalıyız. Bu sayede hem eğitim hem de doğrulama için orijinal eğitim veri setinin kullanılmasını sağlıyoruz. Ayrıca, her giriş yalnızca bir kez doğrulama için kullanılır. XGBoost, `cv()` yöntemini kullanarak k-kat çapraz doğrulamayı destekler. Bu yöntemde, aşağıdaki gibi birkaç parametre belirleyeceğiz: -


**nfolds** - Bu parametre, oluşturmak istediğimiz çapraz doğrulama kümelerinin sayısını belirtir.

**num_boost_round** - İnşa ettiğimiz ağaç sayısını ifade eder.

**metrics** - Özgeçmiş sırasında dikkate alınması gereken performans değerlendirme metrikleridir.

**as_pandas** - Sonuçları bir panda DataFrame'de döndürmek için kullanılır.

**early_stopping_rounds** - Bu parametre, belirli bir tur sayısı için bekleme metriği gelişmezse modelin eğitimini erken durdurur.

**seed** - Bu parametre sonuçların tekrarlanabilirliği için kullanılır.

`XGBoost's CV()` yöntemini çağırarak bir k-kat çapraz doğrulama modeli oluşturmak için bu parametreleri kullanabiliriz.


In [None]:
from xgboost import cv

params = {"objective":"binary:logistic",'colsample_bytree': 0.3,'learning_rate': 0.1, 'max_depth': 5, 'alpha': 10}

xgb_cv = cv(dtrain=data_dmatrix, params=params, nfold=3,
                    num_boost_round=50, early_stopping_rounds=10, metrics="auc", as_pandas=True, seed=123)


`xgb_cv`, her yükseltme turu için eğitim ve test `auc` ölçümlerini içerir. `xgb_cv` ön izlemesini yapalım.

In [None]:
xgb_cv.head()

## 13. XGBoost ile özelliğin önemi


XGBoost, model içindeki orijinal veri kümesindeki her bir özelliğin önemini incelemenin bir yolunu sunar. Modeldeki tüm artırma ağaçlarına her özelliğin kaç kez bölündüğünü saymayı içerir. Ardından sonucu, kaç kez göründüklerine göre sıralanmış özelliklerle birlikte bir çubuk grafik olarak görselleştiririz.

XGBoost, bu görevi başarmamıza yardımcı olan bir **plot_importance()** işlevine sahiptir. Daha sonra tüm özellikler arasında en önemli puanı verilen özellikleri görselleştirebiliriz. Böylece XGBoost bize özellik seçimi yapmanın bir yolunu sunar.

In [None]:
xgb.plot_importance(xgb_clf)
plt.rcParams['figure.figsize'] = [6, 4]
plt.show()

Tüm özellikler arasında en yüksek önem puanının `Grocery` özelliğine verildiğini görebiliriz. Böylece XGBoost ayrıca bize Özellik Seçimi yapmak için bir yol sunar.

## 14. Sonuçlar


1. Bu projede XGBoost'u Python ve Scikit-Learn ile birlikte Horeca (Otel / Perakende / Kafe) müşterileri veya Perakende kanalı (nominal) müşterileri olarak iki farklı kanaldan sınıflandırmak için uyguluyorum.

2. y etiketleri 1 ve 2 gibi değerler içerir. Daha sonraki analizler için onları 0 ve 1'e çevirdim.
3. XGBoost sınıflandırıcısını eğittim ve doğruluk puanını %91,67 olarak buldum.

4. XGBoost'ta hiperparametre ayarını k-kat çapraz doğrulama yaparak yaptım.

5. XGBoost'un en önemli özelliğinin `Grocey` olduğunu düşünüyorum. Bunu, bu görevi başarmamıza yardımcı olan XGBoost'taki **plot_importance()** işlevini kullanarak yaptım.