# eXtreme Gradient Boosting (XGBoost)

XGBoost, GBM'in hız ve tahmin performansını artırmak üzere optimize edilmiş; ölçeklenebilir ve farklı platformlara entegre edilebilir halidir. (Tianqi Chen - 2014)

Bu zamana kadar gelen ağaç problemlerinin çoğunu ele almıştır. Gradient Boosting yönteminin optimize edilmiş bir versiyonudur ve genellikle hız, verimlilik ve doğruluk açısından üstün performans gösterir.

![image.png](image18.png)

Büyük verilerde eğitilmesi uzun sürse de iyi sonuçlar vermektedir.

## Model

In [1]:
import pandas as pd 
import numpy as np 
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

hit = pd.read_csv('Hitters.csv')
df = hit.copy()
df = df.dropna()
dms = pd.get_dummies(df[['League', 'Division', 'NewLeague']])
y = df['Salary']
X_ = df.drop(['Salary', 'League', 'Division', 'NewLeague'], axis=1).astype('float64')
X = pd.concat([X_, dms[['League_N', 'Division_W', 'NewLeague_N']]], axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                   test_size=0.25,
                                                   random_state=42)

In [2]:
# !pip install xgboost

In [3]:
import xgboost as xgb

XGBoost'ta, Pandas DataFrame veya Series kullanmak yerine XGBoost'un kendi veri yapısı olan DMatrix kullanırsak daha hızlı ve doğru modeller elde ederiz.

In [4]:
DM_train = xgb.DMatrix(data=X_train, label=y_train)
DM_test = xgb.DMatrix(data=X_test, label=y_test)

In [5]:
print(DM_train.get_data())

<Compressed Sparse Row sparse matrix of dtype 'float32'
	with 3743 stored elements and shape (197, 19)>
  Coords	Values
  (0, 0)	328.0
  (0, 1)	91.0
  (0, 2)	12.0
  (0, 3)	51.0
  (0, 4)	43.0
  (0, 5)	33.0
  (0, 6)	2.0
  (0, 7)	342.0
  (0, 8)	94.0
  (0, 9)	12.0
  (0, 10)	51.0
  (0, 11)	44.0
  (0, 12)	33.0
  (0, 13)	145.0
  (0, 14)	59.0
  (0, 15)	8.0
  (0, 16)	1.0
  (0, 17)	0.0
  (0, 18)	1.0
  (1, 0)	514.0
  (1, 1)	144.0
  (1, 2)	0.0
  (1, 3)	67.0
  (1, 4)	54.0
  (1, 5)	79.0
  :	:
  (195, 13)	211.0
  (195, 14)	56.0
  (195, 15)	13.0
  (195, 16)	0.0
  (195, 17)	0.0
  (195, 18)	0.0
  (196, 0)	445.0
  (196, 1)	99.0
  (196, 2)	1.0
  (196, 3)	46.0
  (196, 4)	24.0
  (196, 5)	29.0
  (196, 6)	4.0
  (196, 7)	618.0
  (196, 8)	129.0
  (196, 9)	1.0
  (196, 10)	72.0
  (196, 11)	31.0
  (196, 12)	48.0
  (196, 13)	278.0
  (196, 14)	415.0
  (196, 15)	16.0
  (196, 16)	0.0
  (196, 17)	1.0
  (196, 18)	0.0


In [6]:
from xgboost import XGBRegressor

In [7]:
xgb_model = XGBRegressor().fit(X_train, y_train)  # X_train veya DM_train kullanabiliriz herhangi bir zorunluluk yok. 
# Ama XGBRegressor kullanacaksak X_train ve y_train kullanılmalıdır.

In [14]:
# 2. yöntem

params = {
    'objective': 'reg:squarederror',  # Regresyon problemi
    'max_depth': 3,
    'eta': 0.1
}

xgb_model_DM = xgb.train(params, DM_train, num_boost_round=10)

## Tahmin

In [16]:
y_pred = xgb_model.predict(X_test)
np.sqrt(mean_squared_error(y_pred, y_test))

np.float64(366.3863437634965)

In [18]:
y_pred = xgb_model_DM.predict(DM_test)
np.sqrt(mean_squared_error(y_pred, y_test))

np.float64(367.8125898511378)

## Model Tuning

In [20]:
xgb_model.get_params()

{'objective': 'reg:squarederror',
 'base_score': None,
 'booster': None,
 'callbacks': None,
 'colsample_bylevel': None,
 'colsample_bynode': None,
 'colsample_bytree': None,
 'device': None,
 'early_stopping_rounds': None,
 'enable_categorical': False,
 'eval_metric': None,
 'feature_types': None,
 'feature_weights': None,
 'gamma': None,
 'grow_policy': None,
 'importance_type': None,
 'interaction_constraints': None,
 'learning_rate': None,
 'max_bin': None,
 'max_cat_threshold': None,
 'max_cat_to_onehot': None,
 'max_delta_step': None,
 'max_depth': None,
 'max_leaves': None,
 'min_child_weight': None,
 'missing': nan,
 'monotone_constraints': None,
 'multi_strategy': None,
 'n_estimators': None,
 'n_jobs': None,
 'num_parallel_tree': None,
 'random_state': None,
 'reg_alpha': None,
 'reg_lambda': None,
 'sampling_method': None,
 'scale_pos_weight': None,
 'subsample': None,
 'tree_method': None,
 'validate_parameters': None,
 'verbosity': None}

In [21]:
xgb_grid = {
    'colsample_bytree': [0.4, 0.5, 0.6, 0.9, 1],
    'n_estimators': [100, 200, 500, 1000],
    'max_depth': [2, 3, 4, 5, 6],
    'learning_rate': [0.1, 0.01, 0.5]
}

In [27]:
from sklearn.model_selection import GridSearchCV

xgb = XGBRegressor()
xgb_cv = GridSearchCV(xgb,
                     param_grid=xgb_grid,
                     cv=10, 
                     n_jobs=-1,
                     verbose=2)
xgb_cv.fit(X_train, y_train)

Fitting 10 folds for each of 300 candidates, totalling 3000 fits


In [29]:
xgb_cv.best_params_

{'colsample_bytree': 0.4,
 'learning_rate': 0.1,
 'max_depth': 6,
 'n_estimators': 100}

In [36]:
xgb_tuned = XGBRegressor(colsample_bytree= 0.4,
                         learning_rate= 0.1,
                         max_depth= 6,
                         n_estimators= 100)
xgb_tuned.fit(X_train, y_train)

In [37]:
y_pred = xgb_tuned.predict(X_test)
np.sqrt(mean_squared_error(y_test, y_pred))

np.float64(343.6101991802883)

Nasıl daha iyi parametre elde ederiz?

1) Parametreler önem sırasına göre sıralanır. (mesela 1-learning_rate, 2-max_depth= 6, 3-n_estimators= 100 olsun.)
2) Sırayla önemli parametreler, diğer parametreler sabit tutulacak şekilde optimizasyonu yapılır.
3) Ardından hepsi birlikte parametre optimizasyonuna tabi tutulur.
4) İleri seviye problemler için tekli, ikili, üçlü optimizasyonlar uygulanabilir.

Bu adımlara Hyperparameter Tuning denebilir. Hyperparameter Tuning daha genel bir terimdir ve:  
* Grid Search
* Random Search
* Bayesian Optimization
* Evolutionary Algorithms ve diğer birçok yöntemi kapsar.