In [3]:
# XGBoost ( eXtreme Gradient Boosting )

# GBM'nin hız ve tahmin performansını arttırmak üzere optimize edilmiş; 
# ölçeklenebilir ve farklı platformlara entegre edilebilir versiyonudur.

import warnings
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, VotingClassifier
from sklearn.model_selection import GridSearchCV, cross_validate, RandomizedSearchCV, validation_curve

#from xgboost import XGBClassifier
#from lightgbm import LGBMClassifier
#from catboost import CatBoostClassifier

pd.set_option("display.max_columns",None)
warnings.simplefilter(action="ignore", category=Warning)

df = pd.read_csv("diabetes.csv")
y = df["Outcome"]
X = df.drop(["Outcome"], axis=1)

In [None]:
xgboost_model = XGBClassifier(random_state=17)

# Cross Validation Yöntemi ile Başarı Değerlendirme
cv_result = cross_validate(xgboost_model, X, y, cv=10, scoring=["accuracy","f1","roc_auc"])

cv_result["test_accuracy"].mean()
#0.75
cv_result["test_f1"].mean()
#0.63
cv_result["test_roc_auc"].mean()
#0.79

In [None]:
# Hiperparametre Optimizasyonu

# Kullanılacak parametre kombinasyonlarını belirlemek için kullanılır.
gbm_params = {"learning_rate":[0.1,0.01,0.001],
             "max_depth":[5, 8, None],
             "n_estimators": [100, 500, 1000],
             "colsample_bytree":[None, 0.7,1]}

# Bu parametre kombinasyonları genellikle GridSearchCV gibi hiperparametre optimizasyon teknikleri kullanılarak
# en iyi performansı sağlayacak şekilde seçilir.

xgboost_best_grid = GridSearchCV(xgboost_model, xgboost_params, cv=5, n_jobs=-1, verbose=True).fit(X,y)
# GridSearchCV kullanılarak Gradient Boosting Machine (GBM) modeli eğitiliyor.

# En iyi değişkenler
xgboost_best_grid.best_params_

In [None]:
# Final model
xgboost_final = xgboost_model.set_params(**xgboost_best_grid.best_params_, random_state=17).fit(X,y)
# En iyi değerler ile yeniden model eğitiliyor.

In [None]:
# Cross Validation Yöntemi ile Başarı Değerlendirme
cv_result = cross_validate(xgboost_final, X, y, cv=10, scoring=["accuracy","f1","roc_auc"])

cv_result["test_accuracy"].mean()
#0.75
cv_result["test_f1"].mean()
#0.60
cv_result["test_roc_auc"].mean()
#0.82