# Light GBM

Light GBM, XGBoost'un eğitim süresi performansını arttırmaya yönelik geliştirilen bir diğer GBM türüdür. (Microsoft 2017)

* Daha performanslı
* Level-wise büyüme stratejisi yerine Leaf-wise büyüme stratejisi
* Breadth-first search (BFS) yerine depth-first search (DFS)

* veri setindeki gözlem ve değişken sayısı çok büyük bir miktarda olduğunda xgboost C++ yazılmış olsa dahi eğitim süreleri uzuyor.
* xgboost, değişkenleri ayırmak ve farklı bölme noktalarını araştırmak, keşfetmek için "karar ağaçlarını" kullanıyor bu işleme level -wise ağaç büyüme stratejisi denir.
* light gbm, "splitleri" kullanır.
* xgboost, bfs ve level-wise
* light gbm, leaf-wise ve dfs

In [2]:
# bilgilerin gözükmesi için
from sklearn import set_config
set_config(print_changed_only=False)

# Light GBM - Model & Tahmin

In [3]:
import pandas as pd
# veri setimizi import edelim
diabetes = pd.read_csv("diabetes.csv")

In [4]:
df = diabetes.copy()
df = df.dropna()
y = df["Outcome"]
X = df.drop(["Outcome"], axis=1)

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.30,
                                                   random_state=42)

In [1]:
# !pip install lightgbm



In [6]:
from lightgbm import LGBMClassifier

In [None]:
# modeli kurdum
lgbm_model = LGBMClassifier().fit(X_train, y_train)

In [8]:
# y test tahminleri
y_pred = lgbm_model.predict(X_test)

In [10]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

0.7229437229437229

# XGBoost - Model Tuning

In [11]:
?lgbm_model

In [12]:
# denenecek olan değerler
lgbm_params = {
    "n_estimators": [100, 500, 1000, 2000],
    "subsample": [0.6, 0.8, 1.0],
    "max_depth": [3,4,5,6],
    "learning_rate": [0.1, 0.01, 0.02, 0.05],
    "min_child_samples": [5, 10, 20]
}

In [13]:
lgbm = LGBMClassifier()

In [15]:
from sklearn.model_selection import GridSearchCV
lgbm_cv_model = GridSearchCV(lgbm,
                             lgbm_params,
                            cv=10,
                            n_jobs=-1,
                            verbose=2)

In [None]:
lgbm_cv_model.fit(X_train, y_train)

In [17]:
# optimum parametreler
lgbm_cv_model.best_params_

{'learning_rate': 0.05,
 'max_depth': 3,
 'min_child_samples': 20,
 'n_estimators': 100,
 'subsample': 0.6}

In [18]:
# final modeli nesnesi
lgbm = LGBMClassifier(n_estimators= 100,
                           subsample= 0.6,
                           max_depth= 3,
                           learning_rate= 0.05,
                           min_child_samples= 20)

In [None]:
# final modelini kurdum
lgbm_tuned = lgbm.fit(X_train, y_train)

In [20]:
# y test tahmin değerleri
y_pred=lgbm_tuned.predict(X_test)

In [21]:
# doğruluk oranı
accuracy_score(y_test, y_pred)

0.7489177489177489

bu veri seti için lightgbm'in daha hızlı, performanslı olduğu görülür. xgboost'un daha iyi bir tahmin performansı olduğu görülür.

xgboost'dan daha hızlı olduğundan daha büyük veri setleri kullanılabilir ve daha çok değer bulunduğundan model daha başarılıdır.

eşit şartlar altında xgboost çıkardığı bir parametre setinin, iki katı lgbm ile aynı sürede çıkarılabilir bu da daha fazla parametre denemesi yani daha başarılı sonuç demektir.