# Light Gradient Boosting Machine (LightGBM)

### LightGBM (Light Gradient Boosting Machine), açık kaynaklı bir makine öğrenimi algoritmasıdır. XGBoost algoritmasının bir geliştirmesi olarak geliştirilmiştir ve özellikle büyük ölçekli veri setleri üzerinde yüksek performans sunmak amacıyla tasarlanmıştır. LightGBM, düşük bellek tüketimi, hızlı eğitim süreleri ve yüksek tahmin doğruluğu gibi avantajlara sahiptir.

### LightGBM, bir gradient boosting framework'ü olarak çalışır. Gradient Boosting, zayıf öğrenicilerin (genellikle karar ağaçları) bir araya getirilerek güçlü bir modelin oluşturulmasını sağlayan bir ensemble öğrenme tekniğidir. Gradient boosting, önceki öğrenicinin hatalarına odaklanır ve ardışık olarak yeni öğrenicileri bu hataları düzeltmek için eğitir. Bu şekilde, her bir öğrenici bir öncekine göre daha iyi hataları düzeltebilir ve nihai tahmin doğruluğu artırılır.

## LightGBM, diğer geleneksel gradient boosting algoritmalarından farklı olarak bazı özelliklere sahiptir: 

### Düşük Bellek Tüketimi: LightGBM, büyük veri setlerinde bile düşük bellek kullanımı sağlar. Veri setini küçük parçalara böler ve paralel olarak eğitim yapar.

### Hızlı Eğitim Süreleri: LightGBM, özellikle büyük veri setlerinde hızlı eğitim süreleri sunar. Bu hızlı eğitim, özellikle hiperparametre optimizasyonu ve model tuning aşamalarında verimliliği artırır.

### Yüksek Tahmin Doğruluğu: LightGBM, düşük bellek tüketimi ve hızlı eğitim süreleriyle birlikte yüksek tahmin doğruluğu sağlar. Bu özellik, özellikle sınıflandırma ve regresyon problemlerinde başarılı sonuçlar elde etmek için değerlidir.

## LightGBM ayrıca çeşitli önemli özellikler sunar: 

### Öznitelik İmportansı: LightGBM, eğitim sonrası her bir öznitelik için öenm puanlarını hesaplayabilir. Bu, hangi özniteliklerin modelin tahminlerinde daha büyük bir etkiye sahip olduğunu belirlemeye yardımcı olur.

### Kategorik Öznitelik Desteği: LightGBM, kategorik öznitelikleri doğrudan kullanabilir ve bu öznitelikleri dönüştürme gereği duymaz. 

### Early Stopping: LightGBM, eğitim sırasında erken durdurma (early stopping) mekanizması sunar. Bu, eğitim sürecini otomatik olarak sonlandırır ve overfitting'i önlemeye yardımcı olur.

### Paralel ve Dağıtık Eğitim: LightGBM, paralel ve dağıtık eğitimi destekler, bu da birden fazla işlemci ve çoklu makine ortamlarında eğitimi hızlandırır.



In [2]:
from lightgbm import LGBMRegressor

In [4]:
model = LGBMRegressor()
model.get_params()

{'boosting_type': 'gbdt',
 'class_weight': None,
 'colsample_bytree': 1.0,
 'importance_type': 'split',
 'learning_rate': 0.1,
 'max_depth': -1,
 'min_child_samples': 20,
 'min_child_weight': 0.001,
 'min_split_gain': 0.0,
 'n_estimators': 100,
 'n_jobs': -1,
 'num_leaves': 31,
 'objective': None,
 'random_state': None,
 'reg_alpha': 0.0,
 'reg_lambda': 0.0,
 'silent': 'warn',
 'subsample': 1.0,
 'subsample_for_bin': 200000,
 'subsample_freq': 0}

### boosting_type (string, default='gbdt'): LightGBM'in kullanacağı boosting tipini belirtir. Çeşitli seçenekler arasında 'gbdt' (Gradient Boosting Decision Tree), 'dart' (Dropouts Meet Multiple Additive Regression Trees) ve 'goss' (Gradient-based One-Side Sampling) bulunur.

### num_leaves (int, default=31): Bir karar ağacının yaprak düğümlerinin maksimum sayısını belirtir. Bu sayı arttıkça modelin karmaşıklığı ve kapasitesi artar. (2, 131072) değer aralığında değer alabilir.

### learning_rate (float, default=0.1): Öğrenme oranıdır. Her bir ağaç eğitimi aşamasında kullanılan öğrenme oranıdır. Düşük bir değer, daha fazla ağaç ve daha yavaş öğrenmeyi ifade eder. (0.001, 1.0) değer aralığında değer alabilir.

### n_estimators (int, default=100): Oluşturulacak toplam ağaç sayısını belirtir. Daha yüksek bir değer, daha fazla ağaç ve daha yüksek bir model karmaşıklığına yol açar. (20, 1000) değer aralığında değer alabilir.

### subsample_for_bin (int, default=200000): Sayısal özellikleri bir aralığa bölmek için kullanılan örnekleme sayısını belirtir. Büyük bir değer, daha iyi bir özellik bölmesi için daha fazla örnekleme anlamına gelir, ancak daha büyük hesaplama maliyetiyle birlikte gelir. (20000, 500000) değer aralığında değer alabilir.

### objective (string or calleble, default=None): Kayıp fonksiyonunu belirtir. Örnek olarak 'regression', 'binary' veya 'multiclass' gibi değerler alabilir. Ayrıca, özel bir kayıp fonksiyonu da belirtilebilir.

### min_child_samples (int, default=20): Bir yaprak düğümü oluşturmak için gereken minimum örnek sayısını belirtir. Daha küçük bir değer, modelin daha fazla detayı yakalamasını sağlar, ancak aşırı uyuma yol açabilir. (1, 200) değer aralığında değer alabilir.

### reg_alpha (float, default=0.0): L1 düzenlileştirmesinin gücünü belirleyen bir parametredir. Daha büyük bir değer, daha fazla düzenlileştirme yapar. (0.0, 1.0) değer aralığında değer alabilir.

### reg_lambda (float, default=0.0): L2 düzenlileştirmesinin gücünü belirleyen bir parametredir. Daha büyük bir değer, daha fazla düzenlileştirme yapar. (0.0, 1.0) değer aralığında değer alabilir.

### colsample_bytree (float, default=1.0): Her ağaç eğitimi sırasında kullanılacak özelliklerin yüzdesini belirtir. Daha küçük bir değer, daha fazla özellik rastgele seçilir ve modelin daha genelleştirici olmasını sağlar. (0.1, 1.0) değer aralığında değer alabilir.


### Bu, bazı temel hiperparametrelerin yanı sıra daha birçok hiperparametrenin olduğu anlamına gelir. Bu hiperparametrelerin değerleri, veri setine ve soruna bağlı olarak değişebilir. Genellikle, hiperparametrelerin belirlenmesi deneme yanılma yöntemiyle veya hiperparametre optimizasyonu algoritmalarıyla yapılır.

In [5]:
?model

[1;31mType:[0m           LGBMRegressor
[1;31mString form:[0m    LGBMRegressor()
[1;31mFile:[0m           c:\users\murat\anaconda3\lib\site-packages\lightgbm\sklearn.py
[1;31mDocstring:[0m      LightGBM regressor.
[1;31mInit docstring:[0m
Construct a gradient boosting model.

Parameters
----------
boosting_type : str, optional (default='gbdt')
    'gbdt', traditional Gradient Boosting Decision Tree.
    'dart', Dropouts meet Multiple Additive Regression Trees.
    'goss', Gradient-based One-Side Sampling.
    'rf', Random Forest.
num_leaves : int, optional (default=31)
    Maximum tree leaves for base learners.
max_depth : int, optional (default=-1)
    Maximum tree depth for base learners, <=0 means no limit.
learning_rate : float, optional (default=0.1)
    Boosting learning rate.
    You can use ``callbacks`` parameter of ``fit`` method to shrink/adapt learning rate
    in training using ``reset_parameter`` callback.
    Note, that this will ignore the ``learning_rate`` arg