# Category Boosting (Catboost)

Kategorik değişkenler ile otomatik olarak mücadele edebilen, hız, başarılı bir diğer GBM türevi. (Yandex 2017)

* Kategorik değişken desteği
* Hızlı ve ölçeklenebilir GPU desteği
* Daha başarılı tahminler
* Hızlı train ve hızlı tahmin
* Rusyanın ilk açık kaynak kodlu, başarılı ML çalışması

Kategorik değişken desteği: veri setimizde çok fazla değişken olduğunda ve bu değişkenlerin içerisinde kategorik değişken sayısı fazlalaştığında bölünme işlemlerinde problemler ortaya çıkar. bu kategorik değişkenlerin hem bölünme anlamında hem sınıflarının etki düzeyleri anlamında
bir kategorik değişkenin 10 sınıfı olabilir bu 10 sınıfın etki düzeyleri aynı olmayabilir. bazı dönüşümler yaparak kategorik değişkenlerin sınıf sayısı indirgenir örneğin 2 sınıflı olması sağlanır

In [3]:
# bilgilerin gözükmesi için
from sklearn import set_config
set_config(print_changed_only=False)

# CatBoost - Model & Tahmin

In [4]:
import pandas as pd
# veri setimizi import edelim
diabetes = pd.read_csv("diabetes.csv")

In [5]:
df = diabetes.copy()
df = df.dropna()
y = df["Outcome"]
X = df.drop(["Outcome"], axis=1)

In [6]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.30,
                                                   random_state=42)

In [None]:
# !pip install catboost

In [2]:
from catboost import CatBoostClassifier

In [None]:
cat_model = CatBoostClassifier().fit(X_train, y_train)

In [8]:
y_pred = cat_model.predict(X_test)

In [10]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_pred)

0.7402597402597403

# CatBoost - Model Tuning

In [11]:
catb_params = {
    "iterations": [200,500],
    "learning_rate": [0.01, 0.05, 0.1],
    "depth":[3,5,8]
}

In [12]:
catb = CatBoostClassifier()

In [14]:
from sklearn.model_selection import GridSearchCV
catb_cv_model = GridSearchCV(catb, catb_params, cv=5, n_jobs=-1, verbose=2)

In [None]:
catb_cv_model.fit(X_train, y_train)

In [16]:
catb_cv_model.best_params_

{'depth': 8, 'iterations': 200, 'learning_rate': 0.01}

In [None]:
# final modeli

In [21]:
catb = CatBoostClassifier(iterations=200,
                         learning_rate=0.01,
                         depth=8)

In [None]:
catb_tuned = catb.fit(X_train, y_train)

In [23]:
y_pred = catb_tuned.predict(X_test)

In [24]:
accuracy_score(y_test, y_pred)

0.7532467532467533