# Decision Trees (Karar Ağaçları)

- Kural üretirler
- Veri katlama prensibi üzerine çalışırlar
- Ağaç şeklinde bir yapı üretirler, aslında üretilen şey iç içe IF bloklarıdır
- Ağacın her bir yaprağı sınıfı verir


## Budama (Pruning)
- Zayıf dalların (içerideki if'lerin) kaldırılması
- Gereksiz kuralların çıkartılması
- Algoritmalar genelde bu opsiyonu kullanıcıya bırakır


## Durma Kriteri
- Yazılımlarda saflık (purity) olarak da karşımıza çıkabilir
- Ağacın kurulumundan önce istenen saflık (purity) değeri ön budama için kullanılan bir değerdir
- Ağaç kurulurken verilen saflık değeri göz önüne alınarak ağacın yaprakları belirli bir yüzde değerdeki örneğin %70, %95 gibi saflık değerine ulaşınca ağaca yaprak atanarak, diğer dallar için işleme geçilir.


## Bagging / Bootstrap Averaging
- Birkaç karar ağacının aynı anda çalıştırılarak ortalama değerinin kullanılmasıdır
- Karar ağacının kalitesini belirgin şekilde artırır
- Gürültünün önlenmesinde kullanılır


## Aşırı Öğrenme (Overlearning / Overfitting)
- Eldeki verilere aşırı bağlı sonuçlar elde edilmesine aşırı öğrenme denir
- Gürültüyü öğrenmedir
- Aşırı öğrenme durumunda elde edilen sonuçlar öğrenme için kullanılan verilere uygulandığında çok iyi sonuçlar verirken başka veriler için düşük performans gösterebilir



## Kaldıraç (Lift)
- Herhangi bir düğümdeki kayıtların, tüm ağaca kıyasla ne kadarının hedef sınıfa ait olduğunu gösteren değerdir
- Ağaç oluşturma işleminin son aşamasıysa budama işlemidir
- Yüksek lift iyidir
- Örneğin 3.5 lift değeri, o kuralın kuralsızlığa göre %350 daha verimli olduğunu gösterir


## ID3 Algoritması
- Entropi kavramını kullanır
- **Nominal değerler ile çalışır**
- Entropi 0-1 arasında değer alır
- Entropi yüksek ise sürpriz de yüksektir
- Entropi aslında düzensizliktir, 1'e yaklaştıkça düzensizlik, 0'a yaklaştıkça düzen artar
    - Entropi'de ise düşük değer isteriz
    
    

## C 4.5 Algoritması
- ID3 algoritmasının üzerine geliştirilmiştir
- Hem nominal hem de numeric değişkenler ile çalışabiliriz
- Karar ağacı oluşturulurken kayıp veriler hesaba katılmaz. Kazanım oranı hesaplanırken sadece verileri eksik olmayan diğer kayıtlar kullanılır
- Kayıp verileri diğer veri ve değişkenler yardımıyla öngörerek kazanım oranının hesaplanmasında kullanılır. Böylece daha anlamlı kurallar çıkartabilen bir ağaç üretebilir.

# Decision Trees in Python

In [13]:
import seaborn as sns  # veri setini yüklemek için kullanıyoruz
import pandas as pd
import numpy as np
# veriyi bölmek, model seçimi için kullanıyoruz
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier  # ağaç için
# accuracy'i hesaplamak, modelin doğruluğunu kontrol etmek için kullanacağız
from sklearn.metrics import accuracy_score

In [14]:
balance_data = sns.load_dataset('iris')

In [15]:
balance_data.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [21]:
# target feature dışındaki tüm değişkenleri aldık
X = balance_data.iloc[:, 0:4]

In [22]:
X.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [29]:
y = balance_data.iloc[:, -1:]  # target feature'ı bir değişkene atadık

In [31]:
y.head()

Unnamed: 0,species
0,setosa
1,setosa
2,setosa
3,setosa
4,setosa


In [33]:
X_train, X_test, y_train, y_test = train_test_split(X,  # hangi değerler ile tahmin edeceğiz
                                                    #  hangi sınıfları tahmin edeceğiz (hedef feature)
                                                    y,
                                                    test_size=0.3,  # test büyüklüğü %30 olacak
                                                    random_state=100  # random olarak makinaya bırakıyoruz
                                                    )

In [35]:
clf_gini = DecisionTreeClassifier(
    criterion='gini',  # hangi kritere göre classifier edelim (gini || entropy)
    random_state=100,
    max_depth=3,  # max derinlik 3 olsun, ağacın max derinliği 3 olacak
    min_samples_leaf=5  # yaprakta min bulunacak eleman sayısı 5 olacak
)

In [36]:
# modeli fit ediyoruz (öğrenmenin yapıldığı yer)
clf_gini.fit(X_train, y_train)

DecisionTreeClassifier(max_depth=3, min_samples_leaf=5, random_state=100)

In [37]:
clf_entropy = DecisionTreeClassifier(
    criterion='entropy',  # hangi kritere göre (gini || entropy)
    random_state=100,
    max_depth=3,
    min_samples_leaf=5
)

In [38]:
clf_entropy.fit(X_train, y_train)

DecisionTreeClassifier(criterion='entropy', max_depth=3, min_samples_leaf=5,
                       random_state=100)

In [41]:
# bu değerlerde gelen bir örnek varsa bunun sınıfı nedir
print(clf_gini.predict([[5, 2, 3, 3]]))

['virginica']


In [51]:
# oluşturduğumuz classifier ile X_test verilerini tahmin ediyoruz
y_pred_gini = clf_gini.predict(X_test)
# print(y_pred_gini)
print("gini accuracy is {}".format(
    accuracy_score(y_test, y_pred_gini)  # yaptığımız tahmini karşılaştırıyoruz
))

gini accuracy is 0.9555555555555556


In [52]:
y_pred_ent = clf_entropy.predict(X_test)
# print(y_pred_ent)
print("entropy accuracy is {}".format(accuracy_score(y_test, y_pred_ent)))

entropy accuracy is 0.9555555555555556


## Sigorta Kaza Verileri (Homework)

In [53]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [79]:
df = pd.read_csv('sigorta_kaza_training.csv')

In [82]:
df.head()

Unnamed: 0,yas,kac_yil_ehliyet,araba_km,kadin_erkek,kac_kere_kaza
0,35.0,13.0,16000.0,1.0,1
1,45.0,2.0,11000.0,1.0,1
2,46.0,12.0,12000.0,0.0,1
3,44.0,23.0,6000.0,1.0,0
4,67.0,22.0,19000.0,0.0,1


In [81]:
df.columns=['yas','kac_yil_ehliyet','araba_km','kadin_erkek','kac_kere_kaza']

In [85]:
X = df.loc[:,'yas':'kadin_erkek'] # hedef feature tahmin etmek icin kullanacagımız degiskenler
y = df.loc[:,'kac_kere_kaza':] # hedef feature

In [87]:
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=100)

In [88]:
clf_gini = DecisionTreeClassifier(
    criterion='gini',
    random_state=100,
    max_depth=3,  
    min_samples_leaf=5
)

In [93]:
predict_gini = clf_gini.fit(X_train,y_train).predict(X_test)

In [94]:
accuracy_score(y_test,predict_gini)

0.8543417366946778

In [96]:
df.head()

Unnamed: 0,yas,kac_yil_ehliyet,araba_km,kadin_erkek,kac_kere_kaza
0,35.0,13.0,16000.0,1.0,1
1,45.0,2.0,11000.0,1.0,1
2,46.0,12.0,12000.0,0.0,1
3,44.0,23.0,6000.0,1.0,0
4,67.0,22.0,19000.0,0.0,1


In [97]:
clf_gini.fit(X_train,y_train).predict([[20,2,100000,1]])

array([1])