# Decision Trees

Decision Tree'ler (Karar Ağaçları) en önemli ve yaygın ML uygulamaları içinde yer alır.

Ağaca benzer bir yapı ile değişkenlerin olası kombinasyonu ile optimizasyon yaptığı için adı Karar Ağaçları (Decision Trees) olarak geçer.

Hem Classification hem de Regression için kullanılır.

Karar Ağacı, içinde **Root** node, **dallar (branch)** ve **yaprak (leaf)** node'lar bulundurur. 

Aradaki node'lara **internal node** adı verilir ve her bir ara node, olası bir durumu kontrol eder.

Son node'lara yani artık bir alt node'u olmayan node'lara **yaprak (leaf)** adı verilir.

<img src='images/dt.png' />

**Decision Tree'ler için Varsayımlar:**

1. Başlangıçta bütün train dataset `root` olarak düşünülür
2. Değişken değerleri kategoriktir (en azından kategorik olarak ifade edilir)

**Classification and Regression Trees (CART):** Decision Tree'lere genelde CART adı verilir.

### Terminoloji

**Root Node:** Bütün data setine verilen isimdir.

**Splitting:** Bir node'u iki ya da daha fazla node'a ayrımak.

**Decision Node (Internal Node):** Bir sub node'un ayrıldığı alt node'lar. Decision Node'lar da alt node'lara ayrılırlar.

**Leaf (Terminal Node):** Daha fazla ayrılamayan, nihai node'lara denir.

**Pruning (Budama):** Bir sub node'u ya da biden fazla sub node'u silme işlemidir. Splitting'i tersidir.

**Branch (Sub Tree):** Alt ağaçlara verilen isimdir. Bir veya birden fazla node içerebilir.

**Parent ve Child Node:** Alt node'lara ayrılan node'a **Parent**, oluşan alt node'lara da **Child** node denir.

<img src='images/dt_2.png' />

### 1- Decision Tree (DT) Nasıl Çalışır?

DT'nin çalışma prensibi şu şekildedir:
1. Dataset içindeki her bir attribute (değişken) için bir node oluşturulur. En önemli değişken root node'a yerleştirilir.
2. Root node'dan başlanarak ayırma işlemi yapılır. Her ayırmada seçim kriterine bakılır.
3. Süreç bu şekilde devam eder. Ta ki bir Leaf node'a gelip artık ayırma yapılamadığı ana kadar.

**Örnek:**

Havanın durumuna göre yürümeye (walk) ya da otobüse binmeye (bus) karar vermek için DT.

**Değişkenler:**
* Hava Durumu
    * Sun, Cloud, Rain
* Açlık Durumu
    * Evet, Hayır
* Süre (Time)
    * 30dk'dan az, 30dk'dan fazla

<img src='images/dt_3.png' />

### 2- DT'nin Değerlendirme Kriterleri

DT'nin en önemli kararlarından biri ayrıma işlemi sırasında hangi kritere göre seçim yapılacağıdır.

Genel olarak kullanılan seçim kritlerleri:
* Information Gain (kategorik değişkenler için)
* Gini Index (sayısal değişkenler için)

### 3- Information Gain

Information Gain kriterini kullanarak, her bir değişkenin içerdiği Information (bilgi) miktarını tahmin etmeye çalışırız.

Information Gain kavramını anlamak için **Entropy** kavramını analamamız lazım.

#### Entropy (Düzensizlik)

Entropy, dataset içindeki heterojenliği (sınıf farklılığını) ölçer. Sınıflar arasındaki oran fazla ise entropy yüksektir.

Fizikteki ve Matematikteki Entropy bir değişkenin (X) bilinmezlik veya rassallık (randomness) seviyesini ölçer.

DT'deki Entropy ise, data set içindeki `impurity` yani heterojenliği ölçer.

<img src='images/entropy.png' />

Burada;
* **c** toplam sınıf sayısı
* $p_i$ is i'inci sınıfın olma olasılığıdır

Informatin Gain, dataset içindeki iki entropy arasındaki farktır.
* Dataseti parçalamadan önceki entropy değeri
* Dataseti parçaladıktan sonraki entropy değeri

İşte bu iki entropy arasındaki fark **Informatin Gain**'dir.

* A entropy değeri dataseti parçalamadan önceki entropy olsun
* B entropy değeri dataseti parçaladıktan sonraki entropy olsun

Bu işlem sonucundaki Information Gain (IG):

$$ IG(A,B) = E(A) - E(B) $$

`Information Gain ne kadar yüksekse entropy'yi o kadar fazla azaltmışsınız demektir.`

Yani sınıf düzensizliği azalmıştır.

Yani tek sınıfın oranı artmıştır. (Ki bu da istediğimiz şeydir.)

**Homojen dataset:** içinde tek bir sınıf bulunduran dataset. (yani bütün veri noktalarının sonucu aynı sınıf)

**Genel Kural:**

* Homojenlik arttıkça entropy (düzensizlik) azalır.
* Entropy arttıkça homojenlik azalır.

Bizim istediğimiz en düşük seviyede entropy (düzensizlik) yani homojenliktir.

`Çünkü datasetiniz ne kadar HOMOJEN ise sonucu o kadar kolay tahmin edersiniz.`

<img src='images/entropy_vs_homojenlik.png' />

Görüldüğü gibi, Homojenliğin en yüksek olduğu iki noktada (tamamen + ve tamamen -) entropy değeri en düşüktür.

### 4- Gini Index (Gini Katsayısı)

**Gini Index** (Gini Impurity), rasgele seçilen bir veri noktasının yanlış tahmin edilmiş olması olasılığını hesaplamaya çalışır.

0 - 1 arasında bir değer alır.

Scikit-Learn'ün DecisionTreeClassifier criterion olarak default değer 'gini'dir.

Gini index şu formülle hesaplanır:

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

<img src='images/gini.png' />

Burada:
* **c** toplam class sayısı
* $p_i$ her sınıfın olma olasılığı

Gini index şunu söyler: 

Eğer populasyondan rasgele iki eleman seçsek, aynı sınıfta iseler Gini Katsayısı 0 olacaktır. Gini Katsayısı 0'a ne kadar yakınsa, populasyonun saflığı (homojenliği) o kadar fazladır.

Herhangi bir node'un split edilmesi anında, Gini Index'e bakılır. 

`En düşük Gini Index'i veren değişken seçilir.`

En düşük Gini Index en homojen split demek yani sınıfları doğru ayırmışsınız demektir.

### 5- DT Algoritmalarında Overfitting Problemi

Decision Tree algoritmaları çok kolay Overfit edebilir. 

Tüm olası durumlara baktıkları için Train Data içindeki en iyi durumu çok kolay bulabilirler.

Ki bu da aslında Test data için Overfit riskini artırır.

DT için Overfit problemini yenmemin yolu **Pruning** yapmaktır.

İki tür Pruning (Budama) yöntemi vardır:
1. Pre-Pruning: Belirli bir eşik değere gelince, DT'nin splitini durdurur
1. Post-Pruning: Tüm ağaçta aşağı inilir ve bütün DT oluşturulur. Eğer Overfit tespit edilirse ağaç sondan başa doğru budanır. Budamanın etkinliği için de Cross Validation kullanılır.