# Chapter 6: Decision Trees

Bab ini membahas **Decision Trees**, sebuah algoritma Machine Learning serbaguna yang dapat melakukan tugas klasifikasi, regresi, dan bahkan *multioutput*.

Decision Trees adalah algoritma yang kuat dan menjadi komponen fundamental dari **Random Forests**, yang merupakan salah satu algoritma ML paling kuat saat ini. Keunggulan utama dari Decision Trees adalah modelnya yang intuitif dan mudah diinterpretasikan, sering disebut sebagai model *white box*.

## Training and Visualizing a Decision Tree

Kita bisa melatih dan memvisualisasikan Decision Tree dengan mudah menggunakan Scikit-Learn. Model ini membuat prediksi dengan mengajukan serangkaian pertanyaan sederhana tentang fitur data, dimulai dari *root node* hingga mencapai *leaf node*.

In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

# Menggunakan dataset iris
iris = load_iris()
X = iris.data[:, 2:] # petal length and width
y = iris.target

# Melatih model Decision Tree Classifier
tree_clf = DecisionTreeClassifier(max_depth=2, random_state=42)
tree_clf.fit(X, y)

### Cara Kerja Model
Setiap *node* dalam pohon mengajukan pertanyaan tentang sebuah fitur (misalnya, "apakah panjang petal <= 2.45 cm?"). Berdasarkan jawaban, kita pindah ke *child node* kiri atau kanan. Proses ini berlanjut sampai kita mencapai *leaf node*, yang tidak memiliki *child node* dan berisi prediksi kelas akhir.

Beberapa atribut penting dalam sebuah *node*:
* **`samples`**: Jumlah *instance* pelatihan yang berlaku pada *node* ini.
* **`value`**: Jumlah *instance* pelatihan dari setiap kelas yang berlaku pada *node* ini.
* **`gini`**: Ukuran *impurity* (ketidakmurnian) dari *node*. Sebuah *node* dianggap "murni" (`gini=0`) jika semua *instance* yang berlaku padanya berasal dari kelas yang sama.

## The CART Training Algorithm

Scikit-Learn menggunakan algoritma **Classification and Regression Tree (CART)** untuk melatih Decision Trees. Algoritma ini bekerja dengan membagi *training set* menjadi dua subset menggunakan satu fitur `k` dan sebuah *threshold* `tk`.

CART mencari pasangan `(k, tk)` yang menghasilkan subset paling murni (diukur dengan Gini impurity untuk klasifikasi atau MSE untuk regresi). Proses ini dilakukan secara rekursif hingga mencapai kedalaman maksimum atau tidak dapat menemukan pemisahan yang mengurangi *impurity*.

CART adalah algoritma *greedy*: ia mencari pemisahan optimal di tingkat atas, lalu mengulanginya di setiap tingkat. Ini menghasilkan solusi yang cukup baik, tetapi tidak dijamin optimal.

## Regularization Hyperparameters

Decision Trees sangat fleksibel dan dapat beradaptasi dengan data pelatihan secara sangat dekat, yang membuatnya rentan terhadap *overfitting*. Untuk menghindarinya, kita perlu membatasi kebebasannya selama pelatihan melalui regularisasi.

Beberapa *hyperparameter* regularisasi yang umum:
* `max_depth`: Kedalaman maksimum pohon.
* `min_samples_split`: Jumlah minimum *instance* yang harus dimiliki sebuah *node* sebelum dapat dipecah.
* `min_samples_leaf`: Jumlah minimum *instance* yang harus dimiliki sebuah *leaf node*.
* `max_leaf_nodes`: Jumlah maksimum *leaf node*.
* `max_features`: Jumlah maksimum fitur yang dievaluasi untuk pemisahan di setiap *node*.

Meningkatkan `min_*` atau mengurangi `max_*` akan meregularisasi model.

## Regression

Decision Trees juga mampu melakukan tugas regresi. Perbedaan utamanya adalah, alih-alih memprediksi kelas di setiap *node*, ia memprediksi sebuah nilai. Prediksi nilai di sebuah *region* adalah nilai rata-rata dari semua *instance* pelatihan di *region* tersebut.

In [None]:
from sklearn.tree import DecisionTreeRegressor
import numpy as np

# Membuat data kuadratik acak
np.random.seed(42)
m = 200
X = np.random.rand(m, 1) * 10 - 5
y = 0.5 * X**2 + X + 2 + np.random.randn(m, 1)

# Melatih model Decision Tree Regressor
tree_reg = DecisionTreeRegressor(max_depth=2, random_state=42)
tree_reg.fit(X, y)

## Instability

Meskipun kuat, Decision Trees memiliki beberapa keterbatasan. Mereka sangat sensitif terhadap variasi kecil dalam data pelatihan. Menghapus satu *instance* saja bisa menghasilkan pohon yang sangat berbeda. Mereka juga menyukai *decision boundary* yang ortogonal (tegak lurus terhadap sumbu), yang membuat mereka sensitif terhadap rotasi data.

Kelemahan ini dapat diatasi dengan menggunakan **Random Forests**, yang akan dibahas di bab selanjutnya.