# Chapter 6: Decision Trees

Notebook ini merupakan hasil reproduksi dan penjelasan teori dari **Bab 6 - Decision Trees** dari buku *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (2nd Edition)* oleh Aurélien Géron.

📌 Fokus bab ini adalah mempelajari cara kerja Decision Tree Classifier, bagaimana ia melakukan prediksi, menghitung probabilitas, serta regularisasi dan kelemahannya.

---


## Ringkasan Teori Bab 6: Decision Trees

### 1. Melatih dan Memvisualisasikan Decision Tree
Decision Tree mempartisi ruang fitur secara rekursif berdasarkan threshold optimal dari suatu fitur.  
Kita dapat melatih `DecisionTreeClassifier` pada dataset seperti iris dan memvisualisasikan hasilnya.

---

### 2. Membuat Prediksi dengan Decision Tree
Proses prediksi dilakukan dengan **navigasi dari root node ke leaf node**, berdasarkan jawaban pertanyaan threshold.  
Fitur node:

- **samples**: jumlah instance pelatihan di node
- **value**: jumlah instance dari setiap kelas
- **gini**: impurity dari node

#### Rumus Gini Impurity:
\[
G_i = 1 - \sum_{k=1}^{n} p_{i,k}^2
\]
di mana $p_{i,k}$ adalah proporsi kelas $k$ di node ke-$i$.

---

### 3. Interpretasi Model: White Box
Decision Tree dianggap sebagai **white-box model** karena mudah dipahami secara visual dan logis, berbeda dengan neural networks atau Random Forests (black-box).

---

### 4. Estimasi Probabilitas Kelas
Decision Tree dapat mengestimasi probabilitas sebuah instance menjadi kelas tertentu berdasarkan **rasio kelas di leaf node**.

---

### 5. Algoritma Pelatihan: CART
Scikit-Learn menggunakan algoritma CART (Classification and Regression Tree):

- Membagi set pelatihan menjadi dua subset dengan threshold terbaik.
- Proses dilakukan **secara greedy**, hanya fokus pada pemisahan optimal di satu titik waktu.
- CART tidak menjamin solusi global optimal karena masalah ini adalah **NP-Complete**.

---

### 6. Hyperparameter Regularisasi
Jika Decision Tree dibiarkan tanpa batas, ia cenderung **overfitting**.  
Oleh karena itu, kita perlu melakukan regularisasi dengan membatasi parameter seperti:

- `max_depth`
- `min_samples_split`
- `min_samples_leaf`
- `max_leaf_nodes`
- `max_features`

---

### 7. Decision Tree untuk Regresi
Decision Tree juga dapat digunakan untuk **regresi**.  
Alih-alih memprediksi kelas, ia memprediksi **rata-rata nilai target** dari leaf node.

Untuk regresi, CART meminimalkan **MSE** alih-alih impurity.

---

### 8. Kelemahan Decision Trees
- **Instabilitas**: perubahan kecil pada data bisa mengubah struktur pohon drastis.
- **Kepekaan terhadap rotasi data**
- **Rentan overfitting** jika tidak diregularisasi.

Solusi: gunakan **Random Forest** atau ensemble learning untuk mengurangi kelemahan ini.

---


## Implementasi Decision Tree Classifier

Kita akan menggunakan dataset iris dan melatih `DecisionTreeClassifier`, lalu memvisualisasikannya.


In [None]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt

iris = load_iris()
X, y = iris.data[:, 2:], iris.target  # gunakan petal length & width saja

tree_clf = DecisionTreeClassifier(max_depth=3, random_state=42)
tree_clf.fit(X, y)

In [None]:
plt.figure(figsize=(12, 8))
plot_tree(tree_clf, feature_names=iris.feature_names[2:], class_names=iris.target_names, filled=True)
plt.title("Decision Tree on Iris Dataset")
plt.show()

## Contoh Prediksi Probabilitas

Menampilkan probabilitas prediksi untuk sebuah sampel:


In [None]:
sample = [[5.0, 1.5]]  # petal length=5.0, width=1.5
print("Predicted class:", tree_clf.predict(sample))
print("Class probabilities:", tree_clf.predict_proba(sample))

## Decision Tree untuk Regresi

Decision Tree juga bisa digunakan untuk regresi. Kita akan coba dengan fungsi sinus.


In [None]:
from sklearn.tree import DecisionTreeRegressor
import numpy as np

np.random.seed(42)
X_r = np.sort(np.random.rand(100, 1) * 5, axis=0)
y_r = np.sin(X_r).ravel() + np.random.randn(100) * 0.1

tree_reg = DecisionTreeRegressor(max_depth=3)
tree_reg.fit(X_r, y_r)

In [None]:
X_test = np.linspace(0, 5, 500).reshape(-1, 1)
y_pred = tree_reg.predict(X_test)

plt.figure(figsize=(10, 5))
plt.plot(X_r, y_r, "b.", label="Training samples")
plt.plot(X_test, y_pred, "r-", label="Tree predictions")
plt.title("Decision Tree Regression")
plt.legend()
plt.grid(True)
plt.show()