<a href="https://colab.research.google.com/github/hamdansyaif/DeepLearning/blob/main/Hands-On-ML2/Chapter-06/Analisis_Chapter_6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


## 📘 **Analisis Teoretikal & Konsep Penting**

---

### 1. ✅ **Decision Tree Basics**

* **Algoritma utama**: CART (Classification and Regression Tree)
* Hanya menghasilkan **binary tree**
* Dapat digunakan untuk **klasifikasi & regresi**
* Sifat utama: **white-box model** → mudah ditafsirkan

---

### 2. 📐 **Impurity Measures**

#### Gini Impurity:

$G_i = 1 - \sum_{k=1}^n p_{i,k}^2$

* Default di `DecisionTreeClassifier`
* Lebih cepat dihitung
* Cenderung mengisolasi kelas mayoritas lebih cepat

#### Entropy:

$H_i = -\sum_{k=1}^n p_{i,k} \log_2 p_{i,k}$

* Lebih "informatif", hasilkan tree yang lebih seimbang
* Lebih lambat dibanding Gini

---

### 3. 🧱 **Hyperparameter & Regularisasi**

Untuk menghindari overfitting:

* `max_depth`: batas kedalaman tree
* `min_samples_split`: minimum jumlah sample agar node bisa di-split
* `min_samples_leaf`: minimum sample di leaf node
* `max_leaf_nodes`: batasi jumlah leaf

Pengaruh:

* **Tanpa regularisasi** → overfit (tree menyesuaikan noise)
* **Dengan regularisasi** → lebih generalisasi

---

### 4. 💡 **Decision Boundaries**

* Boundary dari Decision Tree selalu **perpendicular ke feature axis**
* Membuat model jadi sensitif terhadap **rotasi fitur**
* Terlihat jelas pada data Iris dan Moons (rotasi → boundary berubah total)

---

### 5. 🔁 **Instabilitas Model**

* Decision Tree bisa sangat sensitif: perubahan 1 instance saja bisa mengubah struktur tree
* Solusi:

  * **Set `random_state`**
  * **Gunakan ensemble (mis. Random Forest)** untuk stabilisasi

---

## 🧪 **Analisis Code & Eksperimen**

---

### 🧪 **Training Model Klasifikasi Awal**

```python
DecisionTreeClassifier(max_depth=2).fit(X, y)
```

* Menggunakan Iris data
* Visualisasi pakai `plot_tree` atau `export_graphviz`

---

### 🧪 **Estimasi Probabilitas**

```python
tree.predict_proba([[5.0, 1.5]])
```

* Kembalikan proporsi kelas di leaf node

---

### 🧪 **Boundary Visualization**

* Menggunakan `np.meshgrid` dan prediksi pada seluruh grid
* Sangat penting untuk memahami *decision region*

---

### 🧪 **Regularisasi**

```python
DecisionTreeClassifier(min_samples_leaf=5)
```

* Membatasi kompleksitas tree
* Mencegah overfitting pada data seperti `make_moons`

---

### 🧪 **Rotasi Data**

```python
X_rotated = X @ rotation_matrix
```

* Menunjukkan **kekurangan pohon keputusan**: tidak invarian terhadap rotasi
* Kelemahan utama algoritma berbasis axis-aligned splitting

---

### 🧪 **Regression Tree**

```python
DecisionTreeRegressor(max_depth=2)
```

* Menggunakan target numerik (y kontinu)
* Output leaf adalah **rata-rata** target di dalamnya
* Cost function: **Mean Squared Error (MSE)**

---

### 🧪 **Grid Search (Exercise 7)**

```python
GridSearchCV(DecisionTreeClassifier(), param_grid, cv=3)
```

* Cari kombinasi parameter terbaik (`max_leaf_nodes`, `min_samples_split`, `criterion`)
* Menyediakan **model optimal**

---

### 🌲 **Random Forest Manual (Exercise 8)**

* **1.000 pohon** dilatih pada subset acak kecil (100 instance)
* Hasil prediksi setiap pohon di-*voting* via:

```python
from scipy.stats import mode
mode(preds, axis=0)
```

* **Majority voting** menstabilkan hasil prediksi

---

## 📊 **Analisis Visualisasi Kamu (Final Plot)**

| Aspek           | Best Tree                    | Ensemble (1000 Trees)      |
| --------------- | ---------------------------- | -------------------------- |
| **Akurasi**     | 85–87% (bias varians tinggi) | 86–88% (lebih stabil)      |
| **Boundary**    | Tajam, bisa overfit          | Lebih halus & smooth       |
| **Stabilitas**  | Rentan terhadap noise        | Lebih tahan terhadap noise |
| **Overfitting** | Mungkin                      | Lebih kecil kemungkinannya |

---

## 🔚 Kesimpulan:

* Decision Tree sangat **mudah ditafsirkan**, cocok untuk baseline model.
* Namun, mereka **rentan overfitting dan tidak stabil**.
* Untuk hasil produksi, **Random Forest** jauh lebih powerful karena mitigasi kelemahan di atas.
* Visualisasi boundary dan regulasi sangat membantu dalam **eksplorasi awal data dan model**.

---