# Decision Tree

## Apa itu Decision Tree?

**Decision Tree (Pohon Keputusan)** adalah salah satu algoritma *machine learning* kategori *supervised learning* yang sangat populer karena intuisinya yang mudah dipahami. Algoritma ini memodelkan data dalam struktur seperti pohon, di mana setiap *node* internal merepresentasikan "tes" pada sebuah fitur, setiap cabang merepresentasikan hasil dari tes tersebut, dan setiap *leaf node* (daun) merepresentasikan label kelas.

Tujuan utamanya adalah untuk membuat model yang dapat memprediksi nilai variabel target dengan mempelajari aturan keputusan sederhana yang diambil dari fitur data.

* **Root Node**: Node paling atas yang mewakili seluruh dataset.
* **Internal Node**: Node percabangan yang menguji sebuah fitur.
* **Leaf Node**: Node terminal yang memberikan hasil akhir (kelas).

---

## Notasi Decision Tree

Dalam konteks pohon keputusan, kita sering menggunakan notasi berikut:
* **S**: Menyatakan himpunan data (dataset).
* **A**: Mewakili sebuah atribut atau fitur (misalnya, 'Cuaca').
* **v**: Salah satu nilai yang mungkin dari atribut A (misalnya, 'Cerah').
* **$|S|$**: Jumlah sampel atau baris data dalam himpunan S.
* **$S_v$**: Subset dari S di mana atribut A memiliki nilai v.
* **$p_i$**: Proporsi dari kelas ke-i dalam sebuah himpunan data.

---

## Entropy 

**Entropy** adalah metrik yang digunakan untuk mengukur tingkat **ketidakmurnian (impurity)** atau ketidakpastian dalam sebuah himpunan data. Semakin tinggi nilai entropy, semakin tercampur label kelas di dalam himpunan data tersebut. Sesuai dengan notasi pada gambar Anda:

Rumus matematis untuk Entropy adalah:
$$ Entropy(S) = \sum_{i=1}^{k} -p_i \log_2(p_i) $$
Di mana:
* $k$ adalah jumlah total kelas.
* $p_i$ adalah proporsi sampel yang termasuk dalam kelas *i* pada himpunan data $S$.

---

## Information Gain 

**Information Gain** mengukur penurunan entropy setelah data dipisahkan berdasarkan sebuah atribut. Atribut dengan Information Gain tertinggi akan dipilih sebagai pemisah. Sesuai dengan generalisasi pada gambar Anda:

$$ Gain(S, A) = Entropy(S) - Entropy(S|A) $$

Di mana $Entropy(S|A)$ adalah entropy bersyarat (rata-rata entropy setelah dipecah oleh atribut A), yang dihitung dengan:

$$ Entropy(S|A) = \sum_{v \in \text{Values(A)}} \frac{|S_v|}{|S|} Entropy(S_v) $$
Di mana:
* $v$ adalah setiap nilai unik dari atribut A.
* $S_v$ adalah subset data di mana atribut A memiliki nilai $v$.
* $Entropy(S_v)$ adalah entropy dari subset $S_v$.

# 1. Perhitungan Manual: Entropy dan Information Gain

## Dataset Contoh

Kita akan menggunakan dataset sederhana yang sama: 15 baris, 2 fitur (`Cuaca`, `Suhu`), dan 3 kelas target (`Aktivitas`).

| Cuaca | Suhu | Aktivitas |
| :--- | :--- | :--- |
| Cerah | Panas | Olahraga |
| Cerah | Panas | Olahraga |
| Cerah | Normal | Olahraga |
| Cerah | Dingin | Santai |
| Cerah | Normal | Santai |
| Mendung | Panas | Kerja |
| Mendung | Normal | Kerja |
| Mendung | Dingin | Kerja |
| Mendung | Panas | Santai |
| Hujan | Normal | Santai |
| Hujan | Dingin | Santai |
| Hujan | Dingin | Kerja |
| Hujan | Normal | Kerja |
| Hujan | Normal | Kerja |
| Hujan | Dingin | Santai |

**Distribusi Kelas (Total 15 data):**
* **Olahraga**: 3 ($p_1 = 3/15 = 0.2$)
* **Santai**: 6 ($p_2 = 6/15 = 0.4$)
* **Kerja**: 6 ($p_3 = 6/15 = 0.4$)

---

## Langkah 1: Hitung Entropy Awal (Entropy(S))

$$ Entropy(S) = - (0.2 \cdot \log_2(0.2)) - (0.4 \cdot \log_2(0.4)) - (0.4 \cdot \log_2(0.4)) $$
$$ Entropy(S) = - (0.2 \cdot -2.3219) - (0.4 \cdot -1.3219) - (0.4 \cdot -1.3219) $$
$$ Entropy(S) = 0.4644 + 0.5288 + 0.5288 = \mathbf{1.522} $$

---

## Langkah 2: Hitung Information Gain untuk Setiap Fitur

### A. Information Gain untuk Fitur `Cuaca`
Entropy bersyarat untuk `Cuaca`, $Entropy(S|\text{Cuaca})$:
* $Entropy(\text{Cerah}) = -(\frac{2}{5}\log_2\frac{2}{5}) - (\frac{3}{5}\log_2\frac{3}{5}) = 0.971$
* $Entropy(\text{Mendung}) = -(\frac{1}{4}\log_2\frac{1}{4}) - (\frac{3}{4}\log_2\frac{3}{4}) = 0.811$
* $Entropy(\text{Hujan}) = -(\frac{3}{6}\log_2\frac{3}{6}) - (\frac{3}{6}\log_2\frac{3}{6}) = 1.0$

$$ Entropy(S|\text{Cuaca}) = \left(\frac{5}{15} \cdot 0.971\right) + \left(\frac{4}{15} \cdot 0.811\right) + \left(\frac{6}{15} \cdot 1.0\right) $$
$$ Entropy(S|\text{Cuaca}) = 0.324 + 0.216 + 0.4 = 0.940 $$
$$ Gain(S, \text{Cuaca}) = Entropy(S) - Entropy(S|\text{Cuaca}) = 1.522 - 0.940 = \mathbf{0.582} $$

### B. Information Gain untuk Fitur `Suhu`
Entropy bersyarat untuk `Suhu`, $Entropy(S|\text{Suhu})$:
* $Entropy(\text{Panas}) = -(\frac{2}{4}\log_2\frac{2}{4}) - (\frac{1}{4}\log_2\frac{1}{4}) - (\frac{1}{4}\log_2\frac{1}{4}) = 1.5$
* $Entropy(\text{Normal}) = -(\frac{1}{5}\log_2\frac{1}{5}) - (\frac{2}{5}\log_2\frac{2}{5}) - (\frac{2}{5}\log_2\frac{2}{5}) = 1.522$
* $Entropy(\text{Dingin}) = -(\frac{3}{6}\log_2\frac{3}{6}) - (\frac{3}{6}\log_2\frac{3}{6}) = 1.0$

$$ Entropy(S|\text{Suhu}) = \left(\frac{4}{15} \cdot 1.5\right) + \left(\frac{5}{15} \cdot 1.522\right) + \left(\frac{6}{15} \cdot 1.0\right) $$
$$ Entropy(S|\text{Suhu}) = 0.400 + 0.507 + 0.4 = 1.307 $$
$$ Gain(S, \text{Suhu}) = Entropy(S) - Entropy(S|\text{Suhu}) = 1.522 - 1.307 = \mathbf{0.215} $$

---

## Kesimpulan Perhitungan Manual

Information Gain `Cuaca` (0.582) lebih tinggi daripada Information Gain `Suhu` (0.215). Oleh karena itu, fitur **`Cuaca`** akan dipilih sebagai **root node**.

## Perhtiungan menggunakan Python