# Menghitung Gain Informasi dalam Decision Tree

Saat membangun *decision tree*, cara kita memutuskan fitur mana yang akan dibagi di setiap node didasarkan pada pilihan fitur yang paling banyak mengurangi entropi. Pengurangan entropi ini disebut *information gain*. Dalam video ini, kita akan melihat cara menghitung *information gain* dan memilih fitur yang akan digunakan untuk membagi setiap node dalam *decision tree*.

## Contoh Penggunaan Fitur pada Root Node

Mari kita gunakan contoh dalam memutuskan fitur mana yang digunakan di *root node* dari *decision tree* yang sedang kita bangun untuk mengenali kucing versus bukan kucing. 

### Pemisahan Berdasarkan Bentuk Telinga

Jika kita membagi menggunakan fitur bentuk telinga di *root node*, hasilnya adalah sebagai berikut:

- **Kiri**: 5 contoh (4 kucing, 1 bukan kucing)
  - P1 = 4/5 = 0.8
- **Kanan**: 5 contoh (1 kucing, 4 bukan kucing)
  - P1 = 1/5 = 0.2

Jika kita menerapkan rumus entropi, kita menemukan bahwa derajat ketidakmurnian di sebelah kiri adalah entropi 0.8, yang sekitar 0.72, dan di sebelah kanan, entropi 0.2 juga 0.72. 

### Pemisahan Berdasarkan Bentuk Wajah

Pilihan lain adalah membagi berdasarkan fitur bentuk wajah. Jika kita melakukannya, maka:

- **Kiri**: 7 contoh (4 kucing, 3 bukan kucing)
  - P1 = 4/7
- **Kanan**: 3 contoh (1 kucing, 2 bukan kucing)
  - P1 = 1/3

Entropi untuk 4/7 adalah 0.99 dan entropi untuk 1/3 adalah 0.92. Jadi, derajat ketidakmurnian di node kiri dan kanan tampak jauh lebih tinggi, yaitu 0.99 dan 0.92 dibandingkan dengan 0.72 dan 0.72.

### Pemisahan Berdasarkan Kumis

Pilihan ketiga adalah membagi berdasarkan fitur kumis, di mana kita membagi berdasarkan keberadaan kumis. Dalam hal ini:

- **Kiri**: 4 contoh (3 kucing, 1 bukan kucing)
  - P1 = 3/4
- **Kanan**: 6 contoh (2 kucing, 4 bukan kucing)
  - P1 = 2/6

### Pertanyaan Kunci

Pertanyaan utama yang perlu kita jawab adalah, dari ketiga pilihan fitur ini, mana yang paling baik? Alih-alih hanya melihat angka entropi ini dan membandingkannya, akan lebih berguna untuk mengambil rata-rata tertimbang dari nilai-nilai tersebut.

Karena entropi, sebagai ukuran ketidakmurnian, lebih buruk jika kita memiliki dataset yang sangat besar dan tidak murni dibandingkan dengan hanya beberapa contoh di cabang pohon yang sangat tidak murni.

## Rata-Rata Tertimbang

Keputusan kunci adalah, dari ketiga pilihan fitur ini, mana yang ingin kita gunakan? Setiap pemisahan terkait dengan dua angka, entropi pada cabang kiri dan entropi pada cabang kanan. Untuk memilih dari ketiga pilihan ini, kita perlu menggabungkan kedua angka ini menjadi satu angka.

### Menghitung Rata-Rata Tertimbang

Cara kita menggabungkan kedua angka ini adalah dengan mengambil rata-rata tertimbang. Dalam contoh ini, kita memiliki:

1. **Pemisahan Berdasarkan Bentuk Telinga**
   - Rata-rata tertimbang = (5/10 × entropi 0.8) + (5/10 × entropi 0.2)

2. **Pemisahan Berdasarkan Bentuk Wajah**
   - Rata-rata tertimbang = (7/10 × entropi 0.57) + (3/10 × entropi 0.3)

3. **Pemisahan Berdasarkan Kumis**
   - Rata-rata tertimbang = (4/10 × entropi 0.75) + (6/10 × entropi 0.33)

### Memilih Pemisahan yang Terbaik

Cara kita memilih pemisahan adalah dengan menghitung ketiga angka ini dan memilih yang terendah, karena itu memberi kita cabang kiri dan kanan dengan rata-rata entropi tertimbang yang terendah.

### Menghitung Pengurangan Entropi

Dalam proses membangun *decision tree*, kita akan melakukan satu perubahan lagi pada rumus ini untuk mengikuti konvensi dalam membangun *decision tree*, yaitu kita akan menghitung pengurangan entropi dibandingkan jika kita tidak membagi sama sekali.

Pada *root node*, kita mulai dengan semua 10 contoh di *root node* dengan 5 kucing dan 5 anjing. Jadi, di *root node*, kita memiliki P1 = 5/10 = 0.5. Entropi dari *root node* (entropi 0.5) adalah sama dengan 1. Ini adalah ketidakmurnian maksimum karena ada 5 kucing dan 5 anjing.

### Menghitung Gain Informasi

Rumus yang akan kita gunakan untuk memilih pemisahan bukanlah entropi tertimbang pada cabang kiri dan kanan, melainkan entropi pada *root node*, yaitu entropi 0.5, dikurangi rumus ini. 

- Untuk contoh bentuk telinga:
  - Pengurangan entropi = 0.5 - hasil perhitungan = 0.28
- Untuk contoh bentuk wajah:
  - Pengurangan entropi = 0.5 - hasil perhitungan = 0.03
- Untuk kumis:
  - Pengurangan entropi = 0.5 - hasil perhitungan = 0.12

![image.png](attachment:image.png)

Angka-angka yang baru saja kita hitung, 0.28, 0.03, dan 0.12, disebut sebagai *information gain*, yang mengukur pengurangan entropi yang Anda dapatkan di pohon Anda sebagai hasil dari membuat pemisahan.

## Mengapa Menghitung Pengurangan Entropi?

Mengapa kita harus menghitung pengurangan entropi daripada hanya entropi di cabang kiri dan kanan? Salah satu kriteria penghentian untuk memutuskan kapan tidak perlu membagi lebih lanjut adalah jika pengurangan entropi terlalu kecil. Dalam hal ini, Anda dapat memutuskan untuk tidak membagi lagi jika pengurangan entropi terlalu kecil atau di bawah ambang batas.

Dalam contoh lain, pemisahan berdasarkan bentuk telinga menghasilkan pengurangan entropi terbesar, yaitu 0.28, lebih besar dari 0.03 atau 0.12, sehingga kita akan memilih untuk membagi berdasarkan fitur bentuk telinga di *root node*.

## Definisi Formal Gain Informasi

Mari kita tuliskan definisi umum untuk cara menghitung *information gain*. Menggunakan contoh pemisahan berdasarkan fitur bentuk telinga:

- **P1^left**: fraksi contoh di subtree kiri yang memiliki label positif (kucing). Dalam contoh ini, P1^left = 4/5.
- **W^left**: fraksi contoh dari semua contoh di *root node* yang pergi ke cabang kiri. Dalam contoh ini, W^left = 5/10.
- **P1^right**: fraksi dari semua contoh di cabang kanan yang positif (kucing), yaitu 1/5.
- **W^right**: fraksi contoh yang pergi ke cabang kanan, yaitu 5/10.
- **P1^root**: fraksi contoh yang positif di *root node*, yaitu 5/10.

### Rumus Gain Informasi

Dengan definisi ini, *information gain* dapat dihitung sebagai berikut:

$$
\text{Information Gain} = \text{Entropy}(P1^root) - (W^left \times \text{Entropy}(P1^left) + W^right \times \text{Entropy}(P1^right))
$$

Dengan definisi entropi ini, Anda dapat menghitung *information gain* yang terkait dengan memilih fitur tertentu untuk dibagi di node. Dari semua fitur yang mungkin, Anda dapat memilih fitur yang memberikan *information gain* tertinggi. Ini akan menghasilkan peningkatan kemurnian subset data di cabang kiri dan kanan dari *decision tree* Anda.

![image-2.png](attachment:image-2.png)

Sekarang Anda tahu cara menghitung *information gain* atau pengurangan entropi, Anda tahu cara memilih fitur untuk dibagi di node lainnya. Mari kita gabungkan semua hal yang telah kita bicarakan ke dalam algoritma keseluruhan untuk membangun *decision tree* berdasarkan set pelatihan. Mari kita lihat itu di video berikutnya.
