# Proses Membangun Decision Tree

Proses untuk membangun *decision tree* (pohon keputusan) berdasarkan sekumpulan data pelatihan terdiri dari beberapa langkah. Dalam video ini, kita akan melihat keseluruhan proses yang perlu dilakukan untuk membangun *decision tree*. Diberikan sekumpulan data pelatihan yang terdiri dari 10 contoh kucing dan anjing seperti yang Anda lihat di video sebelumnya.

## Langkah Pertama: Memilih Fitur untuk Root Node

Langkah pertama dalam pembelajaran *decision tree* adalah kita harus memutuskan fitur mana yang akan digunakan di *root node* (simpul akar), yaitu simpul pertama di bagian atas *decision tree*. Melalui algoritma yang akan kita bahas dalam beberapa video mendatang, katakanlah kita memutuskan untuk memilih fitur bentuk telinga sebagai fitur di *root node*. Ini berarti kita akan memeriksa semua contoh pelatihan kita, semua sepuluh contoh yang ditunjukkan di sini, dan membaginya berdasarkan nilai dari fitur bentuk telinga.

- **Contoh:**
  - Kita ambil lima contoh dengan bentuk telinga runcing dan pindahkan mereka ke kiri.
  - Kita ambil lima contoh dengan bentuk telinga floppy dan pindahkan mereka ke kanan.

## Langkah Kedua: Fokus pada Cabang Kiri

Langkah kedua adalah fokus pada bagian kiri atau sering disebut cabang kiri dari *decision tree* untuk memutuskan fitur apa yang ingin kita gunakan berikutnya. Melalui algoritma yang akan kita bahas lagi nanti, katakanlah Anda memutuskan untuk menggunakan fitur bentuk wajah di sana. Apa yang akan kita lakukan sekarang adalah mengambil lima contoh ini dan membagi mereka menjadi dua subset berdasarkan nilai dari fitur bentuk wajah.

- Kita ambil empat contoh dari lima dengan bentuk wajah bulat dan pindahkan mereka ke kiri.
- Satu contoh dengan bentuk wajah tidak bulat akan dipindahkan ke kanan.

## Membuat Leaf Node

Akhirnya, kita perhatikan bahwa keempat contoh ini semuanya adalah kucing. Daripada membagi lebih lanjut, kita akan membuat *leaf node* (simpul daun) yang membuat prediksi bahwa semua yang sampai ke simpul ini adalah kucing. Di sisi lain, kita perhatikan bahwa tidak ada contoh dari satu contoh di sini adalah kucing, atau alternatifnya, 100 persen dari contoh di sini adalah anjing. Kita dapat membuat *leaf node* di sini yang membuat prediksi bukan kucing.

## Mengulangi Proses di Cabang Kanan

Setelah melakukan ini di bagian kiri, kita sekarang mengulangi proses serupa di bagian kanan atau cabang kanan dari *decision tree*. Fokus perhatian kita hanya pada lima contoh ini, yang terdiri dari satu kucing dan empat anjing. Kita harus memilih beberapa fitur di sini untuk membagi lima contoh ini lebih lanjut. Jika kita memilih fitur kumis, kita akan membagi lima contoh ini berdasarkan keberadaan kumis, seperti ini. 

- Anda akan melihat bahwa satu dari satu contoh di kiri adalah kucing, dan nol dari empat adalah kucing. Setiap simpul ini sepenuhnya murni, artinya, semuanya adalah kucing atau bukan kucing, dan tidak ada lagi campuran antara kucing dan anjing. Kita dapat membuat simpul-simpul daun ini, membuat prediksi kucing di sebelah kiri dan prediksi bukan kucing di sebelah kanan.

![image.png](attachment:image.png)

## Keputusan Kunci dalam Membangun Decision Tree

Melalui proses ini, ada beberapa keputusan kunci yang harus kita buat pada berbagai langkah selama algoritma. Mari kita bahas keputusan kunci tersebut dan kita akan melanjutkan dengan rincian bagaimana membuat keputusan ini dalam video-video mendatang.

### Keputusan Kunci Pertama: Memilih Fitur untuk Split

![image-2.png](attachment:image-2.png)

Keputusan kunci pertama adalah, bagaimana cara memilih fitur mana yang digunakan untuk membagi pada setiap simpul? Di *root node*, serta di cabang kiri dan cabang kanan dari *decision tree*, kita harus memutuskan apakah ada beberapa contoh di simpul itu yang terdiri dari campuran kucing dan anjing. Apakah Anda ingin membagi berdasarkan fitur bentuk telinga, fitur wajah, atau fitur kumis?

### Memaksimalkan Purity

Di video berikutnya, kita akan melihat bahwa *decision tree* akan memilih fitur yang akan dibagi untuk mencoba memaksimalkan purity. Dengan purity, saya maksudkan, Anda ingin mendapatkan subset yang sedekat mungkin dengan semua kucing atau semua anjing. 

Misalnya, jika kita memiliki fitur yang mengatakan, "apakah hewan ini memiliki DNA kucing?", kita tidak memiliki fitur ini. Namun, jika kita memilikinya, kita bisa membagi berdasarkan fitur ini di *root node*, yang akan menghasilkan lima dari lima kucing di cabang kiri dan nol dari lima kucing di cabang kanan. 

Kedua subset ini sepenuhnya murni, artinya hanya ada satu kelas, baik hanya kucing atau bukan kucing saja di kedua sub-cabang ini. 

## Kriteria untuk Berhenti Membagi

![image-3.png](attachment:image-3.png)

Keputusan kunci kedua yang perlu Anda buat ketika membangun *decision tree* adalah memutuskan kapan Anda harus berhenti membagi. Kriteria yang kita gunakan baru saja adalah hingga kita mengetahui ada 100 persen, semua kucing atau 100 persen anjing dan bukan kucing. Karena pada titik ini tampaknya wajar untuk membangun *leaf node* yang hanya membuat prediksi klasifikasi.

Anda mungkin juga memutuskan untuk berhenti membagi ketika pembagian lebih lanjut tidak menghasilkan pohon yang melebihi kedalaman maksimum. Di mana kedalaman maksimum yang Anda izinkan untuk pohon mencapai, adalah parameter yang bisa Anda tetapkan. Dalam *decision tree*, kedalaman simpul didefinisikan sebagai jumlah lompatan yang diperlukan untuk mencapai simpul tersebut dari *root node* yang ditandai di bagian atas.

- **Contoh Kedalaman:**
  - Simpul akar berada di kedalaman 0.
  - Simpul di bawahnya berada di kedalaman 1.
  - Simpul di bawahnya lagi akan berada di kedalaman 2.

Jika Anda memutuskan bahwa kedalaman maksimum dari *decision tree* adalah dua, maka Anda tidak akan membagi simpul lebih lanjut di bawah level ini sehingga pohon tidak pernah mencapai kedalaman 3.

### Alasan Membatasi Kedalaman

Salah satu alasan Anda mungkin ingin membatasi kedalaman dari *decision tree* adalah untuk memastikan pohon tidak menjadi terlalu besar dan tidak mudah diatur. Kedua, dengan menjaga pohon tetap kecil, ini membuatnya kurang rentan terhadap overfitting.

Kriteria lain yang mungkin Anda gunakan untuk memutuskan kapan berhenti membagi adalah jika perbaikan dalam skor purity, yang akan Anda lihat di video mendatang, di bawah ambang batas tertentu. Jika pembagian suatu simpul menghasilkan perbaikan minimal terhadap purity atau jika Anda melihat penurunan dalam impurity, maka jika peningkatannya terlalu kecil, Anda mungkin tidak perlu melanjutkan.

### Menghentikan Pembagian Berdasarkan Jumlah Contoh

Akhirnya, jika jumlah contoh yang ada di simpul di bawah ambang batas tertentu, maka Anda mungkin juga memutuskan untuk berhenti membagi. Misalnya, jika di *root node* kita telah membagi berdasarkan fitur bentuk wajah, maka cabang kanan akan memiliki hanya tiga contoh pelatihan dengan satu kucing dan dua anjing. Daripada membagi ini menjadi subset yang lebih kecil, jika Anda memutuskan untuk tidak membagi lebih lanjut pada set contoh yang hanya memiliki tiga contoh, maka Anda akan hanya membuat simpul keputusan dan karena mereka sebagian besar adalah anjing (2 dari 3), ini akan menjadi simpul yang membuat prediksi bukan kucing.

## Kesimpulan

Ketika saya melihat algoritma pembelajaran *decision tree*, terkadang saya merasa bahwa ada banyak bagian yang berbeda dan banyak hal yang terjadi dalam algoritma ini. Sebagian alasan mengapa rasanya rumit adalah karena evolusi dari *decision tree*. Ada seorang peneliti yang mengusulkan versi dasar dari *decision tree* dan kemudian peneliti lain mengatakan, "oh, kita bisa memodifikasi ini dengan cara ini," seperti kriteria baru untuk pembagian. 

Seiring waktu, berbagai peneliti datang dengan penyempurnaan yang berbeda terhadap algoritma. Akibatnya, ini bekerja dengan sangat baik, tetapi ketika kita melihat semua rincian tentang bagaimana mengimplementasikan *decision tree*, rasanya seperti ada banyak bagian yang berbeda.

Di video berikutnya, kita akan menggali lebih dalam bagaimana Anda memutuskan bagaimana membagi simpul. Mari kita lanjutkan ke video berikutnya.
