# Membangun Ensemble Pohon Pertama: Algoritma Random Forest

## Pendahuluan

Sekarang kita memiliki cara untuk menggunakan **sampling with replacement** untuk membuat set pelatihan baru yang sedikit mirip namun juga cukup berbeda dari set pelatihan asli. Kita siap untuk membangun algoritma ensemble pohon pertama kita. Secara khusus, dalam video ini, kita akan membahas algoritma **Random Forest**, yang merupakan salah satu algoritma ensemble pohon yang kuat dan bekerja jauh lebih baik dibandingkan menggunakan satu pohon keputusan saja.

## Generasi Ensemble Pohon

### Proses Pembuatan Ensemble

1. **Set Pelatihan**: Jika Anda diberikan set pelatihan dengan ukuran M, maka untuk B dari 1 hingga B besar, kita akan melakukan ini sebanyak B besar kali. Anda bisa menggunakan sampling dengan penggantian untuk membuat set pelatihan baru dengan ukuran M.

![image.png](attachment:image.png)

2. **Pengambilan Sampel**: Jadi jika Anda memiliki 10 contoh pelatihan, Anda akan menempatkan 10 contoh pelatihan tersebut dalam tas virtual dan melakukan sampling dengan penggantian sebanyak 10 kali untuk menghasilkan set pelatihan baru yang juga memiliki 10 contoh. Kemudian, Anda akan melatih pohon keputusan pada set data ini.

3. **Contoh Set Data**: Berikut adalah set data yang telah saya hasilkan menggunakan sampling dengan penggantian. Jika Anda perhatikan dengan seksama, Anda mungkin menyadari bahwa beberapa contoh pelatihan diulang dan itu tidak masalah.

4. **Pohon Keputusan**: Setelah melatih pohon keputusan pada set data ini, Anda akan mendapatkan pohon keputusan. Setelah melakukan ini sekali, kita akan mengulang proses ini untuk kedua kalinya, menggunakan sampling dengan penggantian untuk menghasilkan set pelatihan baru dengan 10 contoh.

5. **Pengulangan Proses**: Proses ini akan menghasilkan set pelatihan yang mirip dengan set pelatihan asli, tetapi juga sedikit berbeda. Anda kemudian akan melatih pohon keputusan pada set data baru ini dan mendapatkan pohon keputusan yang sedikit berbeda. Proses ini dapat diulang hingga B besar kali.

### Jumlah Pohon dalam Ensemble

- Pilihan tipikal untuk B besar, jumlah pohon yang dibangun, bisa sekitar 100. Banyak orang merekomendasikan nilai apa pun dari 64 hingga 128. Setelah membangun ensemble sekitar 100 pohon yang berbeda, ketika Anda mencoba membuat prediksi, Anda akan mendapatkan semua pohon ini untuk memberikan suara pada prediksi akhir yang benar.

- Ternyata, mengatur B besar menjadi lebih besar tidak akan merugikan kinerja, tetapi setelah titik tertentu, Anda akan mendapatkan hasil yang semakin menurun dan tidak akan menjadi jauh lebih baik ketika B jauh lebih besar dari 100. Oleh karena itu, saya tidak pernah menggunakan 1000 pohon karena itu hanya memperlambat komputasi secara signifikan tanpa secara berarti meningkatkan kinerja algoritma secara keseluruhan.

## Istilah dan Modifikasi Algoritma

- Untuk memberikan nama khusus pada algoritma ini, pembuatan instansi spesifik dari ensemble pohon ini kadang-kadang juga disebut sebagai **bagged decision tree**, yang mengacu pada penempatan contoh pelatihan Anda dalam tas virtual tersebut. Oleh karena itu, kita menggunakan huruf kecil b dan huruf besar B di sini karena itu mewakili kata "bag" (tas).

- Ada satu modifikasi pada algoritma ini yang akan membuatnya bekerja bahkan lebih baik, yang mengubah algoritma **bagged decision tree** menjadi algoritma **Random Forest**. Ide kunci adalah bahwa meskipun dengan prosedur sampling dengan penggantian, kadang-kadang Anda akan selalu menggunakan pemisahan yang sama di simpul akar dan pemisahan yang sangat mirip di dekat simpul akar.

### Menghindari Pemilihan Fitur yang Sama

- Hal ini tidak terjadi dalam contoh khusus ini, di mana perubahan kecil pada set pelatihan menghasilkan pemisahan yang berbeda di simpul akar. Namun, untuk set pelatihan lainnya, tidak jarang untuk banyak atau bahkan semua set pelatihan B besar, Anda berakhir dengan pilihan fitur yang sama di simpul akar dan di beberapa simpul di dekat simpul akar.

- Untuk mengatasi ini, ada satu modifikasi pada algoritma untuk lebih mengacak pilihan fitur di setiap simpul, yang dapat membuat set pohon yang Anda pelajari menjadi lebih berbeda satu sama lain. Jadi ketika Anda memilih untuk memberikan suara, Anda akan mendapatkan prediksi yang lebih akurat.

![image-2.png](attachment:image-2.png)

### Teknik Acak dalam Pemilihan Fitur

- Cara ini biasanya dilakukan adalah dengan memilih fitur untuk digunakan untuk pemisahan. Jika ada N fitur yang tersedia, dalam contoh kita, kita memiliki tiga fitur yang tersedia. Alih-alih memilih dari semua N fitur, kita akan memilih subset acak dari K fitur yang kurang dari N. 

- Kemudian, algoritma hanya akan memilih dari subset K fitur tersebut. Dengan kata lain, Anda akan memilih K fitur sebagai fitur yang diizinkan, lalu dari K fitur tersebut memilih yang memiliki informasi gain tertinggi sebagai pilihan fitur untuk digunakan untuk pemisahan.

- Ketika N besar, katakanlah N adalah puluhan atau bahkan ratusan, pilihan tipikal untuk nilai K adalah memilih K menjadi akar kuadrat dari N. Dalam contoh kita yang hanya memiliki tiga fitur, teknik ini cenderung lebih digunakan untuk masalah yang lebih besar dengan jumlah fitur yang lebih besar.

## Kesimpulan

Dengan mengubah algoritma, Anda akan mendapatkan algoritma **Random Forest** yang biasanya bekerja jauh lebih baik dan menjadi jauh lebih robust dibandingkan hanya dengan satu pohon keputusan. Salah satu cara untuk memikirkan mengapa algoritma ini lebih robust daripada satu pohon keputusan adalah bahwa prosedur sampling dengan penggantian menyebabkan algoritma mengeksplorasi banyak perubahan kecil pada data yang sudah ada dan melatih pohon keputusan yang berbeda, serta merata-ratakan semua perubahan tersebut.

Sebelum mengakhiri video ini, saya ingin berbagi satu pemikiran lagi dengan Anda: Di mana seorang insinyur pembelajaran mesin pergi berkemah? Di **random forest**. Oke, ceritakan lelucon itu kepada teman-teman Anda. Saya harap Anda menikmatinya. Random Forest adalah algoritma yang efektif, dan saya harap Anda dapat menggunakannya dengan lebih baik dalam pekerjaan Anda.

## Algoritma Lanjutan

Selain Random Forest, ternyata ada satu algoritma lain yang bekerja bahkan lebih baik, yaitu **boosted decision tree**. Di video berikutnya, mari kita bahas algoritma boosted decision tree yang disebut **XGBoost**.
