# Menggunakan One-Hot Encoding untuk Fitur Diskrit

## Pendahuluan

Dalam contoh yang telah kita lihat sejauh ini, masing-masing fitur hanya dapat mengambil salah satu dari dua nilai yang mungkin. Bentuk telinga bisa saja runcing atau floppy, bentuk wajah bisa bulat atau tidak bulat, dan kumis bisa hadir atau tidak hadir. Namun, bagaimana jika kita memiliki fitur yang dapat mengambil lebih dari dua nilai diskrit? Dalam video ini, kita akan melihat bagaimana kita bisa menggunakan **one-hot encoding** untuk menangani fitur seperti itu.

## Set Pelatihan Baru

Berikut adalah set pelatihan baru untuk aplikasi pusat adopsi hewan peliharaan kita, di mana semua data sama kecuali untuk fitur bentuk telinga. Sekarang, selain bentuk telinga hanya menjadi runcing dan floppy, ia juga bisa berbentuk oval. Dengan demikian, fitur awal masih merupakan fitur nilai kategorikal, tetapi kini dapat mengambil tiga nilai yang mungkin.

### Pembagian Fitur

Ketika kita membagi fitur ini, kita akan membuat tiga subset dari data dan membangun tiga cabang untuk pohon ini. Namun, saya ingin menjelaskan cara lain untuk menangani fitur yang dapat mengambil lebih dari dua nilai, yaitu dengan menggunakan **one-hot encoding**. 

Alih-alih menggunakan fitur bentuk telinga yang dapat mengambil salah satu dari tiga nilai yang mungkin, kita akan membuat tiga fitur baru:
1. **Apakah hewan ini memiliki telinga runcing?**
2. **Apakah hewan ini memiliki telinga floppy?**
3. **Apakah hewan ini memiliki telinga oval?**

### Contoh Penerapan

- Untuk contoh pertama, di mana sebelumnya kita memiliki bentuk telinga sebagai runcing, sekarang kita akan menyatakan bahwa hewan ini memiliki nilai 1 untuk fitur telinga runcing, dan 0 untuk floppy dan oval.
- Untuk contoh kedua, di mana sebelumnya kita menyatakan bahwa hewan ini memiliki telinga oval, sekarang kita akan menyatakan bahwa nilai untuk telinga runcing adalah 0 (karena tidak memiliki telinga runcing), nilai untuk telinga floppy juga 0, dan nilai untuk telinga oval adalah 1.

![image.png](attachment:image.png)

### Penggantian Fitur

Dengan cara ini, kita telah membangun tiga fitur baru, masing-masing hanya dapat mengambil salah satu dari dua nilai yang mungkin: 0 atau 1. 

### Detail One-Hot Encoding

![image-2.png](attachment:image-2.png)

Jika fitur kategorikal dapat mengambil k nilai yang mungkin (dalam contoh kita, k adalah 3), maka kita akan menggantinya dengan membuat k fitur biner yang hanya dapat mengambil nilai 0 atau 1. Di antara ketiga fitur ini, jika kita melihat baris mana pun, tepat 1 dari nilai tersebut akan sama dengan 1. Itulah yang memberi nama metode konstruksi fitur ini **one-hot encoding**. 

Karena salah satu fitur ini akan selalu mengambil nilai 1, itulah sebabnya fitur tersebut disebut "hot feature," sehingga dinamakan **one-hot encoding**.

### Kembali ke Pengaturan Awal

Dengan pilihan fitur ini, kita kembali ke pengaturan awal di mana setiap fitur hanya mengambil salah satu dari dua nilai yang mungkin. Dengan demikian, algoritma pembelajaran pohon keputusan yang telah kita lihat sebelumnya akan berlaku untuk data ini tanpa modifikasi lebih lanjut.

## Penerapan One-Hot Encoding pada Neural Networks

![image-3.png](attachment:image-3.png)

Meskipun materi minggu ini berfokus pada pelatihan model pohon keputusan, ide menggunakan one-hot encoding untuk mengkodekan fitur kategorikal juga bekerja untuk pelatihan **neural networks**. 

Misalnya, jika kita mengambil fitur bentuk wajah dan mengganti bulat dan tidak bulat dengan 1 dan 0, di mana bulat diberi nilai 1 dan tidak bulat diberi nilai 0, dan seterusnya. Untuk kumis, kita juga bisa mengganti keberadaan dengan 1 dan ketidakhadiran dengan 0.

### Fitur Kategorikal yang Tersedia

Kita telah mengambil semua fitur kategorikal yang kita miliki, di mana kita memiliki tiga nilai mungkin untuk bentuk telinga, dua untuk bentuk wajah, dan satu untuk kumis, dan mengkodekannya sebagai daftar lima fitur ini. Tiga dari one-hot encoding bentuk telinga, satu dari bentuk wajah, dan satu dari kumis. 

Daftar lima fitur ini juga dapat digunakan sebagai input untuk **neural network** atau **regresi logistik** untuk mencoba melatih klasifikator kucing.

## Kesimpulan

One-hot encoding adalah teknik yang tidak hanya bekerja untuk pembelajaran pohon keputusan tetapi juga memungkinkan Anda mengkodekan fitur kategorikal menggunakan angka 1 dan 0, sehingga dapat diberikan sebagai input ke **neural network** yang mengharapkan angka sebagai input.

Dengan menggunakan one-hot encoding, Anda dapat membuat pohon keputusan bekerja pada fitur yang dapat mengambil lebih dari dua nilai diskrit. Anda juga dapat menerapkan ini pada **neural networks** atau pelatihan regresi linier atau regresi logistik.

## Menghadapi Fitur Kontinu

Namun, bagaimana dengan fitur yang berupa angka dan dapat mengambil nilai apa pun, bukan hanya sejumlah kecil nilai diskrit? Dalam video berikutnya, kita akan melihat bagaimana Anda dapat membuat pohon keputusan menangani fitur dengan nilai kontinu yang dapat berupa angka apa pun.
