# Mengenal Categorical Encoding : Label Encoding & One Hot Encoding

Dalam sesi pembelajaran kali ini, kita akan mempelajari dua macam categorical encoding yang umum ditemui dalam bidang machine learning yaitu "Label Encoding" dan "One Hot Encoding".

Materi yang akan kita pelajari pada sesi ini membutuhkan pengetahuan terkait tipe data dan level of measurement yang umum ditemui dalam idang statistika.

# Apa itu Categorical Encoding?

Secara umum, suatu dataset akan terbentuk dari kombinasi nilai numerical dan categorical, hanya saja komputer atau mesin memiliki keterbatasan. Dimana pada dasarnya, komputer hanya dapat memahami angka atau numerikal dan tidak dapat memahami teks atau categorical. Oleh karenanya, kita butuh untuk melakukan konversi nilai categorical tersebut menjadi nilai numerikal agar algoritma machine learning dapat memahaminya dengan baik.

Proses konversi nilai categorical menjadi nilai numerikal tersebut dikenal dengan istilah "Categorical Encoding". 

Dalam bidang machine learning terdapat banyak jenis categorical encoding dan dua yang paling populer 
 yaitu :
- Label Encoding
- One Hot Encoding

Referensi : https://en.wikipedia.org/wiki/One-hot.

# Label Encoding 

Disini kita akan mempelajarii "Label Encoding" terlebih dahulu.

Pada "Label Encoding", setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan dengan sebuah nilai integer.

# Dataset 

In [43]:
# Code 01

import pandas as pd

df = pd.DataFrame({
    'country' : ['India', 'US', 'Japan', 'US', 'Japan'],
    'age' : [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


Alur berpikir code 01 :
1. Pertama-tama kita akan siapkan sebuah dataset terlebih dahulu, yang dataset nya kita akan bentuk kedalam format pandas DataFrame dengan melakukan import modul pandas dengan memanggil "import pandas as pd".
2. Selanjutnya DataFrame tersebut kita akan bentuk dari suatu dictionary yang dalam kasus ini terdapat tiga buah keys yang akan merepresentasikan tiga buah kolom yaitu "country", "age", dan "salary' yang setiap key nya akan diisi value sekumpulan nilai yang berasosiasi dengan key tersebut.
3. Lalu selanjutnya, dictionary tersebut akan digunakan sebagia basis untuk membentuk objek DataFrame yang ditampung kedalam variabel "df".
4. Langkah terakhir kita akan coba tampilkan hasilnya.

Berdasarkan output 01, bisa dilihat terdapat tiga buah kolom pada DataFrame kita kali ini yaitu "country", "age", serta "salary" yang dari ketiga kolom tersebut terdapat sebuah kolom dengan nilai categorical yaitu kolom "country" yang akan kita terapkan label encoding terhadap kolom tersebut (lihat pada code 02).

# Label Encoding pada Scikit Learn 

In [44]:
# Code 02

from sklearn.preprocessing import LabelEncoder 

label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,0,44,72000
1,2,34,65000
2,1,46,98000
3,2,35,45000
4,1,23,34000


Untuk menerapkan label encoding dengan SkLearn caranya cukup mudah sebagai berikut :
1. Pertama-tama, kita akan melakukan import terlebih dahulu modulnya dengan memanggil "from sklearn.preprocessing import LabelEncoder".
2. Lalu selanjutnya, kita akan membentuk objek dari class "LabelEncoder()" yang akan kita tampung kedalam variabel "label_encoder".
3. Berikutnya, "label_encoder" tersebut akan kita gunakan untuk melakukan fit transform terhadap kolom "country" dari dataframe kita kali ini dengan memanggil "label_encoder.fit_transform(df['country'])" yang hasil tranformasinya akan kita tampung kembali kedalam kolom country dengan memanggil "df['country] =".
4. Selanjutnya kita akan tampilkan nilai dfnya pada layar.

Berdasarkan output code 02, kita bisa melihat perbedaan sebelum dataset dikenakan dan dikenakan pada label encoding. Sebelum label encoding nya diterapkan, kolom "country" tersebut berisi data text. Sedangkan setelah label encodingnya kita terapkan, kolom "country" tersebut menjadi data numerik.

Untuk memahami mengapa nilai-nilai tersebut bisa berubah menjadi dari categorical menjadi numerik seperti dalam kasus tersebut nilai "India" berubah menjadi 0, nilai "US" berubah menjadi 2, serta "Japan" berubah menjadi 1. Untuk memahami hal tersebut perhatikan pada code 03.

In [45]:
# Code 03

label_encoder.classes_

array(['India', 'Japan', 'US'], dtype=object)

Berdasarkan hasil output 03, kita bisa melihat kumpulan class atau kumpulan category yang menjadi acuan dari label encoder kita pada kasus ini. Bisa kita lihat bahwa terdapat tiga buah kategori negara yaitu "India", "Japan", dan "US" dan ketiga kategori atau label negara tersebut diurutkan secara alphabet, kita juga bisa mengetahui bahwa India menempati indeks ke-0, Japan menempati indeks ke-1, dan US menempati indek ke-2. Oleh karenanya, disini India akan direpresentasikan sebagai integer 0, Japan akan direpresentasikan sebagai integer 1, serta US akan direpresentasikan sebagai integer 2.

Sebelum kita melangkah pada jenis encoding kedua, ada salah satu kelemahan dasar dari label encoding ini. Jika kita perhatikan, kategori atau label negara akan diurutkan secara alphabet. Oleh karena itu, India direpresentasikan dengan integer 0, Japan direpresentasika dengan integer , dan US direpresentasikan dengan integer 2. Dengan representasi nilai semacam tersebut, beberapa algoritma machine learning bisa saja menarik hubungan bahwa India bernilai lebih kecil dari Japan, dan Japan bernilai lebih kecil dari US dan kondisi semecam ini tentunya tidak diharapkan. Untuk mengantisipasi kondisi tersebut, maka kita akan mempelajari jenis categorical encoding yang kedua.  

# One Hot Encoding

Jenis categorical encoding kedua yaitu "One Hot Encoding". Pada One Hot Encoding, setiap kategori pada suatu feature aka diurutkan secara alfabet dan direpresentasikan sebagai sekmpulan bits.

# Dataset

Pertama-tama kita akan siapkan dataset terlebih dahulu. Dan untuk kasus kita kali ini, kita juga akan menggunakan dataset yang sama persis dengan dataset yang kita gunakan sebelumnya.

In [46]:
# Code 04

df = pd.DataFrame({
    'country' : ['India', 'US', 'Japan', 'US', 'Japan'],
    'age' : [44, 34, 46, 35, 23],
    'salary' : [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


# One Hot Encoding pada Sckit Learn

Pada kali ini, kita akan terapkan one hot encoding pada kolom "country".

In [47]:
# Code 05

X = df['country'].values.reshape(-1,1)
X

array([['India'],
       ['US'],
       ['Japan'],
       ['US'],
       ['Japan']], dtype=object)

Alur berpikir code 05 :
1. Pertama-tama sebagai persiapan, kita akan isolasi terlebih dahulu sekumpulan nilai dari kolom "country" tersebut. Dimana sekumpuan nilai tersebut akan kita konversikan menjadi sebuah array dengan memanggil "df['country'].values.reshape(-1,1)". 
2. Lalu nilai array tersebut akan kita tampung kedalam variabel X.
3. Selanjutnya kita akan coba tampilkan ke layar.

Kita butuh untuk melakukan reshape(-1,1) karena sekumpulan nilai output tersebut akan kita perlakukan sebagai nilai feature, dimana nilai feature dalam sklearn itu diharapkan ditampung dalam suatu array dua dimensi.

In [48]:
# Code 06

from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray()
X

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

selanjutnya kita akan bersiap untuk menerapkan one hot encoding.

Alur berpikir code 06 :
1. Untuk menerapkan one hot encoding deng sklearn, pertama-tama kita perlu mengimport terlebih dahulu modulnya dengan memanggil "from sklearn.preprocessing import OneHotEncoder".
2. Lalu selanjutnya kita akan membentuk objek dari class one hot encoder ini "OneHotEncoder()" yang akan kita tampung kedalam variabel "onehot_encoder".
3. Berikutnya, objek tersebut akan kita gunakan untuk melakukan fit transform terhadap X yang kita tahu X nya disini berupa array yang menampung sekumpulan nilai features "country".
4. Lalu berikutnya, hasil tranformasinya akan kita konversikan mennjadi suatu array untuk kemudian kita tampung kembali kedalam variabel "X".
5. Terkahir kita akan coba tampilkan hasilnya pada layar.

Untuk memahami proses one hot encoding (berdasarkan hasil code 06) tersebut, kita perlu memanggil fungsi "onehot_encoder.categories_" (lihat pada code 07).

In [49]:
# Code 07

onehot_encoder.categories_

[array(['India', 'Japan', 'US'], dtype=object)]

- Berdasarkan hasil code 07, kita hadapkan pada sebuah array yang menampung sekumpulan nilai countries yang sudah diurutkan secara alphabetic dan bisa kita ketahui bahwa disini (hasil output 07) terdapat tiga kategori atau tiga label negara yaitu India, Japan, dan US. 
- Karena terdapat tiga negara, maka untuk tiap negaranya akan diprepresentasikan dengan bits tiga digit. 
- Disini kita bisa lihat bahwa India merupakan negara pertama, Japan merupakan negara kedua, dan US merupakan negara ketiga yang berarti India akan memiliki representasi bits tiga digit dimana digit pertamanya akan bernilai satu, Japan akan direpresentasikan dengan bits tiga digit diman digits keduanya akan bernilai satu.
- Lalu berikutnya US, karena US pada kasus tersebut merupakan negara dengan posisi ketiga, maka US aka direpresentasikan dengan bits tiga digit, dimana pada digits ketiganya akan bernilai satu.

Selanjutnya one hot encoding tersebut akan kita konversikan menjadi data frame.

In [50]:
# Code 08

df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,0.0,1.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,0.0


Alur berpikir code 08 :
1. Pertama, memanggil "pd.DataFrame" yang berarti kita akan membentuk suatu objek data frame dimana objeknya akan dibentuk dari sekumpulan nilai yang ditampung oleh X.
2. Selanjutnya, kita akan memspesifikasikan data kolom dari data frame kita.
3. Lalu objek data frame yang terbentuk tersebut akan ditampung ke dalam variabel "df_onehot".
4. Terakhir kita coba tampilkan pada layar.

Untuk selanjutnya, kita akan mencoba menggabungkan dengan data frame sebelumnya.

In [51]:
# Code 09

df = pd.concat([df_onehot, df], axis=1)
df

Unnamed: 0,0,1,2,country,age,salary
0,1.0,0.0,0.0,India,44,72000
1,0.0,0.0,1.0,US,34,65000
2,0.0,1.0,0.0,Japan,46,98000
3,0.0,0.0,1.0,US,35,45000
4,0.0,1.0,0.0,Japan,23,34000


Alur berpikir code 09 :
1. Untuk kebutuhan semacam ini caranya cukup mudah, kita hanya tinggal memanggil "pd.concat" lalu kita masukkan suatu list yang berisi "df_onehot" dan "df".
2. Lalu kita sertakan parameter axis yang bernilai 1.
3. Parameter axis kita beri nilai 1 karena proses concatnya akan kita lakukan site by site atau saling berdampingan.
4. Lalu kita akan coba tampilkan pada layar.

Bisa kita lihat pada hasil output code 09 erdapat tiga buah kolom baru yang terbentuk dari proses one hot encoding. Disini menjadi semakin jelas, India direpresentasikan dengan 1 0 0, lalu Us direpresentasikan dengan 0 0 1, dan Japan direpresentasikan dengan 0 1 0. Yang perlu diperhatikan disni adalah setiap digit dari bits nya itu ditempatkan dalam kolom yang terpisah.

Lalu tahapan berikutnya, karena kolom "country" ini sudah kita representasikan dengan menggunakan one hot encoding semacam ini, maka kolom "country" nya bisa kita drop dengan cara memanggil "df.drop" lalu kita masukan suatu list yang berisi string country serta menyertakan parameter axisnya dengan nilai satu (lihat pada code 10).

In [52]:
# Code 10

df = df.drop(['country'], axis=1)
df

Unnamed: 0,0,1,2,age,salary
0,1.0,0.0,0.0,44,72000
1,0.0,0.0,1.0,34,65000
2,0.0,1.0,0.0,46,98000
3,0.0,0.0,1.0,35,45000
4,0.0,1.0,0.0,23,34000


Hasil code 10 merupakan data frame final setelah kita melakukan proses one hot encoding dan ini merupakan penerapan dari one hot encoding dengan sklearn.

# Label Encoding vs One Hot Encoding

Sebenarnya pada saat kapan kita menerapka Label Encoding dan One Hot Encoding tergantung pada kasus yang kita hadapi. Tetapi, kita akan mencoba membuat guideline agar lebih mempermudah pemahaman kita.

Kita menerapkan One Hot Encoding bila :
- Nilai categorical adalah nominal.
- Jumlah kategori yang ada tidak terlalu banyak.

Kita menerapkan Label Encoding bila : 
- Nilai categorical adalah ordinal.
- Jumlah kategori yang ada realtif banyak.

Nominal dan ordinal merupakan level of measurement yang umum ditemui dalam bidang statistika.

Untuk pembelajaran lebih lengkapnya, jangan lupa kunjungi channel youtube Indonesia Belajar pada link berikut : https://www.youtube.com/watch?v=WWbyYFPHDH8 dan jangan lupa untuk like, comment, dan share.

# "Banyak Belajar, Biar Bisa Bantu Banyak Orang"

Written by : Clarence Code Pianist