# 09 Mengenal Categorical Encoding:  Label Encoding & One Hot Encoding 

Mempelajari dua macam categorical encoding yang umum ditemui dalam bidang machine learning yaitu "Label Encoding" dan "One Hot Encoding".

## Categori Encoding

Secara umum, suatu dataset akan terbentuk dari kombinasi nilai numerical dan categorical, hanya saja komputer atau mesin memiliki keterbatasan. Dimana pada dasarnya, komputer hanya dapat memahami angka atau numerikal dan tidak dapat memahami teks atau categorical. Oleh karenanya, kita butuh untuk melakukan konversi nilai categorical tersebut menjadi nilai numerikal agar algoritma machine learning dapat memahaminya dengan baik.

Proses konversi nilai categorical menjadi nilai numerikal tersebut dikenal dengan istilah "Categorical Encoding".

Dalam bidang machine learning terdapat banyak jenis categorical encoding dan dua yang paling populer yaitu :

- Label Encoding
- One Hot Encoding

## Label Encoding

Pada Label Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan dengan sebuah nilai integer.

### Sample Dataset

In [20]:
import pandas as pd

df = pd.DataFrame({
    'country': ['Indonesia', 'Canada', 'Japan', 'Belgia', 'Korea'],
    'age': [25, 44, 56, 35, 23],
    'salary': [62000, 75000, 98000, 85000, 64000]
})

df

Unnamed: 0,country,age,salary
0,Indonesia,25,62000
1,Canada,44,75000
2,Japan,56,98000
3,Belgia,35,85000
4,Korea,23,64000


Dataset tersebut terbentuk menjadi 3 case yang akan merepresentasikan 3 buah kolom, yaitu country, age, dan salary. Case tersebut akan berisi nilai yang berasosiasi dengan key tersebut. Kemudian dictionary tersebut akan ditampung dalam variabel objek df untuk selanjutnya dapat ditampilkan hasilnya.

Output yang keluar terdapat tiga buah kolom pada DataFrame kali ini yaitu "country", "age", serta "salary" yang dari ketiga kolom tersebut terdapat sebuah kolom dengan nilai categorical yaitu kolom "country" yang akan kita terapkan label encoding terhadap kolom tersebut.

karena kolom country merupakan kolom String

### Label Encoding pada Scikit Learn

In [21]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,2,25,62000
1,1,44,75000
2,3,56,98000
3,0,35,85000
4,4,23,64000


Untuk menerapkan label encoding dengan SkLearn caranya sebagai berikut :

1. Pertama-tama, lakukan import modul dengan memanggil "from sklearn.preprocessing import LabelEncoder".
2. Lalu selanjutnya, bentuk objek dari class "LabelEncoder()" yang akan ditampung kedalam variabel "label_encoder".
3. Berikutnya, "label_encoder" tersebut akan digunakan untuk melakukan fit transform terhadap kolom "country" dari dataframe dengan memanggil "label_encoder.fit_transform(df['country'])" yang hasil tranformasinya akan ditampung kembali kedalam kolom country dengan memanggil "df['country] =".
4. Selanjutnya tampilkan nilai dfnya pada layar.

Berdasarkan output yang keluar bisa dilihat perbedaan sebelum dataset dikenakan dan dikenakan pada label encoding. lalu sebelum label encoding nya diterapkan, kolom "country" tersebut berisi data text. Sedangkan setelah label encodingnya diterapkan, kolom "country" tersebut menjadi data numerik.

Untuk memahami mengapa nilai-nilai tersebut bisa berubah menjadi dari categorical menjadi numerik seperti dalam kasus tersebut makai. Untuk memahami hal tersebut maka Kita coba menggunakan classes

In [22]:
label_encoder.classes_

array(['Belgia', 'Canada', 'Indonesia', 'Japan', 'Korea'], dtype=object)

Untuk mengetahui proses perubahan teks menjadi nilai numerik pada country. Hasilnya merupakan kumpulan class atau kategori dari label encoding yang dilakukan. 

Berdasarkan hasil Output yang keluar pengurutannya berdasarkan Alphabet dan perhitungannya yaitu 'Belgia' = 0, 'Canada' = 1, 'Indonesia' = 2, 'Japan' = 3, 'Korea' = 4

Pada Label Encoding ini ada kelemahanan salah satu kelemahan dasar dari label encoding ini. Jika diperhatikan, kategori atau label negara akan diurutkan secara alphabet. Oleh karena itu dengan representasi nilai semacam ini, beberapa algoritma machine learning bisa saja menarik hubungan bahwa Indonesia bernilai lebih kecil dari Japan, dan Japan bernilai lebih kecil dari Korea dan kondisi semecam ini tentunya tidak diharapkan. Untuk mengantisipasi kondisi tersebut, maka kita akan mempelajari jenis categorical encoding yang kedua.

## One Hot Encoding

Jenis categorical encoding kedua yaitu "One Hot Encoding". Pada One Hot Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan sebagai sekumpulan bits.

### Dataset

In [23]:
df = pd.DataFrame({
    'country': ['Indonesia', 'Canada', 'Japan', 'Belgia', 'Korea'],
    'age': [25, 44, 56, 35, 23],
    'salary': [62000, 75000, 98000, 85000, 64000]
})

df

Unnamed: 0,country,age,salary
0,Indonesia,25,62000
1,Canada,44,75000
2,Japan,56,98000
3,Belgia,35,85000
4,Korea,23,64000


Sama dengan dataset yang sebelumnya pada label encoding kemudian akan menerapkan one hot encoding pada kolom country.

### One Hot Encoding pada Scikit Learn

In [24]:
X = df['country'].values.reshape(-1,1)
X

array([['Indonesia'],
       ['Canada'],
       ['Japan'],
       ['Belgia'],
       ['Korea']], dtype=object)

1. kita akan isolasi terlebih dahulu sekumpulan nilai dari kolom "country" tersebut. Dimana sekumpuan nilai tersebut akan kita konversikan menjadi sebuah array dengan memanggil "df['country'].values.reshape(-1,1)".
2. Lalu nilai array tersebut akan kita tampung kedalam variabel X.
3. Selanjutnya kita akan coba tampilkan ke layar.

Kita butuh untuk melakukan reshape(-1,1) karena sekumpulan nilai output tersebut akan kita perlakukan sebagai nilai feature, dimana nilai feature dalam sklearn itu diharapkan ditampung dalam suatu array dua dimensi.

intinya

Mengisolasi sekumpulan nilai menjadi array dengan memanggil df['country'].values.reshape(-1,1) yang akan ditampung pada variabel X yang kemudian akan ditampilkan hasilnya. 

In [25]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray()
X

array([[0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1.]])

1. Untuk menerapkan one hot encoding deng sklearn, pertama-tama kita perlu mengimport terlebih dahulu modulnya dengan memanggil "from sklearn.preprocessing import OneHotEncoder".
2. Lalu selanjutnya kita akan membentuk objek dari class one hot encoder ini "OneHotEncoder()" yang akan kita tampung kedalam variabel "onehot_encoder".
3. Berikutnya, objek tersebut akan kita gunakan untuk melakukan fit transform terhadap X yang kita tahu X nya disini berupa array yang menampung sekumpulan nilai features "country".
4. Lalu berikutnya, hasil tranformasinya akan kita konversikan mennjadi suatu array untuk kemudian kita tampung kembali kedalam variabel "X".
5. Terkahir kita akan coba tampilkan hasilnya pada layar.

Import modul dengan memanggil from sklearn.preprocessing import OneHotEncoder kemudian membentuk kelas OneHotEncoder() yang akan ditampung ke dalam variabel onehot_encoder. Objek tersebut akan dilakukan fit transform yang hasilnya akan menjadi array yang akan ditampung pada variabel X.

In [26]:
onehot_encoder.categories_

[array(['Belgia', 'Canada', 'Indonesia', 'Japan', 'Korea'], dtype=object)]

Menampilkan hasil array country yang sudah diurutkan secara alfabet, yaitu 'Belgia', 'Canada', 'Indonesia', 'Japan', dan 'Korea' Karena merepresentasikan 6 negara, maka tiap negara akan direpresentasikan dengan bits 5 digit. 

In [27]:
df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2,3,4
0,0.0,0.0,1.0,0.0,0.0
1,0.0,1.0,0.0,0.0,0.0
2,0.0,0.0,0.0,1.0,0.0
3,1.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,1.0


Memanggil pd.DataFrame yang artinya akan membentuk objek data frame di mana objeknya akan dibentuk dari sekumpulan nilai yang ditampung oleh X 

In [28]:
df = pd.concat([df_onehot, df], axis=1)
df

Unnamed: 0,0,1,2,3,4,country,age,salary
0,0.0,0.0,1.0,0.0,0.0,Indonesia,25,62000
1,0.0,1.0,0.0,0.0,0.0,Canada,44,75000
2,0.0,0.0,0.0,1.0,0.0,Japan,56,98000
3,1.0,0.0,0.0,0.0,0.0,Belgia,35,85000
4,0.0,0.0,0.0,0.0,1.0,Korea,23,64000


1. Untuk kebutuhan semacam ini caranya cukup mudah, kita hanya tinggal memanggil "pd.concat" lalu kita masukkan suatu list yang berisi "df_onehot" dan "df".
2. Lalu kita sertakan parameter axis yang bernilai 1.
3. Parameter axis kita beri nilai 1 karena proses concatnya akan kita lakukan site by site atau saling berdampingan.
4. Lalu kita akan coba tampilkan pada layar.

Bisa dilihat hasil outputnya ada tiga buah kolom baru yang terbentuk dari proses one hot encoding.

Lalu tahapan berikutnya, karena kolom "country" ini sudah kita representasikan dengan menggunakan one hot encoding semacam ini, maka kolom "country" nya bisa kita drop dengan cara memanggil "df.drop" lalu kita masukan suatu list yang berisi string country serta menyertakan parameter axisnya dengan nilai satu.

Memanggil pd.concat untuk menggabungkan dengan data frame sebelumnya yang akan disertakan parameter axis yang diberi nilai 1. 

In [29]:
df = df.drop(['country'], axis=1)
df

Unnamed: 0,0,1,2,3,4,age,salary
0,0.0,0.0,1.0,0.0,0.0,25,62000
1,0.0,1.0,0.0,0.0,0.0,44,75000
2,0.0,0.0,0.0,1.0,0.0,56,98000
3,1.0,0.0,0.0,0.0,0.0,35,85000
4,0.0,0.0,0.0,0.0,1.0,23,64000


Memanggil df.drop dan memasukkan list dengan string country dengan menyertakan parameter axis yang bernilai 1 kemudian ditampung pada variabel df yang akan menampilkan hasil final dari one hot encoding.

# Label Encoding vs One Hot Encoding

Kita menerapkan One Hot Encoding bila:

- Nilai categorical adalah nominal
- Jumlah kategori yang ada tidak terlalu banyak

Kita menerapkan Label Encoding bila:

- Nilai categorical adalah ordinal
- Jumlah kategori yang ada relatif banyak