# 09 Mengenal Categorical Encoding: Label Encoding & One Hot Encoding
## Apa itu Categorical Encoding?
Categorical Encoding adalah proses konversi nilai categorical menjadi nilai numerical.

Terdapat banyak jenis Categorical Encoding, dua di antaranya adalah:

* Label Encoding
* One Hot Encoding

Referensi: https://en.wikipedia.org/wiki/One-hot

## Label Encoding
Pada Label Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan dengan sebuah nilai integer.

### Dataset

In [1]:
import pandas as pd

df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


Code diatas adalah dataset dalam format pandas dataframe, lalu dataframe ini akan dibentuk dari suatu dictionary dan terdapat 3 buah keys yang akan merepresentasikan 3 buah kolom yaitu country, age, dan salary. Lalu dictionary berikut akan digunakan sebagai basis untuk membentuk objek dataframe dan objek dataframe nya akan ditampung kedalam variable df.

Pada hasil output terdapat sebuah kolom dengan nilai categorical yaitu kolom country dan akan diterapkan label encoding pada kolom tersebut.

### Label Encoding pada Scikit Learn

In [2]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,0,44,72000
1,2,34,65000
2,1,46,98000
3,2,35,45000
4,1,23,34000


Pada hasil output sebelum encoding diterapkan, kolom country ini berisi data teks sedangkan setelah label encoding nya diterapkan, kolom country ini berisi data numerik.

In [3]:
label_encoder.classes_

array(['India', 'Japan', 'US'], dtype=object)

Diatas merupakan kumpulan kelas atau kumpulan kategori yang menjadi acuan dari label encoder. Dan dari ketiga kategori atau label negara ini diurutkan secara alfabet yang berarti, india menempati posisi indeks ke 0, japan menempati posisi indeks ke 1, dan US menempati posisi indeks ke 2.

Salah satu kelemahan dasar dari label encoding ini adalah kategori atau label negara akan diurutkan secara alfabet oleh karena itu beberapa algoritma machine learning bisa saja menarik hubungan bahwa India bernilai lebih kecil dari Japan dan Japan bernilai lebih kecil dari US. Dan kondisi semacam ini tentunya tidak bisa diharapkan, untuk mengantisipasi kondisi semacam ini maka diperlukan jenis categorical encoding yang kedua.

## One Hot Encoding
Pada One Hot Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan sebagai sekumpulan bits.

### Dataset

In [4]:
df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


Pertama mempersiapkan dataset terlebih dahulu

### One Hot Encoding pada Scikit Learn

In [5]:
X = df['country'].values.reshape(-1,1)
X

array([['India'],
       ['US'],
       ['Japan'],
       ['US'],
       ['Japan']], dtype=object)

Sebagai persiapan pertama diperlukan isolasi terlebih dahulu sekumpulan nilai dari kolom country ini, dimana sekumpulan nilai ini akan dikonversikan menjadi sebuah array.

Code diatas menggunakan reshape dikarenakan sekumpulan nilai ini akan diperlakukan sebagai nilai features, dimana nilai features di scikit learn itu diharapkan untuk ditampung kedalam suatu array 2 dimensi, oleh karenanya diatas perlu melakukan reshape dengan menggunakan parameter (-1,1).

In [6]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray()
X

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

Hasil output diatas merupakan hasil dari one hot encoding

In [7]:
onehot_encoder.categories_

[array(['India', 'Japan', 'US'], dtype=object)]

Pada hasil output diatas terdapat 3 negara maka untuk tiap negaranya akan direpresentasikan dengan bits 3 digit, dan bisa dilihat India merupakan negara pertama, Japan merupakan negara kedua, dan US merupakan negara ketiga. Artinya disini: 

India akan memiliki representasi bits 3 digit, dimana digit pertamanya akan bernilai 1, nah ini merupakan representasi untuk India. 

Lalu berikutnya karena Japan merupakan negara kedua maka Japan akan direpresentasikan dengan bits 3 digit dimana digit keduanya akan bernilai 1 nah ini merupakan representasi dari Japan

Lalu untuk US karena US merupakan negara ketiga maka US akan direpresentasikan dengan bits 3 digit dimana pada digit ketiganya akan bernilai 1.

In [8]:
df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,0.0,1.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,0.0


Pada hasil output diatas merupakan representasi dari dataframe nya. Selanjutnya dataframe ini akan digabungkan dengan dataframe sebelumnya

In [9]:
df = pd.concat([df_onehot, df], axis=1)
df

Unnamed: 0,0,1,2,country,age,salary
0,1.0,0.0,0.0,India,44,72000
1,0.0,0.0,1.0,US,34,65000
2,0.0,1.0,0.0,Japan,46,98000
3,0.0,0.0,1.0,US,35,45000
4,0.0,1.0,0.0,Japan,23,34000


Pada hasil output diatas terdapat 3 buah kolom baru yang terbentuk dari proses one hot encoding dan pada tabelnya terlihat semakin jelas bahwa India direpresentasikan dengan *1 0 0* lalu US direpresentasikan dengan *0 0 1* dan Japan direpresentasikan dengan *0 1 0*. Dan yang perlu diperhatikakn adalah setiap digit dari bits nya itu ditempatkan dalam kolom yang terpisah.

In [10]:
df = df.drop(['country'], axis=1)
df

Unnamed: 0,0,1,2,age,salary
0,1.0,0.0,0.0,44,72000
1,0.0,0.0,1.0,34,65000
2,0.0,1.0,0.0,46,98000
3,0.0,0.0,1.0,35,45000
4,0.0,1.0,0.0,23,34000


Lalu karena kolom country ini sudah direpresentasikan dengan menggunakan one hot encoding maka kolom country nya bisa di drop caranya dengan melakukan pemanggilan df.drop lalu masukkan suatu list yang berisi string country dan juga disertakan parameter axis nya adalah 1.

Dan pada hasil output diatas merupakan hasil final dari proses one hot encoding dan ini merupakan penerapan dari one hot encoding dengan scikit learn.

## Label Encoding vs One Hot Encoding
Kita menerapkan One Hot Encoding bila:

* Nilai categorical adalah nominal
* Jumlah kategori yang ada tidak terlalu banyak

Kita menerapkan Label Encoding bila:

* Nilai categorical adalah ordinal
* Jumlah kategori yang ada relatif banyak