### Mengenal Categorial Encoding : Label Encoding & One Hot Encoding

Categorial Encoding asalah proses konversi nilai categorical menjadi nilai numerical agar algoritma machine learning memahami dengan baik. Ada banyak jenis Categorial Encoding, 2 contoh jenis Categorial Encoding dalam machine learning yang akan dibahas, yaitu label encoding dan one hot encoding. 

### Label Encoding

Setiap kategori pada suatu feature akan diurutkan secara alfabet dan akan direpresentasikan dengan sebuah nilai integer.

#### Dataset

In [2]:
import pandas as pd

df = pd.DataFrame({
    'country' : ['India', 'US', 'Japan', 'US', 'Japan'],
    'age' : [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


Import pandas as pd karena datasetnya menggunakan pandas. Kemudian dataset tersebut terbentuk menjadi 3 case yang akan merepresentasikan 3 buah kolom, yaitu country, age, dan salary. Case tersebut akan berisi nilai yang ajan berasosiasi dengan key tersebut. Kemudian dictionary tersebut akan ditampung dalam variabel objek df untuk selanjutnya dapat ditampilkan hasilnya. Terdapat 3 buah kolom, country, age, dan salary. Dari ke 3 kolom tersebut terdapat nilai categorical, yaitu pada kolom country.

### Label Encoding pasa Scikirt Learn

In [4]:
from sklearn.preprocessing import LabelEncoder 

label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,0,44,72000
1,2,34,65000
2,1,46,98000
3,2,35,45000
4,1,23,34000


Import module from sklearn.preprocessing import LabelEncoder lalu selanjutnya akan membentuk kelas dari label encodernya yang akan ditampung dalam variabel label_encoder = LabelEncoder(). Selanjutnta label_encoder tersebut akan digunakan untuk melakukan fit transform dari tabel country yang dimiliki dengan cara memanggil label_encoder.fit_transform(df['country']) yang akan ditampung pada variabel df['country'], lalu kemudian akan menampilkan nilai df nya.


Setelah label encoding diterapkan maka data country yang sebelumnya berupa teks berubah menjadi numerik. 


In [5]:
label_encoder.classes_

array([0, 1, 2])

Untuk mengetahui proses perubahan teks menjadi nilai numerik pada country. Hasilnya merupakan kumpulan class atau kategori dari label encoding yang kita lakukan. 

*Kelemahan Label Encoding adalah direpresentasikan secara alfabet, dalam kasus ini adalah India yang direpresentasikan dengan integer 0, Japan direpresentasikan dengan integer 1, dan US direpresentasikan dengan integer 2. Dengan reperesentasi semacam itu bisa juga menarik hubungan bahwa India bernilai lebih kecil dari yang lain, padahal tidak seperti itu.*

### One Hot Encoding

Setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan sebagai kumpulan bits. 

#### Dataset

In [6]:
df = pd.DataFrame({
    'country' : ['India', 'US', 'Japan', 'US', 'Japan'],
    'age' : [44, 34, 46, 35, 23],
    'salary' : [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


Siapkan dataset terlebih dahulu, sama persis dengan dataset yang sebelumnya pada label encoding kemudian akan menerapkan one hot encoding pada kolom country.


### One Hot Encoding pada Sckit Learn

In [7]:
X = df['country'].values.reshape(-1,1)
X

array([['India'],
       ['US'],
       ['Japan'],
       ['US'],
       ['Japan']], dtype=object)

Mengisolasi sekumpulan nilai menjadi array dengan memanggil df['country'].values.reshape(-1,1) yang akan ditampung pada variabel X yang kemudian akan ditampilkan hasilnya. Penggunaan reshape adalah karena sekumpulan nilai tersebut akan disebut sebagai nilai feature. 

In [8]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray()
X

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

Import modul dengan memanggil from sklearn.preprocessing import OneHotEncoder kemudian membentuk kelas OneHotEncoder() yang akan ditampung ke dalam variabel onehot_encoder. Selanjutnya objek tersebut akan dilakukan fit transform yang hasilnya akan menjadi array yang akan ditampung pada variabel X.

In [9]:
onehot_encoder.categories_

[array(['India', 'Japan', 'US'], dtype=object)]

Menampilkan hasil array country yang sudah diurutkan secara alfabet, yaitu India, Japan, dan US. Karena merepresentasikan 3 negara, maka tiap negara akan direpresentasikan dengan bits 3 digit. India merupakan negara pertama, Japan negara kedua, dan US merupakan negara ketiga yang artinya India akan memiliki bits 3 digit di mana digit pertamanya akan bernilai 1, Japan yang merupakan negara kedua akan direpresentasikan dengan bits 3 digit di mana digit ke2nya akan bernilai 1, dan untuk US dengan posisi negara ketiga yang akan direpresentasikan dengan bits 3 digit di mana pada digit ke3nya akan bernilai 1.

In [10]:
df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,0.0,1.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,0.0


Memanggil pd.DataFrame yang artinya akan membentuk objek data frame di mana objeknya akan dibentuk dari sekumpulan nilai yang ditampung oleh X yang selanjutnya juga akan merepresentasikan kolom yang akan ditampung dalam variabel df_onehot.

In [11]:
df = pd.concat([df_onehot, df], axis=1)
df

Unnamed: 0,0,1,2,country,age,salary
0,1.0,0.0,0.0,India,44,72000
1,0.0,0.0,1.0,US,34,65000
2,0.0,1.0,0.0,Japan,46,98000
3,0.0,0.0,1.0,US,35,45000
4,0.0,1.0,0.0,Japan,23,34000


Memanggil pd.concat untuk menggabungkan dengan data frame sebelumnya yang akan disertakan parameter axis yang diberi nilai 1. Parameter axis ini diberi nilai 1 karena proses concat nya akan dilakukan secara bertahap atau saling berdampingan. 

In [12]:
df = df.drop(['country'], axis=1)
df

Unnamed: 0,0,1,2,age,salary
0,1.0,0.0,0.0,44,72000
1,0.0,0.0,1.0,34,65000
2,0.0,1.0,0.0,46,98000
3,0.0,0.0,1.0,35,45000
4,0.0,1.0,0.0,23,34000


Memanggil df.drop dan memasukkan list dengan string country dengan menyertakan parameter axis yang bernilai 1 kemudian ditampung pada variabel df yang akan menampilkan hasil final dari one hot encoding.

### Label Encoding vs One Hot Encoding

#### One Hot Encoding diterapkan apabila :
- Nilai categorical adalah nominal
- Jumlah kategori yang ada tidak terlalu banyak

#### Label Encoding diterapkan apabila :
- Nilai categorical adalah ordinal
- Jumlah kategori yabg ada relatif banyak

## Sumber :  https://www.youtube.com/watch?v=WWbyYFPHDH8 