# Mengenal Categorical Encoding: Label Encoding & One Hot Encoding

## Apa itu Categorical Encoding?

Categorical Encoding adalah proses konversi nilai categorical menjadi nilai numerical.

Terdapat banyak jenis Categorical Encoding, dua di antaranya adalah:

- Label Encoding
- One Hot Encoding

Referensi: https://en.wikipedia.org/wiki/One-hot

## Label Encoding

Pada Label Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan dengan sebuah nilai integer.

### Dataset

In [1]:
import pandas as pd

df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


- Terdapat 3 buah keys yang akan merepresentasikan 3 buah kolom ('country', 'age', 'salary')
- variabel df menampung objek dataframe 
- kolom country merupakan nilai category count

### Label Encoding pada Scikit Learn

In [2]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,0,44,72000
1,2,34,65000
2,1,46,98000
3,2,35,45000
4,1,23,34000


- variabel label_encoder menampungg objek LabelEncoder()
- LabelEncoder() akan digunakan untuk proses fit transform terhadap kolom country
- Hasil fit transform akan ditampung kedalam kolom country 

In [3]:
label_encoder.classes_

array(['India', 'Japan', 'US'], dtype=object)

- India akan direpresentasikan sebagai integer 0
- Japan akan direpresentasikan sebagai integer 1
- US akan direpresentasikan sebagai integer 2

## One Hot Encoding

Pada One Hot Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan sebagai sekumpulan bits.

### Dataset

In [4]:
df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


### One Hot Encoding pada Scikit Learn

In [5]:
X = df['country'].values.reshape(-1,1)
X

array([['India'],
       ['US'],
       ['Japan'],
       ['US'],
       ['Japan']], dtype=object)

- reshape(-1,1) digunakan karena sekumpulan nilai akan digunakan sebagai features
- df['country'].values.reshape(-1,1) untuk mengkoversikan menjadi sebuah array
- variabel X menampung nilai array

In [6]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray()
X

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

- Variabel onehot_encoder menampung objek OneHotEncoder()
- OneHotEncoder() akan digunakan untuk proses fit transform terhadap X
- Hasil fit transform akan dikonversikan menjadi array dan kemudian ditampung kedalam variabel X

In [7]:
onehot_encoder.categories_

[array(['India', 'Japan', 'US'], dtype=object)]

- Karena jumlah negara nya 3 maka untuk setiap negaranya akan direpresentasikan dengan 3 digit
- India akan direpresentasikan dengan bits 3 digit, dimana pada digit pertama nya akan bernilai 1
- Japan akan direpresentasikan dengan bits 3 digit, dimana pada digit ke dua nya akan bernilai 1
- US akan direpresentasikan dengan bits 3 digit, dimana pada digit ke tiga nya akan bernilai 1

In [8]:
df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,0.0,1.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,0.0


- Membentuk suatu objek dataframe, dimana objeknya akan dibentuk dari sekumpulan nilai yang ditampung oleh X
- Variabel df_onehot menampung Objek dataframe

In [9]:
df = pd.concat([df_onehot, df], axis=1)
df

Unnamed: 0,0,1,2,country,age,salary
0,1.0,0.0,0.0,India,44,72000
1,0.0,0.0,1.0,US,34,65000
2,0.0,1.0,0.0,Japan,46,98000
3,0.0,0.0,1.0,US,35,45000
4,0.0,1.0,0.0,Japan,23,34000


- untuk menggabungkan df_oneshot dan df menggunakan pd.concat([df_onehot, df], axis=1)
- axis = 1 karena proses concatnya akan dilakukan side by side
- India direpresentasikan dengan 1 0 0
- US direpresntasikan dengan 0 0 1
- Japan direpresentasikan dengan 0 1 0

In [10]:
df = df.drop(['country'], axis=1)
df

Unnamed: 0,0,1,2,age,salary
0,1.0,0.0,0.0,44,72000
1,0.0,0.0,1.0,34,65000
2,0.0,1.0,0.0,46,98000
3,0.0,0.0,1.0,35,45000
4,0.0,1.0,0.0,23,34000


df.drop(['country'], axis=1) untuk mengdrop kolom country

## Label Encoding vs One Hot Encoding

Kita menerapkan One Hot Encoding bila:

- Nilai categorical adalah nominal
- Jumlah kategori yang ada tidak terlalu banyak

Kita menerapkan Label Encoding bila:

- Nilai categorical adalah ordinal
- Jumlah kategori yang ada relatif banyak