# Mengenal Categorical Encoding: Label Encoding & One Hot Encoding
Rangkuman dan pembelajaran dikutip dari sumber: https://www.youtube.com/watch?v=WWbyYFPHDH8
## Apa itu Categorical Encoding?
Categorical Encoding adalah proses konversi nilai categorical menjadi nilai numerical.

Terdapat banyak jenis Categorical Encoding, dua di antaranya adalah:
- Label Encoding
- One Hot Encoding

Referensi: https://en.wikipedia.org/wiki/One-hot

## Label Encoding
Pada Label Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan dengan sebuah nilai integer.
### Dataset

In [1]:
import pandas as pd

df = pd.DataFrame({ # terdapat 3 buah keys
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


Dari 3 kolom terdapat sebuah kolom dengan nilai categorical yaitu kolom country.

### Label Encoding pada Scikit Learn

In [2]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,0,44,72000
1,2,34,65000
2,1,46,98000
3,2,35,45000
4,1,23,34000


Berikut kondisi setelah dikenakan label encoding. Setelah digunakan label encoding maka kolom country berisi data numerik.

Bagaimana bisa menentukan India sebagai 0, US sebagai 2 dan Japan sebagai 1? Berikut caranya.

In [3]:
label_encoder.classes_

array(['India', 'Japan', 'US'], dtype=object)

Berikut merupakan kumpulan kelas atau kumpulan kategori yang menjadi acuan dalam LabelEncoder. 3 kategori tersebut diurutkan secara alfabet, maka India menempati posisi index ke-0, Japan menempati posisi index ke-1, dan US menempati posisi index ke-2.

**Kelemahan dasar Label Encoding:**
-	Kategori atau label country diurutkan secara alfabet oleh karena itu India direpresentasikan dengan integer 0, Japan direpresentasikan dengan integer 1, dan US direpresentasikan dengan integer 2. Dengan merepresentasikan seperti ini, beberapa algoritma machine learning bisa saja menarik hubungan bahwa India bernilai lebih kecil dari Japan, Japan lebih kecil dari US.

## One Hot Encoding
Pada One Hot Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan sebagai sekumpulan bits.
### Dataset

In [4]:
df = pd.DataFrame({ # terdapat 3 buah keys
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


### One Hot Encoding pada Scikit Learn
Sekumpulan nilai country akan dikonversikan menjadi sebuah array (2 dimensi).

In [5]:
X = df['country'].values.reshape(-1,1)
X

array([['India'],
       ['US'],
       ['Japan'],
       ['US'],
       ['Japan']], dtype=object)

Mengapa diperlukan reshape? Karena sekumpulan nilai tersebut akan diperlakukan sebagai nilai features. 

In [6]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray() # hasil transform akan dikonversikan menjadi array
X

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

Untuk memahaminya maka dilakukan cara berikut.

In [7]:
onehot_encoder.categories_

[array(['India', 'Japan', 'US'], dtype=object)]

Berikut nilainya sudah diurutkan, dan karena terdapat 3 country maka untuk tiap country akan direpresentasikan dengan bits 3 digit. Artinya India akan merepresentasikan bits 3 digit di mana digit pertamanya akan bernilai 1. Japan akan direpresentasikan dengan bits 3 digit di mana digit keduanya akan bernilai 1, dan US akan direpresentasikan dengan bits 3 digit di mana digit ketiganya akan bernilai 1.

In [8]:
df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,0.0,1.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,0.0


Berikut representasi dataframe. Dan selanjutnya akan digabungkan dengan dataframe sebelumnya.

In [9]:
df = pd.concat([df_onehot, df], axis=1) # axis=1 karena proses concat akan dilakukan side by side (saling berdampingan)
df

Unnamed: 0,0,1,2,country,age,salary
0,1.0,0.0,0.0,India,44,72000
1,0.0,0.0,1.0,US,34,65000
2,0.0,1.0,0.0,Japan,46,98000
3,0.0,0.0,1.0,US,35,45000
4,0.0,1.0,0.0,Japan,23,34000


In [10]:
df = df.drop(['country'], axis=1)
df

Unnamed: 0,0,1,2,age,salary
0,1.0,0.0,0.0,44,72000
1,0.0,0.0,1.0,34,65000
2,0.0,1.0,0.0,46,98000
3,0.0,0.0,1.0,35,45000
4,0.0,1.0,0.0,23,34000


## Label Encoding vs One Hot Encoding
Kita menerapkan One Hot Encoding bila:

- Nilai categorical adalah nominal
- Jumlah kategori yang ada tidak terlalu banyak

Kita menerapkan Label Encoding bila:

- Nilai categorical adalah ordinal
- Jumlah kategori yang ada relatif banyak