# CATEGORICAL ENCODING : LABEL ENCODING & ONE HOT ENCODING

Sumber :
- https://www.youtube.com/watch?v=WWbyYFPHDH8&ab_channel=IndonesiaBelajar

## Pengertian Categorical Encoding

Categorical encoding adalah proses mengkonversi nilai categorical menjadi nilai numerical. 
Categorical encoding memiliki banyak jenis, tetapi 2 jenis yang akan dibahas adalah :
- Label Encoding 
- One Hot Encoding

## Label Encoding 

Setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan dengan nilai integer. 

### Dataset

Langkah pertama adalah menyiapkan dataset yang diformat menjadi pandas dataframe. 
1 kolom yang mengandung nilai categorical yaitu kolom 'country' dan saya akan menerapkan label encoding pada kolom tersebut.

In [17]:
import pandas as pd
df = pd.DataFrame({
    'country':['India','US','Japan','US','Japan'],
    'age':[44,34,46, 35,23],
    'salary':[72000,65000,98000,45000,34000]
})
df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


### Label Encoding pada Scikit Learn

Langkah-langkah:
    - Mengimport terlebih dahulu modulnya yaiut LabelEncoder
    - Membentuk objek dari LabelEncoder yang ditampung dalam variable 'label_encoder'
    - 'label_encoder' ini akan digunakan untuk melakukan fit transform terhadap kolom 'country' dari dataframe yang sudah dibentuk. 

In [18]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,0,44,72000
1,2,34,65000
2,1,46,98000
3,2,35,45000
4,1,23,34000


#### Code dibawah ini menunjukkan kumpulan kelas/kategori yang menjadi acuan dari Label Encoder kita. 

Terdapat 3 buah kategori country yaitu India, Japan, dan US yang diurutkan secara alphabet. 
- India berada di posisi index ke-0
- Japan berada di posisi index ke-1
- US berada di posisi index ke-2 

Oleh karena itu, India akan direpresentasikan sebagai nilai 0, Japan direpresentasikan sebagai nilai 1, dan US direpresentasikan sebagai nilai 2. 

In [19]:
label_encoder.classes_

array(['India', 'Japan', 'US'], dtype=object)

## One Hot Encoding

Setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan sebagai sekumpulan bits.

### Dataset 

Langkah pertama adalah menyiapkan dataset yang dibentuk ke dalam pandas dataframe. 

In [20]:
df = pd.DataFrame({
    'country':['India','US','Japan','US','Japan'],
    'age':[44,34,46, 35,23],
    'salary':[72000,65000,98000,45000,34000]
})
df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


### One Hot Encoding pada Scikit Learn 

- Mengkonversikan kolom 'country' menjadi sebuah array yang ditampung dalam variable 'X'
- Mengapa harus dilakukan reshape pada kolom 'country'? Karena kolom ini akan digunakan sebagai features. 

In [21]:
X = df['country'].values.reshape(-1,1)
X

array([['India'],
       ['US'],
       ['Japan'],
       ['US'],
       ['Japan']], dtype=object)

- Mengimport modul OneHotEncoder
- Membantuk object dari OneHotEncoder dan ditampung ke dalam variable 'onehot_encoder'
- 'onehot_encoder' ini akan digunakan untuk melakukan fit transform terhadap X yaitu array yang menampung nilai features 'country' 
- Kemudian akan dikonversikan menjadi suatu array 

In [22]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray()
X

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

- India merupakan negara pertama, maka akan direpresentasikan dengan 3 digit dimana nilai pertamanya adalah 1, dan sisanya adalah 0
- Japan merupakan negara kedua, maka akan direpresentasikan dengan 3 digit dimana nilai keduanya adalah 1, dan sisanya adalah 0
- US merupakan negara ketiga, maka akan direpresentasikan dengan 3 digit dimana nilai ketiganya adalah 1, dan sisanya adalah 0

Code dibawah menunjukkan array yang menampung nilai 'country' yang sudah diurutkan secara alfabetic. Karena 'country'nya 3 yaitu India, Japan dan US maka akan direpresentasikan sebagai bits 3 digit.

In [23]:
onehot_encoder.categories_

[array(['India', 'Japan', 'US'], dtype=object)]

Kemudian array hasil One Hot Encoding ini akan dikonversikan menjadi DataFrame yang akan ditampung pada variable 'df_onehot'

In [24]:
df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,0.0,1.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,0.0


Datafrane diatas akan digabungkan dengan dataframe sebelumnya dengan menggunakan pd.concat yang isi dari paramaternya adalah axis=1. 
Saya menggunakan axis=1 karena untuk proses concatnya akan dilakukan secara berdampingan. 

In [25]:
df = pd.concat([df_onehot,df],axis=1)
df

Unnamed: 0,0,1,2,country,age,salary
0,1.0,0.0,0.0,India,44,72000
1,0.0,0.0,1.0,US,34,65000
2,0.0,1.0,0.0,Japan,46,98000
3,0.0,0.0,1.0,US,35,45000
4,0.0,1.0,0.0,Japan,23,34000


Dataframe yang final setelah melakukan One Hot Encoding :

In [26]:
df = df.drop(['country'],axis=1)
df

Unnamed: 0,0,1,2,age,salary
0,1.0,0.0,0.0,44,72000
1,0.0,0.0,1.0,34,65000
2,0.0,1.0,0.0,46,98000
3,0.0,0.0,1.0,35,45000
4,0.0,1.0,0.0,23,34000


## Label Encoding VS One Hot Encoding 

Kita menerapkan One Hot Encoding apabila :
- Nilai categorical adalah nominal
- Jumlah kategori yang ada tidak terlalu banyak

Kita menerapkan Label Encoding apabila :
- Nilai categorical adalah ordinal
- Jumlah kategori yang ada relatif banyak