# 09 Mengenal Categorical Encoding:<br/> Label Encoding & One Hot Encoding

## Apa itu Categorical Encoding?

Categorical Encoding adalah sebuah proses yang mengonversikan nilai categorical menjadi nilai numerical. Kita juga mengetahui bahwa komputer memiliki keterbatasan yang hanya memahami angka atau numerical dan tidak memahami teks atau **categorical**, oleh karena itu kita perlu untuk melakukan konversi nilai categorical menjadi nilai **numerical** agar algoritma ``Machine Learning`` dapat memmahaminya dengan lebih baik.

Terdapat banyak jenis Categorical Encoding, berikut dua di antaranya adalah:
- Label Encoding
- One Hot Encoding

Referensi: [https://en.wikipedia.org/wiki/One-hot](https://en.wikipedia.org/wiki/One-hot)

## Label Encoding


Pada Label Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan dengan sebuah nilai integer.

### Dataset

Sebelum melakukan ``Label Encoding`` pertama-tama kita mempersiapkan Dataset terlebih dahulu dengan melakukan import module ``import pandas as pd``, kemudian Dataset akan dibentuk ke dalam format ``Data Frame`` dengan melakukan ``pd.DataFrame`` yang ditampung ke dalam varibel ``df`` juga diikuti dengan beberapa ``keys`` seperti berikut :

- ``'country': ['India', 'US', 'Japan', 'US', 'Japan']`` sebagai kolom country.
- ``'age': [44, 34, 46, 35, 23]`` sebagai kolom age.
- ``'salary': [72000, 65000, 98000, 45000, 34000]`` sebagai kolom salary.

In [1]:
import pandas as pd

df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


### Label Encoding pada Scikit Learn

``Label Encoding pada Scikit Learn`` cukup mudah untuk dilakukan dengan melakukan import module ``from sklearn.preprocessing import LabelEncoder`` kemudian memanggil ``LabelEncoder()`` yang ditampung ke dalam varibel ``label_encoder`` selanjutnya melakukan fit transform ``label_encoder.fit_transform(df['country'])`` dengan kolom ``country`` dari format pandas Data Frame ``df['country']`` seperti script dibawah ini.

In [2]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,0,44,72000
1,2,34,65000
2,1,46,98000
3,2,35,45000
4,1,23,34000


Hasil script diatas dapat dilihat adanya perubahan pada kolom **country** yang sebelumnya kolom country memiliki nilai categorical berubah menjadi numerical dengan melakukan ``Label Encoding pada Scikit Learn``.

Untuk memahami hasil script diatas kita dapat melakukan classes untuk mengetahui kumpulan classes atau categori dari kolom yang sudah diberikan Label Encoding pada Scikit Learn dan diurutkan secara **Alfabet** seperti script dibawah ini.

In [3]:
label_encoder.classes_

array(['India', 'Japan', 'US'], dtype=object)

Hasil script diatas merepresentasikan sebagai berikut :

- ``India`` sebagai numerical integer ``0``.
- ``Japan`` sebagai numerical integer ``1``.
- ``US`` sebagai numerical integer ``2``.

Pada tahap ``Label Encoding`` ini juga memiliki kelemahan dikarenakan hasil dari Label Encoding juga dapat memiliki arti bahwa categorical ``india`` memliki nilai lebih kecil (0) dibandingkan dengan nilai ``Japan`` (1) dan ``US`` (2). 

## One Hot Encoding

Pada One Hot Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan sebagai sekumpulan bits.

### Dataset

In [4]:
df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


### One Hot Encoding pada Scikit Learn

Menerapkan ``One Hot Encoding pada Scikit Learn`` terlebih dahulu kita mempersiapkan Dataset, Dataset yang digunakan adalah Dataset yang sama pada saat melakukan ``Label Encoding`` sebelumnya.

Pada tahap ini kita akan melakukan konversi pada kolom **country** ke dalam sebuah arraay dengan melakukan ``df['country'].values.reshape(-1,1)`` yang ditampung ke dalam variabel ``X``.

- ``reshape(-1,1)`` merepresentasikan sekumpulan nilai categorical dari kolom ``country`` akan diperlakukan sebagai nilai ``Features`` dikarenakan pada Scikit Learn disarankan untuk ditampung ke dalam array 2 dimensi.

In [5]:
X = df['country'].values.reshape(-1,1)
X

array([['India'],
       ['US'],
       ['Japan'],
       ['US'],
       ['Japan']], dtype=object)

Sebelum melakukan ``One Hot Encoding pada Scikit Learn`` terlebih dahulu untuk melakukan import mmdule dengan ``from sklearn.preprocessing import OneHotEncoder`` kemudian memanggil ``OneHotEncoder()`` yang ditampung ke dalam variabel ``onehot_encoder``. Selanjutnya melakukan fit transform array dengan ``onehot_encoder.fit_transform(X).toarray()`` yang ditampung ke dalam variabel ``X`` seperti script di bawah ini.

In [6]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray()
X

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

Hasil script script diatas akan merepresentasikan sebagai berikut :

- ``[1., 0., 0.]`` sebagai nilai ``India`` dengan angka **1** didepan dan 2 angka **0** dibelakangnya.
- ``[0., 1., 0.]`` sebagai nilai ``Japan`` dengan angka **0** didepan, angka **1** ditengah, dan angka **0** dibelakangnya.
- ``[0., 0., 1.]`` sebagai nilai ``US`` dengan 2 angka **0** didepan dan angka **1** dibelakangnya.

Untuk mengetahui categorical apa saja yang ada pada array kita juga dapat melakukan ``onehot_encoder.categories_`` seperti script dibawah ini.

In [7]:
onehot_encoder.categories_

[array(['India', 'Japan', 'US'], dtype=object)]

Pada tahap selanjutnya kita akan melakukan konversi dari array ``One Hot Encoding`` tersebut ke dalam format Data Frame dengan melakukan ``pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])`` dengan parameter ``X`` yang merepresentasikan variabel yang menampung sekumpulan nilai dari ``X`` kemudian dispesifikasikan dengan ``columns=[str(i) for i in range(X.shape[1])]`` yang ditampung ke dalam vaiabel ``df_onehot`` seperti script dibawah ini.

In [8]:
df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,0.0,1.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,0.0


Selanjutnya kita juga dapat menggabungkan format Data Frame yang ada pada tahapan sebelumnya dengan melakukan ``pd.concat([df_onehot, df], axis=1`` dengan parameter ``df_onehot`` pada ``axis=1`` seperti script dibawah ini.

- ``axis=1`` axis dengan nilai 1 dikarenakan proses ``concat`` akan dilakukan secara ``side by side`` atau saling berdampingan.

In [9]:
df = pd.concat([df_onehot, df], axis=1)
df

Unnamed: 0,0,1,2,country,age,salary
0,1.0,0.0,0.0,India,44,72000
1,0.0,0.0,1.0,US,34,65000
2,0.0,1.0,0.0,Japan,46,98000
3,0.0,0.0,1.0,US,35,45000
4,0.0,1.0,0.0,Japan,23,34000


Hasil script diatas dapat dipahami sebagai berikut :

- ``1.0	0.0	0.0`` sebagai nilai dari ``India``.
- ``0.0	1.0	0.0`` sebagai nilai dari ``Japan``.
- ``0.0	0.0	1.0`` sebagai nilai dari ``US``.

Pada tahap selanjutnya kita juga dapat melakukan drop pada beberapa kolom, kali ini kita akan melakukan drop pada kolom ``country`` dengan melakukan ``df.drop(['country'], axis=1)`` dengan list ``['country']`` dengan ``axis=1`` seperti script dibawah ini.

In [10]:
df = df.drop(['country'], axis=1)
df

Unnamed: 0,0,1,2,age,salary
0,1.0,0.0,0.0,44,72000
1,0.0,0.0,1.0,34,65000
2,0.0,1.0,0.0,46,98000
3,0.0,0.0,1.0,35,45000
4,0.0,1.0,0.0,23,34000


## Label Encoding vs One Hot Encoding


### One Hot Encoding

One-Hot encoding adalah salah satu metode encoding. Metode ini akan merepresentasikan dari data yang bertipe ``Categorical`` sebagai sebuah vektor biner yang bernilai integer, 0 dan 1, dimana semua elemen akan bernilai 0 kecuali satu elemen yang bernilai 1, yaitu elemen yang memiliki nilai kategori tersebut. Kita juga dapat menerapkan One Hot Encoding bila:

- Nilai categorical adalah nominal
- Jumlah kategori yang ada tidak terlalu banyak


### Label Encoding

Label Encoding adalah sebuah teknik ``Coding`` yang populer untuk menangani variabel kategori. Dalam teknik ini, setiap label akan diberi bilangan bulat unik berdasarkan urutan abjad atau ``Alfabet``. Kita juga dapat menerapkan Label Encoding bila:

- Nilai categorical adalah ordinal
- Jumlah kategori yang ada relatif banyak


Referensi : 
- https://ilmudatapy.com/one-hot-encoding-di-python/
- https://www.analyticsvidhya.com/blog/2020/03/one-hot-encoding-vs-label-encoding-using-scikit-learn/