# SKLEARN 09 | Label Encoding & One Hot Encoding | Categorial Encoding | Belajar Machine Learning

## Apa itu Categorial Encoding?

Categorical Encoding adalah proses konversi nilai categorical menjadi nilai numerical.

Terdapat banyak jenis Categorical Encoding, dua di antaranya adalah:

+ Label Encoding
+ One Hot Encoding

Referensi: https://en.wikipedia.org/wiki/One-hot

## Label Encoding

Proses konversi nilai categorical menjadi numerical dikenal dengan istilah "Categorical Encoding".

Pada Label Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan dengan sebuah nilai integer.

### Dataset

In [1]:
import pandas as pd

df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


Untuk membentuk Dataset:

+ Dataset dibentuk kedalam format Pandas DataFrame dengan melakukan import modul pandas dengan memanggil import pandas as pd.
+ DataFrame dibentuk dari suatu dictionary, dalam kasus ini terdiri dari 3 buah keys, yaitu country, age, salary untuk merepresentasikan 3 buah kolom.
+ Dictionary tersebut digunakan sebagai basis untuk membentuk objek DataFrame yang ditampung kedalam  variable df.

Kolom Country merupakan sebuah kolom dengan nilai categorical.

### Label Encoding pada Scikit Learn

In [2]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,0,44,72000
1,2,34,65000
2,1,46,98000
3,2,35,45000
4,1,23,34000


Untuk menerapkan Label Encoding dengan SKLearn:

+ Melakukan import modul terlebih dahulu dengan memanggil "from sklearn.preprocessing import LabelEncoder".
+ Membentuk objek dari class "LabelEncoder()" yang ditampung kedalam variable label_encoder
+ Variable "label_encoder" digunakan untuk melakukan fit transform pada kolom country dari dataframe dengan memanggil "label_encoder.fit_transform(df['country'])" hasil transformasi ditampung kedalam kolom country dengan memanggil "df['country'].

In [3]:
label_encoder.classes_

array(['India', 'Japan', 'US'], dtype=object)

## One Hot Encoding

Pada One Hot Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan sebagai sekumpulan bits.

### Dataset

In [4]:
df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


### One Hot Encoding pada Scikit Learn

In [5]:
X = df['country'].values.reshape(-1,1)
X

array([['India'],
       ['US'],
       ['Japan'],
       ['US'],
       ['Japan']], dtype=object)

Proses penerapan One Hot Encoding pada kolom country:

+ Isolasi terlebih dahulu sekumpulan nilai dari kolom country. Sekumpulan nilai tersebut akan dikonversi menjadi sebuah array dengan memanggil "df['country'].values.reshape(-1,1)".
+ Nilai array tersebut akan ditampung kedalam variable X.

Alasan melakukan reshape(-1,1) karena sekumpulan nilai output tersebut akan diperlakukan sebagai nilai feature, dimana nilai feature itu ditampung dalam array dua dimensi.

In [6]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray()
X

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

Penerapan One Hot Encoding dengan SKLearn:

+ Melakukan import modul terlebih dahulu  dengan memanggil "from sklearn.preprocessing import OneHotEncoder".
+ Membentuk objek dari class one hot encoder ini "OneHotEncoder()" yang ditampung kedalam variabel "onehot_encoder".
+ Objek tersebut akan digunakan untuk melakukan fit transform terhadap X yang kita tahu X nya disini berupa array yang menampung sekumpulan nilai features "country".
+ Hasil tranformasi akan dikonversikan menjadi suatu array untuk ditampung kembali kedalam variabel "X".

In [7]:
onehot_encoder.categories_

[array(['India', 'Japan', 'US'], dtype=object)]

In [8]:
df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,0.0,1.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,0.0


Proses konversi array hasil One Hot Encoding menjadi DataFrame

+ Dengan memanggil "pd.DataFrame" yang berarti akan membentuk suatu objek data frame dimana objeknya akan dibentuk dari sekumpulan nilai yang ditampung oleh X.
+ Spesifikasikan data kolom dari data frame.
+ Objek data frame yang terbentuk akan ditampung ke dalam variabel "df_onehot".
+ Lalu ditampilkan hasilnya.

In [9]:
df = pd.concat([df_onehot, df], axis=1)
df

Unnamed: 0,0,1,2,country,age,salary
0,1.0,0.0,0.0,India,44,72000
1,0.0,0.0,1.0,US,34,65000
2,0.0,1.0,0.0,Japan,46,98000
3,0.0,0.0,1.0,US,35,45000
4,0.0,1.0,0.0,Japan,23,34000


Proses penggabungan penggabungan DataFrame diatas dengan DataFrame sebelumnya:

+ Dengan memanggil "pd.concat" lalu masukkan suatu list yang berisi "df_onehot" dan "df".
+ Lalu sertakan parameter axis yang bernilai 1.
+ Parameter axis diberi nilai 1 karena proses concatnya akan kita lakukan site by site atau saling berdampingan.
+ Lalu ditampilkan hasilnya.

In [10]:
df = df.drop(['country'], axis=1)
df

Unnamed: 0,0,1,2,age,salary
0,1.0,0.0,0.0,44,72000
1,0.0,0.0,1.0,34,65000
2,0.0,1.0,0.0,46,98000
3,0.0,0.0,1.0,35,45000
4,0.0,1.0,0.0,23,34000


Hasilnya merupakan data frame final setelah melakukan proses one hot encoding dan ini merupakan penerapan dari one hot encoding dengan sklearn.

## Label Encoding vs One Hot Encoding

Kita menerapkan One Hot Encoding bila:

+ Nilai categorical adalah nominal
+ Jumlah kategori yang ada tidak terlalu banyak

Kita menerapkan Label Encoding bila:

+ Nilai categorical adalah ordinal
+ Jumlah kategori yang ada relatif banyak