# SKLearn 09 | Label Encoding & One Hot Encoding | Categorical Encoding | Belajar Machine Learning

## 09 Mengenal Categorical Encoding:

### Apa itu Categorical Encoding?

Secara umum sebuah dataset yang ada terbentuk dari kombinasi nilai numerical dan categorical, namun komouter / machine memiliki keterbatasan untuk memahami data yang bernilai categorical (komputer hanya dapat memahami angka / numerical, dan tidak dapat memahami text / categorical). Karena itulah perlu dilakukan konversi nilai categorical menjadi nilai numerical agar algoritma machine learning dapat memahaminya dengan baik.

Categorical Encoding adalah proses konversi nilai categorical menjadi nilai numerical.

Terdapat banyak jenis Categorical Encoding, dua di antaranya adalah:
* Label Encoding
* One Hot Encoding

Referensi: https://en.wikipedia.org/wiki/One-hot

### Label Encoding

Pada Label Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan dengan sebuah nilai integer.

#### Dataset

Sebelum memulai akan dipersiapkan terlebih dahulu dataset yang akan digunakan.

In [1]:
import pandas as pd

df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


#### Label Encoding pada Scikit Learn

Berikut ini adalah cara untuk menerapkan Label Encoding pada SKLearn:
1. Mengimport modul LabelEncoder dengan memanggil from sklearn.preprocessing import LabelEncoder
2. Membentuk class dari LabelEncoder dengan memanggil LabelEncoder() dan hasilnya akan ditampung kedalam variable label_encoder.
3. Melakukan fit_transform menggunakan encoder dengan memanggil label_encoder.fit_transform yang disertai 1 buah parameter yaitu tabel country dari dataset yang dimiliki, kemudian hasilnya akan ditampung kembali kedalam tabel country.

In [2]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,0,44,72000
1,2,34,65000
2,1,46,98000
3,2,35,45000
4,1,23,34000


Dari hasil yang didapatkan data yang terdapat pada kolom country berupa text sebelumnya setelah diterapkan label encoding maka hasilnya berubah menjadi data berupa angka.

Untuk memahami bagaimana proses perubahan data caegorical menjadi data numeric maka pertama-tama akan dipanggil label_encoder.classes_

In [3]:
label_encoder.classes_

array(['India', 'Japan', 'US'], dtype=object)

Dari hasil yang ditampilkan maka dapat diketahui bahwa hasil dari label_encoder.classes_ berisikan data yang menjadi acuan label encoding untuk melakukan konveresi. Data numeric yang dihasilkan berasal dari nilai index yang ditempati masing-masing negara yang ada pada kolom country.

Namun Label Encoding juga memiliki kelemahan, salah satu kelemahan dasar dari Label Encoding adalah:
Label Encoding akan mengurutkan category yang ada akan dirurutkan sesuai dengan alfabet baru dikonversikan, makanya dapat dilihat jika india memiliki index 0 sehingga nilai numericnya 0, Japan berada pada index ke 2 sehingga nilai numericnya 2 dan US berada pada index ke 3 sehingga nilai numericnya 3.

### One Hot Encoding

Pada One Hot Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan sebagai sekumpulan bits.

#### Dataset

In [4]:
df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


#### One Hot Encoding pada Scikit Learn

Sebagai persiapan sejumlah nilai dari kolom country, diamana sekumpulan nilai tersebut akan dikonversikan menjadi sebuah array. Caranya dengan memanggil df['country'].values.reshape(-1,1) dan hasilnya akan ditampung kedalam variable x.

Alasan perlunya dilakukan reshape ini adalah karena nilai-nilai dari country ini akan dijadikan features, sedangkan nilai array yang diperlukan untuk nilai features pada SKLearn adalah array 2 dimensi.

In [5]:
X = df['country'].values.reshape(-1,1)
X

array([['India'],
       ['US'],
       ['Japan'],
       ['US'],
       ['Japan']], dtype=object)

Setelah dilakukan reshape maka selanjutkan akan diterapkan One Hot Encoding pada dataset yang ada, caranya:
1. Mengimport modul OneHotEncoder dengan memanggil from sklearn.preprocessing import OneHotEncoder
2. Membentuk class OneHotEncoder dengan memanggil OneHotEncoder(), kemudian hasilnya akan ditampung kedalam variable onehot_encoder
3. Melakukan fit_transform dengan memanggilonehot_encoder.fit_transform(X).toarray(), nilai x yang digunakan disini merupakan data country yang sebelumnya sudah dilakukan reshape dan ditampung kedalam variable x.

In [6]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray()
X

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

Untuk memahami hasil dari One Hot Encoding ini, maka pertama-tama akan dipanggil terlebih dahulu onehot_encoder.categories_

In [7]:
onehot_encoder.categories_

[array(['India', 'Japan', 'US'], dtype=object)]

Dapat dilihat dari hasil yang dijalankan ditampilkan sebuah array yang berisikan nilai-nilai dari countries yang sudah diurutkan secara alfabetical. Dalam array tersebut terdapat 3 categories (3 label negara) yaitu India, Japan, dan US dan setiap nilai ini akan direpresentasikan dengan nilai bits.

Dikarenakan datanya ada 3 maka datanya akan direpresentasikan dalam bentuk bits 3 digit. 
Jadi dapat disimpulkan:
* India akan memiliki bits 3 digit dengan nilai 1 pada index pertama.
* Japan akan memiliki bits 3 digit dengan nilai 1 pada index kedua.
* US akan memiliki bits 3 digit dengan nilai 1 pada index ketiga.

Setelah itu array hasil dari encoding akan dikonversikan menjadi dataframe, berikut caranya:
* Membentuk suatu objek dataframe dengan memanggil pd.DataFrame disertai dengan data yang akan dijadikan dataframenya, kemudian hasilnya akan ditampung kedalam variable df_onehot

In [8]:
df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,0.0,1.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,0.0


Setelah ini, dataframe yang terbentuk akan digabungkan dengan dataframe yang sudah ada sebelumnya, caranya adalah dengan menggunakan concat yaitu dengan memanggil pd.concat yang disertai dengan data yang akan digabungkan (df_onehot dan df) kemudian disertai dengan parameter axis yang bernilai 1.

Nilai axisnya diberikan nilai satu karena proses concat ini akan dilakukan side by side / saling berdampingan.

In [9]:
df = pd.concat([df_onehot, df], axis=1)
df

Unnamed: 0,0,1,2,country,age,salary
0,1.0,0.0,0.0,India,44,72000
1,0.0,0.0,1.0,US,34,65000
2,0.0,1.0,0.0,Japan,46,98000
3,0.0,0.0,1.0,US,35,45000
4,0.0,1.0,0.0,Japan,23,34000


Karena kolom country sudah direpresentasikan dengan menggunakan One Hot Encoding, maka kolom country ini dapat dihapus / di drop caranya dengan memanggil df.drop yang diikuti dengan kolom yang akan di drop, kemudian disertakan parameter axisnya yang bernilai 1.

In [10]:
df = df.drop(['country'], axis=1)
df

Unnamed: 0,0,1,2,age,salary
0,1.0,0.0,0.0,44,72000
1,0.0,0.0,1.0,34,65000
2,0.0,1.0,0.0,46,98000
3,0.0,0.0,1.0,35,45000
4,0.0,1.0,0.0,23,34000


Dan hasil ini lah yang menjadi data final dari hasil penerapan One Hot Encoding dengan SKLearn.

### Label Encoding vs One Hot Encoding

Kita menerapkan One Hot Encoding bila:
* Nilai categorical adalah nominal
* Jumlah kategori yang ada tidak terlalu banyak

Kita menerapkan Label Encoding bila:
* Nilai categorical adalah ordinal
* Jumlah kategori yang ada relatif banyak

*Nominal & Ordinal merupakan level of measurement yang umum ditemui dalam statistika.*