# Mengenal Categorical Encoding: Label & One Hot Encoding

* Data set umumnya terbentuk dari kombinasi numerical & categorical, namun computer hanya dapat memahamin angka dan tidak dapat memahami text/categorical. Maka kita perlu mengkonversikan nilai categorical menjadi numerical agar komputer dapat memahami algoritma Machine Learning dengan baik.
* Proses tersebut dikenal dengan Categorical Encoding.
* Terdapat 2 jenis Categorical Encoding yang umum yaitu:
    - Label Encoding
    - One Hot Encoding

# Label Encoding

* Label Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan dengan sebuah nilai integer.

## DataSet

* Dataset akan dibentuk dalam format pandas DataFrame, maka pertama mari kita siapka data set
    >`import pandas as pd`
* DataFrame akan dibentuk dari suatu dictionaty, terdapat 3 buah keys yang mempresentasikan 3 kolom, setiap key akan diberi value yang mepresentasikan keys tersebut.
    >`'country': ['India', 'US', 'Japan', 'US', 'Japan'],`
    >`'age': [44, 43, 46, 35, 23],`
    >`'salary': [72000, 65000, 98000, 45000, 34000]`

In [1]:
import pandas as pd 

df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 43, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,43,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


* Dari kolom di atas terdapat sebuah kolom dengan nilai categorical yaitu "country", maka kita akan menerapkan Label Encoding pada kolom "country"

## Label Encoding pada Scikit Learn

* Untuk menerapkan Label Encoding pada Scikit Leran pertama yang harus dilakukan import modulnya yaitu:
    >`from sklearn.preprocessing import LabelEncoder`
* Membentuk object dari class *LabelEncoder*, lalu object nya akan ditampung dalam variabel *label_encoder* 
    >`label_encoder = LabelEndocder()`
* *label_encoder* akan di gunakan untuk melakukan *fit_transform* kedalam kolom "country", hasilnya akan ditampung kembali kedalam kolom "country"
    >`df['country'] = label_encoder.fit_transform(df['country'])`

In [3]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,0,44,72000
1,2,43,65000
2,1,46,98000
3,2,35,45000
4,1,23,34000


* Terlihat perbedaan sebelum dan sesudah Ecnoding yaitu pada kolom "country" India menjadi 0, Japan menjadi 1, US menjadi 2.

In [4]:
label_encoder.classes_

array(['India', 'Japan', 'US'], dtype=object)

## One Hot Encoding

* Pada One Hot Encoding, setiap kategori pada suatu feature akan diurutkan secara alfabet dan direpresentasikan sebagai sekumpulan bits.

## Dataset

* Dataset akan digenerate sebagai pandas data frame, sehingga kita perlu melakukan import pandas import pandas as pd

* Membuat pandas data frame dari dataset yang dibentuk menggunakan dictionary yang terdiri atas keys (country, age, dan salary) beserta valuesnya. Pandas data frame yang dibuat akan ditampung oleh variable df.
> `df = pd.DataFrame({
       'country': ['India', 'US', 'Japan', 'US', 'Japan'],
       'age': [44, 34, 46, 35, 23],
       'salary': [72000, 65000, 98000, 45000, 34000]}`

* Menampilkan dataset yang ditampung oleh df
>`df`

In [5]:
df = pd.DataFrame({
    'country': ['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44, 34, 46, 35, 23],
    'salary': [72000, 65000, 98000, 45000, 34000]
})

df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


## One Hot Encoding pada Scikit Learn

* Melakukan reshape values kolom country sehingga bentuknya menjadi array 2 dimensi
>`df['country'].values.reshape(-1,1)`

In [6]:
X = df['country'].values.reshape(-1,1)
X

array([['India'],
       ['US'],
       ['Japan'],
       ['US'],
       ['Japan']], dtype=object)

* Mengimport OneHotEncoder dari sklearn.preprocessing
>`from sklearn.preprocessing import OneHotEncoder`

* Variable onehot_encoder akan menampung object OneHotEncoder()
>`onehot_encoder = OneHotEncoder()`

* Melakukan transform label pada X menjadi nilai yang ditampung onehot_encoder. Kemudian, hasil transfrom dikonversi menjadi array.
>`X = onehot_encoder.fit_transform(X).toarray()`

In [7]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray()
X

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

* Bits yang dihasilkan pada proses di atas adalah Bits 3 digit. Banyak digit ditentukan oleh banyaknya categories dari onehot_encoder. Karena pada dataset terdapat 3 categories country yaitu India, Japan, dan US, maka Bits yang dihasilkan adalah Bits 3 digit.
* Melihat categories dari onehot_encoder
>`onehot_encoder.categories_`

* India direpresentasikan oleh bits [1., 0., 0.] karena India merupakan urutan categories pertama sehingga pada digit pertamanya bernilai 1.
* Japan direpresentasikan oleh bits [0., 1., 0.] karena Japan merupakan urutan categories kedua sehingga pada digit keduanya bernilai 1.
* US direpresentasikan oleh bits [0., 0., 1.] karena US merupakan urutan categories ketiga sehingga pada digit ketiganya bernilai 1.

In [8]:
onehot_encoder.categories_

[array(['India', 'Japan', 'US'], dtype=object)]

* Membentuk pandas data frame yang dibentuk dari sekumpulan nilai yang ditampung X dan menspesifikasikan kolomnya.
>`df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])`

In [9]:
df_onehot = pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,0.0,1.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,0.0


* Menggabungkan data frame df_onehot dan df.
* `axis=1` merepresentasikan proses penggabungan dilakukan secara berdampingan (side by side)
>`df = pd.concat([df_onehot, df], axis=1)`

In [10]:
df = pd.concat([df_onehot, df], axis=1)
df

Unnamed: 0,0,1,2,country,age,salary
0,1.0,0.0,0.0,India,44,72000
1,0.0,0.0,1.0,US,34,65000
2,0.0,1.0,0.0,Japan,46,98000
3,0.0,0.0,1.0,US,35,45000
4,0.0,1.0,0.0,Japan,23,34000


Menghapus kolom "country" dengan memanggil method drop()
>`df = df.drop(['country'], axis=1)`

In [11]:
df = df.drop(['country'], axis=1)
df

Unnamed: 0,0,1,2,age,salary
0,1.0,0.0,0.0,44,72000
1,0.0,0.0,1.0,34,65000
2,0.0,1.0,0.0,46,98000
3,0.0,0.0,1.0,35,45000
4,0.0,1.0,0.0,23,34000


## Label Encoding vs One Hot Encoding

### Penerapan Label Encoding dapat dilakukan jika:

* Nilai categorical adalah ordinal
* Jumlah kategori yang ada relatif banyak

### Penerapan One Hot Encoding dapat dilakukan jika:

* Nilai categorical adalah nominal
* Jumlah kategori yang ada tidak terlalu banyak