## Apa itu Data Encoding ?

__Data Encoding__ adalah salah satu tahap praproses data sebelum diproses dengan algoritma <i>machine learning</i>. Dalam mengerjakan projek <i>data science</i> ataupun <i>machine learning</i>, kita akan sangat mungkin menemukan satu atau beberapa fitur yang bertipe kategori, misalnya 'Sangat Baik', 'Baik', 'Tidak Baik'. Nah, komputer tidak dapat memproses data bertipe kategori sehingga kita harus mengubah data tersebut menjadi berbentuk bilangan. Proses ini disebut dengan encoding.

## Load dataset

Dataset yang digunakan adalah dataset <a href='https://archive.ics.uci.edu/ml/datasets/automobile'>Automobile</a> yang berasal dari UCI Machine Learning Repository dengan informasi detail tentang tiap kolom (terurut dari awal sampai akhir) sebagai berikut:

__Attribute Information:__

1. __symboling:__ -3, -2, -1, 0, 1, 2, 3.
2. __normalized-losses:__ continuous from 65 to 256.
3. __make:__
alfa-romero, audi, bmw, chevrolet, dodge, honda,
isuzu, jaguar, mazda, mercedes-benz, mercury,
mitsubishi, nissan, peugot, plymouth, porsche,
renault, saab, subaru, toyota, volkswagen, volvo

4. __fuel-type:__ diesel, gas.
5. __aspiration:__ std, turbo.
6. __num-of-doors:__ four, two.
7. __body-style:__ hardtop, wagon, sedan, hatchback, convertible.
8. __drive-wheels:__ 4wd, fwd, rwd.
9. __engine-location:__ front, rear.
10. __wheel-base:__ continuous from 86.6 120.9.
11. __length:__ continuous from 141.1 to 208.1.
12. __width:__ continuous from 60.3 to 72.3.
13. __height:__ continuous from 47.8 to 59.8.
14. __curb-weight:__ continuous from 1488 to 4066.
15. __engine-type:__ dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
16. __num-of-cylinders:__ eight, five, four, six, three, twelve, two.
17. __engine-size:__ continuous from 61 to 326.
18. __fuel-system:__ 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
19. __bore:__ continuous from 2.54 to 3.94.
20. __stroke:__ continuous from 2.07 to 4.17.
21. __compression-ratio:__ continuous from 7 to 23.
22. __horsepower:__ continuous from 48 to 288.
23. __peak-rpm:__ continuous from 4150 to 6600.
24. __city-mpg:__ continuous from 13 to 49.
25. __highway-mpg:__ continuous from 16 to 54.
26. __price:__ continuous from 5118 to 45400.

<i>import</i> pandas, kemudian <i>load</i> datasetnya ke dataframe. Kemudian tambahkan <i>header</i> yang sesuai untuk menggambarkan masing-masing kolom untuk dapat memudahkan analisis data dan juga memformat <i>missing values</i> __'?'__ menjadi __NaN__ ketika membaca file ke dataframe Pandas menggunakan <code>read_csv()</code>.

In [1]:
import pandas as pd
import numpy as np

In [2]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [3]:
%cd /content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py/

/content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py


In [4]:
column_names = ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 
              'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type',
              'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower',
              'peak-rpm', 'city-mpg', 'highway-mpg', 'price']

df = pd.read_csv('automobile.data', names=column_names, na_values='?')

df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0


cek tipe datanya.

In [5]:
# Mengecek tipe data

df.dtypes

symboling              int64
normalized-losses    float64
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                 float64
stroke               float64
compression-ratio    float64
horsepower           float64
peak-rpm             float64
city-mpg               int64
highway-mpg            int64
price                float64
dtype: object

<i>Encoding</i> adalah proses yang diterapkan pada data yang bertipe kategori, karena itu akan memfilter dataframe <code>df</code> dengan menyingkirkan dahulu kolom bertipe numerik, seperti float dan int, dan hanya menyisakan kolom yang bertipe __object__ agar tidak terlalu banyak kolom yang ditampilkan sehingga memaksimalkan pengamatan proses <i>encoding</i> ini.

filter kolom berdasarkan tipe data dengan <code>select_dtypes()</code>.

In [6]:
# Memfilter kolom bertipe object

df_obj = df.select_dtypes(include='object').copy()
df_obj.head()

Unnamed: 0,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,engine-type,num-of-cylinders,fuel-system
0,alfa-romero,gas,std,two,convertible,rwd,front,dohc,four,mpfi
1,alfa-romero,gas,std,two,convertible,rwd,front,dohc,four,mpfi
2,alfa-romero,gas,std,two,hatchback,rwd,front,ohcv,six,mpfi
3,audi,gas,std,four,sedan,fwd,front,ohc,four,mpfi
4,audi,gas,std,four,sedan,4wd,front,ohc,five,mpfi


Sebelum proses <i>encoding</i>, cek dulu apakah ada <i>missing values</i> pada <code>df_obj</code>.

In [7]:
# Mengecek missing values pada dataframe df_obj

df_obj[df_obj.isnull().any(axis=1)]

Unnamed: 0,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,engine-type,num-of-cylinders,fuel-system
27,dodge,gas,turbo,,sedan,fwd,front,ohc,four,mpfi
63,mazda,diesel,std,,sedan,fwd,front,ohc,four,idi


Ternyata ada dua <i>missing values</i> pada kolom <code>num-of-doors</code>. Kemudian isi <i>missing values</i> tersebut dengan __'four'__ yang merupakan nilai yang paling banyak di kolom tersebut.

In [8]:
# Mengecek jumlah data untuk tiap label di kolom num-of-doors

df_obj['num-of-doors'].value_counts()

four    114
two      89
Name: num-of-doors, dtype: int64

In [9]:
# Mengisi missing values dengan 'four'

df_obj['num-of-doors'].fillna('four', inplace=True)

In [10]:
# Mengecek lagi keberadaan missing values

df_obj.isnull().values.any()

False

Sekarang sudah tidak ada <i>missing values</i> di dalam dataframe <code>df_obj</code>. Mari berlanjut ke proses <i>encoding</i>.

## Encoding secara manual (Replace)

<i>Encoding</i> berarti mengubah label kategori menjadi bilangan, bukan? Sebelum membahas teknik <i>encoding</i> yang ada di Python, coba teknik <i>replace</i>. Sederhananya, lakukan <i>replacing</i> secara manual pada kolom bertipe kategori.

lihat pada dataframe <code>df_obj</code>, kolom <code>num-of-doors</code> dan <code>num-of-cylinders</code> sejatinya memiliki nilai angka, namun masih ditulis dengan huruf. untuk dua kolom tersebut, misalnya  ingin dipertahankan nilai tersebut maka langsung saja ganti dengan <i>method</i> <code>replace()</code>, contohnya __'four'__ ganti menjadi __4__.

Sebelumnya melakukan <i>replace</i>,  harus mengetahui dahulu nilai unik yang ada pada dua kolom tersebut dengan <i>method</i> <code>unique()</code>.

In [11]:
# Menampilkan nilai unik pada kolom num-of-doors

df_obj['num-of-doors'].unique()

array(['two', 'four'], dtype=object)

In [12]:
# Menampilkan nilai unik pada kolom num-of-cylinders

df_obj['num-of-cylinders'].unique()

array(['four', 'six', 'five', 'three', 'twelve', 'two', 'eight'],
      dtype=object)

Setelah mengetahui nilai unik pada kolom tersebut, kini saatnya membuat dictionary untuk mendefinisikan pemetaan perubahannya.

In [13]:
# Membuat dictionary peta perubahan

dic = {'num-of-doors': {'two': 2, 'four': 4},
       'num-of-cylinders': {'four': 4, 'six': 6, 'five': 5, 'three': 3, 'twelve': 12, 'two': 2, 'eight': 8}}

gunakan method <code>replace()</code>.

In [14]:
# Menerapkan method replace

df_obj = df_obj.replace(dic)
df_obj.head()

Unnamed: 0,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,engine-type,num-of-cylinders,fuel-system
0,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi
1,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi
2,alfa-romero,gas,std,2,hatchback,rwd,front,ohcv,6,mpfi
3,audi,gas,std,4,sedan,fwd,front,ohc,4,mpfi
4,audi,gas,std,4,sedan,4wd,front,ohc,5,mpfi


Dari output di atas, terlihat bahwa kolom <code>num-of-doors</code> dan <code>num-of-cylinders</code> sudah berubah menjadi bilangan.

## Label Encoding menggunakan .cat.codes

Pendekatan yang kedua untuk proses <i>encoding</i> adalah dengan __Label Encoding__. <i>Label encoding</i> akan mengubah kolom bernilai kategori menjadi bilangan dari 0, 1, 2, dan seterusnya tergantung pada jumlah nilai unik dalam kolom tersebut.

Misalnya dalam kolom <code>body-style</code> ada lima nilai unik, maka perubahannya akan seperti ini:

* __convertible__ : 0
* __hardtop__ : 1
* __hatchback__ : 2
* __sedan__ : 3
* __wagon__ : 4

Urutan angka-angka yang dihasilkan adalah berdasarkan urutan abjad.

Untuk melakukan <i>label encoding</i> di Pandas gunakan <code>.cat.codes</code>. 

Sebelumnya, harus ubah tipe data <code>body-style</code> menjadi __category__ terlebih dahulu.

In [15]:
# Mengubah tipe data body-style menjadi category

df_obj['body-style'] = df_obj['body-style'].astype('category')

cek tipe data dari kolom <code>body-style</code>.

In [16]:
# Mengecek tipe data kolom body-style

df_obj['body-style'].dtype

CategoricalDtype(categories=['convertible', 'hardtop', 'hatchback', 'sedan', 'wagon'], ordered=False)

Setelah mengubah tipe data menjadi 'category', kemudian aplikasikan <code>.cat.codes</code> dan simpan hasilnya ke dalam kolom baru bernama <code>body-style-encode</code>. Simpan di kolom baru adalah salah satu opsi. atau menimpanya langsung pada kolom <code>body-style</code>.

In [17]:
# Mengaplikasikan .cat.codes

df_obj['body-style-encode'] = df_obj['body-style'].cat.codes
df_obj.head()

Unnamed: 0,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,engine-type,num-of-cylinders,fuel-system,body-style-encode
0,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi,0
1,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi,0
2,alfa-romero,gas,std,2,hatchback,rwd,front,ohcv,6,mpfi,2
3,audi,gas,std,4,sedan,fwd,front,ohc,4,mpfi,3
4,audi,gas,std,4,sedan,4wd,front,ohc,5,mpfi,3


lihat perubahannya, tampilkan hanya dua kolom tersebut secara berdampingan seperti di bawah ini.

In [18]:
# Menampilkan kolom body-style dan body-style-encode

df_obj[['body-style', 'body-style-encode']].head(10)

Unnamed: 0,body-style,body-style-encode
0,convertible,0
1,convertible,0
2,hatchback,2
3,sedan,3
4,sedan,3
5,sedan,3
6,sedan,3
7,wagon,4
8,sedan,3
9,hatchback,2


## One-Hot Encoding

__One-Hot Encoding__ adalah teknik yang paling banyak digunakan untuk <i>encode</i> data kategori. Metode ini merepresentasikan data bertipe kategori sebagai vektor biner yang bernilai integer, 0 dan 1. Setiap label kategori akan membentuk kolom baru dengan nama label masing-masing.

Di Pandas, aplikasi one-hot encoding gunakan fungsi <code>get_dummies()</code>. Fungsi tersebut dinamakan seperti itu karena menghasilkan variabel indikator/dummy (0 dan 1).

Misalnya akan melakukan one-hot encoding untuk kolom <code>drive-wheels</code> yang memiliki tiga label kategori yakni <code>fwd</code>, <code>rwd</code> dan <code>4wd</code>.

In [19]:
# Mengaplikasikan get_dummies()

pd.get_dummies(df_obj, columns=['drive-wheels']).head()

Unnamed: 0,make,fuel-type,aspiration,num-of-doors,body-style,engine-location,engine-type,num-of-cylinders,fuel-system,body-style-encode,drive-wheels_4wd,drive-wheels_fwd,drive-wheels_rwd
0,alfa-romero,gas,std,2,convertible,front,dohc,4,mpfi,0,0,0,1
1,alfa-romero,gas,std,2,convertible,front,dohc,4,mpfi,0,0,0,1
2,alfa-romero,gas,std,2,hatchback,front,ohcv,6,mpfi,2,0,0,1
3,audi,gas,std,4,sedan,front,ohc,4,mpfi,3,0,1,0
4,audi,gas,std,4,sedan,front,ohc,5,mpfi,3,1,0,0


Dari output di atas dapat dilihat ada tiga kolom baru di ujung dataframe yaitu <code>drive-wheels_4wd</code>, <code>drive-wheels_fwd</code>, dan <code>drive-wheels_rwd</code>. Untuk data paling atas misalnya, kolom 4wd dan fwd bernilai 0, sedangkan kolom rwd bernilai 1 karena memang <code>drive-wheels</code>-nya __rwd__.

Jika dirasa nama kolom yang terbentuk terlalu panjang, dapat diatur <i>prefix</i> kolom tersebut dengan parameter <code>prefix</code> seperti di bawah ini.

In [20]:
# Mengaplikasikan get_dummies() dengan pengaturan prefix

pd.get_dummies(df_obj, columns=['drive-wheels'], prefix=['drive']).head()

Unnamed: 0,make,fuel-type,aspiration,num-of-doors,body-style,engine-location,engine-type,num-of-cylinders,fuel-system,body-style-encode,drive_4wd,drive_fwd,drive_rwd
0,alfa-romero,gas,std,2,convertible,front,dohc,4,mpfi,0,0,0,1
1,alfa-romero,gas,std,2,convertible,front,dohc,4,mpfi,0,0,0,1
2,alfa-romero,gas,std,2,hatchback,front,ohcv,6,mpfi,2,0,0,1
3,audi,gas,std,4,sedan,front,ohc,4,mpfi,3,0,1,0
4,audi,gas,std,4,sedan,front,ohc,5,mpfi,3,1,0,0


aplikasikan <code>get_dummies()</code> untuk lebih dari satu kolom sekaligus seperti di bawah ini.

In [21]:
# Mengaplikasikan get_dummies() untuk dua kolom

pd.get_dummies(df_obj, columns=['drive-wheels', 'fuel-type'], prefix=['drive', 'fuel']).head()

Unnamed: 0,make,aspiration,num-of-doors,body-style,engine-location,engine-type,num-of-cylinders,fuel-system,body-style-encode,drive_4wd,drive_fwd,drive_rwd,fuel_diesel,fuel_gas
0,alfa-romero,std,2,convertible,front,dohc,4,mpfi,0,0,0,1,0,1
1,alfa-romero,std,2,convertible,front,dohc,4,mpfi,0,0,0,1,0,1
2,alfa-romero,std,2,hatchback,front,ohcv,6,mpfi,2,0,0,1,0,1
3,audi,std,4,sedan,front,ohc,4,mpfi,3,0,1,0,0,1
4,audi,std,4,sedan,front,ohc,5,mpfi,3,1,0,0,0,1


## Custom Binary Encoding

Untuk analisis data lebih lanjut, terkadang hanya perlu melihat apakah suatu data mengandung label kategori tertentu atau tidak. Jika ini yang dibutuhkan, dapat mengaturnya dengan menggunakan <code>np.where</code> dari Numpy untuk membuat kondisi.

Sebagai contoh misalnya ingin melihat apakah <i>engine-type</i>-nya 'dohc' atau bukan. Tulis kodenya seperti di bawah ini.

In [22]:
# contoh custom binary encoding

df_obj['is_dohc'] = np.where(df_obj['engine-type']=='dohc', 1, 0)

Kolom baru bernama <code>is_dohc</code> akan terbentuk dan mengandung nilai 1 atau 0, dimana akan bernilai <b>1</b> jika <i>engine-type</i>-nya 'dohc', dan bernilai <b>0</b> jika __bukan__ 'dohc'.

<i>print</i> dataframe <code>df_obj</code> untuk melihat hasilnya.

In [23]:
df_obj.head()

Unnamed: 0,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,engine-type,num-of-cylinders,fuel-system,body-style-encode,is_dohc
0,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi,0,1
1,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi,0,1
2,alfa-romero,gas,std,2,hatchback,rwd,front,ohcv,6,mpfi,2,0
3,audi,gas,std,4,sedan,fwd,front,ohc,4,mpfi,3,0
4,audi,gas,std,4,sedan,4wd,front,ohc,5,mpfi,3,0


## Encoding menggunakan library Scikit-Learn

Teknik-teknik sebelumnya yang menggunakan <i>library</i> Pandas memang terlihat lebih <i>simple</i>. Namun jika ingin membangun model prediktif, teknik <i>encoding</i> menggunakan Scikit-Learn dapat digunakan untuk mengoptimalkan model.

Disini akan dibahas dua teknik yakni dengan <code>OrdinalEncoder</code> dan <code>OneHotEncoder</code> dari Scikit-Learn.

### OrdinalEncoder

Untuk menggunakan <code>OrdinalEncoder</code> di Scikit-Learn, harus mengimpornya terlebih dahulu. dibutuhkan juga method <code>fit_tranform</code> untuk memproses dan mentransformasi data. 

Misalnya  ingin melakukan <i>encoding</i> dengan <code>OrdinalEncode</code> pada kolom <code>make</code>.

In [24]:
from sklearn.preprocessing import OrdinalEncoder

ord_encode = OrdinalEncoder()
df_obj['make_encode'] = ord_encode.fit_transform(df_obj[['make']])

lihat hasilnya.

In [25]:
df_obj[['make', 'make_encode']].head(20)

Unnamed: 0,make,make_encode
0,alfa-romero,0.0
1,alfa-romero,0.0
2,alfa-romero,0.0
3,audi,1.0
4,audi,1.0
5,audi,1.0
6,audi,1.0
7,audi,1.0
8,audi,1.0
9,audi,1.0


### OneHotEncoder

Sebelumnya telah dibahas cara <i>encoding</i> dengan One-Hot di Pandas. Sekarang lakukan One-Hot encoding dengan <code>OneHotEncoder</code> dari Scikit-Learn.

Misalnya kolom <code>body-style</code> untuk percobaan ini.

In [26]:
from sklearn.preprocessing import OneHotEncoder

one_hot = OneHotEncoder()
encode_result = one_hot.fit_transform(df_obj[['body-style']])

# Mengubah result ke dalam dataframe dan menampilkan beberapa sample datanya
df_onehot = pd.DataFrame(encode_result.toarray(), columns=one_hot.categories_)
df_onehot.sample(10)

Unnamed: 0,convertible,hardtop,hatchback,sedan,wagon
204,0.0,0.0,0.0,1.0,0.0
146,0.0,0.0,0.0,0.0,1.0
100,0.0,0.0,0.0,1.0,0.0
55,0.0,0.0,1.0,0.0,0.0
155,0.0,0.0,0.0,0.0,1.0
25,0.0,0.0,0.0,1.0,0.0
7,0.0,0.0,0.0,0.0,1.0
95,0.0,0.0,1.0,0.0,0.0
15,0.0,0.0,0.0,1.0,0.0
20,0.0,0.0,0.0,1.0,0.0


<code>toarray()</code> digunakan untuk mengkonversi <code>encode_result</code> menjadi format yang dapat dikonversi ke dalam dataframe.

Selajutnya gabungkan dengan kolom <code>df_obj</code> yang lainnya menggunakan method <code>join()</code>.

In [27]:
# Menggabungkan dengan df_obj

df_obj = df_obj.join(df_onehot)

lihat hasilnya.

In [28]:
df_obj.head(10)

Unnamed: 0,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,engine-type,num-of-cylinders,fuel-system,body-style-encode,is_dohc,make_encode,"(convertible,)","(hardtop,)","(hatchback,)","(sedan,)","(wagon,)"
0,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi,0,1,0.0,1.0,0.0,0.0,0.0,0.0
1,alfa-romero,gas,std,2,convertible,rwd,front,dohc,4,mpfi,0,1,0.0,1.0,0.0,0.0,0.0,0.0
2,alfa-romero,gas,std,2,hatchback,rwd,front,ohcv,6,mpfi,2,0,0.0,0.0,0.0,1.0,0.0,0.0
3,audi,gas,std,4,sedan,fwd,front,ohc,4,mpfi,3,0,1.0,0.0,0.0,0.0,1.0,0.0
4,audi,gas,std,4,sedan,4wd,front,ohc,5,mpfi,3,0,1.0,0.0,0.0,0.0,1.0,0.0
5,audi,gas,std,2,sedan,fwd,front,ohc,5,mpfi,3,0,1.0,0.0,0.0,0.0,1.0,0.0
6,audi,gas,std,4,sedan,fwd,front,ohc,5,mpfi,3,0,1.0,0.0,0.0,0.0,1.0,0.0
7,audi,gas,std,4,wagon,fwd,front,ohc,5,mpfi,4,0,1.0,0.0,0.0,0.0,0.0,1.0
8,audi,gas,turbo,4,sedan,fwd,front,ohc,5,mpfi,3,0,1.0,0.0,0.0,0.0,1.0,0.0
9,audi,gas,turbo,2,hatchback,4wd,front,ohc,5,mpfi,2,0,1.0,0.0,0.0,1.0,0.0,0.0




---


Semoga Bermanfaat dan jangan lupa main-main kesini: <a href="https://nurpurwanto.github.io/">**nurpurwanto**</a> Terimakasih.

---


