## 0. Load Library

In [38]:
import pandas as pd
import numpy as np

## 1. Load Datasets

In [39]:
df = pd.read_csv('data_categorical.csv', delimiter=';')

In [40]:
df.head()

Unnamed: 0,kota,tingkat_polusi
0,Jakarta,Tinggi
1,Bandung,Sedang
2,Yogyakarta,Rendah
3,Surabaya,Sedang
4,Malang,Sedang


## 2. Handling Nominal Data
- Nominal data itu tidak ada intrinsic ordering seperti kota.
- Karena kita tidak bisa menentukan kalo Jakarta > Bandung > Surabaya.
- Untuk menangani Nominal Data, kita bisa menggunakan One Hot Enconding.
- One Hot Encoding bisa dilakukan dengan 2 cara yaitu melalui Sklearn ato dengan Get Dummies dari pandas.
- Pada case kali ini saya akan menggunakan Get Dummies dari Pandas.

In [41]:
#Membuat One Hot Encoding
nominal = pd.get_dummies(df['kota'])
nominal

Unnamed: 0,Bandung,Jakarta,Malang,Surabaya,Yogyakarta
0,0,1,0,0,0
1,1,0,0,0,0
2,0,0,0,0,1
3,0,0,0,1,0
4,0,0,1,0,0


- Jadi ketika kita menggunakan one hot encoding, maka akan men generate features baru sesuai dengan nama data kita yaitu dalam case ini adalah nama kota.
- Nilai 1 menunjukan bahwa pada rows tersebut terdapat data kota sedangkan nilai 0 menunjukan sebaliknya.

In [42]:
#Gabungkan dengan data aslinya.
df_2 = pd.concat([df, nominal], axis='columns')
df_2

Unnamed: 0,kota,tingkat_polusi,Bandung,Jakarta,Malang,Surabaya,Yogyakarta
0,Jakarta,Tinggi,0,1,0,0,0
1,Bandung,Sedang,1,0,0,0,0
2,Yogyakarta,Rendah,0,0,0,0,1
3,Surabaya,Sedang,0,0,0,1,0
4,Malang,Sedang,0,0,1,0,0


In [43]:
#Drop features kota karena ini sudah tidak diperlukan lagi.
df_2.drop(columns=['kota'], inplace=True)
df_2

Unnamed: 0,tingkat_polusi,Bandung,Jakarta,Malang,Surabaya,Yogyakarta
0,Tinggi,0,1,0,0,0
1,Sedang,1,0,0,0,0
2,Rendah,0,0,0,0,1
3,Sedang,0,0,0,1,0
4,Sedang,0,0,1,0,0


## 3. Handling Ordinal Data
- Ordinal Data adalah data yang memiliki intrinsic order seperti pada features tingkat_polusi.
- Jadi bisa dikatakan bahwa Tinggi > Sedang > Rendah.
- Ordinal Data bisa ditreatment menggunakan Replace dari Pandas atau menggunakan Sklearn Label Encoder.

In [44]:
df_2

Unnamed: 0,tingkat_polusi,Bandung,Jakarta,Malang,Surabaya,Yogyakarta
0,Tinggi,0,1,0,0,0
1,Sedang,1,0,0,0,0
2,Rendah,0,0,0,0,1
3,Sedang,0,0,0,1,0
4,Sedang,0,0,1,0,0


In [45]:
#Membuat Dictionary dan Labelling
label = {
    'Tinggi':3,
    'Sedang':2,
    'Rendah':1
}

- Disini saya menggunakan bobot 3 untuk tinggi, 2 untuk sedang, dan 1 untuk rendah.

In [46]:
df_2['tingkat_polusi'].replace(label, inplace=True)

In [47]:
df_2

Unnamed: 0,tingkat_polusi,Bandung,Jakarta,Malang,Surabaya,Yogyakarta
0,3,0,1,0,0,0
1,2,1,0,0,0,0
2,1,0,0,0,0,1
3,2,0,0,0,1,0
4,2,0,0,1,0,0
