## Sekilas tentang Data Formatting

Data formatting berarti mengubah format data menjadi bentuk lain yang lebih sesuai. Data formatting dapat berupa perubahan tipe data, atau mengubah format satuan data ke dalam bentuk yang lebih dapat dimengerti oleh banyak orang.

## Load dataset

Dataset yang digunakan adalah dataset <a href='https://archive.ics.uci.edu/ml/datasets/automobile'>Automobile</a> yang berasal dari UCI Machine Learning Repository dengan informasi detail tentang tiap kolom (terurut dari awal sampai akhir) sebagai berikut:

__Attribute Information:__

1. __symboling:__ -3, -2, -1, 0, 1, 2, 3.
2. __normalized-losses:__ continuous from 65 to 256.
3. __make:__
alfa-romero, audi, bmw, chevrolet, dodge, honda,
isuzu, jaguar, mazda, mercedes-benz, mercury,
mitsubishi, nissan, peugot, plymouth, porsche,
renault, saab, subaru, toyota, volkswagen, volvo

4. __fuel-type:__ diesel, gas.
5. __aspiration:__ std, turbo.
6. __num-of-doors:__ four, two.
7. __body-style:__ hardtop, wagon, sedan, hatchback, convertible.
8. __drive-wheels:__ 4wd, fwd, rwd.
9. __engine-location:__ front, rear.
10. __wheel-base:__ continuous from 86.6 120.9.
11. __length:__ continuous from 141.1 to 208.1.
12. __width:__ continuous from 60.3 to 72.3.
13. __height:__ continuous from 47.8 to 59.8.
14. __curb-weight:__ continuous from 1488 to 4066.
15. __engine-type:__ dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
16. __num-of-cylinders:__ eight, five, four, six, three, twelve, two.
17. __engine-size:__ continuous from 61 to 326.
18. __fuel-system:__ 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
19. __bore:__ continuous from 2.54 to 3.94.
20. __stroke:__ continuous from 2.07 to 4.17.
21. __compression-ratio:__ continuous from 7 to 23.
22. __horsepower:__ continuous from 48 to 288.
23. __peak-rpm:__ continuous from 4150 to 6600.
24. __city-mpg:__ continuous from 13 to 49.
25. __highway-mpg:__ continuous from 16 to 54.
26. __price:__ continuous from 5118 to 45400.

<i>import</i> Pandas terlebih dahulu kemudian <i>load</i> dataset ke dalam dataframe Pandas menggunakan <code>read_csv()</code>. Karena dataset tersebut belum memiliki <i>header</i>, ada baiknya tambahkan dahulu <i>header</i> sesuai dengan informasi atribut di atas untuk tiap kolom.

In [1]:
import pandas as pd
import numpy as np

In [2]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [3]:
%cd /content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py/

/content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py


In [4]:
column_names = ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 
              'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type',
              'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower',
              'peak-rpm', 'city-mpg', 'highway-mpg', 'price']

df = pd.read_csv('automobile.data', names=column_names)

df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


## Mengubah tipe data

Saat melakukan proses persiapan data sebelum dilakukan <i>modeling</i> dengan <i>machine learning</i>, salah satu proses yang harus diperhatikan adalah tipe data dari tiap kolom atau atribut/fitur-nya.

Untuk mengecek tipe data, gunakan <code>dtypes</code>.

In [5]:
# Mengecek tipe data

df.dtypes

symboling              int64
normalized-losses     object
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                  object
stroke                object
compression-ratio    float64
horsepower            object
peak-rpm              object
city-mpg               int64
highway-mpg            int64
price                 object
dtype: object

Dari output di atas, terlihat ada beberapa fitur yang tipe datanya tidak sesuai. Misalnya <code>normalized-losses</code> terdeteksi bertipe 'object' yang berarti dianggap sebagai string, padahal jika dilihat datanya di dataframe seharusnya kolom tersebut bertipe numerik seperti 'int' atau 'float'. 

Mengapa kolom numerik bisa terdeteksi sebagai 'object'? 

Jika dilihat pada sampel dataframe di atas, ada beberapa data pada kolom numerik yang memiliki nilai __'?'__ yang dianggap sebagai string oleh Python. Pada dasarnya itu merupakan <i>missing values</i> sehingga harus mengubah __'?'__ terlebih dahulu sebagai __NaN__ ataupun langsung menangani <i>missing values</i> tersebut, misalnya dengan menggantinya dengan nilai tertentu. Pembahasan tentang <i>missing values</i> dapat dilihat pada <i>notebook</i> sebelumnya.

Disini hanya akan mengganti __'?'__ dengan __NaN__.

In [6]:
# Mengubah '?' menjadi NaN

df.replace('?', np.nan, inplace=True)

Parameter <code>inplace=True</code> berfungsi untuk langsung menimpa dataframe <code>df</code> dengan hasil modifikasi yang dilakukan, dalam hal ini <i>replace</i> __'?'__ dengan __NaN__. Jika tidak memberikan parameter <code>inplace=True</code>, maka perubahan itu tidak akan tersimpan pada variabel dataframe <code>df</code> yang sedang dikerjakan.

Sekarang cek dataframe <code>df</code> untuk melihat perubahannya.

In [7]:
# Mengecek dataframe df

df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


Seluruh <i>missing values</i> yang tadinya berupa __'?'__ sekarang sudah berubah menjadi __NaN__. 

Tahap selanjutnya yaitu mengubah tipe data menggunakan <i>method</i> <code>astype()</code>. Ada beberapa kolom yang memiliki tipe data yang tidak sesuai, di antaranya kolom <code>normalized-losses</code>, <code>bore</code>, <code>stroke</code>, <code>peak-rpm</code> dan <code>price</code>.

In [8]:
# Mengubah tipe data object menjadi float

df[['bore', 'stroke']] = df[['bore', 'stroke']].astype('float')

df['price'] = df['price'].astype('float')
df['peak-rpm'] = df['peak-rpm'].astype('float')

Kolom <code>normalized-losses</code> seharusnya bertipe 'int', bukan? Namun, __NaN__ tidak dapat langsung dikonversi menjadi 'int'. __NaN__ adalah 'float' sehingga untuk mengubah kolom menjadi integer <i>nullable</i>, tipe 'object' harus dikonversi menjadi 'float' terlebih dahulu, baru kemudian dikonversi lagi menjadi 'Int64'.

Perhatikan bahwa yang dapat digunakan adalah __'Int64'__ dengan huruf kapital di depan. Jika menggunakan 'int' atau 'int64' maka akan terjadi <i>error</i>.

In [9]:
# Mengubah tipe data pada kolom normalized-losses menjadi float kemudian Int64

df['normalized-losses'] = df['normalized-losses'].astype('float').astype('Int64')

In [10]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000.0,21,27,13495.0
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000.0,21,27,16500.0
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000.0,19,26,16500.0
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500.0,24,30,13950.0
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500.0,18,22,17450.0


Sekarang cek lagi menggunakan <code>dtypes</code>.

In [11]:
df.dtypes

symboling              int64
normalized-losses      Int64
make                  object
fuel-type             object
aspiration            object
num-of-doors          object
body-style            object
drive-wheels          object
engine-location       object
wheel-base           float64
length               float64
width                float64
height               float64
curb-weight            int64
engine-type           object
num-of-cylinders      object
engine-size            int64
fuel-system           object
bore                 float64
stroke               float64
compression-ratio    float64
horsepower            object
peak-rpm             float64
city-mpg               int64
highway-mpg            int64
price                float64
dtype: object

Untuk kasus seperti kolom <code>normalized-losses</code>, jika mengganti <i>missing values</i> terlebih dahulu menjadi bilangan tertentu sehingga tidak ada lagi data yang bernilai __NaN__, langsung saja mengkonversi tipe data menjadi __'int'__, tidak harus dua kali konversi seperti di atas. 

## Standarisasi data

Data biasanya dikumpulkan dari beberapa sumber sehingga berpeluang memiliki format yang berbeda.

Standarisasi adalah transformasi data menjadi format yang lebih umum dan mudah dipahami. <i>Data standardization</i> juga merupakan suatu istilah yang merujuk pada tipe tertentu dari normalisasi data, yakni pengurangan <i>mean</i> yang kemudian dibagi oleh standar deviasinya.

Contoh standarisasi misalnya mengubah __mpg__ menjadi __L/100km__.

Di dataset ini, kolom konsumsi bahan bakar, <code>city-mpg</code> dan <code>highway-mpg</code> menggunakan satuan __mpg (miles per gallon)__. Di beberapa negara tertentu, satuan tersebut mungkin tidak familiar, karena itu sebaiknya mengganti kolom tersebut dengan satuan __L/100km__ yang mungkin lebih bisa dipahami.

Rumus yang dapat digunakan adalah:

__L/100km = 235 / mpg__

Sekarang aplikasikan rumus tersebut di Pandas untuk mengkonversi kolom <code>city-mpg</code> dan <code>highway-mpg</code>.

In [12]:
# Konversi city-mpg menjadi L/100km

df['city-L/100km'] = 235 / df['city-mpg']

Sekarang cek dataframe <code>df</code>.

In [13]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,mpfi,3.47,2.68,9.0,111,5000.0,21,27,13495.0,11.190476
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,mpfi,3.47,2.68,9.0,111,5000.0,21,27,16500.0,11.190476
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,mpfi,2.68,3.47,9.0,154,5000.0,19,26,16500.0,12.368421
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,mpfi,3.19,3.4,10.0,102,5500.0,24,30,13950.0,9.791667
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,mpfi,3.19,3.4,8.0,115,5500.0,18,22,17450.0,13.055556


Dari output di atas, pada kolom terakhir ada kolom baru yaitu <code>L/100km</code> yang merupakan hasil konversi dari kolom <code>city-mpg</code>. Sekarang kita lakukan hal yang sama untuk mengkonversi <code>highway-mpg</code>.

In [14]:
# Konversi highway-mpg menjadi highway-L/100km

df['highway-L/100km'] = 235 / df['highway-mpg']

df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,highway-L/100km
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,3.47,2.68,9.0,111,5000.0,21,27,13495.0,11.190476,8.703704
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,3.47,2.68,9.0,111,5000.0,21,27,16500.0,11.190476,8.703704
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,2.68,3.47,9.0,154,5000.0,19,26,16500.0,12.368421,9.038462
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,3.19,3.4,10.0,102,5500.0,24,30,13950.0,9.791667,7.833333
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,3.19,3.4,8.0,115,5500.0,18,22,17450.0,13.055556,10.681818


Setelah memiliki kolom <code>city-L/100km</code> dan <code>highway-L/100km</code>, hapus kolom <code>city-mpg</code> dan <code>highway-mpg</code> karena sudah tidak digunakan lagi.

In [15]:
# Menghapus kolom city-mpg dan highway-mpg

df.drop(['city-mpg', 'highway-mpg'], axis=1, inplace=True)

Kolom <code>city-mpg</code> dan <code>highway-mpg</code> sudah terhapus. Sekarang cek dataframe <code>df</code>.

In [16]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,price,city-L/100km,highway-L/100km
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000.0,13495.0,11.190476,8.703704
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000.0,16500.0,11.190476,8.703704
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000.0,16500.0,12.368421,9.038462
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500.0,13950.0,9.791667,7.833333
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500.0,17450.0,13.055556,10.681818


<hr>

## Menambah fitur baru

Menambahkan fitur yang menampilkan data apakah kendaraan tersebut termasuk mewah ataukah tidak dengan melihat jenis <code>drive-wheels</code> dan <code>engine-location</code>-nya.

Untuk membuat kondisi pada dataframe Pandas, gunakan <code>lambda</code> yang diletakkan di dalam <i>method</i> <code>apply()</code> seperti di bawah ini.

In [17]:
df['isLuxury'] = df.apply(lambda row: 1 if ((row['drive-wheels']=='rwd') and (row['engine-location']=='front')) else 0, axis=1)

df['isLuxury'] = df['isLuxury'].astype('category')

cek dataframe <code>df</code>.

In [18]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,price,city-L/100km,highway-L/100km,isLuxury
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,mpfi,3.47,2.68,9.0,111,5000.0,13495.0,11.190476,8.703704,1
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,mpfi,3.47,2.68,9.0,111,5000.0,16500.0,11.190476,8.703704,1
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,mpfi,2.68,3.47,9.0,154,5000.0,16500.0,12.368421,9.038462,1
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,mpfi,3.19,3.4,10.0,102,5500.0,13950.0,9.791667,7.833333,0
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,mpfi,3.19,3.4,8.0,115,5500.0,17450.0,13.055556,10.681818,0


Kolom baru <code>isLuxury</code> terbentuk di paling ujung dataframe yang memiliki nilai <b>1</b> atau <b>0</b> sesuai dengan kondisi yang telah ditetapkan pada kode di atas.



---


Semoga Bermanfaat dan jangan lupa main-main kesini: <a href="https://nurpurwanto.github.io/">**nurpurwanto**</a> Terimakasih.

---


