## Apa itu Missing Values?

<i>Missing values</i> atau nilai yang hilang adalah nilai yang tidak terdefinisi di dataset. Bentuknya beragam, bisa berupa __blank cell__, ataupun simbol-simbol tertentu seperti __NaN__ (Not a Number), __NA__ (Not Available), dan sebagainya. <i>Missing values</i> dapat menjadi masalah dalam analisis data serta tentunya dapat mempengaruhi hasil <i>modeling machine learning</i>. 

## Load dataset

Dataset yang digunakan adalah dataset <a href='https://archive.ics.uci.edu/ml/datasets/automobile'>Automobile</a> yang berasal dari UCI Machine Learning Repository dengan informasi detail tentang tiap kolom (terurut dari awal sampai akhir) sebagai berikut:

__Attribute Information:__

1. __symboling:__ -3, -2, -1, 0, 1, 2, 3.
2. __normalized-losses:__ continuous from 65 to 256.
3. __make:__
alfa-romero, audi, bmw, chevrolet, dodge, honda,
isuzu, jaguar, mazda, mercedes-benz, mercury,
mitsubishi, nissan, peugot, plymouth, porsche,
renault, saab, subaru, toyota, volkswagen, volvo

4. __fuel-type:__ diesel, gas.
5. __aspiration:__ std, turbo.
6. __num-of-doors:__ four, two.
7. __body-style:__ hardtop, wagon, sedan, hatchback, convertible.
8. __drive-wheels:__ 4wd, fwd, rwd.
9. __engine-location:__ front, rear.
10. __wheel-base:__ continuous from 86.6 120.9.
11. __length:__ continuous from 141.1 to 208.1.
12. __width:__ continuous from 60.3 to 72.3.
13. __height:__ continuous from 47.8 to 59.8.
14. __curb-weight:__ continuous from 1488 to 4066.
15. __engine-type:__ dohc, dohcv, l, ohc, ohcf, ohcv, rotor.
16. __num-of-cylinders:__ eight, five, four, six, three, twelve, two.
17. __engine-size:__ continuous from 61 to 326.
18. __fuel-system:__ 1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi.
19. __bore:__ continuous from 2.54 to 3.94.
20. __stroke:__ continuous from 2.07 to 4.17.
21. __compression-ratio:__ continuous from 7 to 23.
22. __horsepower:__ continuous from 48 to 288.
23. __peak-rpm:__ continuous from 4150 to 6600.
24. __city-mpg:__ continuous from 13 to 49.
25. __highway-mpg:__ continuous from 16 to 54.
26. __price:__ continuous from 5118 to 45400.

Pertama <i>import</i> pandas, kemudian <i>load</i> datasetnya ke dataframe. Kemudian seperti pada notebook yang membahas <i>outliers</i> sebelumnya, ubah/tambahkan <i>header</i> yang sesuai untuk menggambarkan masing-masing kolom untuk dapat memudahkan analisis data.

In [11]:
import pandas as pd
import numpy as np

In [12]:
from google.colab import drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [13]:
%cd /content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py/

/content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py


In [14]:
column_names = ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 
              'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type',
              'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower',
              'peak-rpm', 'city-mpg', 'highway-mpg', 'price']

In [15]:
df = pd.read_csv('automobile.data', names=column_names)

df.head(3)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500


Sekarang lihat info dari dataset tersebut.

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

ada 26 kolom dan 205 baris data. Dilihat dari jumlah data pada masing-masing kolom, sepertinya tidak ada <i>missing values</i> pada dataset tersebut karena semua kolomnya lengkap berjumlah 205. Namun apakah benar begitu? 

O o tentu tidak boleh langsung percaya begitu saja tanpa memeriksanya, karena terkadang <i>missing values</i> bisa dalam bentuk lain.

## Identifikasi Missing Values

Untuk menangani <i>missing values</i>  harus mengetahui seperti apa <i>missing values</i> juga bagaimana cara mengetahui keberadaannya, karena jika datasetnya dalam jumlah besar tidak mungkin mencarinya secara manual bukan?

### Tanda missing values di dataset

Pada umumnya, <i>missing values</i> ditandai dengan __NaN__ di dataset. Jika pada suatu kolom dataframe mengandung __NaN__ otomatis itu akan terdeteksi oleh Python sebagai <i>missing values</i>. Namun dalam kasus lain, banyak dataset yang sebenarnya mengandung <i>missing values</i> tetapi dalam bentuk berbeda sehingga Python tidak menganggapnya sebagai <i>missing values</i>, misalnya dalam bentuk __NA, n.a., ?, -__, atau __blank cell__. Seperti pada dataset yang digunakan sekarang.

lihat kolom <code>normalized-losses</code>

In [17]:
# Memeriksa kolom normalized-losses

df['normalized-losses'].head(10)

0      ?
1      ?
2      ?
3    164
4    164
5      ?
6    158
7      ?
8    158
9      ?
Name: normalized-losses, dtype: object

ada tanda __'?'__ pada beberapa data yang menandakan bahwa itu adalah <i>missing values</i>. Tanda __'?'__ atau simbol lainnya yang bukan berupa __NaN__ tidak dianggap <i>missing values</i> oleh Python melainkan string. Oleh karena itu harus selalu memeriksanya sebelum lanjut ke tahap pemodelan.

### Menangani jenis missing value yang tidak sesuai

Untuk menangani jenis <i>missing values</i> yang tidak sesuai seperti pada kasus ini, kita dapat memformatnya menjadi __NaN__ terlebih dahulu pada saat <i>load</i> dataset di awal untuk memperjelas bahwa itu adalah <i>missing values</i>.

In [18]:
# Definisikan format missing values yang mungkin ada
missing_value_format = ['N.A', 'na', 'n.a.', 'n/a', '?', '-']

# Tambahkan parameter na_values untuk memformat missing values
df = pd.read_csv('automobile.data', names=column_names, na_values=missing_value_format)
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0


Dapat kita lihat sekarang tanda __'?'__ sudah berubah menjadi __NaN__. Ketika kita cek <code>info()</code>, <i>missing values</i> sudah terdekteksi oleh Python. Pada beberapa kolom ada data yang berjumlah kurang dari 205 seperti di bawah ini.

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  164 non-null    float64
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       203 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

### Menandai missing values di dataframe dengan Boolean

Kita dapat menandai <i>missing values</i> di dataframe dengan Boolean, True atau False, menggunakan <i>built-in function</i> <code>isnull()</code> atau <code>notnull()</code>.

* <code>isnull()</code> : menandai <i>missing values</i> dengan <b>True</b>, selainnya False
* <code>notnull()</code> : menandai <i>missing values</i> dengan <b>False</b>, selainnya True

In [20]:
# Menandai missing value dengan True
df['normalized-losses'].isnull().head(10)

0     True
1     True
2     True
3    False
4    False
5     True
6    False
7     True
8    False
9     True
Name: normalized-losses, dtype: bool

In [21]:
# Menandai missing value dengan False
df['normalized-losses'].notnull().head(10)

0    False
1    False
2    False
3     True
4     True
5    False
6     True
7    False
8     True
9    False
Name: normalized-losses, dtype: bool

### Mengecek apakah ada missing values?

<code>isnull()</code> dan <code>notnull()</code> juga dapat digunakan untuk mendeteksi <i>missing values</i> secara keseluruhan dataframe maupun tiap kolom dengan menggunakannya bersama fungsi <code>any()</code>.

In [22]:
# Mengecek missing values untuk keseluruhan dataframe

df.isnull().values.any()

True

In [23]:
# Mengecek missing values untuk tiap kolom

df.isnull().any()

symboling            False
normalized-losses     True
make                 False
fuel-type            False
aspiration           False
num-of-doors          True
body-style           False
drive-wheels         False
engine-location      False
wheel-base           False
length               False
width                False
height               False
curb-weight          False
engine-type          False
num-of-cylinders     False
engine-size          False
fuel-system          False
bore                  True
stroke                True
compression-ratio    False
horsepower            True
peak-rpm              True
city-mpg             False
highway-mpg          False
price                 True
dtype: bool

### Menghitung jumlah missing values

Gunakan <code>isnull()</code> untuk melihat ada berapa <i>missing values</i> di tiap kolom dengan menggunakannya bersama dengan fungsi <code>sum()</code>.

In [24]:
# Memeriksa jumlah missing values di tiap kolom

df.isnull().sum()

symboling             0
normalized-losses    41
make                  0
fuel-type             0
aspiration            0
num-of-doors          2
body-style            0
drive-wheels          0
engine-location       0
wheel-base            0
length                0
width                 0
height                0
curb-weight           0
engine-type           0
num-of-cylinders      0
engine-size           0
fuel-system           0
bore                  4
stroke                4
compression-ratio     0
horsepower            2
peak-rpm              2
city-mpg              0
highway-mpg           0
price                 4
dtype: int64

<hr>

## Menghapus baris yang mengandung missing values

Salah satu cara untuk menangani <i>missing values</i> adalah dengan menghapusnya, bisa menghapus baris ataupun kolom. Menghapus kolom dapat dilakukan jika hampir seluruh data pada kolom tersebut adalah <i>missing values</i>. Dalam kasus ini, tidak ada kolom yang mengandung <i>missing values</i> sebanyak itu. Oleh karena itu, tidak menghapus kolom untuk dataframe ini.

Untuk kolom <code>price</code> karena merupakan <i>dependent variable</i>, maka hapus 4 baris data yang mengandung <i>missing values</i> di kolom tersebut.

Menghapus baris yang mengandung <i>missing values</i> dapat menggunakan fungsi <code>dropna()</code> dengan <code>axis=0</code>. Jika ingin menghapus kolom, ganti nilai axis menjadi 1.

In [25]:
# Menghapus baris 
df.dropna(subset=['price'], axis=0, inplace=True)

# Me-reset indeks karena ada data yang terhapus
df.reset_index(drop=True, inplace=True)

In [26]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0


<code>inplace=True</code> berfungsi untuk menimpa atau mengganti data sebelumnya dengan data yang telah di-<i>edit</i>.

lakukan <code>reset_index()</code> agar indeksnya tidak terloncat setelah penghapusan. Saat me-<i>reset</i> indeks, dataframe akan membuat indeks baru sehingga indeks sebelumnya menjadi kolom pertama. Karena itu kita harus memberikan parameter <code>drop=True</code> untuk menghapusnya. <i>Default</i>-nya adalah False.

## Imputing missing values

Jika tidak memiliki banyak data, ada baiknya tidak menghapus <i>missing values</i> melainkan menggantinya dengan sebuah nilai. Ada beberapa cara untuk mengisi <i>missing values</i>, diantaranya dengan menggantinya dengan konstanta tertentu, mean atau median dari kolom tersebut, mengganti dengan nilai pada baris sebelumnya.

### Mengisi missing values dengan nilai tertentu

Mengisi <i>missing values</i> dengan sebuah nilai tertentu menggunakan fungsi <code>fillna()</code>.

Misalnya <i>missing values</i> pada kolom <code>num-of-doors</code> akan kita isi dengan __four__ yang merupakan jumlah terbanyak pada kolom tersebut. Untuk mendapatkan __four__ sebagai pengganti <i>missing values</i> tentunya harus mengeceknya terlebih dahulu dengan fungsi <code>value_counts()</code>.

In [27]:
# Mengecek jumlah masing-masing kategori di kolom num-of-doors

df['num-of-doors'].value_counts()

four    113
two      86
Name: num-of-doors, dtype: int64

Kemudian gunakan fungsi <code>fillna()</code> dan mendefinisikan __four__ sebagai nilai yang akan diisikan pada <i>missing values</i>.

In [28]:
# Mengisi missing values pada kolom num-of-doors dengan 4

df['num-of-doors'].fillna('four', inplace=True)

### Mengisi missing values dengan mean/median

Masih menggunakan <code>fillna()</code>, gunakan bersama dengan fungsi <code>mean()</code> atau <code>median()</code> untuk mengisi <i>missing values</i> pada kolom numerik.

Misalnya akan mengisi kolom <code>normalized-losses</code> dengan nilai rata-rata dari kolom tersebut alias __mean__.

In [29]:
# Mengisi missing values di kolom normalized-losses dengan mean

df['normalized-losses'].fillna(df['normalized-losses'].mean(), inplace=True)

Sekarang <i>print</i> data teratasnya, karena sebelumnya ada <i>missing values</i> pada data teratas kolom <code>normalized-losses</code>.

In [30]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0
1,3,122.0,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0
2,1,122.0,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0


Untuk kolom <code>num-of-doors</code> pada contoh sebelumnya, dapat juga menggunakan fungsi <code>mode()</code> jika ingin mengisinya dengan frekuensi terbanyak, dimana penggunaannya sama dengan __mean__.

### Mengisi missing values dengan nilai pada baris sebelumnya atau sesudahnya

Untuk mengisi <i>missing values</i> dengan nilai pada baris sebelumnya atau sesudahnya, dapat ditambahkan parameter <code>method</code> di dalam <code>fillna()</code>. 

Misalnya akan mengisi <i>missing values</i> pada kolom <code>bore</code> dengan nilai sebelumnya dengan memberikan parameter <code>method='pad'</code>.

In [31]:
# Mengisi missing values pada kolom bore dengan nilai sebelumnya

df['bore'].fillna(method='pad', inplace=True)

Sekarang isi <i>missing values</i> pada kolom <code>stroke</code> dengan nilai sesudahnya dengan memberikan parameter <code>method='bfill'</code>.

In [32]:
# Mengisi missing values pada kolom stroke dengan nilai sesudahnya

df['stroke'].fillna(method='bfill', inplace=True)

### Menggunakan fungsi replace()

Setelah menggunakan fungsi <code>fillna()</code>, dapat juga menggunakan fungsi <code>replace()</code> untuk mengganti <i>missing values</i>.

Misalnya, akan mengganti <i>missing values</i> pada kolom <code>horsepower</code> dan <code>peak-rpm</code> dengan nilai __mean__-nya menggunakan <code>replace()</code> 

In [33]:
# Replace missing values pada kolom horsepower dengan mean

df['horsepower'].replace(np.nan, df['horsepower'].mean(), inplace=True)

In [34]:
# Replace missing values pada kolom peak-rpm dengan mean

df['peak-rpm'].replace(np.nan, df['peak-rpm'].mean(), inplace=True)

Setelah kita menangani semua <i>missing values</i> pada dataframe, sekarang cek lagi info detailnya.

In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 201 entries, 0 to 200
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          201 non-null    int64  
 1   normalized-losses  201 non-null    float64
 2   make               201 non-null    object 
 3   fuel-type          201 non-null    object 
 4   aspiration         201 non-null    object 
 5   num-of-doors       201 non-null    object 
 6   body-style         201 non-null    object 
 7   drive-wheels       201 non-null    object 
 8   engine-location    201 non-null    object 
 9   wheel-base         201 non-null    float64
 10  length             201 non-null    float64
 11  width              201 non-null    float64
 12  height             201 non-null    float64
 13  curb-weight        201 non-null    int64  
 14  engine-type        201 non-null    object 
 15  num-of-cylinders   201 non-null    object 
 16  engine-size        201 non

Pada output di atas, semua kolom sekarang berisi 201 data setelah mengganti dan menghapus 4 baris yang memiliki <i>missing values</i> pada kolom <code>price</code>.



---


Semoga Bermanfaat dan jangan lupa main-main kesini: <a href="https://nurpurwanto.github.io/">**nurpurwanto**</a> Terimakasih.

---


