# Imputasi

Imputasi merupakan pengganti nilai/data yang hilang (*missing value*, NaN, *blank*) dengan nilai pengganti.

Teknik imputasi berdasarkan tipe data, terdiri dari :
1.   Tipe data Variabel Numerik, dengan cara:
    *   Imputasi mean atau median
    *   Imputasi nilai suka suka (*arbitrary*)
    *   Imputasi nilai/data ujung (*end of tail*)

2.   Tipe data Variabel Kategorik, dengan cara:
    *   Imputasi kategori yang sering muncul
    *   Tambah kategori yang hilang


# Mean

In [34]:
import pandas as pd
import numpy as np

kolom = {'col1' : [2, 9, 19],
         'col2' : [5, np.nan, 17],
         'col3' : [3, 9, np.nan],
         'col4' : [6, 0, 9],
         'col5' : [np.nan, 7, np.nan]}

data = pd.DataFrame(kolom)

In [35]:
data

Unnamed: 0,col1,col2,col3,col4,col5
0,2,5.0,3.0,6,
1,9,,9.0,0,7.0
2,19,17.0,,9,


In [36]:
data.fillna(data.mean())

Unnamed: 0,col1,col2,col3,col4,col5
0,2,5.0,3.0,6,7.0
1,9,11.0,9.0,0,7.0
2,19,17.0,6.0,9,7.0


# Nilai Suka-Suka (*Arbitrary*)

In [3]:
umur = {'umur' : [29, 43, np.nan, 25, 34, np.nan, 50]}

usia = pd.DataFrame(umur)
usia 

Unnamed: 0,umur
0,29.0
1,43.0
2,
3,25.0
4,34.0
5,
6,50.0


In [4]:
usia.fillna(99)

Unnamed: 0,umur
0,29.0
1,43.0
2,99.0
3,25.0
4,34.0
5,99.0
6,50.0


# Imputasi *End of Tail* 

In [37]:
#install lib feature-engine
!pip install feature-engine



In [38]:
umur = {'umur' : [29, 43, np.nan, 25, 34, np.nan, 50]}

data = pd.DataFrame(umur)
data

Unnamed: 0,umur
0,29.0
1,43.0
2,
3,25.0
4,34.0
5,
6,50.0


In [39]:
#import EndTailImputer
from feature_engine.imputation import EndTailImputer

#buat Imputer
imputer = EndTailImputer(imputation_method='gaussian', tail='right')

#fit-kan imputer ke set
imputer.fit(data)

#ubah data
test_data = imputer.transform(data)

#tampilkan data
test_data

Unnamed: 0,umur
0,29.0
1,43.0
2,66.896905
3,25.0
4,34.0
5,66.896905
6,50.0


# Imputasi *Frequent Category*/Modus
*   dapat digunakan untuk data kategorikal



In [17]:
from sklearn.impute import SimpleImputer
mobil = {'mobil' : ['Ford', 'Ford', 'Toyota', 'Honda', np.nan, 'Toyota', 'Honda', 'Toyota', np.nan, np.nan]}

merek = pd.DataFrame(mobil)

In [18]:
merek

Unnamed: 0,mobil
0,Ford
1,Ford
2,Toyota
3,Honda
4,
5,Toyota
6,Honda
7,Toyota
8,
9,


In [19]:
imp = SimpleImputer(strategy = 'most_frequent')

In [20]:
imp.fit_transform(merek)

array([['Ford'],
       ['Ford'],
       ['Toyota'],
       ['Honda'],
       ['Toyota'],
       ['Toyota'],
       ['Honda'],
       ['Toyota'],
       ['Toyota'],
       ['Toyota']], dtype=object)

# Imputasi *Random Sample*
*   untuk mengatasi *missing value* data kategorikal dan numerikal secara bersamaan



In [21]:
#import Random Sample
from feature_engine.imputation import RandomSampleImputer

#buat data missing value-nya
data = {'Jenis Kelamin' : ['Laki-laki', 'Perempuan', 'Laki-laki', 
                         np.nan, 'Perempuan', np.nan, np.nan, 'Perempuan',
                         'Laki-laki', 'Laki-laki', 'Perempuan', np.nan],
      'Umur' : [np.nan, 15, np.nan, 25, 30, 18, 19, 
                np.nan, np.nan, 22, np.nan, 24]}

dt = pd.DataFrame(data)
dt

Unnamed: 0,Jenis Kelamin,Umur
0,Laki-laki,
1,Perempuan,15.0
2,Laki-laki,
3,,25.0
4,Perempuan,30.0
5,,18.0
6,,19.0
7,Perempuan,
8,Laki-laki,
9,Laki-laki,22.0


In [24]:
#buat imputer
imputer = RandomSampleImputer(random_state = 29)

#fit-kan
imputer.fit(dt)

#ubah data
data_baru = imputer.transform(dt)

data_baru

Unnamed: 0,Jenis Kelamin,Umur
0,Laki-laki,22.0
1,Perempuan,15.0
2,Laki-laki,18.0
3,Laki-laki,25.0
4,Perempuan,30.0
5,Perempuan,18.0
6,Perempuan,19.0
7,Perempuan,19.0
8,Laki-laki,22.0
9,Laki-laki,22.0
