# Imputasi

Imputasi adalah mengganti nilai/data yang hilang (missing value; NaN; Blank) dengan nilai pengganti

Teknik imputasi berdasarkan tipe data, terdiri dari:
1. Tipe Data variabel Numerik , dengan cara
    - Imputasi Mean atau median
    - Imputasi nilai suka-suka (arbitrary)
    - Imputasi nilai data ujung (end of tail)
2. Tipe Data variabel Kategorik, dengan cara
    - Imputasi kategori yang sering muncul
    - Tambah kategori yang hilang

### Mean

In [11]:
import pandas as pd
import numpy as np
#nan = gak ada isi
kolom = {'col1': [2, 9, 19], 
         'col2': [5, np.nan, 17],
         'col3': [3, 9, np.nan],
         'col4': [6, 0, 9],
         'col5': [np.nan, 7, np.nan]}

data = pd.DataFrame(kolom)

In [12]:
data

Unnamed: 0,col1,col2,col3,col4,col5
0,2,5.0,3.0,6,
1,9,,9.0,0,7.0
2,19,17.0,,9,


In [13]:
#mengisi data nan dengan mean
data.fillna(data.mean())

Unnamed: 0,col1,col2,col3,col4,col5
0,2,5.0,3.0,6,7.0
1,9,11.0,9.0,0,7.0
2,19,17.0,6.0,9,7.0


### Imputasi Nilai suka-suka (Arbitrary)

In [14]:
umur = {'umur': [29, 43, np.nan, 25, 34, np.nan, 50]}

data = pd.DataFrame(umur)
data

Unnamed: 0,umur
0,29.0
1,43.0
2,
3,25.0
4,34.0
5,
6,50.0


In [15]:
data.fillna(99)

Unnamed: 0,umur
0,29.0
1,43.0
2,99.0
3,25.0
4,34.0
5,99.0
6,50.0


### Imputasi End of Tail

In [6]:
umur = {'umur': [29, 43, np.nan, 25, 34, np.nan, 50]}

data = pd.DataFrame(umur)
data

Unnamed: 0,umur
0,29.0
1,43.0
2,
3,25.0
4,34.0
5,
6,50.0


In [9]:
pip install feature-engine

Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'c:\users\hp\appdata\local\programs\python\python39\python.exe -m pip install --upgrade pip' command.


In [10]:
# mean + 3 * std deviasi
#import EndTailImputer
from feature_engine.imputation import EndTailImputer

#buat Imputer
imputer = EndTailImputer (imputation_method='gaussian', tail='right')

#fitkan imputer ke nilai set
imputer.fit(data)

#ubah data
test_data = imputer.transform(data)

#tampilkan data
test_data

Unnamed: 0,umur
0,29.0
1,43.0
2,66.896905
3,25.0
4,34.0
5,66.896905
6,50.0


In [16]:
#import EndTailImputer
from feature_engine.imputation import EndTailImputer

#buat Imputer
imputer = EndTailImputer (imputation_method='gaussian', tail='left')

#fitkan imputer ke nilai set
imputer.fit(data)

#ubah data
test_data = imputer.transform(data)

#tampilkan data
test_data

Unnamed: 0,umur
0,29.0
1,43.0
2,5.503095
3,25.0
4,34.0
5,5.503095
6,50.0


### Bagaimana dengan data kategorikal?

### Imputasi Modus

In [21]:
from sklearn.impute import SimpleImputer
mobil = {'mobil' :['Ford', 'Ford', 'Toyota', 'Honda', np.nan,
                   'Toyota', 'Honda', 'Toyota', np.nan, np.nan]}

data = pd.DataFrame(mobil)     
data          

Unnamed: 0,mobil
0,Ford
1,Ford
2,Toyota
3,Honda
4,
5,Toyota
6,Honda
7,Toyota
8,
9,


In [22]:
imp = SimpleImputer(strategy='most_frequent')

In [23]:
imp.fit_transform(data)

array([['Ford'],
       ['Ford'],
       ['Toyota'],
       ['Honda'],
       ['Toyota'],
       ['Toyota'],
       ['Honda'],
       ['Toyota'],
       ['Toyota'],
       ['Toyota']], dtype=object)

Bagaimana kalau kita butuh untuk mengatasi missing value untuk kategorikal dan numerikal secara bersamaan?

kita bisa gunakan random sampel

In [24]:
#import dulu Random Sample
from feature_engine.imputation import RandomSampleImputer

#buat data yang ada missing value

data = {'Jenis Kelamin' : ['Laki-laki', 'Perempuan', 'Laki-laki', 
                           np.nan, 'Laki-laki', 'Perempuan', 'Perempuan', np.nan, np.nan, 'Laki-laki'],
        'Umur' : [29, np.nan, np.nan, 32, np.nan,43,50,22,52,17]}

df = pd.DataFrame(data)
df
                        

Unnamed: 0,Jenis Kelamin,Umur
0,Laki-laki,29.0
1,Perempuan,
2,Laki-laki,
3,,32.0
4,Laki-laki,
5,Perempuan,43.0
6,Perempuan,50.0
7,,22.0
8,,52.0
9,Laki-laki,17.0


In [25]:
#buat dulu imputer
imputer = RandomSampleImputer(random_state=29)

#fitkan
imputer.fit (df)

#ubah data
testing_df = imputer.transform(df)

In [26]:
testing_df

Unnamed: 0,Jenis Kelamin,Umur
0,Laki-laki,29.0
1,Perempuan,52.0
2,Laki-laki,50.0
3,Perempuan,32.0
4,Laki-laki,22.0
5,Perempuan,43.0
6,Perempuan,50.0
7,Laki-laki,22.0
8,Perempuan,52.0
9,Laki-laki,17.0
