# Imputasi

Imputasi adalah pengganti nilai/data yang hilang (*missing value, NaN, blank*) dengan nilai penganti.

Teknik Imputasi berdasarkan tipe data, terdiri dari:
1. **Tipe data Variabel Numerik**, dengan cara:
  - Imputasi mean/median
  - Imputasi niai suka suka (*arbitrary*)
  - Imputasi nilai/data ujung (*end of tail*)

2. **Tipe data Variabel Kategorik**, dengan cara:
  - Imputasi kategori yang sering muncul
  - Tambah kategori yang hilang


# 1. Mean

In [4]:
import pandas as pd
import numpy as np

kolom = {'col1' : [4, 8, 18],
         'col2' : [2, np.nan, 17],
         'col3' : [3, 9, np.nan],
         'col4' : [6, 0, 9],
         'col5' : [np.nan, 7, np.nan]}

data = pd.DataFrame(kolom)

In [5]:
data

Unnamed: 0,col1,col2,col3,col4,col5
0,4,2.0,3.0,6,
1,8,,9.0,0,7.0
2,18,17.0,,9,


In [7]:
data.fillna(data.mean())

Unnamed: 0,col1,col2,col3,col4,col5
0,4,2.0,3.0,6,7.0
1,8,9.5,9.0,0,7.0
2,18,17.0,6.0,9,7.0


# 2. Nilai Suka-Suka (*Arbitrary*)

In [8]:
umur = {'umur' : [19, 25, np.nan, 35, 45, np.nan, 50]}

usia = pd.DataFrame(umur)
usia

Unnamed: 0,umur
0,19.0
1,25.0
2,
3,35.0
4,45.0
5,
6,50.0


In [9]:
usia.fillna(99)

Unnamed: 0,umur
0,19.0
1,25.0
2,99.0
3,35.0
4,45.0
5,99.0
6,50.0


# 3. Imputasi *End of Tail*

In [10]:
#install lib feature-engine
!pip install feature-engine

Collecting feature-engine
  Downloading feature_engine-1.2.0-py2.py3-none-any.whl (205 kB)
[?25l[K     |█▋                              | 10 kB 25.5 MB/s eta 0:00:01[K     |███▏                            | 20 kB 27.6 MB/s eta 0:00:01[K     |████▉                           | 30 kB 33.0 MB/s eta 0:00:01[K     |██████▍                         | 40 kB 35.7 MB/s eta 0:00:01[K     |████████                        | 51 kB 16.8 MB/s eta 0:00:01[K     |█████████▋                      | 61 kB 19.2 MB/s eta 0:00:01[K     |███████████▏                    | 71 kB 21.2 MB/s eta 0:00:01[K     |████████████▊                   | 81 kB 22.8 MB/s eta 0:00:01[K     |██████████████▍                 | 92 kB 24.8 MB/s eta 0:00:01[K     |████████████████                | 102 kB 26.2 MB/s eta 0:00:01[K     |█████████████████▋              | 112 kB 26.2 MB/s eta 0:00:01[K     |███████████████████▏            | 122 kB 26.2 MB/s eta 0:00:01[K     |████████████████████▊           | 133 

In [12]:
umur = {'umur' : [19, 25, np.nan, 35, 45, np.nan, 50]}

data = pd.DataFrame(umur)
data

Unnamed: 0,umur
0,19.0
1,25.0
2,
3,35.0
4,45.0
5,
6,50.0


In [13]:
#import EndTailImputer
from feature_engine.imputation import EndTailImputer

#buat Imputer
imputer = EndTailImputer(imputation_method='gaussian', tail='right')

#fit-kan imputer ke set
imputer.fit(data)

#ubah data
test_data = imputer.transform(data)

#tampilkan data
test_data

Unnamed: 0,umur
0,19.0
1,25.0
2,73.938217
3,35.0
4,45.0
5,73.938217
6,50.0


# 4. Imputasi *Frequent Category*/Modus

--> dapat digunakan untuk data kategorikal

In [14]:
from sklearn.impute import SimpleImputer
mobil = {'mobil' : ['Ford', 'Ford', 'Toyota', 'Honda', np.nan, 'Toyota', 'Honda', 'Toyota', np.nan, np.nan]}

merek = pd.DataFrame(mobil)

In [15]:
merek

Unnamed: 0,mobil
0,Ford
1,Ford
2,Toyota
3,Honda
4,
5,Toyota
6,Honda
7,Toyota
8,
9,


In [16]:
imp = SimpleImputer(strategy='most_frequent')

In [17]:
imp.fit_transform(merek)

array([['Ford'],
       ['Ford'],
       ['Toyota'],
       ['Honda'],
       ['Toyota'],
       ['Toyota'],
       ['Honda'],
       ['Toyota'],
       ['Toyota'],
       ['Toyota']], dtype=object)

# 5. Imputasi *Random Sample*

--> untuk mengatasi *missing value* data kategorikal dan numerikal secara bersamaan

In [18]:
#import Random Sample
from feature_engine.imputation import RandomSampleImputer

#buta data missing value-nya
data = {'Jenis Kelamin' : ['Laki-laki', 'Perempuan', 'Laki-laki', np.nan,
                           'Perempuan', np.nan, np.nan, 'Perempuan', 'Laki-laki',
                           'Laki-laki', 'Perempuan', np.nan],
        'Umur' : [np.nan, 20, np.nan, 17, 35, 24, 15,
                  np.nan, np.nan, 40, np.nan, 22]
        }

dt = pd.DataFrame(data)
dt

Unnamed: 0,Jenis Kelamin,Umur
0,Laki-laki,
1,Perempuan,20.0
2,Laki-laki,
3,,17.0
4,Perempuan,35.0
5,,24.0
6,,15.0
7,Perempuan,
8,Laki-laki,
9,Laki-laki,40.0


In [19]:
#buat imputer
imputer = RandomSampleImputer(random_state = 29)

#fit-kan
imputer.fit(dt)

#ubah data
data_baru = imputer.transform(dt)

data_baru

Unnamed: 0,Jenis Kelamin,Umur
0,Laki-laki,40.0
1,Perempuan,20.0
2,Laki-laki,24.0
3,Laki-laki,17.0
4,Perempuan,35.0
5,Perempuan,24.0
6,Perempuan,15.0
7,Perempuan,15.0
8,Laki-laki,40.0
9,Laki-laki,40.0
