### Imputasi

Imputasi adalah nilai/data yang hilang (missing value; NaN; blank) dengan nilai pengganti.

Teknik imputasi berdasarkan tipe data, terdiri dari:
1. Tipe data Variabel Numerik, dengan cara:
    - Imputasi mean atau median.
    - Imputasi nilai suka-suka (arbitrary).
    - Imputasi nilai/data ujung (end of tail).
    
2. Tipe data Variabel Kategorik, dengan cara:
    - Imputasi kategori yang sering muncul.
    - Tambah kategori yang hilang.

#### Mean

In [3]:
import pandas as pd
import numpy as np

kolom = {'col1':[2,9,19],
         'col2':[5,np.nan,17],
         'col3':[3,9,np.nan],
         'col4':[6,0,9],
         'col5':[np.nan,7,np.nan]}

data = pd.DataFrame(kolom)

In [4]:
data

Unnamed: 0,col1,col2,col3,col4,col5
0,2,5.0,3.0,6,
1,9,,9.0,0,7.0
2,19,17.0,,9,


In [5]:
data.fillna(data.mean())

Unnamed: 0,col1,col2,col3,col4,col5
0,2,5.0,3.0,6,7.0
1,9,11.0,9.0,0,7.0
2,19,17.0,6.0,9,7.0


#### Nilai Suka-suka (Arbitrary)

In [6]:
umur ={'umur':[29,43,np.nan,25,34,np.nan,50]}

data = pd.DataFrame(umur)
data

Unnamed: 0,umur
0,29.0
1,43.0
2,
3,25.0
4,34.0
5,
6,50.0


Ambil nilai paling jauh (atas atau bawah)

In [7]:
data.fillna(99)

Unnamed: 0,umur
0,29.0
1,43.0
2,99.0
3,25.0
4,34.0
5,99.0
6,50.0


#### End of Tail (Pilih dari Pojok)

In [8]:
umur ={'umur':[29,43,np.nan,25,34,np.nan,50]}

data = pd.DataFrame(umur)
data

Unnamed: 0,umur
0,29.0
1,43.0
2,
3,25.0
4,34.0
5,
6,50.0


In [11]:
pip install feature-engine









You should consider upgrading via the 'c:\users\user\appdata\local\programs\python\python39\python.exe -m pip install --upgrade pip' command.


In [13]:
#import EndTailImputer
from feature_engine.imputation import EndTailImputer #ambil imputasi menggunakan end of tail

#buat Imputer
imputer = EndTailImputer(imputation_method='gaussian',tail='right') #tail right lebih pas dari left

#fit-kan imputer ke set
imputer.fit(data)

#ubah data
test_data = imputer.transform(data)

#menampilkan data
test_data

Unnamed: 0,umur
0,29.0
1,43.0
2,66.896905
3,25.0
4,34.0
5,66.896905
6,50.0


In [14]:
#import EndTailImputer
from feature_engine.imputation import EndTailImputer #ambil imputasi menggunakan end of tail

#buat Imputer
imputer = EndTailImputer(imputation_method='gaussian',tail='left') #tail dari kiri

#fit-kan imputer ke set
imputer.fit(data)

#ubah data
test_data = imputer.transform(data)

#menampilkan data
test_data

Unnamed: 0,umur
0,29.0
1,43.0
2,5.503095
3,25.0
4,34.0
5,5.503095
6,50.0


Bagaimana dengan data kategorikal?
Kita akan gunakan imputasi modus.

#### Modus

In [18]:
from sklearn.impute import SimpleImputer
mobil ={'merk':['Ford','Ford','Toyota','Honda',np.nan,'Toyota','Honda','Toyota',np.nan,np.nan]}

data = pd.DataFrame(mobil)

In [21]:
data

Unnamed: 0,merk
0,Ford
1,Ford
2,Toyota
3,Honda
4,
5,Toyota
6,Honda
7,Toyota
8,
9,


In [22]:
imputasi = SimpleImputer(strategy='most_frequent')

In [23]:
imputasi.fit_transform(data)

array([['Ford'],
       ['Ford'],
       ['Toyota'],
       ['Honda'],
       ['Toyota'],
       ['Toyota'],
       ['Honda'],
       ['Toyota'],
       ['Toyota'],
       ['Toyota']], dtype=object)

Bagaimana kalau kita butuh untuk mengatasi missing value untuk kategorikal dan numerikal secara bersamaan?
Kita bisa gunakan random sample.

#### Random Sample

In [25]:
#import dulu si Random Sample
from feature_engine.imputation import RandomSampleImputer

#silakan buat data yang ada missing value-nya
data ={'Jenis Kelamin': ['Laki-laki', 'Perempuan', 'Laki-laki', np.nan, 'Laki-laki', 'Perempuan','Perempuan',np.nan,'Laki-laki',np.nan],
        'Umur':[29,np.nan,32,43,50,22,np.nan,52,np.nan,17]}

df = pd.DataFrame(data)

In [26]:
df

Unnamed: 0,Jenis Kelamin,Umur
0,Laki-laki,29.0
1,Perempuan,
2,Laki-laki,32.0
3,,43.0
4,Laki-laki,50.0
5,Perempuan,22.0
6,Perempuan,
7,,52.0
8,Laki-laki,
9,,17.0


In [27]:
#buat dulu imputer
imputer = RandomSampleImputer(random_state=29)

#fit-kan
imputer.fit(df)

#ubah data
testing_df = imputer.transform(df)

In [28]:
#lihat hasil akhir
testing_df

Unnamed: 0,Jenis Kelamin,Umur
0,Laki-laki,29.0
1,Perempuan,52.0
2,Laki-laki,32.0
3,Perempuan,43.0
4,Laki-laki,50.0
5,Perempuan,22.0
6,Perempuan,50.0
7,Laki-laki,52.0
8,Laki-laki,22.0
9,Perempuan,17.0
