# # Hands-On Rezza Rienaldy Hidayat 41200121 TI-2020-P5

# Imputasi

imputasi adalah Mengganti nilai/data yang hilang (missing value; NaN; blank) dengan nilai pengganti.

Teknik imputasi berdasarkan tipe data, terdiri dari:
1. Tipe data Variabel Numerik, dengan cara:
   - Imputasi mean atau median.
   - Imputasi nilai suka-suka (arbitrary).
   - Imputasi nilai/data ujung (end of tail).

2. Tipe data Variabel Kategorik, dengan cara:
   - Imputasi kategori yang sering muncul.
   - Tambah kategori yang hilang.

# Imputasi Mean atau Median

Merupakan teknik yang digunakan mengganti nilai/data yang hilang untuk tipe data numerik, dan cocok untuk data missing completely at random (MCAR).

In [1]:
#Import pandas dan numpy

import pandas as pd
import numpy as np

Mengawali Hands-On ini, import library Pandas dan library Numpy telah dilakukan diawal, sehingga pada contoh-contoh code dibawah, sudah tidak dilakukan import library Pandas dan library Numpy.

In [2]:
#Contoh 1 - Imputasi MEAN
#Masukkan data

kolom = {'col1' : [2, 9, 19],
        'col2' : [5, np.nan, 17],
        'col3' : [3, 9, np.nan],
        'col4' : [6, 0, 9],
        'col5' : [np.nan, 7, np.nan]}

data = pd.DataFrame(kolom)

#pd.DataFrame() --> fungsi mengubah menjadi dataframe

In [3]:
#Contoh 1 - Imputasi MEAN
#Tampilkan nilai yang ada pada variabel 'kolom' dalam bentuk dataframe 'data'

data

Unnamed: 0,col1,col2,col3,col4,col5
0,2,5.0,3.0,6,
1,9,,9.0,0,7.0
2,19,17.0,,9,


Tampak pada variabel 'kolom' terdapat data yang hilang (NaN), misal pada baris di indeks=1 kolom=col2. Maka nilai yang hilang (NaN) dapat diberikan nilai, salah satunya dengan menggunakan teknik imputasi MEAN.

In [4]:
#Contoh 1 - Imputasi MEAN
# Mengganti missing value dengan mean()

data.fillna(data.mean())

Unnamed: 0,col1,col2,col3,col4,col5
0,2,5.0,3.0,6,7.0
1,9,11.0,9.0,0,7.0
2,19,17.0,6.0,9,7.0


Setelah dilakukan imputasi MEAN, terlihat pada data baris di indeks=1 kolom=col2 telah terisi nilai yang didapatkan dari nilai mean (rata-rata).

In [5]:
#Contoh 2 - Imputasi MEAN
#Masukkan data

umur = {'umur' : [29, 43,  np.nan, 25, 34, np.nan, 50]}

#Ubah ke dataframe

data = pd.DataFrame(umur)

#Tampilkan nilai yang ada pada variabel 'umur' dalam bentuk dataframe 'data'

data

Unnamed: 0,umur
0,29.0
1,43.0
2,
3,25.0
4,34.0
5,
6,50.0


Tampak pada variabel 'umur' terdapat data yang hilang (NaN), misal umur yang ada pada baris di indeks= 2. Maka nilai yang hilang (NaN) dapat diberikan nilai, salah satunya dengan menggunakan teknik imputasi MEAN.

In [6]:
#Contoh 2 - Imputasi MEAN
#Mengganti missing value dengan mean pada kolom umur

data.fillna(data.mean())

#data.fillna() --> fungsi mengganti missing value

Unnamed: 0,umur
0,29.0
1,43.0
2,36.2
3,25.0
4,34.0
5,36.2
6,50.0


Setelah dilakukan imputasi MEAN, pada data umur yang ada pada baris di indeks= 2 telah memiliki nilai yang diperoleh dari nilai mean (rata-rata)

# Imputasi Nilai Suka-suka (Arbitrary)

Imputasi nilai suka-suka (Arbitrary) juga merupakan salah satu teknik imputasi yang dapat digunakan untuk menggantikan nilai/data yang hilang. Teknik ini juga cocok untuk digunakan bagi tipe data numerik.

In [7]:
#Contoh 1 - Imputasi ARBITRARY
#Masukkan  data

umur = {'umur' : [29, 43,  np.nan, 25, 34, np.nan, 50]}

#Ubah ke dataframe

data = pd.DataFrame(umur)

#Tampilkan nilai yang ada pada variabel 'umur' dalam bentuk dataframe 'data'

data

Unnamed: 0,umur
0,29.0
1,43.0
2,
3,25.0
4,34.0
5,
6,50.0


Tampak pada variabel 'umur' terdapat nilai yang hilang (NaN), misalkan nilai umur yang ada pada baris di indeks= 2.

In [8]:
#Contoh 1 - Imputasi ARBITRARY
#Mengatasi nilai missing value dengan imputasi suka-suka
#Nilai suka-suka yang diberikan pada contoh adalah 99

data.fillna(99)

Unnamed: 0,umur
0,29.0
1,43.0
2,99.0
3,25.0
4,34.0
5,99.0
6,50.0


Setelah dilakukan imputasi ARBITRARY, data umur pada baris 2 telah memiliki nilai yaitu 99, sesuai dengan nilai suka-suka yang telah diberikan. 

# Imputasi End of Tail

Imputasi End of Tail juga termasuk salah satu teknik untuk mengganti data/nilai yang hilang dan digunakan untuk tipe data numerik. 

In [9]:
#Contoh 1 - Imputasi END OF TAIL
#masukkan data

umur = {'umur' : [29, 43,  np.nan, 25, 34, np.nan, 50]}

#Data dalam bentuk dataframe
data = pd.DataFrame(umur)

#Tampilkan nilai pada variabel 'umur' dalam bentuk dataframe

data

Unnamed: 0,umur
0,29.0
1,43.0
2,
3,25.0
4,34.0
5,
6,50.0


Tampak pada variabel 'umur' terdapat nilai yang hilang (NaN), misalkan nilai umur yang ada pada baris di indeks= 2.

In [13]:
#Contoh 1 - Imputasi END OF TAIL
#Import EndTailImputer

from feature_engine.imputation import EndTailImputer

#Membuat imputer
imputer = EndTailImputer(imputation_method='gaussian', tail='right')

#Fit imputer ke set 
imputer.fit(data)

#Mengubah data
test_t = imputer.transform(data)

In [15]:
#Contoh 1 - Imputasi END OF TAIL
#Tampilkan data

test_t

Unnamed: 0,umur
0,29.0
1,43.0
2,66.896905
3,25.0
4,34.0
5,66.896905
6,50.0


Setelah dilakukan imputasi, nilai umur yang ada pada baris di indeks= 2 sudah terisi dengan nilai.

# Imputasi Frequent Category/Modus

Imputasi frequent category/Modus merupakan teknik untuk menggantikan nilai/data hilang dan digunakan bagi tipe data kategori.Cocok untuk data dengan missing at random.

In [16]:
#Contoh 1 - Imputasi Frequent Category/Modus
#Import SimpleImputer dari sklearn.impute

from sklearn.impute import SimpleImputer

In [17]:
#Contoh 1 - Imputasi Frequent Category/Modus
#Masukkan data

make = {'make' : ['Ford', 'Ford', 'Fiat', 'BMW', 'Ford', 'Kia', np.nan, 'Fiat', 'Ford', np.nan, 'Kia']}

#Ubah menjadi dataframe

data = pd.DataFrame(make)

#Tampilkan nilai variabel 'make' dalam bentuk dataframe

data

Unnamed: 0,make
0,Ford
1,Ford
2,Fiat
3,BMW
4,Ford
5,Kia
6,
7,Fiat
8,Ford
9,


Tampak pada variabel 'make' terdapat nilai yang hilang (NaN), misalkan nilai yang ada pada baris di indeks= 6.

In [18]:
#Contoh 1 - Imputasi Frequent Category/Modus
#Mengatasi missing value dengan frequent category / modus

imp = SimpleImputer(strategy='most_frequent')

In [19]:
#Contoh 1 - Imputasi Frequent Category/Modus
#Tampilkan hasil imputasi

imp.fit_transform(data)

array([['Ford'],
       ['Ford'],
       ['Fiat'],
       ['BMW'],
       ['Ford'],
       ['Kia'],
       ['Ford'],
       ['Fiat'],
       ['Ford'],
       ['Ford'],
       ['Kia']], dtype=object)

Setelah dilakukan imputasi, variabel 'make' pada baris di indeks= 6 telah terisi dengan nilai yang merupakan nilai modus dari data tersebut.

# Imputasi Random Sample 

Imputasi Random Sample merupakan teknik untuk menggantikan nilai/data hilang dan digunakan bagi tipe data kategori. Cocok untuk data missing at random. Imputasi ini menggantikan missing value dengan nilai lain dalam distribusi yang sama dari variabel asli.

In [21]:
#Contoh 1 - Imputasi Random Sample
#Import randomsample imputer

from feature_engine.imputation import RandomSampleImputer

# masukkan data dan ubah menjadi dataframe

data = {'Gender' : ['Male', 'Male', np.nan, 'Female', 'Male', np.nan, 'Female'],
       'Age' : [29, np.nan, 43, 25, 34, 50, np.nan]}

#Data dalam bentuk dataframe

df = pd.DataFrame(data)

#Tampilkan data dalam bentuk dataframe
df

Unnamed: 0,Gender,Age
0,Male,29.0
1,Male,
2,,43.0
3,Female,25.0
4,Male,34.0
5,,50.0
6,Female,


Pada data, tampak nilai yang hilang, misalkan pada data baris dengan indeks= 1 dan di kolom Age.

In [22]:
#Contoh 1 - Imputasi Random Sample
#Buat imputernya
imputer = RandomSampleImputer(random_state = 29)

#Fit imputer ke set 
imputer.fit(df)

#Mengubah data
test_t = imputer.transform(df)


In [23]:
#Contoh 1 - Imputasi Random Sample
#Tampilkan data hasil imputasi

test_t

Unnamed: 0,Gender,Age
0,Male,29.0
1,Male,34.0
2,Male,43.0
3,Female,25.0
4,Male,34.0
5,Female,50.0
6,Female,50.0


Setelah dilakukan imputasi, tampak pada baris di indeks= 1 dan di kolom Age telah memiliki nilai.

# Imputasi Nilai Nol/Konstanta

Cara lain yang dapat dilakukan untuk menggantikan nilai yang hilang adalah dengan imputasi nilai nol/konstanta. Teknik ini cocok untuk variabel kategorik.

In [24]:
#Contoh 1 - Imputasi Nilai Nol/Konstanta
#Masukkan  data

umur = {'umur' : [29, 43,  np.nan, 25, 34, np.nan, 50]}

#Ubah ke dataframe

data = pd.DataFrame(umur)

#Tampilkan nilai yang ada pada variabel 'umur' dalam bentuk dataframe 'data'

data

Unnamed: 0,umur
0,29.0
1,43.0
2,
3,25.0
4,34.0
5,
6,50.0


Tampak pada variabel 'umur' terdapat nilai yang hilang (NaN), misalkan nilai umur yang ada pada baris di indeks= 2.

In [26]:
#Contoh 1 - Imputasi Nilai Nol/Konstanta
#Mengatasi nilai missing value dengan imputasi suka-suka
#Nilai suka-suka yang diberikan pada contoh adalah 99

data.fillna(0)

Unnamed: 0,umur
0,29.0
1,43.0
2,0.0
3,25.0
4,34.0
5,0.0
6,50.0


Setelah dilakukan imputasi nilai nol, data umur pada baris 2 telah memiliki nilai yaitu 0 (nol)