## Substitusi mssing value dengan SimpleImputer
Ada 4 strategi subsitusi dengan SimpleImpter: mean, median, most_frequent, constant



Jenis data dapat berupa numerik atau kategorikal. Untuk SimpleImputer dengan strategi most_frequent dengan data numerik, maka hasilnya akan sama dengan strategi median. 

In [19]:
import pandas as pd
import numpy as np

# Importing the SimpleImputer class
from sklearn.impute import SimpleImputer
 
dataNumerik = [[12, np.nan, 34], 
        [10, 32, np.nan],
        [np.nan, 11, 20],
        [10, 11, 34]
       ]
 
print("Original Data numerik : \n", dataNumerik)

 
dataSiswa = [[85, 'L', 'sangatbagus'],
           [95, 'P', 'sempurna'],
           [75, None,'bagus'],
           [np.NaN, 'L', 'cukup'],
           [70, 'L', 'bagus'],
           [np.NaN, None, 'sangatbagus'],
           [92, 'P', 'sangatbagus'],
           [98, 'L', 'sempurna']]


print("\n\nOriginal data siswa (kombinasi numerik dan kategorikal: \n", dataSiswa)


Original Data numerik : 
 [[12, nan, 34], [10, 32, nan], [nan, 11, 20], [10, 11, 34]]


Original data siswa (kombinasi numerik dan kategorikal: 
 [[85, 'L', 'sangatbagus'], [95, 'P', 'sempurna'], [75, None, 'bagus'], [nan, 'L', 'cukup'], [70, 'L', 'bagus'], [nan, None, 'sangatbagus'], [92, 'P', 'sangatbagus'], [98, 'L', 'sempurna']]


### A. Data Numerik: Substitusi missing value (nan) dengan SimpleImputer


#### A.1. Imputer dengan strategi **mean**

In [2]:
# Imputer object using the mean strategy and
# missing_values type for imputation
imputer = SimpleImputer(missing_values = np.nan,
                        strategy ='mean')

# Fitting the data to the imputer object
imputer = imputer.fit(dataNumerik)
 
# Imputing the data    
data1 = imputer.transform(dataNumerik)
 
print("Imputed Data : \n", data1)

Imputed Data : 
 [[12.         18.         34.        ]
 [10.         32.         29.33333333]
 [10.66666667 11.         20.        ]
 [10.         11.         34.        ]]


#### A.2. Imputer dengan strategi **median**

In [5]:
# Imputer object using the mean strategy and
# missing_values type for imputation
imputer = SimpleImputer(missing_values = np.nan,
                        strategy ='median')

# Fitting the data to the imputer object
imputer = imputer.fit(dataNumerik)
 
# Imputing the data    
data2 = imputer.transform(dataNumerik)
 
print("Imputed Data : \n", data2)

Imputed Data : 
 [[12. 11. 34.]
 [10. 32. 34.]
 [10. 11. 20.]
 [10. 11. 34.]]


#### A.3. Imputer dengan strategi **most_frequent**

In [6]:
# Imputer object using the mean strategy and
# missing_values type for imputation
imputer = SimpleImputer(missing_values = np.nan,
                        strategy ='most_frequent')

# Fitting the data to the imputer object
imputer = imputer.fit(dataNumerik)
 
# Imputing the data    
data3 = imputer.transform(dataNumerik)
 
print("Imputed Data : \n", data3)

Imputed Data : 
 [[12. 11. 34.]
 [10. 32. 34.]
 [10. 11. 20.]
 [10. 11. 34.]]


#### A.4. Imputer dengan strategi **constant**

In [7]:
# Imputer object using the mean strategy and
# missing_values type for imputation
imputer = SimpleImputer(missing_values = np.nan,
                        strategy='constant', 
                        fill_value=80)

# Fitting the data to the imputer object
imputer = imputer.fit(dataNumerik)
 
# Imputing the data    
data4 = imputer.transform(dataNumerik)
 
print("Imputed Data : \n", data4)

Imputed Data : 
 [[12. 80. 34.]
 [10. 32. 80.]
 [80. 11. 20.]
 [10. 11. 34.]]


### B. Kombinasi Data Numerik dan Kategorikal: Substitusi missing value (nan) dengan SimpleImputer

In [20]:
dfsiswa = pd.DataFrame(dataSiswa)
dfsiswa.columns = ['nilai', 'gender', 'hasil']
dfsiswa

Unnamed: 0,nilai,gender,hasil
0,85.0,L,sangatbagus
1,95.0,P,sempurna
2,75.0,,bagus
3,,L,cukup
4,70.0,L,bagus
5,,,sangatbagus
6,92.0,P,sangatbagus
7,98.0,L,sempurna


In [9]:
dfsiswa.isnull().sum()

nilai     2
gender    2
hasil     0
dtype: int64

Field nilai dan gender, masing-masing memiliki 2 _missing value_

In [10]:
dfsiswa.describe()

Unnamed: 0,nilai
count,6.0
mean,85.833333
std,11.303392
min,70.0
25%,77.5
50%,88.5
75%,94.25
max,98.0


#### B.1. Imputer dengan strategi **mean**

In [21]:
dfsiswa2 = dfsiswa.copy()
#
# Missing values direpresentatikan dengan NaN sehingga terspesifikasi. 
# Jika dia adalah data kosong, maka missing value terspesifikasi 
# sebagai ''
imputer = SimpleImputer(missing_values=np.NaN, strategy='mean')
 
dfsiswa2.nilai = imputer.fit_transform(dfsiswa2['nilai'].values.reshape(-1,1))[:,0]
 
dfsiswa2

Unnamed: 0,nilai,gender,hasil
0,85.0,L,sangatbagus
1,95.0,P,sempurna
2,75.0,,bagus
3,85.833333,L,cukup
4,70.0,L,bagus
5,85.833333,,sangatbagus
6,92.0,P,sangatbagus
7,98.0,L,sempurna


Di contoh ini, terlihat bahwa _missing value_ pada atribut/variabel nilai tergantikan dengan nilai rata-rata yaitu: 85.833333

Sebagaimana dijelaskan di sesi A, bahwa data dengan tipe numerik dapat menggunakan 4 strategi: mean, median, most_frequent dan constant. Tetapi untuk data kategorikal seperti variabel/atribute gender, tidak dapat menggunakan strategi mean dan median. 

#### B2. Imputer dengan strategi **median**

In [22]:
dfsiswa3 = dfsiswa.copy()
#
# Missing values direpresentatikan dengan NaN sehingga terspesifikasi. 
# Jika dia adalah data kosong, maka missing value terspesifikasi 
# sebagai ''
imputer = SimpleImputer(missing_values=np.NaN, strategy='median')
 
dfsiswa3.nilai = imputer.fit_transform(dfsiswa3['nilai'].values.reshape(-1,1))[:,0]
 
dfsiswa3

Unnamed: 0,nilai,gender,hasil
0,85.0,L,sangatbagus
1,95.0,P,sempurna
2,75.0,,bagus
3,88.5,L,cukup
4,70.0,L,bagus
5,88.5,,sangatbagus
6,92.0,P,sangatbagus
7,98.0,L,sempurna


#### B3. Imputer dengan strategi **most_frequent**

In [23]:
dfsiswa4 = dfsiswa.copy()

imputer = SimpleImputer(missing_values=None, strategy='most_frequent')

dfsiswa4.gender = imputer.fit_transform(dfsiswa4['gender'].values.reshape(-1,1))[:,0]
dfsiswa4

Unnamed: 0,nilai,gender,hasil
0,85.0,L,sangatbagus
1,95.0,P,sempurna
2,75.0,L,bagus
3,,L,cukup
4,70.0,L,bagus
5,,L,sangatbagus
6,92.0,P,sangatbagus
7,98.0,L,sempurna


In [14]:
dfsiswa = pd.DataFrame(dataSiswa)
dfsiswa.columns = ['nilai', 'gender', 'hasil']

imputer = SimpleImputer(missing_values=None, strategy='constant', fill_value='X')

dfsiswa.gender = imputer.fit_transform(dfsiswa['gender'].values.reshape(-1,1))[:,0]
dfsiswa

Unnamed: 0,nilai,gender,hasil
0,85.0,L,sangatbagus
1,95.0,P,sempurna
2,75.0,X,bagus
3,,L,cukup
4,70.0,L,bagus
5,,X,sangatbagus
6,92.0,P,sangatbagus
7,98.0,L,sempurna
