# Data Imputation

Boş verileri otomatik doldurmak için çeşitli yöntemler kullanılabilir. Bunlar:

* Regresyon ile doldurma
* En yakın komşu (KNN) algoritması ile doldurma
* İstatistik değerleri (median, mod) kullanarak doldurma
* Sayı sıralaması yöntemleri (ffill, bfill) kullanarak doldurma

<img src="imputation.jpg" width="500">

In [1]:
import pandas as pd

In [2]:
df=pd.read_csv("ExampleData.csv")

In [3]:
df

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,,15.0,25.0
4,161.0,,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,,7.0,
8,172.0,8.0,12.0
9,170.0,9.0,14.0


In [4]:
df.isnull().sum()

Height    5
YOE       3
Salary    3
dtype: int64

> Yukarıdaki veri setinin çeşitli satırlarında boş veriler bulunmaktadır. Bu boşlukları her bir yöntemi kullanarak doldurmaya çalışalım.

## Boş verileri Regresyon ile doldurma

In [5]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.linear_model import LinearRegression

In [6]:
lr=LinearRegression()
imp=IterativeImputer(estimator=lr)
imputed_data=imp.fit_transform(df)

In [7]:
 # Transform sonrası değişen veriyi tekrar Data Frame yapıyoruz
pd.DataFrame(imputed_data, columns=[df.columns])

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,165.275222,15.0,25.0
4,161.0,31.706376,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,169.720689,7.0,12.40191
8,172.0,8.0,12.0
9,170.0,9.0,14.0


## En yakın komşu ile boşlukları doldurma

In [8]:
from sklearn.impute import KNNImputer

In [9]:
knn=KNNImputer()

In [10]:
imputed_data2=knn.fit_transform(df)

In [11]:
pd.DataFrame(imputed_data2, columns=[df.columns])

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,166.4,15.0,25.0
4,161.0,11.8,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,176.8,7.0,11.4
8,172.0,8.0,12.0
9,170.0,9.0,14.0


## Orta değer ile doldurma

In [12]:
from sklearn.impute import SimpleImputer

In [13]:
imp=SimpleImputer(strategy="mean") # median, mode

In [14]:
imputed_data3 = imp.fit_transform(df)

In [15]:
pd.DataFrame(imputed_data3, columns=[df.columns])

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,168.7,15.0,25.0
4,161.0,7.045455,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,168.7,7.0,17.590909
8,172.0,8.0,12.0
9,170.0,9.0,14.0


## En Uygun Yöntem İle Doldurma
Bu paket Regression, Ortalama, En yakın vs. yöntemlerinden hangisi en uygun ise bunu seçerek boşlukları dolduruyor

> Eğer kütüphane kurulu değilse aşağıdaki komut ile kurulabilir:
```
pip install miceforest
```

In [16]:
import miceforest as mf

In [17]:
imp = mf.ImputationKernel(df)

In [18]:
imp.complete_data()

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,180.0,15.0,25.0
4,161.0,7.0,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,160.0,7.0,12.0
8,172.0,8.0,12.0
9,170.0,9.0,14.0


## Sayı sıralamasında ileriye (ffill) ya da geriye (bfill) doğru doldurma

In [19]:
df.ffill(axis=1)

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,,15.0,25.0
4,161.0,161.0,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,,7.0,7.0
8,172.0,8.0,12.0
9,170.0,9.0,14.0


In [20]:
df.bfill(axis=1) 

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,15.0,15.0,25.0
4,161.0,50.0,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,7.0,7.0,
8,172.0,8.0,12.0
9,170.0,9.0,14.0


# Son Söz:
Makine öğrenmesi modeli geliştirirken en çok gerekli olan işlemlerden birisi de boş verileri doldurma sürecidir. Bu süreçte verilerin en uygun değerle doldurulması geliştirilen modelin başarısı için çok önemlidir. Bu projede boşluk doldurma sürecinde kullanılan otomatik işlemleri gördük.