# Imputation Techniques - Boş verileri doldurma

### Bu projede amaç, bir veri setindeki eksik (NaN) verileri farklı yöntemlerle doldurarak, analiz veya modelleme işlemlerine hazır hale getirmektir. Eksik veriler istatistiksel ve makine öğrenmesi tabanlı tekniklerle doldurulmuştur.

In [1]:
import pandas as pd

In [2]:
df=pd.read_csv('ExampleData.csv')

In [3]:
df

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,,15.0,25.0
4,161.0,,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,,7.0,
8,172.0,8.0,12.0
9,170.0,9.0,14.0


#### Lineer regression ile doldurma

In [4]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.linear_model import LinearRegression

In [5]:
lr=LinearRegression()
imp=IterativeImputer(estimator=lr)
imputed_data=imp.fit_transform(df)

In [8]:
pd.DataFrame(imputed_data)
#lienar regression ile doldurmuş olduk boş veri kalmadı içeride

Unnamed: 0,0,1,2
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,165.275222,15.0,25.0
4,161.0,31.706376,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,169.720689,7.0,12.40191
8,172.0,8.0,12.0
9,170.0,9.0,14.0


#### en yakın komşu ile doldurmak (benzerliklerine göre)

In [9]:
from sklearn.impute import KNNImputer

In [10]:
knn=KNNImputer()

In [11]:
imputed_data2=knn.fit_transform(df)

In [14]:
pd.DataFrame(imputed_data2,columns=df.columns)

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,166.4,15.0,25.0
4,161.0,11.8,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,176.8,7.0,11.4
8,172.0,8.0,12.0
9,170.0,9.0,14.0


#### Ortalama ile doldurma 

In [30]:
from sklearn.impute import SimpleImputer

In [31]:
imp=SimpleImputer(strategy='mean') #mean yerine ne yazarsan onla doldurur

In [32]:
imputed_data3=imp.fit_transform(df)

In [33]:
pd.DataFrame(imputed_data3,columns=df.columns)

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,168.7,15.0,25.0
4,161.0,7.045455,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,168.7,7.0,17.590909
8,172.0,8.0,12.0
9,170.0,9.0,14.0


#### Tek tek hepsini gezer hangisine ne gerekliyse ona göre doldurur

In [24]:
#pip install miceforest

In [25]:
import miceforest as mf

In [26]:
imp=mf.ImputationKernel(df)

In [27]:
imp.complete_data()

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,161.0,15.0,25.0
4,161.0,3.0,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,162.0,7.0,14.0
8,172.0,8.0,12.0
9,170.0,9.0,14.0


#### Satır içi doldurma işlemleri

In [36]:
df.ffill(axis=1) # Satırda soldan sağa doğru eksik hücreleri doldurur

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,,15.0,25.0
4,161.0,161.0,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,,7.0,7.0
8,172.0,8.0,12.0
9,170.0,9.0,14.0


In [37]:
df.bfill(axis=1) # Satırda sağdan sola doğru eksik hücreleri doldurur

Unnamed: 0,Height,YOE,Salary
0,175.0,3.0,6.0
1,168.0,4.0,9.0
2,160.0,10.0,18.0
3,15.0,15.0,25.0
4,161.0,50.0,50.0
5,162.0,5.0,10.0
6,180.0,6.0,11.0
7,7.0,7.0,
8,172.0,8.0,12.0
9,170.0,9.0,14.0


Projede birçok farklı imputation yöntemi denenmiş, bu da veri temizliğini güçlendirmiş.

miceforest gibi gelişmiş model tabanlı bir yöntemin dahil edilmesi projeyi daha profesyonel hale getiriyor.

KNN gibi komşuluk temelli yaklaşımlar, veri yapısına bağlı olarak daha gerçekçi sonuçlar verebilir.

Ortalama ile doldurma basit ama etkisi sınırlı olabilir; sadece hızlı çözümler için uygundur.

ffill/bfill gibi yöntemler zamansal veya sıralı verilerde daha anlamlıdır.

Proje, eksik verileri işlemek isteyen herkes için temiz, anlaşılır ve uygulanabilir bir örnek sunuyor.