Bu bölümde, kayıp verilerle başaçıkmada kullanılan bazı ön işleme yöntemlerinden bahsedilecektir. Bu yöntemler temelde kayıp verinin silinmesi ve doldurulması şeklinde iki ana gruba ayrılmaktadır. Ancak doldurma ve silme işlemlerinin de kendi içinde türleri vardır. Örneğin silme işlemi; kayıp verinin bulunduğu satırın veya sütunun silinmesi şeklinde gerçekleştirilebilir. Doldurulması ise; tüm verisetinin ortalaması, sütun ortalaması veya satır ortalaması şeklinde yapılabilir. 
Aritmetik ortalamanın yanında; toplam değer, medyan, mod gibi değerler de kullanılabilmektedir. Ayrıca regresyon, interpolasyon gibi ileri analiz yöntemleri de kayıp veri tamamlamada kullanılabilmektedir.

##### Kütüphanelerin kurulması:

In [1]:
import pandas as pd
import numpy as np
import sklearn.preprocessing as sk

###### Kayıp verilerin bulunduğu verisetinin yüklenmesi

In [3]:
veriseti = pd.read_excel("veri.xlsx")

In [4]:
veriseti

Unnamed: 0,a,b,c,d
0,3.0,2.0,,4.0
1,2.0,3.0,2.0,
2,,4.0,,6.0
3,3.0,1.0,1.0,3.0
4,5.0,2.0,5.0,2.0
5,3.25,2.4,2.666667,3.75


###### Kayıp verileri silmek veya basitçe doldurmak 

In [5]:
veriseti.dropna() #Kayıp verinin bulunduğu satırı veya sütunu(axis=1) belli bir kritere göre (tresh=x) siler.

Unnamed: 0,a,b,c,d
3,3.0,1.0,1.0,3.0
4,5.0,2.0,5.0,2.0
5,3.25,2.4,2.666667,3.75


In [6]:
veriseti.dropna(axis=1)

Unnamed: 0,b
0,2.0
1,3.0
2,4.0
3,1.0
4,2.0
5,2.4


In [7]:
veriseti.fillna(value=0) #Kayıp veriyi istenilen bir değer ile doldurur.

Unnamed: 0,a,b,c,d
0,3.0,2.0,0.0,4.0
1,2.0,3.0,2.0,0.0
2,0.0,4.0,0.0,6.0
3,3.0,1.0,1.0,3.0
4,5.0,2.0,5.0,2.0
5,3.25,2.4,2.666667,3.75


###### Kayıp verileri tüm değerlerin ortalamasıyla güncellemek 

Kayıp veriyi ortalamayla dolduran bir fonksiyon yazacağız. Bunun için önce verisetindeki bütün hücreleri sayacağız. Sonra kayıp verilerin bulunduğu hücreleri sayacağız. Bu ikisinin farkı dolu hücrelerin sayısını verecek. Bütün hücrelerin toplamını bu farka böldüğümüzde ortalama değer elde edeceğiz. Sonra da bu fonksiyonu verisetine uygulayarak kayıp verileri doluracağız.

In [8]:
def kayıp_veri(veriseti):
    toplam_hücre = veriseti.size
    toplam_boş_hücre = veriseti.isnull().sum().sum()
    toplam_değer = veriseti.iloc[:,1:4].sum().sum()
    return toplam_değer / (toplam_hücre - toplam_boş_hücre)

In [9]:
veriseti.fillna(value = kayıp_veri(veriseti))

Unnamed: 0,a,b,c,d
0,3.0,2.0,2.190833,4.0
1,2.0,3.0,2.0,2.190833
2,2.190833,4.0,2.190833,6.0
3,3.0,1.0,1.0,3.0
4,5.0,2.0,5.0,2.0
5,3.25,2.4,2.666667,3.75


##### Kayıp verileri sütun ortalamasıyla doldurma: Imputer fonksiyonunun kullanımı 

In [11]:
veriseti

Unnamed: 0,a,b,c,d
0,3.0,2.0,,4.0
1,2.0,3.0,2.0,
2,,4.0,,6.0
3,3.0,1.0,1.0,3.0
4,5.0,2.0,5.0,2.0
5,3.25,2.4,2.666667,3.75


In [13]:
imputer = sk.Imputer() #imputer objesinin tanımlanması. Bu obje sütunları dolaşarak kayıp verileri dolduracak.

In [14]:
veriseti = veriseti.iloc[:,:].values #DataFrame'i array yapısına çeviriyoruz. Bütün değişkenler nümerik olduğundan hepsini aldık.

In [15]:
veriseti

array([[ 3.        ,  2.        ,         nan,  4.        ],
       [ 2.        ,  3.        ,  2.        ,         nan],
       [        nan,  4.        ,         nan,  6.        ],
       [ 3.        ,  1.        ,  1.        ,  3.        ],
       [ 5.        ,  2.        ,  5.        ,  2.        ],
       [ 3.25      ,  2.4       ,  2.66666667,  3.75      ]])

In [17]:
imputer = imputer.fit(veriseti[:,:]) #imputer fonksiyonunu bütün satır ve sütunlara uyguluyoruz.

In [19]:
veriseti[:,:] = imputer.transform(veriseti[:,:]) #verisetini dönüştürerek kayıp verilerin doldurulmuş halini elde ediyoruz.

In [20]:
veriseti

array([[ 3.        ,  2.        ,  2.66666667,  4.        ],
       [ 2.        ,  3.        ,  2.        ,  3.75      ],
       [ 3.25      ,  4.        ,  2.66666667,  6.        ],
       [ 3.        ,  1.        ,  1.        ,  3.        ],
       [ 5.        ,  2.        ,  5.        ,  2.        ],
       [ 3.25      ,  2.4       ,  2.66666667,  3.75      ]])

In [22]:
veriseti2 = pd.DataFrame(data = veriseti, columns = ["a","b","c","d"]) #array yapısındaki yeni verisetini tekrar DataFrame'e dönüştürüyoruz.

In [23]:
veriseti2

Unnamed: 0,a,b,c,d
0,3.0,2.0,2.666667,4.0
1,2.0,3.0,2.0,3.75
2,3.25,4.0,2.666667,6.0
3,3.0,1.0,1.0,3.0
4,5.0,2.0,5.0,2.0
5,3.25,2.4,2.666667,3.75


In [25]:
veriseti2.to_excel("veriseti2.xlsx",index=False) #yeni verisetini excel dosyası olarak kaydediyoruz.