In [1]:
import pandas as pd; import numpy as np; import math

# Eksik Veri ile ilgili işlemler


   - Veri analizi ve model kurmadan önce veri setini yüklemek, temizlemek, düzenlemek önemli ölçüde zaman alır. Eğer veri setini analiz için istenilen ölçüte getiremezsek veri analizini yapamayız.
   - Pandas veri manipülasyonu için biçilmiş kaftandır.
   - Pandas veriyi ön işlerken hızlı ve esnektir. İşleri kolaylaştırıcı metotlar da barındırır. 
   - Gerçek dünyadaki veri setlerinde eksik veri yada kayıp veri çok sık karşımıza gelir. Pandas kütüphanesinin amaçlarından biri mümkün olduğunca ağrısız eksik veri ile çalışmaktır. Bunun için biz komut vermesek dahi pandas eksik veriler ile bazı işlemler yapar. Örneğin;
       - Verinin özet istatistikleri eksik veri yoksayılarak bulunur.
   - Pandasda eksik veri `NaN` ile ifade edilir.
   - Eksik verileri tespit etmek için `.isnull()` metotu kullanılır. Tersi işlem için `.notnull()` metotu kullanılır.
   - Pythonda eksik veri `None` olarak ifade edilir. Herhangi bir indexdeki veriye atama yapmak için `<veri_seti>[<index>]= None` yapısı kullanılır.
   - (Series) Veri yapısındaki eksik değerleri kadırmak için `.dropna()` metotu kullanılır. Başka bir yöntem ise `<veri_seti>[<veri_seti>.notnull()]` yapısı kullanılır.
   - Eksik verilerin yerine başka değer atamak istenirse `.fillna(<verilecek_değer>)` metotu kullanılır. Atanacak verilerin yerine dictionary yapısı kullanılarak stun bazlı atama yapılabilir. Eğer eksik veriyi bir üst satırdaki veriye eşitlemek istersek `method = "ffill` parametresi verilir. Eğer buna bir sınır verilmek istenirse `limit = <sınır>` parametresi eklenir. 
     Eksik veri yerine ortalama, std gibi analiz sonucu veriler yerleştirilmek istenirse `<veri_seti>.mean()` parametresi verilir (analiz işlemleri yapılırken stun bazında yapılır ve boş değerler işleme dahil edilmez). Bu işlem sonucu veri seti modifiye edilmiş olmaz. Bunun için `inplace = True` parametresi verilir. Bu parametre sonucu yapılan işlem veri yapısına işlenmiş olur.

##### Series

In [102]:
s = pd.Series(["Ege",np.nan,"Ali"])
s

0    Ege
1    NaN
2    Ali
dtype: object

In [103]:
s.isnull()

0    False
1     True
2    False
dtype: bool

In [104]:
s.notnull()

0     True
1    False
2     True
dtype: bool

In [105]:
s[3] = None

In [106]:
s.isnull()

0    False
1     True
2    False
3     True
dtype: bool

##### DataFrame

- `.dropna()` metodu ön tanımlı olarak eksik veri bulunduran bütün satırı silme işlemi yapar. DataFrame yapısında tüm satırın eksik veri olması durumunda silinmesi isteniyorsa `how = "all"` parametresi verilir. Tüm değerleri eksik olan stunları silmek istenirse ek olarak `axis = 1` parametresi verilir.
- DataFrame yapısında, içinde belirlenen sayıda okunabilir değer barındıran satırları almak için `thresh = <belirlenen_sayi>` parametresi verilir.

In [107]:
from numpy import nan as NA

In [108]:
df = pd.DataFrame([[1,2,3],[4,NA,6],[7,NA,NA]])
df

Unnamed: 0,0,1,2
0,1,2.0,3.0
1,4,,6.0
2,7,,


In [109]:
df.dropna()

Unnamed: 0,0,1,2
0,1,2.0,3.0


In [110]:
df.dropna(how="all")

Unnamed: 0,0,1,2
0,1,2.0,3.0
1,4,,6.0
2,7,,


In [111]:
df[1] = NA

In [112]:
df

Unnamed: 0,0,1,2
0,1,,3.0
1,4,,6.0
2,7,,


In [113]:
df.dropna(how="all", axis=1)

Unnamed: 0,0,2
0,1,3.0
1,4,6.0
2,7,


In [114]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
0,1,,3.0
1,4,,6.0


In [115]:
df.fillna(0)

Unnamed: 0,0,1,2
0,1,0.0,3.0
1,4,0.0,6.0
2,7,0.0,0.0


In [116]:
df.fillna({0:5,1:15,2:20}, inplace = True)

In [117]:
df

Unnamed: 0,0,1,2
0,1,15.0,3.0
1,4,15.0,6.0
2,7,15.0,20.0


In [126]:
df2 = pd.DataFrame([[1,2,3],[4,NA,6],[7,NA,NA]])
df2

Unnamed: 0,0,1,2
0,1,2.0,3.0
1,4,,6.0
2,7,,


In [124]:
#df2.fillna(method="ffill")

In [128]:
df2.fillna(df2.mean())

Unnamed: 0,0,1,2
0,1,2.0,3.0
1,4,2.0,6.0
2,7,2.0,4.5
