# Eksik Veri

--------


## Null / NA / nan nesneleri

Pandas'ın yeni sürümlerinde skaler eksik verileri temsil etmek için yeni bir **pd.NA** değeri tanıtıldı. Pandas eksik verileri temsil etmek için birkaç değere sahiptir: kayan noktalı veriler için **np.nan**, object tipli veriler için **np.nan** veya **None** ve tarih, saat benzeri zaman verileri için **pd.NaT**. **pd.NA** 'nın amacı, veri türleri arasında tutarlı bir şekilde kullanılabilecek bir 'eksik' gösterge sağlamaktır. **pd.NA**, **null** yapılabilir tamsayı, boolean veri türleri ve yeni string veri türü tarafından kullanılmaktadır.

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.nan

nan

In [3]:
pd.NA

<NA>

In [4]:
pd.NaT

NaT

## Not! Eksik Değerler karşılaştırılamaz!

nan değerleri bilinmediğinden birbiriyle kıyaslanmaz.

In [5]:
np.nan == np.nan

False

In [6]:
np.nan in [np.nan]

True

In [7]:
np.nan is np.nan

True

In [8]:
pd.NA == pd.NA

<NA>

## Veri

İnsanlardan, bir filmi izlemeden önce ve sonra 1-10 arası skorla aktörleri puanlamaları istendiği bir veri seti oluşturuldu. Ancak bazı veriler eksiktir.

In [9]:
df = pd.read_csv('movie_scores.csv')

In [10]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [11]:
df.isnull()
# df'in null değerine sahip olan yerlerde True
# aksi durumlar için False döndürür.

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,False,False,False,False,False,False
1,True,True,True,True,True,True
2,False,False,False,False,True,True
3,False,False,False,False,False,False
4,False,False,False,False,False,False


In [12]:
df.notnull() # Tam tersini kontrol etmek için kullanılan metod

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,True,True,True,True,True,True
1,False,False,False,False,False,False
2,True,True,True,True,False,False
3,True,True,True,True,True,True
4,True,True,True,True,True,True


In [13]:
df['first_name']

0      Tom
1      NaN
2     Hugh
3    Oprah
4     Emma
Name: first_name, dtype: object

In [14]:
# first_name'i eksik olmayan aktörleri seçme
df[df['first_name'].notnull()]

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [15]:
# film öncesi skoru (pre_movie_score) eksik olan aktörleri seçme
df[df['pre_movie_score'].isnull()]

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
1,,,,,,
2,Hugh,Jackman,51.0,m,,


In [16]:
# film öncesi skoru (pre_movie_score) eksik olan ve sex'i eksik olmayan aktörleri seçme
df[(df['pre_movie_score'].isnull()) & df['sex'].notnull()]

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
2,Hugh,Jackman,51.0,m,,


 Eksik Verilerle ilgili üç seçenek:
 - Eksik Verileri saklamak
 - Eksik Verileri atmak
 - Eksik Verileri doldurmak

## Eksik Verileri Atmak
- **.dropna()** Metodu:

In [17]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [19]:
#help(df.dropna)

In [20]:
df.dropna() # Eksik verilere sahip tüm satırları atacaktır.

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [21]:
df.dropna(thresh=1)
# sadece tüm değerlerin eksik olduğu satırları atmak istersek
# thresh seçeneğini ayarlarız.
# thresh = 1, en az bir nan (eksik) olmayan satırları alma

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [22]:
df.dropna(thresh=5) # en az 5 nan (eksik) olmayan değere sahip satırları alma

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [23]:
df.dropna(axis=1) # Eksik verilere sahip tüm sütunları atma
# Veri setimizin tüm sutunlarında en az bir nan olduğundan
# tüm sütunları atacaktır.

0
1
2
3
4


In [24]:
df.dropna(thresh=4,axis=1) # en az 4 eksik olmayan veriye sahip sütunları alma

Unnamed: 0,first_name,last_name,age,sex
0,Tom,Hanks,63.0,m
1,,,,
2,Hugh,Jackman,51.0,m
3,Oprah,Winfrey,66.0,f
4,Emma,Stone,31.0,f


In [26]:
df.dropna(subset=['first_name','last_name']) # alt kümede eksik veri olmayan tüm satırları alma

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


## Eksik Verileri Doldurma
- **.fillna()** metodu:

In [29]:
#help(df.fillna)

In [30]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [31]:
df.fillna("NEW VALUE!") 
# veri setindeki tüm nan değerlerini NEW VALUE! stringi ile doldurma

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,NEW VALUE!,NEW VALUE!,NEW VALUE!,NEW VALUE!,NEW VALUE!,NEW VALUE!
2,Hugh,Jackman,51.0,m,NEW VALUE!,NEW VALUE!
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [32]:
df['first_name'].fillna("Empty") # seçilen bir sütundaki nan değerini "Empty" ile doldurma

0      Tom
1    Empty
2     Hugh
3    Oprah
4     Emma
Name: first_name, dtype: object

In [33]:
df['first_name'] = df['first_name'].fillna("Empty")

In [34]:
df

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,Empty,,,,,
2,Hugh,Jackman,51.0,m,,
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


In [35]:
df[['pre_movie_score','post_movie_score']].interpolate('spline',order=2)

Unnamed: 0,pre_movie_score,post_movie_score
0,8.0,10.0
1,6.5,8.5
2,5.833333,7.833333
3,6.0,8.0
4,7.0,9.0


In [41]:
# sütun ortalamasını hesaplama
df['pre_movie_score'].mean()

7.0

In [42]:
# Sütundaki nan eksik veri değerlerini ortalama değer ile doldurma
df['pre_movie_score'].fillna(df['pre_movie_score'].mean())

0    8.0
1    7.0
2    7.0
3    6.0
4    7.0
Name: pre_movie_score, dtype: float64

In [43]:
df.fillna(df.mean(numeric_only=True)) 
# df'in tüm nümerik sütunlarındaki nan eksik değerli sütunları sütun ortalamasıyla doldurma

Unnamed: 0,first_name,last_name,age,sex,pre_movie_score,post_movie_score
0,Tom,Hanks,63.0,m,8.0,10.0
1,Empty,,52.75,,7.0,9.0
2,Hugh,Jackman,51.0,m,7.0,9.0
3,Oprah,Winfrey,66.0,f,6.0,8.0
4,Emma,Stone,31.0,f,7.0,9.0


## İnterpolasyon Metoduyla Doldurma

In [45]:
airline_tix = {'first':100.,'business':np.nan,'economy-plus':50,'economy':30}

In [46]:
ser = pd.Series(airline_tix)

In [47]:
ser

first           100.0
business          NaN
economy-plus     50.0
economy          30.0
dtype: float64

In [48]:
ser.interpolate()

first           100.0
business         75.0
economy-plus     50.0
economy          30.0
dtype: float64

In [49]:
# Diğer medotlar sütun adlı DataFrame'ler de kullanılır.
ser.interpolate(method='polynomial',order=2) # sütun adı olmadığından hata döndürdü

ValueError: Index column must be numeric or datetime type when using polynomial method other than linear. Try setting a numeric or datetime index column before interpolating.

In [50]:
df = pd.DataFrame(ser,columns=['Price'])

In [51]:
df

Unnamed: 0,Price
first,100.0
business,
economy-plus,50.0
economy,30.0


In [52]:
df.interpolate()

Unnamed: 0,Price
first,100.0
business,75.0
economy-plus,50.0
economy,30.0


In [54]:
# nümerik indeks değerleri oluşturarak diğer yöntemleri kullanabiliriz.
df = df.reset_index()

In [55]:
df

Unnamed: 0,level_0,index,Price
0,0,first,100.0
1,1,business,
2,2,economy-plus,50.0
3,3,economy,30.0


In [56]:
df.interpolate(method='polynomial',order=2)

Unnamed: 0,level_0,index,Price
0,0,first,100.0
1,1,business,73.333333
2,2,economy-plus,50.0
3,3,economy,30.0


# SON!