# PYTHON Pandas - Eksik Veri
Eksik veriler her zaman gerçek hayat senaryolarında bir sorundur. Makine öğrenimi ve veri madenciliği gibi alanlar, eksik değerlerin neden olduğu verilerin kalitesiz olması nedeniyle model tahminlerinin doğruluğunda ciddi sorunlarla karşı karşıyadır. Bu alanlarda, eksik değer tedavisi, modellerini daha doğru ve geçerli hale getirmek için önemli bir odak noktasıdır.

## Veri ne zaman ve neden eksik oluyor?
Bir ürün için çevrimiçi bir anket düşünelim. Çoğu zaman ankette insanlar her şeyi doldurmazlar. Eksik bilgi bırakırlar. İşte bu noktada boş veriler data'mıza giriyor. 
Şimdi pandas kullanarak eksik değerleri (na veya NaN diyelim) nasıl ele alabileceğimizi görelim.

In [19]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5,3),
                 index=['a','c','e','f','h'],
                 columns=['one','two','three'])
df = df.reindex(['a','b','c','d','e','f','g','h'])
df

Unnamed: 0,one,two,three
a,0.139462,1.582791,1.614576
b,,,
c,0.064794,-0.152033,0.494919
d,,,
e,1.720909,0.741739,0.06528
f,-0.480255,-0.835878,-1.193489
g,,,
h,0.734777,-1.12595,0.778837


Reindexing kullanarak, eksik değerlere sahip bir DataFrame oluşturduk. Çıktıda, NaN bir sayı anlamına gelmez.

## Eksik Değerleri Kontrol Etme
Eksik değerleri daha kolay (ve farklı dizi dtype) tespit etmek için pandas, seriler ve DataFrame nesnelerindeki yöntemler olan isnull() ve notnull() işlevlerini kullanır.

**Örnek 1**

In [13]:
import pandas as pd
import numpy as np
 
df = pd.DataFrame(np.random.randn(5, 3),
                  index=['a', 'c', 'e', 'f','h'],
                  columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

df['one'].isnull()

a    False
b     True
c    False
d     True
e    False
f    False
g     True
h    False
Name: one, dtype: bool

**Örnek 2**

In [15]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3),
                  index=['a', 'c', 'e', 'f','h'],
                  columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

df['one'].notnull()

a     True
b    False
c     True
d    False
e     True
f     True
g    False
h     True
Name: one, dtype: bool

## Eksik Verilerle Hesaplamalar
- Verileri toplarken, NA sıfır olarak ele alınacaktır.
- Verilerin hepsi NA ise, sonuç NA olacaktır.

**Örnek 1**

In [18]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3),
                  index=['a', 'c', 'e', 'f','h'],
                  columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

df['one'].sum()

1.6125500772381482

**Örnek 2**

In [21]:
import pandas as pd
import numpy as np

df = pd.DataFrame(index=[0,1,2,3,4,5],columns=['one','two'])
df['one'].sum()

0

## Eksik Verileri Temizleme / Doldurma
Pandalar eksik değerleri temizlemek için çeşitli yöntemler sağlar. Fillna işlevi, aşağıdaki bölümlerde gösterdiğimiz birkaç yolla na değerlerini boş olmayan verilerle "doldurabilir".

### Nan'ı Skaler Bir Değerle Değiştirmek
Aşağıdaki program, "nan"ı "0" ile nasıl değiştirebileceğinizi gösterir.

In [6]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(3, 3), index=['a', 'c', 'e'],columns=['one',
'two', 'three'])

df = df.reindex(['a', 'b', 'c'])

df

Unnamed: 0,one,two,three
a,-0.912596,-0.497627,-0.368806
b,,,
c,1.828534,-0.932583,1.25689


In [10]:
df.fillna(0)

Unnamed: 0,one,two,three
a,-0.912596,-0.497627,-0.368806
b,0.0,0.0,0.0
c,1.828534,-0.932583,1.25689


Burada sıfır değeri ile dolduruyoruz; bunun yerine başka bir değerle de doldurabiliriz.

### İleri Ve Geri NA İle Doldurmak
Reindexing bölümünde tartışılan doldurma kavramlarını kullanarak eksik değerleri dolduracağız.
- pad/fill: Üstekini referans alarak doldurma
- bfill/backfill: Altakini referans alarak doldurma

**Örnek 1**

In [17]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3),
                  index=['a', 'c', 'e', 'f','h'],
                  columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

df.fillna(method='pad')

Unnamed: 0,one,two,three
a,1.557884,0.6909,-0.100252
b,1.557884,0.6909,-0.100252
c,-1.033624,-1.27745,-0.910812
d,-1.033624,-1.27745,-0.910812
e,-0.101199,0.246767,1.596879
f,1.698268,-0.299775,-0.054684
g,1.698268,-0.299775,-0.054684
h,0.773034,0.249205,-0.082204


**Örnek 2**

In [15]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])

df.fillna(method='backfill')

Unnamed: 0,one,two,three
a,-0.157559,-0.455443,-0.573252
b,0.033804,1.859174,1.077669
c,0.033804,1.859174,1.077669
d,0.771271,1.135597,-1.46884
e,0.771271,1.135597,-1.46884
f,0.619237,1.141869,-2.473216
g,-1.992114,-0.588241,0.562417
h,-1.992114,-0.588241,0.562417


### Eksik Değerleri Bırakma
Eksik değerleri hariç tutmak istiyorsanız, axis argümanı ile birlikte dropna işlevini kullanın. Varsayılan olarak, axis = 0, yani satır boyunca, yani bir satırdaki herhangi bir değer NA ise tüm satır hariç tutulur.

**Örnek 1**

In [24]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3),
                  index=['a', 'c', 'e', 'f','h'],
                  columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
df.dropna()

Unnamed: 0,one,two,three
a,0.643327,-0.922889,-0.032912
c,1.585958,0.542517,-0.400782
e,0.709007,-0.247811,-1.576264
f,-2.35309,0.75711,0.306151
h,0.93288,0.890876,-0.000291


**Örnek 2**

In [26]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f',
'h'],columns=['one', 'two', 'three'])

df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print(df.dropna(axis=1))

Empty DataFrame
Columns: []
Index: [a, b, c, d, e, f, g, h]
