# Eksik Veri
* Veri setlerinde eksik veri(missing values) yani boş DataFrame(nan) hücreleri bulunabilir.
* Bu durum, insan kaynaklı veri girişi ya da o değerin ölçümünün yapılmamasından kaynaklanabilir.
* Bir veri setinde bulunan eksik verileri göz ardı ederek çalışmak doğru bir seçenek değildir.
* Eksik veriler silinebilir, aritmetik ortalama ,mod ya da medyan değerleri ile doldurulabilir.
* Daha detaylı bilgi için:
* **https://www.veribilimiokulu.com/eksik-veri-eksik-veride-kullanilabilecek-algoritmalar/**
* **https://medium.com/@yigitsener/veri-biliminde-eksik-kayıp-verilere-yaklaşım-stratejileri-ve-python-pandas-uygulaması-501fbf643795**

## Eksik Veri Türleri
1. Tümüyle Raslantısal Kayıp:Diğer değişkenlerden ya da yapısal bir problemden kaynaklanmayan tamamen rastgele oluşan gözlemler.
2. Rastlantısal Kayıp:Diğer değişkenlere bağlı olarak oluşabilen eksiklik türü.
3. Rastlantısal Olmayan Kayıp:Göz ardı edilemeyecek olan ve yapısal problemler ile ortaya çıkan eksiklik türü.

### Bu derste eksik verileri silme, görselleştirme ve eksik değerlerin yerine basit değer atama yöntemlerini ele alacağız.

In [None]:
import pandas as pd
import seaborn as sns

### Veri seti olarak `seaborn` kütüphanesinde bulunan `planets` isimli veri seti üzerinden yapacağız.

In [None]:
df= sns.load_dataset('planets')
df.head()

In [None]:
df.head()

In [None]:
df.info()

## Eksik Değerleri Belirleme

### Sütunlarda eksik değer olan gözlem sayısını öğrenme

In [None]:
df.isnull().sum()

### Sütunlarda eksik değer olmayan gözlem sayısını öğrenme

In [None]:
df.notnull().sum()

### Tüm eksik değerlerin toplamını öğrenme

In [None]:
df.isnull().sum().sum()

### Sadece eksik değerlere ait gözlemleri çağırma

In [None]:
df[df.isnull().any(axis=1)]

### Eksik değer olmayan gözlemleri çağırma

In [None]:
df[df.notnull().all(axis=1)]

* Eksik değerleri veri setimizden silebiliriz.
* Ancak eksik değerleri direk silmek zararlı olabilir.
* Eksik değerlerin neden ve nasıl oluştuğunu sorguladıktan sonra silme işlmine karar verilebilir.
* Aşağıda örnek olması için eksik verileri silmeyi göstereceğiz.

### Eksik verileri silme

In [None]:
df.dropna(inplace=True)
#(inplace=True parametresi işlemin veri setinde kalıcı olmasını sağlar)

In [None]:
df.isnull().sum()

* Yukarıda gördüğünüz gibi total_bedroom değişkenindeki 207 tane eksik değer silinmiş oldu.

* Eksik verileri silmede başka yöntemleri görmek için yeni bir veri seti oluşturalım.

In [None]:
import numpy as np
import pandas as pd
V1 = np.array([1,3,6,np.NaN,7,1,np.NaN,9,15])
V2 = np.array([7,np.NaN,5,8,12,np.NaN,np.NaN,2,3])
V3 = np.array([np.NaN,12,5,6,14,7,np.NaN,2,31])
V4=np.nan
yeni_df = pd.DataFrame(
        {"V1" : V1,
         "V2" : V2,
         "V3" : V3,
         "V4":V4}        
)

yeni_df

* Aşağıdaki kod sonucunda satır bazındaki değerlerin hepsi eksik veri ise silinecektir.
* Altıncı satırın hepsi eksik veri oldğu için silinmiştir.

In [None]:
yeni_df.dropna(how = "all")

* Aşağıdaki kod sonucunda gözlemlerin eğer hepsi eksik değer ise o değişkeni silinecektir.
* V4 değişkenin tüm gözlemleri eksik değer olduğu için V4 değişkeni silinmiştir.

In [None]:
yeni_df.dropna(axis = 1, how = "all")

## Eksik Verileri Görselleştirme
* Eksik verilerin görselleştirilmesi eksik verilerin nasıl oluştuğunu,eksik verinin yapısını ve rassallığını incelememize ve anlamamıza yardımcı olur.

In [None]:
!pip install missingno#kütüphaneyi yükleme

In [None]:
import missingno as msno

* Bu bölümde işlemleri `seaborn` kütüphanesinde bulunan `planets` isimli veri seti üzerinden yapacağız.

In [None]:
import seaborn as sns
planets= sns.load_dataset('planets')
planets.head()

* Aşağıdaki grafik değişkenlerdeki eksikliği oransal olarak ifade etmektedir.
* Grafiğin sağ tarafında yazan değerler gözlem birimini ifade etmektedir.
* Grafiğin sol tarafında yazan değerler gözlem birimini yüzde olarak ifade etmektedir.
* Grafiğin üst tarafında yazan değerler eksik veri olmayan gözlem birimini ifade eder.
* Grafikten herhangi bir değişkene ait eksik veri sayısını tespit edebiliriz.

In [None]:
msno.bar(planets);

* Aşağıdaki grafikte beyaz olan bölümler eksik verileri ifade eder.
* Grafikte sol taraf gözlem sayısını ifade eder.
* Grafikte sağ taraf dolu gözlem sayısını ifade eder.
* Grafikte `orbital_period` değişkeni ile `mass` değişkeni arasında bir ilişki gözlemlenir.
* `orbital_period` değişkeninde bir eskik veri bulunduğunda `mass` değişkeninde de eksik veri gözlenmektedir.
* Grafik sonucunda bu veri setindeki eksik değerlerin rasgale oluşmadığı yorumunu yapabiliriz.

In [None]:
msno.matrix(planets);

## Değer Atama Yöntemleri
* Eksik verilerin yerine aritmetik ortalama ,mod, medyan ya da istenilen herhangi değerler atanabilir.

In [None]:
import numpy as np
import pandas as pd
V1 = np.array([1,3,6,np.NaN,7,1,np.NaN,9,15])
V2 = np.array([7,np.NaN,5,8,12,np.NaN,np.NaN,2,3])
V3 = np.array([np.NaN,12,5,6,14,7,np.NaN,2,31])

df = pd.DataFrame(
        {"V1" : V1,
         "V2" : V2,
         "V3" : V3}        
)

df

### Eksik değerlerin yerine sıfır değeri atama

In [None]:
df["V1"].fillna(0,inplace=True)
df

### Eksik değerlerin yerine ortalama değer atama

In [None]:
df["V1"].fillna(df["V1"].mean(),inplace=True)#sadece V1 değişkeni için 
df

In [None]:
df.fillna(df.mean()[:])#tüm değişkenler için

### Eksik değerlerin yerine medyan değeri atama

In [None]:
df.fillna(df.median(),inplace=True)
df

## Kategorik Değişken Kırılımında Değer Atama

* Yeni bir veri seti oluşturalım.
* Veri setimizde maas ve ünvan adında iki değişken olsun.
* Maaş sütunundaki eksik değerlere tüm çalışanların maaş ortlaması yerine maaşı etkileyen kategorik değişknelerin ortalamasını atamak daha doğru sonuçlar verir.

In [None]:
import numpy as np
import pandas as pd
maas= np.array([1,3,6,np.NaN,7,1,np.NaN,9,15])
unvan= np.array(["MÜHENDİS",np.nan,"TEKNİKER","TEKNİKER","TEKNİKER","TEKNİKER","TEKNİKER","MÜHENDİS","MÜHENDİS"]
              , dtype=object)
df=pd.DataFrame(
{"maas":maas,
"unvan":unvan})
df

* Kategorik değişken kırılımında değer atama yapabilmek için `groupby` işlemi yapmamız gererkir.
* Mühendis ve teknikerlerin maaşlarının ortlama değerini öğrenelim.

In [None]:
df.groupby("unvan")["maas"].mean()

### Eksik verileri kategorik değişken kırılımında ortalama değer ile doldurma

In [None]:
df["maas"].fillna(df.groupby("unvan")["maas"].transform("mean"))