# Eksik Veri Analizi
İncelenen veri setindeki gözlemlerde eksiklik olması durumunu ifade etmektedir.

### Eksik Veri Adımları
- Eksik verinin belirlenmesi
- Yapısının göresel teknikler ile incelenmesi
- Eksiklğin rassalığının test edilmesi
- Uygun yöntemler ile doldurulması

Eksik değere sahip gözlemlerin veri setinden direk çıkarılması ve rassallığının incelenmemesi yapılacak istatistiksel çıkarımların, modelleme çalışmalarının güvenirliğini düşürecektir.

### Eksik Veriyi Direk Silmenin Zararları
- Veri setindeki eksiklğin yapısal bir eksiklik olup olmadığının bilinmesi gerekir.
- NA her zaman eksiklik anlamına gelmez.
- Bilgi kaybı.

### Eksik Veri Türleri
- **Tümüyle Raslantısal Kayıp:** Diğer değişkenlerden ya da yapısal bir problemden kaynaklanmayan tamamen rastgele oluşan gözlemler.
- **Raslantısal Kayıp:** Diğer değişkenlere bağlı olarak oluşabilen eksiklik türü.
- **Raslantısal Olmayan Kayıp:** Göz ardı edilmeyecek olan ve yapısal problemler ile ortaya çıkan eksiklik türü.

### Eksik Veri Rassallığının Testi
- Bağımsız iki örneklem t testi
- Korelasyon testi
- Little'nin MCAR testi

---

## Eksik Veri - Hızlı Çözüm

In [4]:
import numpy as np
import pandas as pd

V1 = np.array([1,3,6,np.NaN,7,1,np.NaN,9,15])
V2 = np.array([7,np.NaN,5,8,12,np.NaN,np.NaN,2,3])
V3 = np.array([np.NaN,12,5,6,14,7,np.NaN,2,31])

df = pd.DataFrame({
    "V1": V1,
    "V2": V2,
    "V3": V3
})

df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,,12.0
2,6.0,5.0,5.0
3,,8.0,6.0
4,7.0,12.0,14.0
5,1.0,,7.0
6,,,
7,9.0,2.0,2.0
8,15.0,3.0,31.0


In [10]:
df.isnull()

Unnamed: 0,V1,V2,V3
0,False,False,True
1,False,True,False
2,False,False,False
3,True,False,False
4,False,False,False
5,False,True,False
6,True,True,True
7,False,False,False
8,False,False,False


In [12]:
df.isnull().sum()

V1    2
V2    3
V3    2
dtype: int64

In [13]:
df.dropna()

Unnamed: 0,V1,V2,V3
2,6.0,5.0,5.0
4,7.0,12.0,14.0
7,9.0,2.0,2.0
8,15.0,3.0,31.0


In [14]:
df.isnull().sum()

V1    2
V2    3
V3    2
dtype: int64

In [15]:
df = df.dropna()
df.isnull().sum()

V1    0
V2    0
V3    0
dtype: int64

In [16]:
df

Unnamed: 0,V1,V2,V3
2,6.0,5.0,5.0
4,7.0,12.0,14.0
7,9.0,2.0,2.0
8,15.0,3.0,31.0


In [22]:
V1 = np.array([1,3,6,np.NaN,7,1,np.NaN,9,15])
V2 = np.array([7,np.NaN,5,8,12,np.NaN,np.NaN,2,3])
V3 = np.array([np.NaN,12,5,6,14,7,np.NaN,2,31])

df = pd.DataFrame({
    "V1": V1,
    "V2": V2,
    "V3": V3
})

df["V1"].mean()

6.0

In [20]:
df["V1"].fillna(df["V1"].mean())

0     1.0
1     3.0
2     6.0
3     6.0
4     7.0
5     1.0
6     6.0
7     9.0
8    15.0
Name: V1, dtype: float64

In [24]:
df["V1"].fillna(df["V1"].mean())

0     1.0
1     3.0
2     6.0
3     6.0
4     7.0
5     1.0
6     6.0
7     9.0
8    15.0
Name: V1, dtype: float64

In [27]:
df["V1"].fillna("nullllllllllll")

0                 1
1                 3
2                 6
3    nullllllllllll
4                 7
5                 1
6    nullllllllllll
7                 9
8                15
Name: V1, dtype: object

In [None]:
df.apply