# Eksik Veri Analizi

## Eksik Veri : İncelenen veri setindeki gözlemlerde eksiklik olması durumunu ifade etmektedir.

## Hızlı Çözüm

In [2]:
import numpy as np
import pandas as pd
V1 = np.array([1,3,6,np.NaN,7,1,np.NaN,9,15])
V2 = np.array([7,np.NaN,5,8,12,np.NaN,np.NaN,2,3])
V3 = np.array([np.NaN,12,5,6,14,7,np.NaN,2,31])
df = pd.DataFrame(
        {"V1" : V1,
         "V2" : V2,
         "V3" : V3}        
)
df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,,12.0
2,6.0,5.0,5.0
3,,8.0,6.0
4,7.0,12.0,14.0
5,1.0,,7.0
6,,,
7,9.0,2.0,2.0
8,15.0,3.0,31.0


In [3]:
df.isnull()

Unnamed: 0,V1,V2,V3
0,False,False,True
1,False,True,False
2,False,False,False
3,True,False,False
4,False,False,False
5,False,True,False
6,True,True,True
7,False,False,False
8,False,False,False


In [4]:
df.isnull().sum()

V1    2
V2    3
V3    2
dtype: int64

In [5]:
df.notnull().sum()

V1    7
V2    6
V3    7
dtype: int64

In [6]:
df.isnull().sum().sum()

7

In [7]:
df[df.isnull()]

Unnamed: 0,V1,V2,V3
0,,,
1,,,
2,,,
3,,,
4,,,
5,,,
6,,,
7,,,
8,,,


In [32]:
df[df.isnull().any(axis = 1)] # satırın herhangi bir(any) sütununda NaN varsa getir

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,,12.0
5,1.0,,7.0
6,6.0,,


In [25]:
df[df.isnull().all(axis = 1)] # satırın tüm(all) sütunları NaN varsa getir

Unnamed: 0,V1,V2,V3


In [10]:
df[df.notnull().all(axis = 1)] # satırının sütunlarının hiç birinde NaN olmayanları getir

Unnamed: 0,V1,V2,V3
2,6.0,5.0,5.0
4,7.0,12.0,14.0
7,9.0,2.0,2.0
8,15.0,3.0,31.0


In [11]:
df["V1"].notnull()

0     True
1     True
2     True
3    False
4     True
5     True
6    False
7     True
8     True
Name: V1, dtype: bool

In [12]:
df[df["V1"].notnull() & df["V2"].notnull() & df["V3"].notnull()]

Unnamed: 0,V1,V2,V3
2,6.0,5.0,5.0
4,7.0,12.0,14.0
7,9.0,2.0,2.0
8,15.0,3.0,31.0


## Eksik Değerlerin Direkt Silinmesi

In [13]:
df.dropna()  # df = df.dropna() dersek güncellemiş oluruz

Unnamed: 0,V1,V2,V3
2,6.0,5.0,5.0
4,7.0,12.0,14.0
7,9.0,2.0,2.0
8,15.0,3.0,31.0


In [14]:
# df.dropna(inplace = True) diyerekte direkt eşitlemeye gerek kalmadan güncellemiş oluruz

## Basit Değer Atama

In [15]:
df["V1"]

0     1.0
1     3.0
2     6.0
3     NaN
4     7.0
5     1.0
6     NaN
7     9.0
8    15.0
Name: V1, dtype: float64

In [16]:
ort_V1 = df["V1"].mean()
ort_V1

6.0

In [17]:
df["V1"][df["V1"].isnull()] = ort_V1 # NaN olanlara ortalamayı atadık
df["V1"]

0     1.0
1     3.0
2     6.0
3     6.0
4     7.0
5     1.0
6     6.0
7     9.0
8    15.0
Name: V1, dtype: float64

In [18]:
df["V1"].fillna(df["V1"].mean())  # fillna() ile de doldurabiliriz

0     1.0
1     3.0
2     6.0
3     6.0
4     7.0
5     1.0
6     6.0
7     9.0
8    15.0
Name: V1, dtype: float64

In [19]:
df.V2.fillna(0) # istedigimiz değerle doldurabiliriz

0     7.0
1     0.0
2     5.0
3     8.0
4    12.0
5     0.0
6     0.0
7     2.0
8     3.0
Name: V2, dtype: float64

In [20]:
# apply ve lambda ile de yapabiliriz

In [21]:
df

Unnamed: 0,V1,V2,V3
0,1.0,7.0,
1,3.0,,12.0
2,6.0,5.0,5.0
3,6.0,8.0,6.0
4,7.0,12.0,14.0
5,1.0,,7.0
6,6.0,,
7,9.0,2.0,2.0
8,15.0,3.0,31.0


In [22]:
# df.apply dediğimiz anda df'nin sütunlarında bir değişiklik yapacağımız anlaşılıyor
df.apply(lambda x : x.fillna(x.mean()))
# burada x bizim sütunlarımız yani değişkenlerimiz, örn => x = V2

Unnamed: 0,V1,V2,V3
0,1.0,7.0,11.0
1,3.0,6.166667,12.0
2,6.0,5.0,5.0
3,6.0,8.0,6.0
4,7.0,12.0,14.0
5,1.0,6.166667,7.0
6,6.0,6.166667,11.0
7,9.0,2.0,2.0
8,15.0,3.0,31.0


In [70]:
df.apply(lambda x : print(x),axis = 0)  # default olarak axis = 0'dır. 0'sa sütun'a uygular

0     1.0
1     3.0
2     6.0
3     NaN
4     7.0
5     1.0
6     NaN
7     9.0
8    15.0
Name: V1, dtype: float64
0     7.0
1     NaN
2     5.0
3     8.0
4    12.0
5     NaN
6     NaN
7     2.0
8     3.0
Name: V2, dtype: float64
0     NaN
1    12.0
2     5.0
3     6.0
4    14.0
5     7.0
6     NaN
7     2.0
8    31.0
Name: V3, dtype: float64


V1    None
V2    None
V3    None
dtype: object

In [73]:
df.apply(lambda x : print(x),axis = 1) # 1'se satır'a uygular

V1    1.0
V2    7.0
V3    NaN
Name: 0, dtype: float64
V1     3.0
V2     NaN
V3    12.0
Name: 1, dtype: float64
V1    6.0
V2    5.0
V3    5.0
Name: 2, dtype: float64
V1    NaN
V2    8.0
V3    6.0
Name: 3, dtype: float64
V1     7.0
V2    12.0
V3    14.0
Name: 4, dtype: float64
V1    1.0
V2    NaN
V3    7.0
Name: 5, dtype: float64
V1   NaN
V2   NaN
V3   NaN
Name: 6, dtype: float64
V1    9.0
V2    2.0
V3    2.0
Name: 7, dtype: float64
V1    15.0
V2     3.0
V3    31.0
Name: 8, dtype: float64


0    None
1    None
2    None
3    None
4    None
5    None
6    None
7    None
8    None
dtype: object